Emu

文章提出了Emu,一个多模态基础模型,能够在多模态的上下文中无缝地生成文本与图像。方法通过一个模型处理所有模态的自回归训练策略来训练,实现了多模态上下文的理解与生成。 具体来说,图像编码成embedding,文本处理成token共同组成输入序列。其中文本部分使用传统的next-token prediction来训练,而视觉部分使用回归的方式来训练。从而实现端到端的训练方式。其中图像首先经过Encoder(EVA-CLIP)进行编码得到特征,然后以该特征为条件输入到一个Causal Transformer中,从而得到一个固定长度的embedding序列,目的是为了以自回归的方式对图像进行建模。在推理过程中,这些视觉embedding作为Stable Diffusion的条件引导图像的生成,因此这部分的U-Net也需要进行训练。
  • 数据:图像文本对(LAION-2B, LAION-COCO);视频文本对(WebVid-10M);图像文本交错数据(MMC4);视频文本交错数据(YT-Storyboard-1B)
  • 指标:zero-shot能力(多模态理解,文生图);few-shot能力;in-the-wild能力
  • 硬件:128 A100
  • 开源:https://github.com/baaivision/Emu