Emu | lc's space

文章标题：EMU: GENERATIVE PRETRAINING IN MULTIMODALITY
文章地址：https://arxiv.org/abs/2307.05222
ICLR 2024

文章提出了Emu，一个多模态基础模型，能够在多模态的上下文中无缝地生成文本与图像。方法通过一个模型处理所有模态的自回归训练策略来训练，实现了多模态上下文的理解与生成。具体来说，图像编码成embedding，文本处理成token共同组成输入序列。其中文本部分使用传统的next-token prediction来训练，而视觉部分使用回归的方式来训练。从而实现端到端的训练方式。其中图像首先经过Encoder（EVA-CLIP）进行编码得到特征，然后以该特征为条件输入到一个Causal Transformer中，从而得到一个固定长度的embedding序列，目的是为了以自回归的方式对图像进行建模。在推理过程中，这些视觉embedding作为Stable Diffusion的条件引导图像的生成，因此这部分的U-Net也需要进行训练。

数据：图像文本对（LAION-2B, LAION-COCO）;视频文本对（WebVid-10M）;图像文本交错数据（MMC4）;视频文本交错数据（YT-Storyboard-1B）
指标：zero-shot能力（多模态理解，文生图）；few-shot能力；in-the-wild能力
硬件：128 A100
开源：https://github.com/baaivision/Emu

Emu2

Emu3