Emu3

文章探究了将所有模态都是用token表示并在单个模型上进行统一建模的方法。使用了统一的next token predict的预训练方法。该方法省去了diffusion模型和CLIP模型等组合形式,将所有模态统一用token来表示和建模并生成,实验证明了这种方法的可行性。 具体来说,方法将图像和视频使用SBER-MoVQGAN作为tokenizer进行编解码,完成图像视频到token的互相转换。