Emu3 | lc's space

文章标题：Emu3: Next-Token Prediction is All You Need
文章地址：https://arxiv.org/abs/2409.18869
arxiv

文章探究了将所有模态都是用token表示并在单个模型上进行统一建模的方法。使用了统一的next token predict的预训练方法。该方法省去了diffusion模型和CLIP模型等组合形式，将所有模态统一用token来表示和建模并生成，实验证明了这种方法的可行性。具体来说，方法将图像和视频使用SBER-MoVQGAN作为tokenizer进行编解码，完成图像视频到token的互相转换。

开源：https://github.com/baaivision/Emu3

Emu

InstantStyle