Show-o

也是一篇统一多模态理解与生成的工作,该模型以transformer为核心架构,对图像使用MAGVIT-v2进行离散化处理,进行文本图像的联合建模,其中文本的训练目标为NTP(Next-Token-Prediction),而图像的训练目标同MaskGit,在扩散迭代过程中去除被mask的token。