Show-o | lc's space

文章标题：SHOW-O: ONE SINGLE TRANSFORMER TO UNIFY MULTIMODAL UNDERSTANDING AND GENERATION
文章地址：https://arxiv.org/abs/2408.12528
ICLR 2025

也是一篇统一多模态理解与生成的工作，该模型以transformer为核心架构，对图像使用MAGVIT-v2进行离散化处理，进行文本图像的联合建模，其中文本的训练目标为NTP（Next-Token-Prediction），而图像的训练目标同MaskGit，在扩散迭代过程中去除被mask的token。