多模态大模型系列总结

当前了解到的统一多模态理解与生成的模型主要就是Emu系列、Chameleon、show-o以及transfusion。 可以分为AR(Emu、Chameleon)和AR+Diffusion(show-o、transfusion)两类 其中AR两类很类似,都是将视觉信息离散化为token再进行建模 AR+Diffusion中,show-o同样将视觉信息进行离散化,但通过MaskGiT的方式(D3PM)去进行建模;transfusion则是将视觉信息保留为连续变量,通过DDPM进行建模。 最近有篇多模态理解生成统一的综述:Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities