多模态大模型系列总结

当前了解到的统一多模态理解与生成的模型主要就是Emu系列、Chameleon、show-o以及transfusion。可以分为AR（Emu、Chameleon）和AR+Diffusion（show-o、transfusion）两类其中AR两类很类似，都是将视觉信息离散化为token再进行建模 AR+Diffusion中，show-o同样将视觉信息进行离散化，但通过MaskGiT的方式（D3PM）去进行建模；transfusion则是将视觉信息保留为连续变量，通过DDPM进行建模。最近有篇多模态理解生成统一的综述：Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

CKA

LLaVA系列