Flamingo

文章对于视觉模态先利用编码器提取特征,然后经过感知重采样对齐维度,随后经过门控交叉注意力层与LLM进行特征融合,完成多模态的交织。另外,为了提高模型few-shot的能力,仅通过训练图像文本对是不够的,因此文章构造了一个图像文本交织数据集M3W。