Flamingo | lc's space

文章对于视觉模态先利用编码器提取特征，然后经过感知重采样对齐维度，随后经过门控交叉注意力层与LLM进行特征融合，完成多模态的交织。另外，为了提高模型few-shot的能力，仅通过训练图像文本对是不够的，因此文章构造了一个图像文本交织数据集M3W。