WildActor

文章提出了一个主要针对人物的R2V模型,其条件引入的方式为seq拼接,通过设计所谓的非对称ID保持attention(AIPA)完成。具体来说,在self-attention计算中另外引入参考脸和身体的图像分支,其映射矩阵由原video矩阵通过LoRA微调而来,具体计算方式包含两阶段:首先是分支内部进行self-attention,随后进行非对称的attention,具体操作为: 在这里的attention是直接在latent层面进行的,不涉及projection,因此这里是没有参数的,只是简单的特征融合操作。随后配合I-RoPE完成了本质上是带有位置编码的特征融合。