WildActor | lc's space

文章标题：WILDACTOR: Unconstrained Identity-Preserving Video Generation
文章地址：https://arxiv.org/abs/2603.00586
ICML 2026在投

文章提出了一个主要针对人物的R2V模型，其条件引入的方式为seq拼接，通过设计所谓的非对称ID保持attention（AIPA）完成。具体来说，在self-attention计算中另外引入参考脸和身体的图像分支，其映射矩阵由原video矩阵通过LoRA微调而来，具体计算方式包含两阶段：首先是分支内部进行self-attention，随后进行非对称的attention，具体操作为：在这里的attention是直接在latent层面进行的，不涉及projection，因此这里是没有参数的，只是简单的特征融合操作。随后配合I-RoPE完成了本质上是带有位置编码的特征融合。

Flow-DPO

MS-S2V