<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>WILDACTOR: Unconstrained Identity-Preserving Video Generation</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2603.00586">https://arxiv.org/abs/2603.00586</a> </li><li>ICML 2026在投</li></ul> <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/6ACCA6E2-541F-4C5E-806D-F3B96E4260EA/1_1CEB8028-5AFA-412B-AB57-F0F2BAFA5778/Pasted%20Graphic%203.tiff" class="attr" data-apple-notes-zidentifier="CBD1F6BA-EB40-47C7-953C-F9A5CE0CA116"></a> 文章提出了一个主要针对人物的R2V模型,其条件引入的方式为seq拼接,通过设计所谓的非对称ID保持attention(AIPA)完成。具体来说,在self-attention计算中另外引入参考脸和身体的图像分支,其映射矩阵由原video矩阵通过LoRA微调而来,具体计算方式包含两阶段:首先是分支内部进行self-attention,随后进行非对称的attention,具体操作为: <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/09FD78BC-09D0-458B-BD56-0DF2BAADB15E/1_F8651B98-B72B-4F0F-BA60-1504A98456C9/Pasted%20Graphic%204.tiff" class="attr" data-apple-notes-zidentifier="AB6BCCA4-5030-4013-ACB4-AA177D5BB130"></a> 在这里的attention是直接在latent层面进行的,不涉及projection,因此这里是没有参数的,只是简单的特征融合操作。随后配合I-RoPE完成了本质上是带有位置编码的特征融合。