<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2603.10256">https://arxiv.org/abs/2603.10256</a> </li><li>arxiv 2026</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_d6663138-ebe7-4201-af35-d40536b9b3bc/public" style="background-color:initial;max-width:min(100%,2442px);max-height:min(1434px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_d6663138-ebe7-4201-af35-d40536b9b3bc/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2442" height="1434"><ul class="dashed" data-apple-notes-indent-amount="0"><li></li></ul> 作者提到现有的视频定制化方法保留了视觉相似度,但将音视频分开看待。单独定制化视频或音频,都会因为模态信息的缺失而导致音视频质量下降、音画不对齐的问题。作者提出了ID-LoRA,同时进行物体的外观和声音的定制化。 方法也特别简单,就是通过IC-LoRA的方式进行学习,同时对位置编码进行负偏移。但他只需要约3k条数据对,单张H100训练6k步,且开源训练代码。