ID-LoRA

作者提到现有的视频定制化方法保留了视觉相似度,但将音视频分开看待。单独定制化视频或音频,都会因为模态信息的缺失而导致音视频质量下降、音画不对齐的问题。作者提出了ID-LoRA,同时进行物体的外观和声音的定制化。 方法也特别简单,就是通过IC-LoRA的方式进行学习,同时对位置编码进行负偏移。但他只需要约3k条数据对,单张H100训练6k步,且开源训练代码。