Just-Dub-It

文章做的是视频编辑的任务,将一段视频的语言转成另一种语言,要求视频和音频同步编辑。文章利用音视频统一模型的强大先验能力进行数据的构造,如第二张图(这里的inpainting没太理解,文章里也没具体说明)。随后利用IC-LoRA的方式进行训练。