Just-Dub-It | lc's space

文章做的是视频编辑的任务，将一段视频的语言转成另一种语言，要求视频和音频同步编辑。文章利用音视频统一模型的强大先验能力进行数据的构造，如第二张图（这里的inpainting没太理解，文章里也没具体说明）。随后利用IC-LoRA的方式进行训练。