<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>SKYREELS-V4: MULTI-MODAL VIDEO-AUDIO GENERATION, INPAINTING AND EDITING MODEL</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2602.21818">https://arxiv.org/abs/2602.21818</a> </li><li>技术报告</li></ul> <a href="../../../../files/Accounts/C037F400-EC11-4FAB-ACA5-467EE47E1BD1/Media/E4936253-2BF9-46ED-BFA8-13341AD97F87/1_021B6A80-671E-4FA9-9737-D19A05822345/Pasted%20Graphic.tiff" class="attr" data-apple-notes-zidentifier="D87520AB-1BA8-46C6-A686-E0D888F3373D"></a> 在视频端,做了channel concatenation和in-context两种条件注入方式,但它们是针对不同任务构造的,channel concatenation是针对统一video inpainting的,主要实现条件帧的控制(I2V, Video Extension, 首尾帧, 视频编辑),这部分与Wan2.1-I2V类似Concat(V, I, M), I对应条件帧。而in-Context注入主要针对视觉参考部分,比如参考人物,风格等等,这部分其实包含两块,一块是VAE特征,一块是与文本进行交互的MLLM特征,用于支持指令跟随能力。 值得注意的是,在数据收集阶段,他用到了真实数据+合成数据,合成数据主要用于解决现实世界数据覆盖不足的稀疏场景和生成任务。