<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2505.23742">https://arxiv.org/abs/2505.23742</a> </li><li>arxiv 2025(ICLR2026在投4668)</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_096a643a-22bc-4e34-9fe7-8e526a89a80a/public" style="background-color:initial;max-width:min(100%,2664px);max-height:min(1630px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_096a643a-22bc-4e34-9fe7-8e526a89a80a/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2664" height="1630"> 同Phantom,目的是解决S2V的问题,提出了一个新的架构。 该架构基于Wan2.1-I2V,作者通过将ref image以画布的形式排列在一张图像中,并将其作为第一帧输入到模型中,同时修改mask,以符合参考画布的排版,最后三者在通道维度进行拼接输入到模型中。同时为了增强subject之间的区分,作者还将prompt编码后相应subject单词的value值加到latent的第一帧对应区域中,作者称之为subject disentanglement。 说说自己的想法: 首先,该方法作为一个大规模训练的方法,其条件以画布的形式输入是否会影响特征信息的完整性?其次在subject disentanglement中,如果两个subject对应的单词是一样的,这时候该方法就失效了。并且这种编码后提取某个单词的方法是否包含所有该单词的特性是不确定的。