<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>DreamRelation: Relation-Centric Video Customization</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2503.07602">https://arxiv.org/abs/2503.07602</a> </li><li>ICCV 2025</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_540e6ce0-78e1-4a97-8d3c-266a48aaa5cb/public" style="background-color:initial;max-width:min(100%,2230px);max-height:min(1014px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_540e6ce0-78e1-4a97-8d3c-266a48aaa5cb/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2230" height="1014"> 文章聚焦于视频生成中两个对象之间的关系,设计了关系外观解耦学习方法,用于学习关系的同时避免对外观信息的拟合,第二个动态增强部分(图中右侧部分)个人感觉没啥用,可能是用来凑创新点的。 具体来说,作者利用三个LoRA分别关注物体1的外观,物体2的外观以及他们之间的关系,然后结合参考视频提取出的mask来进行训练,使得各部分LoRA关注特定的信息。从而在推理时,只使用关系LoRA,完成关系的定制化。 这不就是多对象动作转移吗?? 多对象动作转移中有一个难以解决的问题就是动作与对象的对应关系,如何对应需要研究,有相关工作吗?(特别是非对称的关系,需要强调对象与动作的对应关系) <ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">数据:</span>NTU RGB+D动作识别数据集</li><li>指标:动作准确度(利用多模态大模型);文本对其度;时序连续性;视频质量(FVD)</li><li>开源:<a href="https://github.com/ali-vilab/DreamRelation">https://github.com/ali-vilab/DreamRelation</a> </li></ul>