<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2504.08641">https://arxiv.org/abs/2504.08641</a> </li><li>arxiv</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1748920545/97D52670-A9BE-4D3D-B5D4-2A36F30EEC62.png" style="background-color:initial;max-width:min(100%,1886px);max-height:min(958px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1748920545/97D52670-A9BE-4D3D-B5D4-2A36F30EEC62.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1886" height="958"> <span style="font-family: '.PingFangUITextSC-Regular'">文章试图解决</span>文生图模型在准确遵循文本描述方面的问题,尤其是当文本提示需要精确控制空间布局或物体轨迹时。例如,模型可能无法准确地将物体放置在指定的位置,或者无法正确地生成物体的运动轨迹。具体来说分成三个阶段:1、利用MLLM生成背景caption,然后利用T2I模型生成背景图片;2、利用MLLM生成主体对象运动轨迹,利用T2I模型生成主体图像,利用I2V生成背景视频;3、利用阶段2得到的素材组合成视频草稿,经过inversion到特定步数后再进行前向推理,得到最终视频。 <ul class="dashed" data-apple-notes-indent-amount="0"><li>数据:无需训练数据</li><li>指标:T2V-CompBench; VBench</li><li>硬件:1 A100</li><li>开源:<a href="https://github.com/jialuli-luka/Video-MSG">https://github.com/jialuli-luka/Video-MSG</a> </li></ul>