Video-MSG | lc's space

文章标题：Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
文章地址：https://arxiv.org/abs/2504.08641
arxiv

文章试图解决文生图模型在准确遵循文本描述方面的问题，尤其是当文本提示需要精确控制空间布局或物体轨迹时。例如，模型可能无法准确地将物体放置在指定的位置，或者无法正确地生成物体的运动轨迹。具体来说分成三个阶段：1、利用MLLM生成背景caption，然后利用T2I模型生成背景图片；2、利用MLLM生成主体对象运动轨迹，利用T2I模型生成主体图像，利用I2V生成背景视频；3、利用阶段2得到的素材组合成视频草稿，经过inversion到特定步数后再进行前向推理，得到最终视频。

数据：无需训练数据
指标：T2V-CompBench; VBench
硬件：1 A100
开源：https://github.com/jialuli-luka/Video-MSG

MagicComp

Show-o