Video-MSG

  • 文章标题:Training-free Guidance in Text-to-Video Generation via Multimodal Planning and Structured Noise Initialization
  • 文章地址:https://arxiv.org/abs/2504.08641
  • arxiv
文章试图解决文生图模型在准确遵循文本描述方面的问题,尤其是当文本提示需要精确控制空间布局或物体轨迹时。例如,模型可能无法准确地将物体放置在指定的位置,或者无法正确地生成物体的运动轨迹。具体来说分成三个阶段:1、利用MLLM生成背景caption,然后利用T2I模型生成背景图片;2、利用MLLM生成主体对象运动轨迹,利用T2I模型生成主体图像,利用I2V生成背景视频;3、利用阶段2得到的素材组合成视频草稿,经过inversion到特定步数后再进行前向推理,得到最终视频。