Flow-DPO | lc's space

文章标题：Improving Video Generation with Human Feedback
文章地址：https://arxiv.org/abs/2501.13918
NeurIPS 2025

文章针对视频生成模型的RLHF进行创新。首先提出了一个大规模的偏好数据集，解决了之前的数据集分辨率低等缺点；提出了多维度的奖励模型，训练VLM来对视频进行偏好训练；随后利用训练好的奖励模型，设计了流模型的强化学习算法，训练时策略（Flow-DPO, FlowRWR），以及推理时策略（Flow-NRG）。 Flow-DPO伪代码：一句话总结该算法就是：针对每个timestep “比以前的我离成功更近，比以前的我离失败更远”

ShotStream

WildActor