Flow-DPO

文章针对视频生成模型的RLHF进行创新。首先提出了一个大规模的偏好数据集,解决了之前的数据集分辨率低等缺点;提出了多维度的奖励模型,训练VLM来对视频进行偏好训练;随后利用训练好的奖励模型,设计了流模型的强化学习算法,训练时策略(Flow-DPO, FlowRWR),以及推理时策略(Flow-NRG)。 Flow-DPO伪代码: