Flow-GRPO

作者将GRPO引入到Flow matching模型当中,其中方法主要由两部分组成:1、将原本流模型的确定性ODE转换成SDE,从而在采样过程中引入了随机性,使得能够进行online RL;2、训练时减少去噪步数,保持推理步数,提升了训练的效率。