Flow-GRPO | lc's space

作者将GRPO引入到Flow matching模型当中，其中方法主要由两部分组成：1、将原本流模型的确定性ODE转换成SDE，从而在采样过程中引入了随机性，使得能够进行online RL；2、训练时减少去噪步数，保持推理步数，提升了训练的效率。