Face2Diffusion

该方法只训练了映射网络MLP,扩散模型是冻住的。文章提出的多尺度id编码器MSID是微调过的ArcFace。 首先使用MSID编码器提取多尺度的人脸特征,然后利用3d人脸重建模型提取表情特征(在训练中,该特征有0.2的几率替换成可学习的无条件表情特征,用于推理中使用该特征完成表情的解耦),拼接后形成总的人脸特征,随后经过映射网络将人脸特征映射到CLIP的文本空间中,用2个token表示,该特征融合方式为FastComposer一样的token融合方式。同时,文章还提出了类别引导的去噪正则,其思想就是对人脸进行分割,模型预测的噪声中,人脸的部分使用原来的纯噪声进行loss的计算,而背景部分使用由person替换后的prompt的推理结果进行计算。 感觉文章的idea有很多存在疑问的地方。 首先是多尺度id编码器(人脸识别模型),作者对人脸识别模型进行分析,发现低层的特征不能很好的对id进行分辨,其包含了很多id无关的信息,因此将其作为多尺度的特征会造成过拟合,他的思想是模型低层的特征也能对id进行很好的分辨,这样的话,低层的特征也能包含id信息,从而拼接起来能够更好地提取id特征,但这样训练出来的人脸识别模型其功能肯定会有损失,也不知道他是怎么训的,文章解释的很模糊。有时间可以好好看看这个人脸识别模型ArcFace。 第二个疑问就是,他这个表情引导。首先他的表情特征是用3D人脸重建模型进行提取的,这个模型还能提取表情特征?其次是,就算能够提取表情特征,他使用该特征与id特征进行拼接,本身id特征就包含了部分表情特征,模型通过学习生成的人脸的表情是来自专门提取的表情特征还是本身id的特征是不能保证的,这种解耦方式很牵强,但文章给出的实验结果是正确的。 总之这个方法有效性还有待商榷。
  • 数据:MS1M训练MSID;FFHQ训练MAP
  • 指标:id相似度(多个人脸识别模型);文本图像对齐度(多种CLIP);将两者相乘作为综合指标(几何平均和调和平均)
  • 硬件:未提及
  • 开源:https://github.com/mapooon/Face2Diffusion