PortraitBooth

该方法的人脸特征提取使用的是人脸识别模型TFace,融合方式为与特定token进行拼接后经过MLP得到,这都比较normal,并且在训练的采样后期使用了id loss(在比较清晰的阶段使用隐变量直接预测原图),然后就是文章所谓的表情的注意力矩阵控制,其基本思想就是使代表表情的token的注意力矩阵与人脸的mask对应。 总的来说该方法的创新性没那么足。值得注意的是对整个UNet都进行了训练。
  • 数据:CelebV-T(视频数据,使用首尾帧做原图,中间帧做reference);使用RAM做Caption
  • 指标:ID相似度(FaceNet);文本对齐度(CLIP);推理时间;训练消耗
  • 硬件:6 V100/bs2
  • 开源:https://portraitbooth.github.io(未开源)