Phantom

文章实现了subject-to-video,通过提出构造数据pipeline以及模型框架。 以下是数据构造pipeline: 关于模型结构,参考图像分别经过VAE和CLIP得到相应的特征,其中VAE得到的toekn与视频token进行拼接,CLIP得到的特征与text token进行拼接,都是在序列长度维度进行。由于该模型使用window self attention,因此做了一些修改用于动态地将参考特征引入到attention计算中: