Phantom | lc's space

文章标题：Phantom: Subject-Consistent Video Generation via Cross-Modal Alignment
文章地址：https://arxiv.org/abs/2502.11079
ICCV2025

文章实现了subject-to-video，通过提出构造数据pipeline以及模型框架。以下是数据构造pipeline：

关于模型结构，参考图像分别经过VAE和CLIP得到相应的特征，其中VAE得到的toekn与视频token进行拼接，CLIP得到的特征与text token进行拼接，都是在序列长度维度进行。由于该模型使用window self attention，因此做了一些修改用于动态地将参考特征引入到attention计算中：

VACE

LoRAinLoRA