SkyReels-A2

Subject-to-Video的一篇工作,引入图像条件的方法也比较简单,CLIP特征与文本特征concatenate通过cross-attention进行融合,VAE特征(由padding到目标帧后通过3D VAE编码得到)与视频特征在通道维度进行concatenate(类似Wan-I2V)。