SkyReels-A2 | lc's space

Subject-to-Video的一篇工作，引入图像条件的方法也比较简单，CLIP特征与文本特征concatenate通过cross-attention进行融合，VAE特征（由padding到目标帧后通过3D VAE编码得到）与视频特征在通道维度进行concatenate（类似Wan-I2V）。