Peekaboo

文章是第一篇training-free的基于bbox轨迹引导的视频生成方法。具体来说,文章就是利用bbox轨迹构造各种attention的mask,其中包含U-Net中的空间域和时间域的self-attention mask以及文本cross-attention mask,使得box区域只关注本身,且只有目标token引导box区域。