Peekaboo | lc's space

文章标题：PEEKABOO: Interactive Video Generation via Masked-Diffusion
文章地址：https://arxiv.org/abs/2312.07509
CVPR 2023

文章是第一篇training-free的基于bbox轨迹引导的视频生成方法。具体来说，文章就是利用bbox轨迹构造各种attention的mask，其中包含U-Net中的空间域和时间域的self-attention mask以及文本cross-attention mask，使得box区域只关注本身，且只有目标token引导box区域。

数据：自己构建了一个benchmark
指标：mIoU; CD(框中心距离)；AP50；Cov；FVD
硬件：未提及
开源：https://yash-jain.com/projects/Peekaboo/

FreeInit

TV-LiVE