papers

Stand-In
一个S2V模型
ConceptAttention
通过引入概念token得到了图像中的显著图,并证明了DiT特征的语义相关性
StoryMem
保存单镜头关键帧,作为条件引导后续单镜头的生成,使用LoRA对模型进行微调
VideoLCT
多镜头联合建模训练
MotionInversion
通过学习特定embedding捕捉参考视频的动作,从而进行动作定制化生成
SkyReels-A2
一个S2V模型,支持多参考
BindWeave
一个S2V模型,支持多参考
Saber
一个S2V模型
MAGREF
一个S2V模型,支持多参考
PolyVivid
一个S2V模型,支持多参考
VACE
视频生成编辑多任务集成模型
Phantom
一个S2V模型,支持多参考
LoRAinLoRA
在持续学习中使用双层LoRA,降低参数量
DreamRelation
以两物体关系为中心的视频定制化
LeMiCa
通过构造去噪过程有向图,寻找最优路径进行cache
AdaCache
避免一视同仁分析,动态对每个视频进行合适的cache
FasterCache
针对CFG部分做缓存复用推理加速
PAB
缓存复用加速视频DiT推理
SVG
attention计算稀疏性优化加速视频DiT推理
TeaCache
利用时间步来设计缓存复用策略
FreeInit
从初始噪声角度优化生成视频质量
Peekaboo
bbox轨迹引导的training-free视频生成
TV-LiVE
文本引导的training-free视频编辑
Enhance-A-Video
免费提升视频生成质量
FlowDirector
将FlowEdit迁移到视频编辑
FollowYourMotion
将动作信息与外观信息解耦的one-shot动作转移方法
DynamicConcepts
从单个视频中学习动态概念
FlowEdit
无需inversion的针对流模型通用图像编辑方法
MOFT
对视频生成扩散模型内部特征进行分析,提取动作特征,并完成动作控制
RoPECraft
基于videoDiT的training-free视频动作转移方法,针对位置编码进行改进
AnalysisAttentionVDiT
对VideoDiT的attention进行了分析
DiTFlow
基于videoDiT的training-free视频动作转移方法
FreeTraj
training-free通过噪声初始化引导以及注意力引导完成轨迹控制
FreeNoise
training-free通过噪声调度和窗口注意力混合进行长时间多prompt视频生成
SimulateMotion
training-free引入额外的损失完成动作引导视频生成
DiTCtrl
对文生视频MMDiT进行分析及提出了training-free进行多prompt视频生成的方法
MagicComp
training-free针对多主体视频生成进行优化
Video-MSG
training-free通过多模态规划优化文生视频模型的指令准确性
Show-o
统一多模态理解与生成的模型
Chameleon
早期融合的混合模态基础模型
Flamingo
一种交织图文的视觉语言大模型方法
Emu2
语言视觉统一的多模态大模型
Emu
语言视觉统一的多模态大模型
Emu3
将所有模态统一为token的语言视觉统一的多模态大模型
InstantStyle
风格迁移图像生成,无需任何微调
MotionClone
无需训练的动作克隆可控视频生成
VMC
从单个视频中定制动作生成,隐变量帧间差的角度
MIP-Adapter
多张参考图像加权融合版IP-Adapter,用于多对象定制文生图
TS-LLaVA
使用图片多模态大模型进行training-free的视频理解,提出了新的压缩方法
Video-ChatGPT
利用多模态大模型做视频对话
Thinking in Space
提出了一个评估视频大模型的benchmark
FreeVideoLLM
利用问题对视频特征进行采样以减少视频理解所需要的token数
IG-VLM
采样6帧视频组成一张图像输入到VLM进行视频理解
FreeVA
利用图像MLLM无需训练完成视频理解等任务并揭示了视频指令微调可能没啥作用
VTimeLLM
让LLM具有细粒度视频理解能力
LLoVi
一种简单的利用LLM做长视频问答的框架
SF-LLaVA
一种无需训练的利用LLaVA解决视频任务的方法
DragDiffusion
利用扩散模型实现点拖动图像编辑
DreamMatcher
使用参考图像反转扩散过程的SA的value增强定制化生成的质量
eDiff-I
扩散过程不同阶段分别使用不同的去噪模型提高图像质量
Tune-A-Video
基于一段视频微调文生图模型用于视频编辑
SDEdit
使用SDE完成对图像的生成与编辑
PnP-Diffusion
将真实图像反转后扩散过程的特征与SA注入到编辑文本对应的扩散过程完成对真实图像的编辑
DAAM
对SD的cross-attention进行分析
Imagic
对单张真实图像进行编辑
DemoCaricature
根据素描生成夸张人像动漫
MasaCtrl
无需训练即可对图像进行满足一致性的编辑
Layer-Guidance
通过对隐变量进行调整来将CA map与条件框对齐
SelfGuidance
通过对扩散过程中的隐空间变量与CA map进行一系列操作完成控制生成
LLM-grounded Diffusion
利用大语言模型生成文生图的布局,然后基于布局进行扩散
Prompt-Mixing
通过在不同采样阶段使用不同prompt以及对self-attention的约束实现目标物体的多种形状图像
MultiDiffusion
联合多个扩散过程来生成全景图和区域条件图
JeDi
将原单张图像self-attention改进为一个set中所有图像self-attention
PersonalizedResidual
基于对CA层后面的output层进行lora微调的测试时微调定制化文生图方法
DisenDiff
单张图多对象定制生成中注意力校准方法
CrossInitialization
优化TI的初始化embedding
Null-text Inversion
将真实图像进行反转,用于p2p图像编辑
FreeU
无需任何代价提升基于U-Net结构的图像生成质量
AnyDoor
利用扩散模型将不同物体置于特定背景的特定位置
PreciseControl
通过w+空间完成人脸定制文生图的细粒度属性控制
CosmicMan
一个针对人像生成的文生图模型
FlashFace
类似ControlNet的id特征提取和融合方式
ConsistentID
利用可解释的多模态细粒度特征补充(眼、鼻等)进行定制人像文生图
CapHuman
利用人脸3D重建定制人脸姿势以及细粒度特征保留
Face2Diffusion
更鲁棒多尺度id特征+表情引导+超类生成背景正则的定制人像文生图
PortraitBooth
快速定制人像
Cones2
多对象定制化文生图
CAFE
个性化图像生成助手
Cones
扩散模型中用于定制化生成的概念神经元
Mix-of-Show
去中心化LoRA用于多对象定制化文生图
P+
文生图中的扩展文本条件空间
Attend-and-Excite
文生图扩散模型中基于注意力的语义引导(某对象的token的注意力图必须有高亮的区域)
FaceCaption-15M
高质量人脸图像-文本对数据集
Face-diffuser
通过分步采样得到高质量的定制人脸文生图
PuLID
通过对比学习进行纯净轻量的ID定制化
CelebBasis
用名人的词嵌入作为基向量表示任意对象用于定制化文生图
W+Adapter
用于人脸定制化文生图的w+适配器(源自StyleGAN)
DreamIdentity
在人脸定制文生图中增加人脸保真度以及可编辑性
MagiCapture
高分辨率风格化肖像定制
Subject-Diffusion
无需测试微调的开放域定制化文生图
ViCo
即插即用引入视觉条件引导文生图
Universal Guidance for Diffusion Models
在扩散模型中使用引导函数引入统一的条件
SSR-Encoder
从图片中选取特定对象并对其进行编码从而进行条件生成
HyperDreamBooth
快速定制化文生图
COW
用于文本视觉条件生成的循环单向扩散
BLIP-Diffusion
用于可控文生图和编辑的预训练的对象表示
MasterWeaver
一种利用了编辑有向loss和增强人脸数据集的定制人脸文生图方法
Continual Diffusion(C-LoRA)
多对象序列持续微调定制化文生图
Taming Encoder
免测试微调的定制化文生图
InstructPix2Pix
基于指令对图片进行编辑
UMM-Diffusion
同时将目标图片和文本作为引导条件的联合多模态隐空间
IDAdapter
学习混合特征用于免测试微调的定制化人脸文生图
PhotoVerse
无需微调定制化文生图
DisenBooth
ID信息解耦微调用于特定对象文生图
T2I-Adapter
通过学习Adapter发掘文生图模型的更多控制生成能力
E4T
一个用于快速定制化文生图的基于编码器域适应的方法
Prompt-to-Prompt
通过控制交叉注意力层来对文生图的图像进行编辑
Break-A-Scene
从单张图片中提取多个对象用于文生图
Face0
即时人脸条件文生图
SVDiff
紧凑的扩散模型微调参数空间
FastComposer
利用本地化注意力完成免测试微调的多对象的文生图
InstantBooth
免测试微调的定制化文生图
Textual Inversion
使用文本反转完成定制文生图
Imagen
引入深度语言理解的真实文生图模型
Re-Imagen
检索增强文生图
SuTI
通过学徒学习进行对象驱动的文生图
ELITE
将视觉概念编码到文本特征用于个性化文生图
Custom Diffusion
多对象定制文生图
DreamBooth
微调文生图模型用于特定对象的生成
IP-Adapter
文生图轻量有效的图片Prompt适应器
ControlNet
图片布局条件指导的文生图
Asyrp
扩散模型中的可编辑语义空间
InstantID
即插即用零样本ID定制文生图
PhotoMaker
定制人脸文生图
HuBERT
基于掩码预测的自监督语音表示学习
ECSS
情感对话语音生成
VITS
条件VAE+对抗学习的端到端TTS
CosyVoice
基于语义token的zero-shot的TTS模型
OpenVoice
快速的声音克隆工具
MaskGIT
图像生成新范式,双向注意力
Spectron
语音问答模型
CAM++
利用上下文感知掩码的快速高效的说话人识别模型
SpeechGPT
端到端的语音理解和生成的多模态大模型
SoundStorm
给定语义token,非自回归补全声学token音频生成模型
AnyGPT
统一离散序列建模的多模态大模型
FunASR
连接学术研究与工业应用的开源语音识别工具包
SpeechTokenizer
同时包含语义和声学特征的语音tokenizer
Paraformer
工业级非自回归端到端语音识别模型