papers

FreeInit
从初始噪声角度优化生成视频质量
TV-LiVE
文本引导的training-free视频编辑
Peekaboo
bbox轨迹引导的training-free视频生成
Enhance-A-Video
免费提升视频生成质量
FlowDirector
将FlowEdit迁移到视频编辑
FollowYourMotion
将动作信息与外观信息解耦的one-shot动作转移方法
DynamicConcepts
从单个视频中学习动态概念
FlowEdit
无需inversion的针对流模型通用图像编辑方法
MOFT
对视频生成扩散模型内部特征进行分析,提取动作特征,并完成动作控制
RoPECraft
基于videoDiT的training-free视频动作转移方法,针对位置编码进行改进
AnalysisAttentionVDiT
对VideoDiT的attention进行了分析
DiTFlow
基于videoDiT的training-free视频动作转移方法
FreeTraj
training-free通过噪声初始化引导以及注意力引导完成轨迹控制
FreeNoise
training-free通过噪声调度和窗口注意力混合进行长时间多prompt视频生成
DiTCtrl
对文生视频MMDiT进行分析及提出了training-free进行多prompt视频生成的方法
MagicComp
training-free针对多主体视频生成进行优化
Video-MSG
training-free通过多模态规划优化文生视频模型的指令准确性
SimulateMotion
training-free引入额外的损失完成动作引导视频生成
Show-o
统一多模态理解与生成的模型
Flamingo
一种交织图文的视觉语言大模型方法
Chameleon
早期融合的混合模态基础模型
Emu
语言视觉统一的多模态大模型
Emu2
语言视觉统一的多模态大模型
Emu3
将所有模态统一为token的语言视觉统一的多模态大模型
InstantStyle
风格迁移图像生成,无需任何微调
MotionClone
无需训练的动作克隆可控视频生成
VMC
从单个视频中定制动作生成,隐变量帧间差的角度
MIP-Adapter
多张参考图像加权融合版IP-Adapter,用于多对象定制文生图
TS-LLaVA
使用图片多模态大模型进行training-free的视频理解,提出了新的压缩方法
Thinking in Space
提出了一个评估视频大模型的benchmark
Video-ChatGPT
利用多模态大模型做视频对话
FreeVideoLLM
利用问题对视频特征进行采样以减少视频理解所需要的token数
IG-VLM
采样6帧视频组成一张图像输入到VLM进行视频理解
FreeVA
利用图像MLLM无需训练完成视频理解等任务并揭示了视频指令微调可能没啥作用
VTimeLLM
让LLM具有细粒度视频理解能力
LLoVi
一种简单的利用LLM做长视频问答的框架
SF-LLaVA
一种无需训练的利用LLaVA解决视频任务的方法
DragDiffusion
利用扩散模型实现点拖动图像编辑
eDiff-I
扩散过程不同阶段分别使用不同的去噪模型提高图像质量
DreamMatcher
使用参考图像反转扩散过程的SA的value增强定制化生成的质量
Tune-A-Video
基于一段视频微调文生图模型用于视频编辑
SDEdit
使用SDE完成对图像的生成与编辑
PnP-Diffusion
将真实图像反转后扩散过程的特征与SA注入到编辑文本对应的扩散过程完成对真实图像的编辑
MasaCtrl
无需训练即可对图像进行满足一致性的编辑
DAAM
对SD的cross-attention进行分析
Imagic
对单张真实图像进行编辑
DemoCaricature
根据素描生成夸张人像动漫
Layer-Guidance
通过对隐变量进行调整来将CA map与条件框对齐
SelfGuidance
通过对扩散过程中的隐空间变量与CA map进行一系列操作完成控制生成
LLM-grounded Diffusion
利用大语言模型生成文生图的布局,然后基于布局进行扩散
MultiDiffusion
联合多个扩散过程来生成全景图和区域条件图
Prompt-Mixing
通过在不同采样阶段使用不同prompt以及对self-attention的约束实现目标物体的多种形状图像
JeDi
将原单张图像self-attention改进为一个set中所有图像self-attention
PersonalizedResidual
基于对CA层后面的output层进行lora微调的测试时微调定制化文生图方法
DisenDiff
单张图多对象定制生成中注意力校准方法
CrossInitialization
优化TI的初始化embedding
Null-text Inversion
将真实图像进行反转,用于p2p图像编辑
FreeU
无需任何代价提升基于U-Net结构的图像生成质量
AnyDoor
利用扩散模型将不同物体置于特定背景的特定位置
PreciseControl
通过w+空间完成人脸定制文生图的细粒度属性控制
CosmicMan
一个针对人像生成的文生图模型
FlashFace
类似ControlNet的id特征提取和融合方式
ConsistentID
利用可解释的多模态细粒度特征补充(眼、鼻等)进行定制人像文生图
CapHuman
利用人脸3D重建定制人脸姿势以及细粒度特征保留
Face2Diffusion
更鲁棒多尺度id特征+表情引导+超类生成背景正则的定制人像文生图
Cones2
多对象定制化文生图
CAFE
个性化图像生成助手
PortraitBooth
快速定制人像
Cones
扩散模型中用于定制化生成的概念神经元
P+
文生图中的扩展文本条件空间
Mix-of-Show
去中心化LoRA用于多对象定制化文生图
Attend-and-Excite
文生图扩散模型中基于注意力的语义引导(某对象的token的注意力图必须有高亮的区域)
FaceCaption-15M
高质量人脸图像-文本对数据集
Face-diffuser
通过分步采样得到高质量的定制人脸文生图
PuLID
通过对比学习进行纯净轻量的ID定制化
CelebBasis
用名人的词嵌入作为基向量表示任意对象用于定制化文生图
W+Adapter
用于人脸定制化文生图的w+适配器(源自StyleGAN)
DreamIdentity
在人脸定制文生图中增加人脸保真度以及可编辑性
MagiCapture
高分辨率风格化肖像定制
Subject-Diffusion
无需测试微调的开放域定制化文生图
ViCo
即插即用引入视觉条件引导文生图
Universal Guidance for Diffusion Models
在扩散模型中使用引导函数引入统一的条件
SSR-Encoder
从图片中选取特定对象并对其进行编码从而进行条件生成
HyperDreamBooth
快速定制化文生图
COW
用于文本视觉条件生成的循环单向扩散
BLIP-Diffusion
用于可控文生图和编辑的预训练的对象表示
MasterWeaver
一种利用了编辑有向loss和增强人脸数据集的定制人脸文生图方法
Continual Diffusion(C-LoRA)
多对象序列持续微调定制化文生图
Taming Encoder
免测试微调的定制化文生图
InstructPix2Pix
基于指令对图片进行编辑
UMM-Diffusion
同时将目标图片和文本作为引导条件的联合多模态隐空间
IDAdapter
学习混合特征用于免测试微调的定制化人脸文生图
PhotoVerse
无需微调定制化文生图
DisenBooth
ID信息解耦微调用于特定对象文生图
T2I-Adapter
通过学习Adapter发掘文生图模型的更多控制生成能力
E4T
一个用于快速定制化文生图的基于编码器域适应的方法
Prompt-to-Prompt
通过控制交叉注意力层来对文生图的图像进行编辑
Break-A-Scene
从单张图片中提取多个对象用于文生图
Face0
即时人脸条件文生图
SVDiff
紧凑的扩散模型微调参数空间
FastComposer
利用本地化注意力完成免测试微调的多对象的文生图
InstantBooth
免测试微调的定制化文生图
Textual Inversion
使用文本反转完成定制文生图
Imagen
引入深度语言理解的真实文生图模型
Re-Imagen
检索增强文生图
SuTI
通过学徒学习进行对象驱动的文生图
ELITE
将视觉概念编码到文本特征用于个性化文生图
Custom Diffusion
多对象定制文生图
DreamBooth
微调文生图模型用于特定对象的生成
IP-Adapter
文生图轻量有效的图片Prompt适应器
ControlNet
图片布局条件指导的文生图
Asyrp
扩散模型中的可编辑语义空间
InstantID
即插即用零样本ID定制文生图
PhotoMaker
定制人脸文生图
ECSS
情感对话语音生成
HuBERT
基于掩码预测的自监督语音表示学习
VITS
条件VAE+对抗学习的端到端TTS
CosyVoice
基于语义token的zero-shot的TTS模型
OpenVoice
快速的声音克隆工具
MaskGIT
图像生成新范式,双向注意力
Spectron
语音问答模型
CAM++
利用上下文感知掩码的快速高效的说话人识别模型
SpeechGPT
端到端的语音理解和生成的多模态大模型
SoundStorm
给定语义token,非自回归补全声学token音频生成模型
AnyGPT
统一离散序列建模的多模态大模型
FunASR
连接学术研究与工业应用的开源语音识别工具包
SpeechTokenizer
同时包含语义和声学特征的语音tokenizer
Paraformer
工业级非自回归端到端语音识别模型