papers

Stand-In

一个S2V模型Feb 8, 2026

ConceptAttention

通过引入概念token得到了图像中的显著图，并证明了DiT特征的语义相关性Jan 8, 2026

StoryMem

保存单镜头关键帧，作为条件引导后续单镜头的生成，使用LoRA对模型进行微调Jan 6, 2026

VideoLCT

多镜头联合建模训练Jan 6, 2026

MotionInversion

通过学习特定embedding捕捉参考视频的动作，从而进行动作定制化生成Jan 4, 2026

SkyReels-A2

一个S2V模型，支持多参考Jan 20, 2026

BindWeave

一个S2V模型，支持多参考Jan 15, 2026

Saber

一个S2V模型Jan 15, 2026

MAGREF

一个S2V模型，支持多参考Jan 14, 2026

PolyVivid

一个S2V模型，支持多参考Jan 14, 2026

VACE

视频生成编辑多任务集成模型Jan 13, 2026

Phantom

一个S2V模型，支持多参考Jan 13, 2026

LoRAinLoRA

在持续学习中使用双层LoRA，降低参数量Dec 10, 2025

DreamRelation

以两物体关系为中心的视频定制化Dec 8, 2025

LeMiCa

通过构造去噪过程有向图，寻找最优路径进行cacheNov 10, 2025

AdaCache

避免一视同仁分析，动态对每个视频进行合适的cacheNov 5, 2025

FasterCache

针对CFG部分做缓存复用推理加速Nov 4, 2025

PAB

缓存复用加速视频DiT推理Oct 29, 2025

SVG

attention计算稀疏性优化加速视频DiT推理Oct 29, 2025

TeaCache

利用时间步来设计缓存复用策略Oct 29, 2025

FreeInit

从初始噪声角度优化生成视频质量Aug 1, 2025

Peekaboo

bbox轨迹引导的training-free视频生成Jul 14, 2025

TV-LiVE

文本引导的training-free视频编辑Jul 14, 2025

Enhance-A-Video

免费提升视频生成质量Jul 14, 2025

FlowDirector

将FlowEdit迁移到视频编辑Jun 20, 2025

FollowYourMotion

将动作信息与外观信息解耦的one-shot动作转移方法Jun 17, 2025

DynamicConcepts

从单个视频中学习动态概念Jun 17, 2025

FlowEdit

无需inversion的针对流模型通用图像编辑方法Jun 9, 2025

MOFT

对视频生成扩散模型内部特征进行分析，提取动作特征，并完成动作控制Jun 6, 2025

RoPECraft

基于videoDiT的training-free视频动作转移方法，针对位置编码进行改进Jun 6, 2025

AnalysisAttentionVDiT

对VideoDiT的attention进行了分析Jun 5, 2025

DiTFlow

基于videoDiT的training-free视频动作转移方法Jun 5, 2025

FreeTraj

training-free通过噪声初始化引导以及注意力引导完成轨迹控制Jun 4, 2025

FreeNoise

training-free通过噪声调度和窗口注意力混合进行长时间多prompt视频生成Jun 3, 2025

SimulateMotion

training-free引入额外的损失完成动作引导视频生成Jun 3, 2025

DiTCtrl

对文生视频MMDiT进行分析及提出了training-free进行多prompt视频生成的方法Jun 3, 2025

MagicComp

training-free针对多主体视频生成进行优化Jun 3, 2025

Video-MSG

training-free通过多模态规划优化文生视频模型的指令准确性Jun 3, 2025

Show-o

统一多模态理解与生成的模型May 11, 2025

Chameleon

早期融合的混合模态基础模型May 8, 2025

Flamingo

一种交织图文的视觉语言大模型方法May 8, 2025

Emu2

语言视觉统一的多模态大模型May 7, 2025

Emu

语言视觉统一的多模态大模型May 7, 2025

Emu3

将所有模态统一为token的语言视觉统一的多模态大模型May 7, 2025

InstantStyle

风格迁移图像生成，无需任何微调Apr 22, 2025

MotionClone

无需训练的动作克隆可控视频生成Mar 10, 2025

VMC

从单个视频中定制动作生成，隐变量帧间差的角度Mar 6, 2025

MIP-Adapter

多张参考图像加权融合版IP-Adapter，用于多对象定制文生图Feb 18, 2025

TS-LLaVA

使用图片多模态大模型进行training-free的视频理解，提出了新的压缩方法Jan 14, 2025

Video-ChatGPT

利用多模态大模型做视频对话Jan 13, 2025

Thinking in Space

提出了一个评估视频大模型的benchmarkJan 13, 2025

FreeVideoLLM

利用问题对视频特征进行采样以减少视频理解所需要的token数Jan 9, 2025

IG-VLM

采样6帧视频组成一张图像输入到VLM进行视频理解Jan 8, 2025

FreeVA

利用图像MLLM无需训练完成视频理解等任务并揭示了视频指令微调可能没啥作用Jan 7, 2025

VTimeLLM

让LLM具有细粒度视频理解能力Jan 6, 2025

LLoVi

一种简单的利用LLM做长视频问答的框架Jan 3, 2025

SF-LLaVA

一种无需训练的利用LLaVA解决视频任务的方法Jan 2, 2025

DragDiffusion

利用扩散模型实现点拖动图像编辑Dec 24, 2024

DreamMatcher

使用参考图像反转扩散过程的SA的value增强定制化生成的质量Dec 23, 2024

eDiff-I

扩散过程不同阶段分别使用不同的去噪模型提高图像质量Dec 23, 2024

Tune-A-Video

基于一段视频微调文生图模型用于视频编辑Dec 19, 2024

SDEdit

使用SDE完成对图像的生成与编辑Dec 18, 2024

PnP-Diffusion

将真实图像反转后扩散过程的特征与SA注入到编辑文本对应的扩散过程完成对真实图像的编辑Dec 18, 2024

DAAM

对SD的cross-attention进行分析Dec 17, 2024

Imagic

对单张真实图像进行编辑Dec 17, 2024

DemoCaricature

根据素描生成夸张人像动漫Dec 17, 2024

MasaCtrl

无需训练即可对图像进行满足一致性的编辑Dec 17, 2024

Layer-Guidance

通过对隐变量进行调整来将CA map与条件框对齐Dec 13, 2024

SelfGuidance

通过对扩散过程中的隐空间变量与CA map进行一系列操作完成控制生成Dec 13, 2024

LLM-grounded Diffusion

利用大语言模型生成文生图的布局，然后基于布局进行扩散Dec 12, 2024

Prompt-Mixing

通过在不同采样阶段使用不同prompt以及对self-attention的约束实现目标物体的多种形状图像Dec 10, 2024

MultiDiffusion

联合多个扩散过程来生成全景图和区域条件图Dec 10, 2024

JeDi

将原单张图像self-attention改进为一个set中所有图像self-attentionDec 9, 2024

PersonalizedResidual

基于对CA层后面的output层进行lora微调的测试时微调定制化文生图方法Dec 3, 2024

DisenDiff

单张图多对象定制生成中注意力校准方法Nov 15, 2024

CrossInitialization

优化TI的初始化embeddingNov 14, 2024

Null-text Inversion

将真实图像进行反转，用于p2p图像编辑Nov 11, 2024

FreeU

无需任何代价提升基于U-Net结构的图像生成质量Nov 9, 2024

AnyDoor

利用扩散模型将不同物体置于特定背景的特定位置Nov 7, 2024

PreciseControl

通过w+空间完成人脸定制文生图的细粒度属性控制Oct 31, 2024

CosmicMan

一个针对人像生成的文生图模型Oct 28, 2024

FlashFace

类似ControlNet的id特征提取和融合方式Oct 23, 2024

ConsistentID

利用可解释的多模态细粒度特征补充（眼、鼻等）进行定制人像文生图Oct 23, 2024

CapHuman

利用人脸3D重建定制人脸姿势以及细粒度特征保留Oct 22, 2024

Face2Diffusion

更鲁棒多尺度id特征+表情引导+超类生成背景正则的定制人像文生图Oct 22, 2024

PortraitBooth

快速定制人像Oct 21, 2024

Cones2

多对象定制化文生图Oct 21, 2024

CAFE

个性化图像生成助手Oct 21, 2024

Cones

扩散模型中用于定制化生成的概念神经元Oct 19, 2024

Mix-of-Show

去中心化LoRA用于多对象定制化文生图Oct 16, 2024

P+

文生图中的扩展文本条件空间Oct 16, 2024

Attend-and-Excite

文生图扩散模型中基于注意力的语义引导（某对象的token的注意力图必须有高亮的区域）Oct 14, 2024

FaceCaption-15M

高质量人脸图像-文本对数据集Oct 13, 2024

Face-diffuser

通过分步采样得到高质量的定制人脸文生图Oct 13, 2024

PuLID

通过对比学习进行纯净轻量的ID定制化Oct 9, 2024

CelebBasis

用名人的词嵌入作为基向量表示任意对象用于定制化文生图Oct 6, 2024

W+Adapter

用于人脸定制化文生图的w+适配器（源自StyleGAN）Oct 5, 2024

DreamIdentity

在人脸定制文生图中增加人脸保真度以及可编辑性Oct 4, 2024

MagiCapture

高分辨率风格化肖像定制Oct 4, 2024

Subject-Diffusion

无需测试微调的开放域定制化文生图Oct 3, 2024

ViCo

即插即用引入视觉条件引导文生图Oct 3, 2024

Universal Guidance for Diffusion Models

在扩散模型中使用引导函数引入统一的条件Oct 1, 2024

SSR-Encoder

从图片中选取特定对象并对其进行编码从而进行条件生成Sep 29, 2024

HyperDreamBooth

快速定制化文生图Sep 29, 2024

COW

用于文本视觉条件生成的循环单向扩散Sep 23, 2024

BLIP-Diffusion

用于可控文生图和编辑的预训练的对象表示Sep 21, 2024

MasterWeaver

一种利用了编辑有向loss和增强人脸数据集的定制人脸文生图方法Sep 19, 2024

Continual Diffusion(C-LoRA)

多对象序列持续微调定制化文生图Sep 12, 2024

Taming Encoder

免测试微调的定制化文生图Sep 12, 2024

InstructPix2Pix

基于指令对图片进行编辑Sep 10, 2024

UMM-Diffusion

同时将目标图片和文本作为引导条件的联合多模态隐空间Sep 10, 2024

IDAdapter

学习混合特征用于免测试微调的定制化人脸文生图Sep 10, 2024

PhotoVerse

无需微调定制化文生图Sep 3, 2024

DisenBooth

ID信息解耦微调用于特定对象文生图Sep 3, 2024

T2I-Adapter

通过学习Adapter发掘文生图模型的更多控制生成能力Aug 30, 2024

E4T

一个用于快速定制化文生图的基于编码器域适应的方法Aug 30, 2024

Prompt-to-Prompt

通过控制交叉注意力层来对文生图的图像进行编辑Aug 29, 2024

Break-A-Scene

从单张图片中提取多个对象用于文生图Aug 29, 2024

Face0

即时人脸条件文生图Aug 29, 2024

SVDiff

紧凑的扩散模型微调参数空间Aug 29, 2024

FastComposer

利用本地化注意力完成免测试微调的多对象的文生图Aug 28, 2024

InstantBooth

免测试微调的定制化文生图Aug 28, 2024

Textual Inversion

使用文本反转完成定制文生图Aug 26, 2024

Imagen

引入深度语言理解的真实文生图模型Aug 23, 2024

Re-Imagen

检索增强文生图Aug 23, 2024

SuTI

通过学徒学习进行对象驱动的文生图Aug 23, 2024

ELITE

将视觉概念编码到文本特征用于个性化文生图Aug 23, 2024

Custom Diffusion

多对象定制文生图Aug 23, 2024

DreamBooth

微调文生图模型用于特定对象的生成Aug 21, 2024

IP-Adapter

文生图轻量有效的图片Prompt适应器Aug 16, 2024

ControlNet

图片布局条件指导的文生图Aug 15, 2024

Asyrp

扩散模型中的可编辑语义空间Aug 15, 2024

InstantID

即插即用零样本ID定制文生图Aug 15, 2024

PhotoMaker

定制人脸文生图Aug 14, 2024

HuBERT

基于掩码预测的自监督语音表示学习Jul 24, 2024

ECSS

情感对话语音生成Jul 24, 2024

VITS

条件VAE+对抗学习的端到端TTSJul 23, 2024

CosyVoice

基于语义token的zero-shot的TTS模型Jul 20, 2024

OpenVoice

快速的声音克隆工具Jul 20, 2024

MaskGIT

图像生成新范式，双向注意力Jul 16, 2024

Spectron

语音问答模型Jul 3, 2024

CAM++

利用上下文感知掩码的快速高效的说话人识别模型Jul 1, 2024

SpeechGPT

端到端的语音理解和生成的多模态大模型Jul 1, 2024

SoundStorm

给定语义token，非自回归补全声学token音频生成模型Jul 1, 2024

AnyGPT

统一离散序列建模的多模态大模型Jun 30, 2024

FunASR

连接学术研究与工业应用的开源语音识别工具包Jun 30, 2024

SpeechTokenizer

同时包含语义和声学特征的语音tokenizerJun 24, 2024

Paraformer

工业级非自回归端到端语音识别模型Jun 20, 2024