OmniCustomizer | lc's space

文章标题：Omni-Customizer: End-to-End MultiModal Customization for Joint Audio-Video Generation
文章地址：https://arxiv.org/abs/2605.17488
arxiv 2026

针对音视频的多模态定制化，除了In-Context进行条件注入外，主要针对文本侧进行了优化。具体来说就是新增了一个模块用于信息的融合，增强文本端的信息量，并强调哪些文本是台词（解决发音错乱问题）。