OmniCustomizer

针对音视频的多模态定制化,除了In-Context进行条件注入外,主要针对文本侧进行了优化。 具体来说就是新增了一个模块用于信息的融合,增强文本端的信息量,并强调哪些文本是台词(解决发音错乱问题)。