<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangSC-Regular'">文章标题:</span>OpenVoice: Versatile Instant Voice Cloning</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2312.01479">https://arxiv.org/abs/2312.01479</a> </li><li>技术报告</li></ul> <img src="https://res.cloudinary.com/montaigne-io/image/upload/v1721473308/A63ECEAF-09A8-42D3-B64D-F04CA0829486.png" style="background-color:initial;max-width:min(100%,1874px);max-height:min(662px);;background-image:url(https://res.cloudinary.com/montaigne-io/image/upload/v1721473308/A63ECEAF-09A8-42D3-B64D-F04CA0829486.png);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1874" height="662"> 文章提出了OpenVoice,一个仅需声音片段就能克隆目标声音的工具,其在下面两个方面进行了增强,1)灵活的声音风格控制:在声音克隆的同时能够对目标音频的声音风格进行控制,这是靠base model的预训练实现的。2)Zero-shot的跨语言的音色克隆:对不存在于训练集中的语言,模型同样可以进行音色的克隆,这依赖于模型独特的音色提取能力。同时,OpenVoice具有计算效率高的特点,相比于商用的模型时间消耗低于十分之一