中华网数码

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机 培训 学校 课程
当前位置:滚动新闻>

Soul张璐团队联合开源支持3种语言的零样本SVS模型 破解行业困境

Soul张璐团队联合开源支持3种语言的零样本SVS模型 破解行业困境
2026-04-21 10:40:34 来源:今日热点网

在音乐产业数字化转型的浪潮中,生成式人工智能技术的应用持续深化,不断为创作、传播等环节创造全新体验。但与此同时,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型。此前,Soul张璐AI团队(Soul AI Lab)联合开源的歌声合成模型SoulX-Singer,为行业破解这一困境提供了可行路径。

SVS(歌唱语音合成)不同于普通语音合成,它需要对音高、音律及演唱风格进行精细控制,以实现自然且富有表现力的歌声输出。为填补行业空白,Soul App AI 团队(Soul AI Lab)联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),共同研发并开源了SoulX-Singer模型。其核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。

在模型架构上,SoulX-Singer采用基于Flow Matching 的生成建模范式,创新性的将歌声合成问题建模为一种audio infilling(音频补全)任务,并在建模阶段显式引入了note级别的对齐机制。通过构建歌词、MIDI音符与声学特征的精细对齐关系,模型能精准建模每个音符的起止时间、音高及持续时长。这种设计不仅忠实还原乐谱信息,还能在生成中灵活调整音符结构,轻松满足音乐编辑、重编曲等复杂需求。

零样本歌声合成的核心难点的在于对训练数据的规模、多样性和覆盖范围有着极高要求,而SoulX-Singer的优势恰好体现在这里。该模型依托超过42,000小时的高质量歌声数据完成训练,覆盖多语言、多音色及多种演唱风格。即便面对未见过的歌手音色和复杂音乐条件,SoulX-Singer依然能保持优异的鲁棒性和一致性,成功推动零样本歌声合成技术从“演示”走向“实用”。

在生成控制能力方面,SoulX-Singer同时支持基于Music Score(MIDI) 和基于 Melody 的两种歌声合成控制方式。其中Music Score(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力;Melody驱动生成则支持已有歌曲旋律进行合成,可复刻参考音频的演唱技巧与表达风格,适配翻唱、风格迁移等应用场景,全方位覆盖从原创到再创作的各类音乐制作需求。

目前,SoulX-Singer已支持普通话、英语、粤语三种语言,且在不同风格下均能保持稳定质量,为其在内容创作、虚拟歌手、互动娱乐等领域的落地拓展了广阔空间。为验证模型性能,团队在GMO-SVS和SoulX-Singer-Eval两个数据集上开展系统评测,其中前者整合了多个主流开源SVS数据集,后者则专门针对零样本场景构建,确保测试歌手未出现在训练集中。评测结果显示,SoulX-Singer在语义清晰度、歌手相似度、基频一致性及整体合成质量上均显著优于同类模型,主观听感评测也取得了领先优势。

Soul张璐AI团队此次开源SoulX-Singer,为行业提供了一套鲁棒性强、灵活可控且贴合实际场景的零样本歌声合成解决方案,有效推动了该技术在UGC音乐创作等领域的落地探索,为开源歌声合成领域的发展指明了方向。


责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com

关键词:

比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

2025-02-27 09:44:12比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

2025-02-27 09:43:39AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

Intel® Amston Lake:边缘计算与网络通信的强劲引擎

2025-02-27 09:43:09Intel® Amston Lake:边缘计算与网络通信的强劲引擎

“我是被逼的” 黄仁勋表示:英伟达不能没有中国

2025-02-27 09:37:35“我是被逼的” 黄仁勋表示:英伟达不能没有中国

相关新闻