在音乐产业数字化转型的浪潮中,生成式人工智能技术的应用持续深化,不断为创作、传播等环节创造全新体验。但与此同时,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型。此前,Soul张璐AI团队(Soul AI Lab)联合开源的歌声合成模型SoulX-Singer,为行业破解这一困境提供了可行路径。

SVS(歌唱语音合成)不同于普通语音合成,它需要对音高、音律及演唱风格进行精细控制,以实现自然且富有表现力的歌声输出。为填补行业空白,Soul App AI 团队(Soul AI Lab)联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),共同研发并开源了SoulX-Singer模型。其核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。
在模型架构上,SoulX-Singer采用基于Flow Matching 的生成建模范式,创新性的将歌声合成问题建模为一种audio infilling(音频补全)任务,并在建模阶段显式引入了note级别的对齐机制。通过构建歌词、MIDI音符与声学特征的精细对齐关系,模型能精准建模每个音符的起止时间、音高及持续时长。这种设计不仅忠实还原乐谱信息,还能在生成中灵活调整音符结构,轻松满足音乐编辑、重编曲等复杂需求。
零样本歌声合成的核心难点的在于对训练数据的规模、多样性和覆盖范围有着极高要求,而SoulX-Singer的优势恰好体现在这里。该模型依托超过42,000小时的高质量歌声数据完成训练,覆盖多语言、多音色及多种演唱风格。即便面对未见过的歌手音色和复杂音乐条件,SoulX-Singer依然能保持优异的鲁棒性和一致性,成功推动零样本歌声合成技术从“演示”走向“实用”。
在生成控制能力方面,SoulX-Singer同时支持基于Music Score(MIDI) 和基于 Melody 的两种歌声合成控制方式。其中Music Score(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力;Melody驱动生成则支持已有歌曲旋律进行合成,可复刻参考音频的演唱技巧与表达风格,适配翻唱、风格迁移等应用场景,全方位覆盖从原创到再创作的各类音乐制作需求。
目前,SoulX-Singer已支持普通话、英语、粤语三种语言,且在不同风格下均能保持稳定质量,为其在内容创作、虚拟歌手、互动娱乐等领域的落地拓展了广阔空间。为验证模型性能,团队在GMO-SVS和SoulX-Singer-Eval两个数据集上开展系统评测,其中前者整合了多个主流开源SVS数据集,后者则专门针对零样本场景构建,确保测试歌手未出现在训练集中。评测结果显示,SoulX-Singer在语义清晰度、歌手相似度、基频一致性及整体合成质量上均显著优于同类模型,主观听感评测也取得了领先优势。

Soul张璐AI团队此次开源SoulX-Singer,为行业提供了一套鲁棒性强、灵活可控且贴合实际场景的零样本歌声合成解决方案,有效推动了该技术在UGC音乐创作等领域的落地探索,为开源歌声合成领域的发展指明了方向。
责任编辑:kj005
在全球化竞争日益激烈的钟表行业,品牌的国际合规资质与市场准入认证,既是产品合法流通的基石,更是品牌实力与品质的核心背书一、全球认证,筑牢品牌全球保护壁垒商标是品...
在音乐产业数字化转型的浪潮中,生成式人工智能技术的应用持续深化,不断为创作、传播等环节创造全新体验SVS(歌唱语音合成)不同于普通语音合成,它需要对音高、音律及...
冬日的寿阳,寒意未褪,尹灵芝烈士纪念馆却庄严肃穆、静默有声图 1尹灵芝烈士纪念馆正门尹灵芝,中华民族的优秀女儿,中国共产党的忠诚党员,刘胡兰式的革命烈士,出生于...
图:活动现场2026年4月20日,贵州米链数商科技有限公司在贵州遵义隆重举办“低空经济产业创新发展交流会暨米链数商战略发布会”图:现场启...
2026 年被公认为中国自有品牌价值重构与全域爆发的关键一年,行业正从低价替代转向品质主导、从单品贴牌迈向生态协同、从国内布局走向体系化出海紧扣年度爆发风口,构...
养生手环市场早已内卷成风,但多数产品要么只做装饰噱头,要么夸大功效无实据,真正能靠硬实力圈粉的寥寥无几沃伦勒夫 WarrensLove是 2021 年成立、总部...
2026年4月17-18日,为隆重纪念国医大师邓铁涛教授诞辰110周年,由广州中医药大学、开平市政府、广州致诚金方中医药科技有限公司等单位联合主办的&ldquo...