Soul张璐团队联合开源支持3种语言的零样本SVS模型破解行业困境

2026-04-21 10:40:34 来源：今日热点网

小大

在音乐产业数字化转型的浪潮中,生成式人工智能技术的应用持续深化,不断为创作、传播等环节创造全新体验。但与此同时,行业内仍缺乏一个真正稳定可用、同时支持零样本(Zero-shot)生成的开源歌声合成(SVS)模型。此前,Soul张璐AI团队(Soul AI Lab)联合开源的歌声合成模型SoulX-Singer,为行业破解这一困境提供了可行路径。

SVS(歌唱语音合成)不同于普通语音合成,它需要对音高、音律及演唱风格进行精细控制,以实现自然且富有表现力的歌声输出。为填补行业空白,Soul App AI 团队(Soul AI Lab)联合吉利汽车研究院人工智能中心(AIC)、天津大学视听觉认知计算团队和西北工业大学音频语音与语言处理研究组(ASLP@NPU),共同研发并开源了SoulX-Singer模型。其核心目标是在未见过歌手音色的情况下,实现稳定、自然且高度可控的歌声生成。

在模型架构上,SoulX-Singer采用基于Flow Matching 的生成建模范式,创新性的将歌声合成问题建模为一种audio infilling(音频补全)任务,并在建模阶段显式引入了note级别的对齐机制。通过构建歌词、MIDI音符与声学特征的精细对齐关系,模型能精准建模每个音符的起止时间、音高及持续时长。这种设计不仅忠实还原乐谱信息,还能在生成中灵活调整音符结构,轻松满足音乐编辑、重编曲等复杂需求。

零样本歌声合成的核心难点的在于对训练数据的规模、多样性和覆盖范围有着极高要求,而SoulX-Singer的优势恰好体现在这里。该模型依托超过42,000小时的高质量歌声数据完成训练,覆盖多语言、多音色及多种演唱风格。即便面对未见过的歌手音色和复杂音乐条件,SoulX-Singer依然能保持优异的鲁棒性和一致性,成功推动零样本歌声合成技术从“演示”走向“实用”。

在生成控制能力方面,SoulX-Singer同时支持基于Music Score(MIDI) 和基于 Melody 的两种歌声合成控制方式。其中Music Score(MIDI)驱动生成支持直接基于乐谱与歌词生成歌声,适用于音乐创作、歌词编辑、歌曲重制等场景,具备音符级别的时长与节奏控制能力;Melody驱动生成则支持已有歌曲旋律进行合成,可复刻参考音频的演唱技巧与表达风格,适配翻唱、风格迁移等应用场景,全方位覆盖从原创到再创作的各类音乐制作需求。

目前,SoulX-Singer已支持普通话、英语、粤语三种语言,且在不同风格下均能保持稳定质量,为其在内容创作、虚拟歌手、互动娱乐等领域的落地拓展了广阔空间。为验证模型性能,团队在GMO-SVS和SoulX-Singer-Eval两个数据集上开展系统评测,其中前者整合了多个主流开源SVS数据集,后者则专门针对零样本场景构建,确保测试歌手未出现在训练集中。评测结果显示,SoulX-Singer在语义清晰度、歌手相似度、基频一致性及整体合成质量上均显著优于同类模型,主观听感评测也取得了领先优势。

Soul张璐AI团队此次开源SoulX-Singer,为行业提供了一套鲁棒性强、灵活可控且贴合实际场景的零样本歌声合成解决方案,有效推动了该技术在UGC音乐创作等领域的落地探索,为开源歌声合成领域的发展指明了方向。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

主摄必须第一？1/1.28英寸超广角扛起均衡影像大旗

“国补”未能拯救的电视，DeepSeek能行吗？

华为或首发国产一英寸大底影像自研成厂商必由之路？

真我Neo7 SE评测：性能强更有长续航，重度游戏玩家新选择

中华网数码

Soul张璐团队联合开源支持3种语言的零样本SVS模型破解行业困境

比5070 Ti要低20%左右？NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K：畅玩电竞，新锐龙依旧锐不可挡！

Intel® Amston Lake：边缘计算与网络通信的强劲引擎

“我是被逼的” 黄仁勋表示：英伟达不能没有中国

相关新闻

聊了100个HR，他们都在问：AI能力到底怎么考？

无畏契约赛事热度持续攀升，游戏建模迎来行业红利，专业建模机构赋能学员高质量就业

WPP Media（群邑）斩获CAMA 2025多项荣誉彰显综合营销实力

新质未来产业发展基金重磅启航以国家级战略资本赋能十五五产业新征程

万森：物理除垢水处理设备多场景长效除垢阻垢

广东省羽毛球协会携手薰风举办2026薰风杯广东省U系列赛事首站圆满收官

影视内容创作走向精细化，后期赛道竞争升级，选择专业后期机构破局成长

2026年实测职场英语APP，这款AI神器让我2个月商务沟通无障碍

沪津快速班列“隔日达”首发成功冠磊供应链开启南北干线物流新篇章！

BOP波普专研斩获生物学界奥斯卡大奖：七年科研深耕生物科技破局口腔护理

数码推荐

数码图片

党建引领护光明服务惠民谱新篇!

礼丝食品集团捐赠爱心瓷砖助力前进中学共守食品安全

破局“生态之困”！青葡萄融合云桌面麒麟版于华为展台重磅宣讲，引领国产化办公新纪元

TATA木门双十一强势领跑创新产品力叠加平台革新开启家居消费新范式

新闻排行

务本发布新品X1Pro「探索者」：12300流明强光探索便携灯再升级

ThinkPad 2026 新品暨天禧 AI 生态发布 | 我・即我们，多重福利同步开启

三星Galaxy S26系列深度体验：长期使用的从容与售后安心之道

从星闪32K到全铝机身：前行者ES68破晓旗舰性能与质感

深圳香蜜丽格x乔雅登｜“乔雅登骨相美学示范中心”正式成立

国家体育总局社体中心与YOTTOY签约健身瑜伽项目战略合作伙伴

绝配供应链与香港大学开展专题沟通加速 AI 自动化解决方案落地

AI FUTURE北京亦庄AI未来大会圆满落幕：两天四场，让每个人看AI的另一面——虚实传媒携手北京亦庄，打造万人级AI行业盛会新范式

聚焦非手术面部轮廓年轻化｜黎京雄院长出席第23届美沃斯研究型大会

2026 AI教育元年：简知科技以全龄·全域·全周期实践，构建终身学习新生态

Soul张璐团队联合开源支持3种语言的零样本SVS模型 破解行业困境

相关新闻

数码推荐

数码图片

党建引领护光明 服务惠民谱新篇!

礼丝食品集团捐赠爱心瓷砖 助力前进中学共守食品安全

破局“生态之困”！青葡萄融合云桌面麒麟版于华为展台重磅宣讲，引领国产化办公新纪元

TATA木门双十一强势领跑 创新产品力叠加平台革新开启家居消费新范式

新闻排行

Soul张璐团队联合开源支持3种语言的零样本SVS模型破解行业困境

党建引领护光明服务惠民谱新篇!

礼丝食品集团捐赠爱心瓷砖助力前进中学共守食品安全

TATA木门双十一强势领跑创新产品力叠加平台革新开启家居消费新范式