SoulX-Podcast登顶Hugging Face TTS趋势榜,开源语音模型获社区认可

近日,Soul App AI团队(Soul AI Lab)联合西北工业大学ASLP@NPU团队和上海交通大学X-LANCE Lab开源了语音合成模型SoulX-Podcast。该模型专注于多人、多轮对话场景的语音生成,支持中文、英文、四川话、粤语等多种语种和方言,并具备副语言风格的可控生成能力。与传统语音合成系统相比,SoulX-Podcast能够稳定输出超过60分钟的自然流畅语音,在角色切换准确性和韵律丰富性方面表现出色,有效解决了多轮对话中上下文衔接不自然、缺乏副语言表达等痛点问题。

根据全球最大AI开源社区Hugging Face发布的最新榜单,SoulX-Podcast在发布第二天就登顶TTS模型趋势榜,并且持续霸榜中。Hugging Face平台汇聚了超过百万开发者,每日有大量开源模型在此发布,而趋势榜的排名则真实反映了开发者社区对模型性能的认可。SoulX-Podcast的快速上榜,不仅体现了其在技术上的创新性,也展现了开源社区对高质量语音合成模型的迫切需求。

在技术实现方面,SoulX-Podcast采用了LLM+Flow Matching的语音生成范式。该模型以Qwen3-1.7B作为基座模型,基于原始文本模型参数进行初始化,充分继承了其优秀的语言理解能力。这种架构设计使得模型不仅在多人对话场景中表现优异,在传统的单人语音合成与零样本语音克隆任务中也保持了较高水准。特别是在播客生成任务中,相较于近期相关工作,SoulX-Podcast在语音可懂度与音色相似度方面都取得了较好的结果。

开源之后,SoulX-Podcast迅速在AI社区引发广泛讨论。众多开发者和研究者对模型的多方言支持能力、副语言表达控制以及超长语音生成稳定性给予了积极评价。Hugging Face CEO Clément Delangue也在社交平台上转发了相关讨论内容,进一步扩大了模型的影响力。这些反馈表明,国产开源语音模型正在获得全球社区的关注和认可。

在应用层面,SoulX-Podcast展现出了广泛的可能性。模型的语音合成能力,在AI对话、AI陪伴等社交场景中都有应用潜力。此前,Soul平台上的虚拟人活动就展示了AI语音在社交互动中的价值。而SoulX-Podcast的开源将为AI语音方向进一步发展提供技术支持。模型支持的多方言特性尤其符合当下互联网用户对多样化表达的需求,有助于提升语音交互的亲切感和真实感。

对于未来发展,Soul AI团队表示将持续优化语音对话合成、全双工语音通话等核心交互能力,推动技术在更多应用场景中的落地。同时,团队也将继续深化开源生态建设,与全球开发者共同探索AI语音技术的边界。

值得一提的是,SoulX-Podcast所有相关资源都已公开,包括Demo页面、技术报告和源代码,为开发者提供了完整的学习和研究材料。这种开放共享的做法,不仅有助于模型的进一步优化和改进,也将促进AI语音技术在不同领域的应用创新。

责任编辑：kj005

文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com

关键词：

主摄必须第一？1/1.28英寸超广角扛起均衡影像大旗

“国补”未能拯救的电视，DeepSeek能行吗？

华为或首发国产一英寸大底影像自研成厂商必由之路？

真我Neo7 SE评测：性能强更有长续航，重度游戏玩家新选择

中华网数码

SoulX-Podcast登顶Hugging Face TTS趋势榜,开源语音模型获社区认可

比5070 Ti要低20%左右？NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K：畅玩电竞，新锐龙依旧锐不可挡！

Intel® Amston Lake：边缘计算与网络通信的强劲引擎

“我是被逼的” 黄仁勋表示：英伟达不能没有中国

相关新闻

全球开源技术峰会GOTC 2025 圆满落幕