近日,Soul App AI团队(Soul AI Lab)联合西北工业大学ASLP@NPU团队和上海交通大学X-LANCE Lab开源了语音合成模型SoulX-Podcast。该模型专注于多人、多轮对话场景的语音生成,支持中文、英文、四川话、粤语等多种语种和方言,并具备副语言风格的可控生成能力。与传统语音合成系统相比,SoulX-Podcast能够稳定输出超过60分钟的自然流畅语音,在角色切换准确性和韵律丰富性方面表现出色,有效解决了多轮对话中上下文衔接不自然、缺乏副语言表达等痛点问题。
根据全球最大AI开源社区Hugging Face发布的最新榜单,SoulX-Podcast在发布第二天就登顶TTS模型趋势榜,并且持续霸榜中。Hugging Face平台汇聚了超过百万开发者,每日有大量开源模型在此发布,而趋势榜的排名则真实反映了开发者社区对模型性能的认可。SoulX-Podcast的快速上榜,不仅体现了其在技术上的创新性,也展现了开源社区对高质量语音合成模型的迫切需求。

在技术实现方面,SoulX-Podcast采用了LLM+Flow Matching的语音生成范式。该模型以Qwen3-1.7B作为基座模型,基于原始文本模型参数进行初始化,充分继承了其优秀的语言理解能力。这种架构设计使得模型不仅在多人对话场景中表现优异,在传统的单人语音合成与零样本语音克隆任务中也保持了较高水准。特别是在播客生成任务中,相较于近期相关工作,SoulX-Podcast在语音可懂度与音色相似度方面都取得了较好的结果。
开源之后,SoulX-Podcast迅速在AI社区引发广泛讨论。众多开发者和研究者对模型的多方言支持能力、副语言表达控制以及超长语音生成稳定性给予了积极评价。Hugging Face CEO Clément Delangue也在社交平台上转发了相关讨论内容,进一步扩大了模型的影响力。这些反馈表明,国产开源语音模型正在获得全球社区的关注和认可。

在应用层面,SoulX-Podcast展现出了广泛的可能性。模型的语音合成能力,在AI对话、AI陪伴等社交场景中都有应用潜力。此前,Soul平台上的虚拟人活动就展示了AI语音在社交互动中的价值。而SoulX-Podcast的开源将为AI语音方向进一步发展提供技术支持。模型支持的多方言特性尤其符合当下互联网用户对多样化表达的需求,有助于提升语音交互的亲切感和真实感。
对于未来发展,Soul AI团队表示将持续优化语音对话合成、全双工语音通话等核心交互能力,推动技术在更多应用场景中的落地。同时,团队也将继续深化开源生态建设,与全球开发者共同探索AI语音技术的边界。
值得一提的是,SoulX-Podcast所有相关资源都已公开,包括Demo页面、技术报告和源代码,为开发者提供了完整的学习和研究材料。这种开放共享的做法,不仅有助于模型的进一步优化和改进,也将促进AI语音技术在不同领域的应用创新。
责任编辑:kj005
11月2日,为期两天的全球开源技术峰会 GOTC 2025 于北京圆满落幕一、 盛会落幕,影响力破圈:一场现象级的开源盛宴本届大会交出了一份亮眼的成绩单,充分展...
近日,Soul App AI团队(Soul AI Lab)联合西北工业大学ASLP@NPU团队和上海交通大学X-LANCE Lab开源了语音合成模型SoulX-...
10月29日-10月30日,我国远程与继续教育行业最具影响力的年度盛会——2025(第十一届)中国远程与继续教育大会于北京盛大开幕!会议...
以优质服务赢认可,以卓越表现载荣光!10月30日,四川农业大学2025年继续教育年会在成都举行,由四川农业大学继续教育学院主办,昭明教育旗下重庆市涪陵墨香苑培训...
2025年10月28日至29日,第十届中国国际人工智能大会暨人工智能算力与算法高峰论坛(CIAI2025) 在上海隆重举行在这场聚焦人工智能算力与算法深度融合的...