中华网数码

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机
当前位置:滚动新闻>

火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军

火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军
2023-02-13 15:58:52 来源:中国网

在刚刚过去的 ICASSP 2023声学回声消除(AEC)挑战赛中,火山引擎 RTC团队联合西北工业大学音频语音与语言处理研究实验室,在通用回声消除 (Non-personalized AEC)与特定说话人回声消除 (Personalized AEC)两个赛道上荣获冠军,并在双讲回声抑制,双讲端语音保护、端单讲背景噪声抑制、综合主观音频质量打分及最终语音识别准确率等多项指标上显著优于其他参赛队伍,达到国际领先水

f766acf2bc5d9c0c1674c72954918d41_1676269053657102.png

其中“N”代表通用AEC,“Y”代表特定说话人AEC,绿色越深代表指标表现越好

ICASSP AEC挑战赛由国际音频顶级会议 ICASSP和微软联合发起,旨在激发声学回声消除领域的研究,自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百度、快手、中科院、西工大等全球诸多知名企业和科研院所的参与。今年的 ICASSP AEC也不例外,参赛队伍之多之强,使 AEC成为 ICASSP 2023各项赛事中竞争最为激烈的赛道之一。

ICASSP AEC挑战赛要求各参赛队伍对 10,000多个来自于真实音频设备和真实环境下的录音数据进行 AEC模型训练,并根据单讲/双讲等场景中获得的主观均意见分以及语音识别率综合评判名次。火山引擎 RTC通过对时延补偿模块、线 AEC模块、残留回声抑制处理模块进行优化,有效降低了 AEC模型的复杂度,提升了回声的抑制效果。同时,通过对训练数据进行增广,使 AEC处理框架可以覆盖更多场景的回声处理问题。最终,团队在远端单讲回声抑制、端单讲信号保护、双讲回声抑制、双讲端语音保护等各子场景中均发挥出色,取得总分第一的成绩。

4fab37585cd8191d5196c4d3075b10de_1676269069906986.png

AEC处理框架

另外,今年的 ICASSP AEC挑战赛首次增加了特定说话人 AEC赛道。过去,通用回声消除技术(Non-personalized AEC)在线上使用较多,特定说话人回声消除技术(Personalized AEC)则更多出现在学术研究领域。随着回声消除应用的场景越来越广泛、越来越复杂,特定说话人 AEC也越来越受到人们关注。延续在通用 AEC领域的技术优势,火山引擎 RTC在特定说话人 AEC赛道也荣获冠军。

传统 AEC +深度学双管齐下,解决复杂双讲场景中的回声消除难题

回声消除是音视频通话中最难的音频技术之一,而“双讲”则是回声消除应用中最复杂的场景。在视频会议、线上小班课等多人音视频通话场景中,如果端和远端同时说话,远端的声音信号通过扬声器播放出来,又和端的声音混合在一起被麦克风采集进去,远端就会听到回声,且听不清端的语音内容。双讲场景回声消除比普通场景回声消除难度要大——因为既需要把远端的回声尽量消除干净,又不能矫枉过正,保护端的语音信号尽量不被损伤。

以下是火山引擎 RTC在双讲场景的回声消除效果。

518e6433fe0c062ae27304edc2fef9ce_1676269082594541.png

处理前声纹(上)

处理后对声纹(下)

9628e21b3a3b934f2407c1b82c35b747_1676269086424862.png

在双讲场景中,当回声的能量远远高于目标说话人的能量(比如扬声器离麦克风太或其他原因),就会形成超低信回比场景(比如-20db以下)。下面这段样本中,女声为目标说话人语音,男生为非目标说话人语音(回声),目标语音几乎被非目标语音完全覆盖了,回声消除挑战极大。

09268097cd6ca75fc4180f38358ce072_1676269104953751.png

超低信回比双讲场景处理前的声纹

火山引擎 RTC对 AEC处理框架中的线 AEC模块和残留回声抑制处理模块进行了创新优化:在线 AEC模块中,保护端语音不受损伤的同时,最大程度抑制回声中的线成分,减轻后续残留回声抑制模型的负担;在残留回声抑制模块中,基于低延时深度学网络来抑制回声中非线残留成分,同时在特定说话人回声消除 Track上额外引入说话人声纹信息,在去除回声的同时也抑制非目标说话人的语音。通过以上处理,火山引擎 RTC在超低信回比双讲场景中也取得了优秀的回声消除效果。

4d6fffc35a5462ec4106a339ae0e31ea_1676269108313568.png

超低信回比双讲场景处理后的声纹

为线上各类互动场景提供更清晰、动听的音质体验

视频会议、在线教育、语聊房、游戏开黑、在线 KTV、“一起看”、“一起玩”……线上互动场景正变得越来越丰富,对 RTC的技术挑战也越来越高,比如更饱满的音质、更清晰的画质、更流畅、稳定的使用体验等等。在音质方面,火山引擎 RTC基于自研语音编码器 NICO,结合深度学的 3A算法、AI降噪算法、语音检测算法等技术,不断提升音频的编码质量、抗丢包能力和处理能,已成功为抖音世界杯“边看边聊”直播间、飞书视频会议、《Mobile Legends: Bang Bang(无尽对决)》等提供高质量的音频服务。

ca404a298865041d829922946adde9c5_1676269112364656.png

未来,火山引擎 RTC还将不断探索前沿音频技术,并与业务场景高效结合,打造更具针对的场景适配策略,持续为各类线上互动场景提供更清晰、更动听的音质体验。

点击阅读原文,了解产品更多信息。

https://www.volcengine.com/contact/product?t=rtc&source=%E4%BA%A7%E5%93%81%E5%92%A8%E8%AF%A2

责任编辑:kj005

文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com
关键词:

个保法颁布一周年:个性化广告发展需平衡隐私保护与用户体验

2022-11-14 11:53:20个保法颁布一周年:个性化广告发展需平衡隐私保护与用户体验

2022年全球折叠手机总销量将首度超过千万部大关

2022-02-09 11:40:212022年全球折叠手机总销量将首度超过千万部大关

印度市场智能手机出货量出炉:vivo占比排名第三

2022-02-08 11:19:13印度市场智能手机出货量出炉:vivo占比排名第三

平板电脑进入新的竞争阶段 重新夺回市场主导权

2022-02-07 16:52:08平板电脑进入新的竞争阶段 重新夺回市场主导权

2021年四季度中国手机市场苹果占有率位居第一

2022-01-27 13:33:342021年四季度中国手机市场苹果占有率位居第一

预测2022年中国市场智能机销量达3.4亿部 同比增长8%

2022-01-26 14:57:26预测2022年中国市场智能机销量达3.4亿部 同比增长8%

相关新闻