騰訊主導!新一代實時語音編碼標準AVS3P10即將發佈

發佈時間:2024-06-26 17:58:37 | 來源:中國網 | 作者: | 責任編輯:喬沐

6月26日獲悉,新一代實時語音編碼行業標準AVS3P10即將正式發佈。

該標準由騰訊提議啟動、推進和維護,以騰訊首款神經網路語音編解碼器Penguins為原型,經過AVS音頻組多家成員單位共同貢獻。

作為全球首個系統性引入人工智慧並實現真正意義上的低碼率下高品質語音編碼標準,AVS3P10的表現達到國際一流水準。僅需現有主流標準1/3的編碼碼率,就能實現同等清晰的音質。

這意味著,今後線上上會議、語音通話等實時音頻場景,頻寬要求大幅降低。即使在電梯、地庫、隧道等網路很差的環境,也能實現清晰流暢的語音通話。

在有限的頻寬條件下,想要將聲音高品質傳遞到接收方,壓縮原始數據、去除冗余資訊的語音編碼技術是其中關鍵。然而,基於EVS、OPUS等現有主流音頻編解碼標準,當碼率降低到10kbps以下時,語音品質下降明顯,影響用戶體驗。

為應對該挑戰,騰訊會議天籟實驗室聯合騰訊AI Lab自研了騰訊首款神經網路語音編解碼器——Penguins。此次AVS音頻組AVS3P10標準採納的騰訊側方案,就是以Penguins為原型。

具體來説,Penguins將AI與傳統技術緊密融合,從演算法研究、工程化、産品化層面做了大量系統性創新,打破傳統香農定律的性能極限,引入大數據並在可控算力增量下提供了新的性能上界,從而對下一代通信系統,尤其是信源編碼器部分,提供了新的技術基礎和方法論。通過AI語音信號建模,提取最核心的特徵參數編碼,再借助深度學習網路,預測並重建語音中的細微結構,最終生成逼真的音頻波形。

多方測試表明,騰訊提交的AVS3P10標準,代表了目前AI Codec的行業最高水準。該標準實現了6kbps下的高品質語音通信,即使在“2G”網路下也能實現清晰通話,且主觀品質非常接近原始參考信號,媲美國際主流的OPUS標準在20kbps的品質。同時,主觀品質對標傳統編碼的中高碼率情況下,編碼效率提升200-300%。

2021年起,Penguins音頻編碼器就在騰訊會議的駕駛模式、弱網模式及QQ語音通話等場景中投入規模應用,支援了億級用戶的流暢溝通。無論是在複雜的網路環境中,還是在高速移動的交通工具上,都能提供清晰的音頻通信體驗。

2023年3月,騰訊團隊在AVS音頻組主動提議並參與標準制定,促進行業的技術進步,即AVS3P10實時語音編碼標準。隨後,騰訊提交基於Penguins的候選技術;經過AVS音頻組交叉驗證後採納。2024年6月,AVS3P10實時語音編碼標準正式完成標準化工作,進入公示階段。

值得一提的是,騰訊主導該標準制定的過程,也被AVS工作組評價為制定速度最快,標準交付品質最高,測試得到充分好評。

“AVS3P10實時語音編碼,作為新一代的語音編解碼技術標準,是對AVS系列標準的重要補充。該標準是當前業界的最高水準,體現了騰訊在語音處理、人工智慧技術創新和用戶體驗方面的實力,將為用戶帶來更好的體驗。”AVS工作組指出。

在編解碼、音頻降噪、語音增強等領域,騰訊會議天籟實驗室正在探索實時音頻通信前沿技術,打造全球領先的實時音頻通信端到端解決方案。同時,通過將更多研究成果應用到騰訊會議等産品中,持續提升用戶體驗,打造“聽得清、聽得真”的極致體驗。

查看網址