首個支援30種方言混説語音大模型亮相

發佈時間：2024-06-17 16:56:14 | 來源：科技日報 | 作者： | 責任編輯：科學頻道

記者6月16日獲悉,中國電信人工智慧研究院發佈業內首個支援30種方言自由混説的語音識別大模型——星辰超多方言語音識別大模型。它打破了單一模型只能識別特定單一方言的困境,可同時識別理解粵語、上海話、四川話、溫州話等30多種方言,是國內支援方言種類最多的語音識別大模型。

基於幾億用戶和豐富應用場景優勢,中國電信人工智慧研究院構建了超30種、超30萬小時的高品質方言數據庫,推出星辰超多方言語音識別大模型。研發團隊通過超大規模語音預訓練和多方言聯合建模,率先實現單一模型支援30種方言自由混説語音識別,是國內支援方言種類最多、覆蓋人口最多的語音大模型。

團隊首創“蒸餾+膨脹”聯合訓練演算法,解決超大規模多場景數據集和大規模參數條件下,預訓練坍縮的問題,實現1B參數80層模型穩定訓練。星辰超多方言語音識別大模型也是業內首個開源的基於離散語音表徵的語音識別大模型,將推理時語音傳輸比特率降低數十倍。

據悉,星辰超多方言語音識別大模型已在福建、江西、廣西等地的智慧客服試點應用。接入大模型後,智慧客服能秒懂30種方言,日均處理約200萬通電話。星辰超多方言語音識別大模型還落地多地市12345平臺,為客服人員賦能,提升溝通效率,助力政務工作智慧化升級。