你知道小冰嗎?你呼叫過小度嗎?你和小娜互動過嗎?你使用過Siri嗎?如果都沒有,那你就out了。它們都是當下很火爆的智慧語音機器人,很多人都和它們聊過天。

日前,美國投資機構Mangrove Capital Partners發佈了2019年《語音技術報告》。報告分析了語音助理服務的日益普及,並預測蘋果2020年將推出Siri作業系統。那麼,究竟什麼是語音技術?它有哪些應用?語音作業系統又是什麼?為此,記者採訪了相關專家。

通過純語音資訊實現與機器交互

與圖像識別、機器學習一樣,智慧語音是人工智慧的一個分支。在人工智慧異常火熱的當下,從Siri到小度,從小冰到小娜,智慧語音正在融入人們的生活之中。

所謂智慧語音技術,就是研究人與電腦直接以自然語音的方式進行有效溝通的各種理論和方法,涉及語音識別、內容理解、對話問答等。一般來説,智慧語音就是利用電腦對語音資訊進行自動處理和識別的技術。

“從引擎模組的角度講,智慧語音技術包括語音前端處理(含語音增強)、語音識別、語音合成、語義理解對話管理和聲紋識別等模組。其中,語音識別就是將語音資訊通過電腦自動處理轉化成文字的過程,也叫語音轉寫,它包括語音分段、端點檢測、特徵提取、解碼以及後處理等過程。”中國科學院聲學研究所(以下簡稱中科院聲學所)研究員趙慶衛告訴科技日報記者。

目前,智慧語音技術主要應用於智慧家居、虛擬助手、可穿戴設備、智慧車載、智慧客服、智慧醫療、陪伴機器人等方面。所謂虛擬助手,就是智慧語音助手,它的核心在於人類通過純語音資訊實現與機器的交互,讓智慧機器“助手”幫忙完成指派的任務。

在趙慶衛看來,語音作業系統是一個比較大膽的設想,基於語音的人機交互有很大的發展潛力,所以不少網際網路企業都看好這個方向。目前,亞馬遜已經打造了一個智慧語音雲平臺(Alexa),平臺上有各種智慧語音應用(8萬種技能),在這個平臺上,用戶可以通過語音發出一系列指令,比如購物、搜索、聽音樂、講故事等。

智慧語音技術的前世今生

事實上,智慧語音技術的研究起源於20世紀50年代。1952年,美國貝爾實驗室製造了一台6英尺高的自動數字識別機“Audrey”,它可以識別數字0—9的發音,且準確度高達90%以上。並且它對熟人的精準度高,而對陌生人則偏低。1958年,中科院電子所的聲學研究室利用電子管實現了10個元音的識別。“由於那時計算能力很弱,智慧語音只能做一些特別簡單的字母或數字的識別。”趙慶衛説道。

20世紀60年代到70年代初,語音識別的研究取得了一定進展。“此時,智慧語音技術開始形成系統的框架,提出了基於線性預測編碼(LPC)技術的特徵提取方法和動態時間規整(DTW)技術,並且使用模板匹配的方法做一些簡單的語音識別(小詞彙量、特定人、孤立詞)”。

從20世紀70年代中期到80年代,語音識別的框架有了突破,統計模型逐步取代模板匹配的方法,隱含馬爾科夫模型成為語音識別系統的基礎模型。同時,也採用高斯混合模型作為聲學模型的主要建模方法,連接詞識別和中等詞彙量連續語音識別得到了較大發展。

“到90年代的時候,基礎的神經網路語音識別模型已經提出。但當時神經網路語音識別模型之所以沒能取得較大的突破,主要是因為當時伺服器的計算能力不夠強以及訓練語音數據的量不夠多。”趙慶衛説,90年代時的神經網路語音識別模型沒能替代傳統方法,此時智慧語音技術還是以隱含馬爾科夫模型和高斯混合模型為基本框架。

從20世紀90年代到21世紀初,非特定人、大詞彙量、連續語音識別系統的研究成為國際語音界研究方向的主流。1997年,IBM首個聽寫産品Via Voice問世,用戶只要對著話筒説出想要輸入的文字,系統就會自動識別並輸出文字。

2002年,中科院自動化所推出了“天語”中文語音系列産品——Pattek ASR;2005年,中科院聲學所推出國內第一個自主研發的電信級語音識別平臺,首次實現了國産語音識別軟體的規模應用,在中國移動23個省的增值業務上線應用,佔據了國內80%市場份額,使美國公司對中國語音識別市場的壟斷成為歷史。

深度神經網路框架成為主流

2010年,隨著伺服器的計算能力大幅提高(受益於GPU的應用)和訓練語音數據的大幅度增加(受益於移動網際網路和雲計算的發展),微軟基於深度神經網路的語音識別研究取得較大進展,“識別錯誤率相對下降20%以上”。此後,深度神經網路的建模優勢被許多國際和國內知名語音研究機構所驗證,業界開始認識到基於深度神經網路的建模框架比原來的框架識別效果明顯要好,“現在大家基本都採用了基於深度神經網路的建模框架。”趙慶衛説道。

最近幾年,基於深度神經網路的語音識別技術也進行了持續的迭代,從基礎的深度神經網路發展到延時神經網路(TDNN)、雙向長短時記憶(BLSTM)以及卷積神經網路(CNN)等;近年來,基於端到端架構(End-to-End)的語音識別系統正在被語音識別的學術界和工業界深入研究,一些系統也已經上線,中科院聲學所將其最新研究成果實際應用於中國行動通訊集團和中國電信集團的客服熱線,智慧技術直接服務了數以億計的客戶。

據了解,中科院聲學所長期致力於語音識別核心技術研究。針對實時語音識別的需求,研究人員提出一種基於混合神經網路(延時神經網路+輸出投影門迴圈單元)的低延時聲學建模技術,可處理長時資訊,網路結構簡潔,計算速度快,易於並行化訓練。該模型結構已作為一種新型的回饋神經網路結構被國際主流語音識別開源軟體Kaldi採納。在非實時語音識別方面,提出基於BLSTM-E(雙向長短時記憶擴展)的深度神經網路結構,提升了現有主流BLSTM的性能,並解決了序列化訓練條件下LSTM(長短時記憶網路)對不同長度語音輸入的魯棒性差的問題。