對人工智慧多點耐心 百度漢語語音識別獲重大突破
- 發佈時間:2015-11-05 07:29:00 來源:中國經濟網 責任編輯:羅伯特
近日舉行的中國人機語音交互領域權威的學術會議——全國人機語音通訊學術會議(NCMMSC2015)上,百度透露其在漢語語音識別方面獲得重大突破。據悉,百度研發出了基於多層單向LSTM(長短時記憶模型)的漢語聲韻母整體建模技術,並成功把連接時序分類(CTC)訓練技術嵌入到語音識別傳統技術建模框架中。該技術能夠使機器的語音識別相對錯誤率降低15%,使漢語安靜環境普通話語音識別的準確率接近97%,未來將大規模應用在百度語音搜索等産品上。
日前,百度語音技術部負責人賈磊媒體專訪時稱,語音識別和大數據、機器學習、雲計算等技術相輔相成,共同推進人工智慧發展。
他表示,機器成本、高效計算等問題,是阻礙語音識別技術發展的幾個重要因素。而百度研究的CTC模型在解碼部分的速度,比傳統模型快5倍到10倍。配合專業的深度學習計算硬體,使後臺消耗大大降低,有助於實現語音識別技術的大規模普及。
一次框架性創新
百度方面透露,該技術創新是一項框架性的創新。這一突破也標誌著,百度在世界範圍內率先攻克了在漢語領域使用CTC技術訓練單向多層LSTM的高精度建模難題。
據了解,2011年深度學習技術引入語音識別領域,推進整個工業界的人工智慧技術應用進入深度學習時代。隨後的幾年裏,CNN(卷積神經網路)、LSTM(長短時記憶模型)、CNN混合LSTM的建模技術在語音識別工業産品中不停涌現,並持續提升語音識別産品效果。
眼下,百度把語音識別的相對錯誤率降低15%,又會帶來何種變化?對用戶而言,是識別率更準、識別速度更快。對語音服務提供者來説,成本會降低很多。
“語音識別正處於産業化爆發的邊緣,但機器計算成本是一個很大的瓶頸。如果線上50%的搜索都由語音完成,而計算成本還和過去一樣,那麼沒有公司能承擔得起。”賈磊表示,語音服務要想大規模普及,必須降低後臺伺服器開銷。
他隨即説,百度語音識別研究的CTC模型在解碼部分的速度比傳統模型快5倍到10倍。配合專業的深度學習計算硬體,當未來語音服務大規模普及時,可以讓後臺計算成本大大降低。對新技術的追趕,需要大數據、大平臺、極致計算等結合做支撐,因此百度這樣的公司在未來有優勢。
改善方言、口音和遠場識別
媒體:既然將把此項技術用到百度語音搜索産品上,對應用時間表、應用前後的産品功能和用戶體驗差別等,能否講講?
賈磊:我預計最早11月末、最遲12月末上線。因為我們做的時候都是比著工業産品的體量去做的,包括模型體積、計算量、訓練速度,全部跟工業要求是一致的,所以可以很快應用到産品中去。
用了之後,首先語音識別會更準,其次由於它的計算量會很小,解碼速度更快,後臺成本就會很低。這個模型對方言和口音的識別效果都有一定的改善,而且對遠場識別也有一定改善。因為它是在一個建模單元的十幾幀數據中提取出來一幀最本質最有代表性的特徵來描述這個建模單元,而這個本質特徵的描述不容易隨著時間、地點而改變,所以對語音識別的穩定性有很大的提升。
媒體:就您研究觀察,未來語音識別技術的發展趨勢以及應用場景如何?
賈磊:第一,想解決口音、噪音的問題,訓練數據還會繼續加大,現在幾萬個小時訓練數據是工業現狀,我相信在不久的未來一定是十萬小時。如果出現這麼大的計算量,對計算能力的需求會更加強烈。所以大數據和高性能計算,是語音識別發展到目前最明顯和清晰的趨勢。
第二,是基於深度學習的個性化識別。人的口音千差萬別,不可能有一個語音識別器識別所有的聲音,一定要實現個性化。而這種基於深度學習的個性化識別,一定需要海量的存儲空間和很大的數據吞吐傳輸能力,這個也只有具有大數據和雲計算這種服務能力的公司能夠提供。
第三個行業趨勢,語音識別技術會和語意理解、交互技術等形成一整套語音的解決方案。因為人使用語音的目的不是把語音轉成文字,而是使用語音去進行交互,並獲得其所需的服務結果。這是未來的工業發展趨勢,單純的脫離了服務、脫離了平臺、脫離了計算能力去做語音技術的時代已經過去了。百度有場景、有內容、有需求,語音一定會做得越來越好。
媒體:語音識別技術要和其他技術,比如大數據、機器學習和雲計算等一起應用,結合技術層面來講,現在時機是否成熟?
賈磊:這些技術是相輔相成的。作為人工智慧學科的同業者,我的感覺是,短期去看人們傾向於高估技術的價值,從長期去看人們傾向於低估技術的價值。
現在,人們可能傾向於覺得人工智慧技術很牛,能夠解決一切問題。但是短期內它沒有解決,因此人就會産生一個心理,這個技術沒用。但是,要對人工智慧技術有信心,企業要敢於投入。當然,初期商業上肯定會有一些損失,可能短時間裏不會為公司帶來商業價值;但長遠來看,有助於研發新技術,並獲得新的商業突破。(文/娜拉)