近年來,自動語音識別(Automatic Speech Recognition,ASR)技術突飛猛進。所謂自動語音識別包含了平時説的電腦語音輸入。它作為人工智慧領域中較為成熟的一項技術,基本上已經幫助我們實現了“出口成章”的願望。
例如,2016年9月,浙江省高等法院已經開始使用自己研發的智慧語音識別系統進行庭審記錄,並且這套系統會針對法律文書習慣進行自動糾錯。同年底,來自國內某科技公司全新的語音輸入系統,在噪聲環境下的響應速度超乎大家的想像,準確率達到97%。與此同時,國內某網際網路公司開發的語音識別系統在技術指標方面同樣不分伯仲。
如此驚人的準確率基本可以匹敵人類的水準。這完全得益於重新回歸整個工業界視野的“解凍”技術——深度學習。深度學習的核心是構建一個深度神經網路。一個簡單的神經網路一般是由點、邊和層級來描述的。其中,網路的點就是大腦神經元,網路的邊就對應著神經元之間的相互連接,層級可以理解為近似表示不同大腦功能區。所謂的深度學習,可以理解為是通過構建多個層級的點和邊來描述不同大腦功能區內部及之間的神經元連接,通過大量數據訓練(驅動),描述一些抽象的資訊在大腦中的傳遞。這種模型訓練(驅動)的模式類似于一個小孩開始學習周圍環境的知識。
但是,深度學習或者説神經網路的發展並不是一帆風順的。在隱馬爾科夫模型和貝葉斯模型佔據語音識別技術制高點的時期,這種技術在工業界的應用並沒有得到太多的表現。受制于模型學習時間長、硬體加速困難以及所需訓練數據量過大,基於神經網路的語音識別一時出現了“冷凍期”。甚至在較長的一段時間,國內外與之相關研究經費都在被削減。但大約在2006年以後,三個重大改變助力了這項技術的崛起:
第一,圖形處理器(GPU)在硬體層面大大地提高了模型的訓練速度;
第二,國內外科技大公司和研究機構(如百度、科大訊飛、微軟等)在前期投入大量人力對大數據的獲取和標記,已經形成了大數據的規模,網際網路近十年來積累的數據量是爆炸式的;
第三,針對多層級的神經網路模型的訓練,一些預訓練(pre-training)和調試技巧被開發出來。
此外,各個主力研究機構的軟體開源也大大降低了他人在系統開發上的時間成本和技術門檻,這也促進了深度學習快速發展。
在語音識別領域,目前表現較為優異的深度學習模型應該是遞歸神經網路。訓練這種模型的本質就是通過前一個時期和此時此刻的資訊,預測下一個時期的資訊。這就好像是每天課堂上老師會讓學生重復一下前一天的上課內容,並在當天課後給出下一節課的內容。通過這種“鞏固—學習—預習”模式,這種模型不僅可以學到一段語音的語言模型(語言的上下文),還能學到語音信號中的連續變化,例如發音動作的連續改變。國內某科技公司的語音識別系統基本也是在這個基礎上再進行開發的。
但是,目前語音識別系統的開發還存在幾個急需要攻克的難點:
一是自然語言理解(語義理解)。人類可以通過説話者的表情、手勢以及説話語氣推測説話人的語義,但這個平常我們無時無刻不在使用的技能,要讓電腦學會可不是件容易的事情。
二是口音和方言對語音輸入識別的影響。不同人的説話風格(例如咬字、吞音等現象)以及語法使用的不規則性也會大大降低人機交互的效率和準確性。在中國,漢語方言對語音識別是一個不可避免的影響。中國的漢語方言差異可以和印歐語系中不同語族的差異相提並論。方言在語音、詞彙和語法結構上的多樣性對語音識別産生了較多阻礙。幸運的是,國內諸多科技公司已經開始著手建立漢語方言的語音數據庫,並在此基礎上獲得了一些突破性進展。
三是場景聲音的識別。遠場的語音環境或者較大噪聲的環境都會削弱語音信號中具有辨識意義的信號,這會導致語音識別的失效。據不完全統計,在噪聲環境中的車載系統語音識別上,國際上最優秀的語音識別系統的識別率也僅有86.9%,第二名的識別率只有74%。
四是期望使用更少的數據。語音識別所依賴的深度學習技術還需要大量已標記的語音數據進行訓練和驅動,但是這類數據的標記是一個耗時耗力耗財的工作。目前只有極個別的研究機構以及科技巨頭具有這樣的數據量。如何使用更少的數據獲得一個可靠的語音識別系統會是下一個發展目標。
作為一種新的面向人工智慧的交互方式,語音識別或者語音輸入已經在輸入法上得到廣泛應用,使得手機文字輸入可以擺脫對雙手的依賴,轉而使用最自然的方式進行語言的表達和輸出資訊。這已經開始改變年輕一代用傳統鍵盤輸入的習慣。在據某網際網路公司公佈的2016年語音輸入使用報告中,80後和90後年輕人已經成為該技術的主要用戶群體。雖然語音識別已經展現了超越鍵盤輸入法的優勢,但是這種技術對於使用者的使用環境有著較多的要求,應用場景往往受到限制。
未來,隨著人工智慧技術的不斷發展、使用人群的逐步擴大及用戶習慣的日益養成,語音輸入的應用領域還將持續擴大。
未經允許不得轉載:網信浙江 » “出口成章”:語音技術的突破