您的位置: 未來之星>舞蹈才藝>

北京海天瑞聲科技有限公司透過”小冰”和”度秘”看智慧語言技術

發佈時間:2016-05-09 16:28:53  |  來源:中國網  |  作者:  |  責任編輯:王孟召

近日,記者專訪了北京海天瑞聲科技有限公司CEO唐滌飛先生,就智慧語音數據基礎資源在語音交互技術中的應用進行了交流。語音交互技術是人工智慧的關鍵技術,讓機器能聽會説、能像人一樣的學習、理解和思考,成為人類生活和工作的得力的幫手、親密的伴侶,一直是人類的夢想。隨著近半個世紀智慧語音技術的進步和深度神經網路技術(DNN)的工程化應用,人類正不斷的接近這個夢想,這個夢想也同時極大的驅動著智慧語音技術的發展。最初,人們只能讓機器發出類似人的聲音,比如18世紀後半葉歐洲人製造的Kempelen講話機,它能説出有限的詞和短句。經歷了兩個多世紀,現在的“聊天機器人”不僅能以自然度很高的聲音與人交流、還會調侃、賣萌。20世紀50年代AT&T貝爾實驗室的Audry系統,它可以識別十個英文數字。現在,語音識別技術的自然語言識別正確率已經高於95%。

2013年,全球智慧語音産業規模達到33.7億美元。其中,中國智慧語音産業規模達到16.9億元,同比增長95.6%。預計到2014年,中國語音産業規模預計達到30.6億元,佔全球智慧語音産業規模的比重將從2013年的8.4%增長到10.7%。

微軟8月20日發佈的“小冰”,和百度在9月8日發佈的“度秘”,再一次在人群中掀起人工智慧和人機交互的熱潮。

“小冰“是個17歲甜美伶俐的少女,她現在可以陪你文字聊天,很快也就可以和你語音聊天了。那時你會發現,她不僅聲音甜美,反應機敏,還會説好多流行的語言。你要犯二,小冰就調侃你“儂腦子瓦特了”;你要問她一個敏感的私人問題:“你喜歡他嗎?”她就會機智的説:“我喜歡他全家”。

“度秘”的夢想是讓每一個人,不論是一年級的小學生,還是七八十歲的老年人,只要會説話,就都能平等地享受網際網路服務。她不僅可以“聽懂”人的指令和提問,並給予準確的反饋、資訊查詢,還會體貼的噓寒問暖。如果你提問:“那兒有按摩的?”她不僅會幫你找出附近的按摩店,還會關心叮囑你:“忙碌的工作之餘,也不要忽視身體健康喲。”

在這紛繁多彩的應用背後,是近些年來迅猛發展的智慧語音技術,如語音合成(TTS),語音識別(ASR),自然語言理解(NLP),深度學習(DL)等。微軟、百度、蘋果、騰訊等IT巨頭,近些年在智慧語音技術上進行了巨大而持續的科研投入和技術創新。語音技術的識別率,過去是 85%,而現在已經超過 95%。機器人的聲音,再也不是那種生硬冰冷的腔調,它已經初步開始有了類似於人的“情緒”。

但這還不是全部。在這些炫目的語音技術的背後,還有一個雖然沉默、但又至關重要的角色,那就是大規模的語音語料庫數據資源。包括語音和文本語料庫、各類語音語義學詞典等,可以説基礎數據資源庫是智慧語音技術的關鍵性基礎環節,而其中最重要的就是語音基礎數據資源,其規模和品質,在很大程度上決定了各種智慧語音應用的廣度和深度,也極大的影響著用戶的體驗。

為了更深刻的了解在“小冰”和“度秘”聰明伶俐、能聽會説背後的秘密,記者專訪了”北京海天瑞聲科技有限公司(海天瑞聲)”的CEO唐滌飛先生。作為國內、乃至亞洲最大的人工智慧數據資源供應商,“海天瑞聲”在語音合成(TTS)、語音識別(ASR)、自然語言理解(NLP)和機器翻譯(MT)等技術領域的基礎數據資源開發領域,積累了17年的專業經驗。就智慧語音基礎數據資源而言,目前已經擁有116種語言、覆蓋70多個國家和地區的數據資源製造能力。

小冰和度秘對人發出的指令的理解能力,比之前的語音助手錶現要好很多。在百度世界大會上,面對李彥宏的種種刁難,度秘應對自如,不僅幫“廠長”在網上訂了兩杯拿鐵,還訂好了可以帶寵物的餐廳,在網上團購了動畫片電影票。那麼,“小冰”和“度秘”能準確理解人的指令的提問背後的秘密是什麼呢?

唐滌飛先生説,這是由於語音識別(ASR)技術和自然語言理解(NLP)技術的巨大創新和進步,從最初的 DNN 模型到現在的 LSTM 模型,從機器學習(ML)到深度學習(DL),每次技術創新都給用戶帶來了全新的體驗。不僅如此,在訓練語音識別引擎中所使用的基礎語音語料庫,也是至關重要的因素。在設計語料時,需要專業的語言學家根據特定語言的語言學現象,全面考慮語料領域分佈、應用場景分佈、語料時效性等因素,同時借助相應的NLP處理技術和標注團隊來確保數據庫語料池的規模和結構科學合理、音素覆蓋與平衡、句意完整、語義連貫、拼寫正確且易讀可懂,最後再按照發音人分佈、口音分佈、文本分佈、音素分佈、場景分佈等條件通過採用相應的演算法如DTW動態規則演算法對發音人的文本進行抽取形成特定發音的文本。

由於口音、年齡、教育背景和生活地區的不同,不同的人表達同一個意思、問同一個問題,甚至説同一句話,都會有細微的千差萬別。比如,在智慧客服應用中,機器人不僅要聽懂客戶的話,還要能識別客戶的情緒,比如,根據其情緒是焦躁還是平靜,或根據客戶情緒的變化,來判斷他是變得生氣了,還是慢慢消氣了,而採取不同的處理優先級和反饋方式。這就涉及要在訓練語料中引入情緒因素。但目前小冰和度秘還不能完全做到這一點。

據唐滌飛先生介紹,為了讓“小冰”能用自然甜美流暢的聲音説話,大規模的語音合成(TTS)數據庫的設計和開發,從根本性上決定了用戶對她的體驗。在數據庫的設計上,首先要選擇年齡和音質合適的發言人,她的聲音要年輕、陽光、伶俐且充滿活力。其次,在數據庫的設計上,要充分考慮到語言和音素的全面覆蓋,語料主要來自海量的聊天對話語料。為了強調小冰是個有情感的小姑娘,她不僅會一本正經的説話,也會生氣、賣萌,因此,需要在語料設計中增加很多口語化的句子和網路用語,甚至還有網路小説裏的段落。同時,還要有常用的英語詞彙、中英混合詞彙、數字串、地名等專用語料。另外,在人的自然語言中,同一句話在不同的情境裏,説出來的語調和韻律是不一樣的。因此,在語料設計中,還要考慮到這些因素。如此一來,語料庫的規模往往就要在上萬句甚至數萬句。從某種程度上説,語音合成語料庫設計的失敗,會極大的抵消掉語音合成技術的進步。

從小冰和度秘這樣的聊天機器人,到真正的機器伴侶,人類還有一段很長的路要走,還有許多困難需要克服。她必須能更準確的聽懂並響應對她發出的各種指令,還要能“理解”人的情緒變化和情感需要,能進行獨立的“思考“,從而為人提供更接近於真實的人的服務,包括情感支援和慰藉。在語言表達方面,也要更接近人類的真實情感和情緒的表達,要更自然流暢。造成這種困難的原因當然是多方面的,唐滌飛先生從其中一個方面做了解釋,那就是基礎數據資源的缺乏和成本居高不下。如上面所提到的,為了讓聊天機器人能夠盡可能的聽懂、甚至真正能“理解”人的語言和情緒,對基礎數據資源設計者和開發者,就提出了更高的要求。

從國內的基礎數據資源市場看,在2005年之前,可用於大規模工程化應用的大型中文語音數據庫市場還是一片空白。直到2005年之後,市場上才開始逐漸出現了一些以“北京海天瑞聲科技有限公司(海天瑞聲)”為代表的、以工程化應用為主要目的語音數據庫供應商,其中,不僅在中文普通話數據庫,而且在方言、重口音普通話和少數民族語言的語音語料庫開發方面,做了大量的開創性工作。從另一方面講,國內的基礎資源市場現狀仍不容樂觀,還有大量的空白需要填補。簡單來説,目前的現狀是:數據種類少,分佈不均勻,尤其是方言、重口音、外語類資源仍然特別短缺;中小型、適合學術和科研使用的數據雖多但品質較差,大規模、高品質工程化數據資源還是比較稀缺;數據的重復開發情況比較普遍,但重復利用度低,缺乏數據共用機制,也存在著嚴重的智慧財産權問題。

數據庫成本居高不下也是一個很重要的問題,這造成了技術和市場進入的壁壘,導致只有那些IT巨頭們才有能力進行人工智慧的巨大而持久的投入。唐滌飛先生介紹説,海天瑞聲也在不斷的進行數據庫製作的技術創新和採集處理方式創新,目標是不僅能提供更多種類的高品質的基礎數據資源,也能使其生産成本有效的降低。詳詢:http://www.speechocean.com/

 
分享到:
0