阿裏首次公佈自然語言處理成果

發佈時間:2017-07-20 16:25:17 | 來源:機器之心 | 作者:佚名 | 責任編輯:胡俊

阿里巴巴AI Labs 將在7月5日發佈第一款智慧音箱設備的消息引發了國內極大的關注,但讀者們不僅不熟悉阿里巴巴AI Labs,對阿裏自然語言處理方面的成果是不是也不理解?這篇文章介紹了阿里巴巴被國際數據挖掘頂會KDD2017收錄的一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智慧問答及分類中的應用》。

上周,關於阿里巴巴成立 AI Labs 的消息不脛而走。事實上,該機構在 2016 年低調成立,主要負責阿里巴巴集團旗下消費級 AI 産品研發,與iDST的定位有所區別。從機器之心收到的發佈會邀請函及其他公開消息看,7 月 5 日,該機構將發佈第一款實體産品智慧音箱設備,它能夠理解中文語音指令,還能讓阿里巴巴的用戶在淘寶上購物,短期內僅面向中國市場發售。

 

與此同時,這次為阿里巴巴智慧音箱提供技術支援的團隊也首次曝光了其自然語言處理成果。一篇自然語言處理(NLP)的相關論文《一種新的語義編碼模型及其在智慧問答及分類中的應用》被國際數據挖掘頂會 KDD2017 收錄。在自然語言處理的兩個核心應用場景------文本分類和智慧問答上,阿里巴巴這套「即刻喚醒,即刻識別」神經網路模型的智慧問答準確率相比微軟的wikiqa數據集和 IBM 的insuranceqa數據集提升了 2-4%,是目前業內最高水準。

該論文的作者、阿里巴巴人工智慧實驗室資深演算法工程師王成龍對機器之心談到這項技術的挑戰,「初期相關模型訓練所需的語料較缺乏,在開發的同時,我們積累起來一批獨有、海量的中文語料,有力支援了我們的模型訓練。神經網路模型的計算複雜度比較高,性能問題是線上應用的一個主要瓶頸,這一方面,我們針對神經網路模型的線上部署做了很多的優化工作,保證在大併發請求下依賴能有較好的性能。

另一方面,基於神經網路的 NLP 方法都依賴分詞,英文的分詞是天然的,而中文是以「字」為單位,這也使新品技術開發的難度有所提高。王成龍説:「英文的句子結構則更加清晰,而漢語重意合而不重形式,句子結構比較鬆散,中文相關標準語料集的缺失也是一大瓶頸。


KDD 2017 將於今年 8 月 13 日召開

1  2  3  4  5  6  7  8  9