新華網北京12月23日電(淩紀偉)從提出到大規模應用,基於統計機器翻譯(SMT)技術的網際網路翻譯系統花費了15年時間。而神經網路翻譯(NMT)技術從2014年9月提出,到百度2015年5月上線首個神經網路機器翻譯系統,只用了短短8個月時間。
12月21日,百度技術委員會聯席主席、自然語言處理部技術負責人吳華博士表示,NMT這一技術帶來了翻譯品質的大幅躍升,極大地提升了用戶體驗。“百度翻譯在中英的測試集上,翻譯品質比之前傳統的方法提升了7個百分點以上。”
眾所週知,機器翻譯距今已有70年的發展歷史。自上世紀40年代起,基於規則、實例以及統計的機器翻譯方法漸次登場,各領風騷。近兩年,神經網路機器翻譯技術異軍突起,取得了翻譯品質的大幅躍升。在2016年學術界頂級會議上,幾乎全是圍繞NMT相關的創新工作。今年9月,谷歌、微軟等公司也相繼發佈NMT系統。
NMT技術緣何受到追捧?據吳華介紹,它克服了傳統方法將句子分割為不同片段進行翻譯的缺點,而是充分利用上下文資訊,對句子進行整體的編碼和解碼,從而産生更為流暢的譯文。
“翻譯如果想做得非常準確的話,是要有一些背景知識,還有偏向知識的。”吳華舉例説,比如在讀文章的時候,是在通讀了這篇文章後我們才能知道一句話的意思。再比如讀英文文學作品時,我們可能認識每個英文單詞,但如果缺乏英文文學積累或者當地文化背景,就不能深入理解作品內涵。
吳華説,這正是機器翻譯下一步要去解決的問題,就是要從篇章上通讀,抓住這個段落或者篇章逐字翻譯,而不是像現在這樣按句翻譯。基於神經網路技術本身,它在長句的處理能力上比某些翻譯要好一些,翻譯品質有很大提升。她説,作為一款翻譯工具,最核心的是翻譯品質,未來幾年百度會基於神經網路技術進一步擴大領先優勢,提高翻譯內容的準確度。
雖然神經網路翻譯技術促使翻譯品質大幅提升,但如果用“信達雅”的翻譯原則衡量當前機器翻譯的水準,吳華認為它還處在“信”的層面,或者説處在相對直譯階段。
隨著百度、谷歌等科技公司陸續推出神經網路機器翻譯系統,有關“翻譯這個職業會被淘汰麼?”的爭論頗受關注。對此,吳華的觀點是機器翻譯在很長一段時間都達不到人工翻譯的精準層次,特別是在對精度要求較高的專業翻譯領域。她認為,機器翻譯如果要取代人工翻譯,其準確度至少要達到90%以上,而目前也就只有70%的水準。
不過,吳華指出,機器翻譯也有一定的自身優勢,它好像是你的一個隨身翻譯官一樣,在對翻譯品質要求不太苛刻的情況下,它能隨身幫你解決生活中的一些實際問題。她以百度翻譯為例説,公交車售票員用百度翻譯幫助巴基斯坦小夥子找回失物、遊客利用『對話翻譯』、『拍照翻譯』功能在國外自由溝通等等,都表明瞭百度翻譯越來越多的融入生活。
據悉,目前百度翻譯支援全球28種語言互譯、756個翻譯方向,每日響應過億次的翻譯請求。此外,百度翻譯還開放了API介面,已有超過2萬個第三方應用接入,華為、OPPO、中興、三星等手機也接入了百度翻譯API。世界智慧財産權組織(WIPO)也將百度翻譯API整合到官網,供用戶將專利資訊翻譯成不同語種查詢。