漫畫:陳春鳴
羊城晚報記者 王倩 實習生 王子衿 曾美玲 通訊員 劉紅艷
偶像劇《親愛的翻譯官》讓翻譯這個高冷行業也火了一把,可就當花癡少女們才下定決心默默啃單詞時,機器翻譯時代已悄悄來到我們身邊。21日,一個由粵澳兩地高校和科技公司聯手組建的中葡英機器翻譯實驗室在廣東外語外貿大學簽約成立,代表全球領先技術的人工智慧工程師和語言學家們預測,機器翻譯時代,以語言為基礎的溝通方式、思維方式乃至社會關係都將發生翻天覆地的變化。
A 澳門現狀 人力翻譯已不能滿足需求
澳門理工學院院長李向玉是土生土長的北京人,畢業于北京外國語大學,精通葡萄牙語,因機緣巧合留在澳門工作了數十年。在他的專業眼光看來,澳門是因為多語言環境而導致效率降低的典型。“澳門的官方語言是中文和葡萄牙語,所有政府部門的公文必須用兩種語言準備兩份,這使得政府的工作量加大了很多,法務公文尤其突出,急需處理的文案堆積如山,為此也導致了民眾的不滿,認為政府效率低下。”國際經濟交流頻繁的澳門,在商務領域,還需要大量中文、葡語和英語的相互轉換工作,因此,基本只有精通中英葡三語的人才才能在澳門遊刃有餘,這給人才引進也製造了不低的門檻。
李向玉還有一個身份是全國政協委員,他以更全局的角度發現,像葡萄牙語這樣的小語種導致的語言障礙在全國性的商貿活動中隨處可見。“內地希望將澳門作為聯繫葡語國家的橋梁和紐帶,現在我們和世界上8個葡語國家的商貿活動都很頻繁,比如廣東和巴西。降低語言障礙,僅靠人力翻譯已經不能滿足需求了。”
李向玉想到的辦法就是大力推廣機器翻譯,以應對天量的語言交流需求。
半個月前,李向玉剛剛前往歐盟,目的正是考察機器翻譯。他發現,在語言非常複雜的歐盟,早在十幾年前就已經開始在公文系統中引入機器翻譯。“由於公文語法規範,格式固定,變化不多,所以機器翻譯效率非常高,只要隨時將新詞補充進詞庫。”李向玉看到,歐盟有一套檢測系統,一份文件經過檢測,可以準確判斷出有多少內容可以完全由機器翻譯。“一般只有10%左右的內容需要人力補充翻譯。”李向玉非常讚嘆。
由此,李向玉和同為全國政協委員的中國翻譯協會常務副會長黃友義一拍即合,決定與毗鄰港澳的廣外和國內頂尖機器翻譯科技公司合作,開展中葡機器翻譯技術、跨語言大數據技術等方向的技術研究,並在澳門落地實施。
B 科技創新 首次嘗試電腦“神經網路”
一邊是終身為翻譯事業奮鬥的語言學家,一邊是機器翻譯科技公司,兩個似乎本應是對立面的陣營為何走到了一起?
答案是,他們要共同開發機器翻譯的“神經網路”。
實際上,不僅歐盟,不少新聞媒體也已“嘗鮮”,引入了機器翻譯。比如央視國際頻道的新聞播報,螢幕上的雙語字幕其實就是機器翻譯完成的,而BBC推出的新聞網頁翻譯也是由機器完成的,在新聞直播時,翻譯字幕只有幾秒的延遲。
但人們對機器翻譯的期望並不只局限于公文和新聞,人們希望能第一時間看到最新的外語影片,只需線上字幕翻譯而不用仰仗“字幕組”;留學生們希望可以走進世界任何一個課堂,通過即時課堂同聲傳譯就能自由學習,而不用再費時費力地先讀語言預科。
“未來這些都可以實現。”合作方之一機器翻譯科技公司的CEO于洋認為,目前的機器翻譯在生動活潑不規範的生活語言領域之所以體驗還不夠好,是因為演算法,只有讓電腦能夠像人一樣思維,才能像人一樣“説話”。
因此,中葡英機器翻譯實驗室會首次在機器翻譯方面嘗試使用“電腦神經網路演算法”,而語言學家的加盟可以讓這項技術得以完善。
什麼是“神經網路”?機器翻譯研究專家程國艮打了個比方:“比如人看到碗筷杯盤這類名詞,即便不直接描述吃飯,也會聯想到吃飯,這就是人的思維方式。而以往的電腦演算法不是這樣,沒有這種聯想,所以人們會覺得電腦與人交流時很笨。神經網路中,資訊也將按照人的大腦完成記憶工作的方式來處理。”
C 語音識別 早已成熟應用卻被抱怨最多
很多人應該都有過被手機語音識別氣得半死的經歷,在機器翻譯中,語音翻譯可能是比文本翻譯更加被普通人急需的功能,但就目前的應用現狀看,“槽點”最多的也是它。但其實,語音識別沒有我們以為的那麼幼弱,在一些習以為常的地方,它們已經發揮了很重要的作用,比如中高考的英語“人機對話”。
廣東省從1999年開始率先增加英語聽力考試,並於2004年增加了口語電腦考試,也就是通常所説的“人機對話”——考生坐在電腦前,戴上特製的耳麥,電腦開始播放聽力試題,考生根據提問一一作答。電腦記錄下考生的答案後,綜合打分。
“如此大規模的聽説考試,如果用人與人面對面的考試方式,不可能像筆試一樣數十萬人同時考試,根本無法完成考試任務,所以廣東採用了‘人機對話’,並在2014年開發了電腦評卷系統,非常高效。”廣東省教育考試院副院長黃友文告訴記者,十幾年的“人機對話”搞下來,高校反饋,廣東學生的英語應用能力明顯提高。
為什麼關係到千萬學子前途的國家考試敢於用這麼“不成熟”的技術?專家解釋,電腦語音識別在特定領域內的確可以比人更出色,即便是主觀題的答案,得分點也都在一些關鍵詞上,很容易被機器抓取。這時,既不會有日常語言中的千變萬化,也不會有背景噪音和含混不清,機器識別反而更準確和高效。
D 機器學習 大數據點燃人工智慧加速引擎
如何讓語音識別技術走下“規範用語”的窄軌,進入日常應用呢?除了前面説到的“神經網路”演算法外,大數據時代的到來,將給語音識別乃至語音翻譯插上翅膀。
“打個比方,人們常常在對話中會出現一時沒聽清楚的情況——你剛才説什麼,請再説一遍?”程國艮給記者看了一段視頻,這是一段極其簡短的語言片段,説的是某種方言,在沒有任何提示的情況下,反覆聽多次也不明白他在説什麼。“這是因為人腦對語言的判斷需要足夠的資訊元素,上下文語境等等背景可以用來幫助我們快速理解語言的意思,當抽離了很多資訊元素時,就很費解了,”程國艮説,“但實驗證明,在這種情況下,依託大數據的機器語言識別能力就超過了人腦,它能‘分析’出資訊不夠的語句背後的完整意思。”
專家們一致認為,翻譯是人工智慧中集大成者,隨著大數據資源庫的不斷膨脹,機器能夠學習的資源越來越多。“比如電腦手機的輸入法,人們每敲擊一次鍵盤,都是在給語言數據庫以及其他各類大數據庫添磚加瓦,機器就是這樣學會了世界各地人們的各種語言習慣包括個性化表達。”于洋説。而要表達一個意思,熟練的翻譯者可以掌握幾種常用句式,但實際生活中,可能有超過100種句式,包括非常個人化的表達方式,這些就是翻譯者無法掌握而電腦卻可以全部學會的。
也就是説,不用擔心未來的機器人説話乾巴巴,它們能夠説的花樣可能你想破腦袋都想不出來。