一邊是聽障人士打著手語,一邊是螢幕上自動“翻譯”出文字。為了讓更多聽障人士被“聽見”,天津理工大學鯨言創益無障礙智慧科技研發團隊用近5年時間,構建起視頻語料庫,研發“複雜場景下中國手語實時翻譯系統”,讓人工智慧技術帶給人們更多便利。
攝像頭前,張益彬左右手交替揮舞,嘴角伴隨手語動作微微上揚,一旁的顯示屏上,“陽光總在風雨後”7個字立刻顯示出來……
張益彬是天津理工大學聾人工學院網路工程專業2019級學生,也是該校鯨言創益無障礙智慧科技研發團隊的成員。在這個近60人的團隊中,超過一半成員是和張益彬一樣的聽障學生,他們用近5年時間構建起一個包含30余萬條視頻的語料庫。如今,團隊打造的“複雜場景下中國手語實時翻譯系統”即將落地應用。
大膽嘗試,將手語實時翻譯為語音或文字
2006年,袁甜甜成為天津理工大學聾人工學院電腦係的一名教師,對她來説,教學最大的困難是交流障礙。
當時,語音識別軟體尚未問世,學生又都是聽障人士,袁甜甜只能硬著頭皮自學手語,“一堂課下來,手舞足蹈,經常滿頭大汗,一望台下,學生們還是一臉茫然。”袁甜甜説,向學生傳遞資訊很難,難上加難的是了解學生的想法。
第二次全國殘疾人抽樣調查數據顯示,我國約有聽障人士2780萬人。“時至今日,手語仍是聽障人士的‘母語’。”袁甜甜説,儘管近年來語音識別軟體普及,但表達的邏輯出發點始終繞不開健聽人,“對於聽障人士來説,聽懂是一方面,但他們最渴望的,還是被‘聽見’。”
2016年底,手語識別系統的雛形開始在袁甜甜腦海中清晰起來。“聽障人士在攝像頭前打出手語,視頻畫面經過電腦的分析處理,轉換為文字或者語音。”袁甜甜闡釋設想,創新的邏輯出發點從健聽人變成了聽障人,也意味著沒有成熟的方案可以借鑒。“這是一次關乎‘表達’的探險。”袁甜甜説。
構建演算法,給電腦編一套手語教材
如果説“手語識別”和“語音識別”還有一些相似之處,那就是二者都必須依託于豐富的語料庫。如今,語音識別語料庫已十分成熟豐富,“語音的語料在自然狀態下非常便於獲取,但手語語料卻非常少。”袁甜甜説。
“另外,語音是一種‘單信道’的形式,而手語是‘多信道’,電腦要識別的不只有動作,還有表情和場景。”袁甜甜介紹,從對數據採集的支撐程度看,我國目前手語語言學的體系性並不強,“手語方言”比比皆是,這就給數據採集造成了極大困難。
“要將設想變為現實,就要先確立標準。”袁甜甜説,她和團隊成員確定了先易後難的思路,基於國家通用手語的標準採集數據,“簡單來講,我們翻譯的是手語裏的‘普通話’。”
王建源是聾人工學院網路工程專業2018級學生,也是鯨言創益團隊的初創成員。他的工作是收集手語語料,這些語料便是視頻畫面。“招募志願者,請他們來錄視頻,反反覆復地錄。”王建源“説”。
王建源從小在特殊學校求學,父母也都是聽障人士,他從不避諱在健聽人面前打出手語,因為他覺得手語很美。“但是,手語的美是複雜的,這個工程量太大了!”王建源笑著“説”。
兩年時間裏,王建源和團隊其他成員幾乎每天都準時出現在學院的實驗室,有時忙到很晚,乾脆席地而睡。如今,他們已經收集到30余萬條語料,“經過測算對比,距離中國漢語水準考試的4級水準僅差100多個詞了。”王建源介紹。
手語是一門視覺語言,有特定的語法、語序。手勢、表情、肢體動作自由排列組合,表達的便是不同的意思。在袁甜甜的設想中,這套系統呈現的內容,不應該是由漢語單詞羅列而成的句子,而是在輸入端和輸出端既要遵循手語語序、語境,也要符合漢語的表述邏輯。
天津理工大學電腦學院研一學生孫悅把自己在團隊中的工作形容為“修橋”。“就拿‘陽光總在風雨後’這句話來説,手語的語序是‘風/雨/結束/陽光’,這顯然讓人看不懂。”孫悅説,她和夥伴們逐漸構建起一套手語識別演算法框架模型,“通俗來説,就是我們給電腦編了一套‘手語教材’。”有了這套“教材”,豐富的語料庫就有了用武之地,相當於找到了手語轉換為漢語的規律,“橋”修通了,數據才能跑得順暢。如今,這個模型已經基本能夠實現“複雜場景下的手語實時翻譯”。
搭建橋梁,手語翻譯應用於更多場景
2019年,袁甜甜領銜的“複雜場景下中國手語實時翻譯系統”入選工信部新一代人工智慧産業創新重點任務揭榜項目,並獲得國家資金支援,這也加快了整個團隊前進的步伐。
去年5月,他們把研究成果帶進了在天津舉行的第五屆世界智慧大會的會場,獲得點讚。“當時系統已經涵蓋教育、法律、餐飲、交通等應用場景,在光線充足的環境下,識別率可達95%。”袁甜甜説,如今,這套系統還在升級,“我們的目標是100萬條語料,基本覆蓋社會生活的常用場景。”
最讓張益彬難忘的是,去年10月,他和團隊合力研發的項目《“鯨可語”——多模態連續手語自動標注識別系統》榮獲第七屆中國國際“網際網路+”大學生創新創業大賽全國總決賽金獎,而自動標注識別是手語翻譯的關鍵一環。這也證明了“張益彬們”的努力得到了國內科創界的高度關注。
聞訊而來的合作方越來越多,這讓團隊成員對於系統未來的應用場景有了無盡暢想。不久前,天津市急救中心也找到他們,希望引入這套系統。“經常碰到急救對像是聽障人士,生命垂危之際,打字交流效率太低了,往往只能用手語表達。”袁甜甜説。
今年之內,這套系統將應用於天津理工大學的辦公樓。到時,樓內大廳將出現一個交互機器人和一塊交互大屏,所有聽障人士都可以被“聽見”。