這個寒假,有一批失聰的大學生成了冬奧會的遠端志願者,他們來自天津理工大學聾人工學院。這些志願者把電視新聞欄目的內容轉換成手語順序的文本,為冬奧會轉播中需要的AI(人工智慧)手語數字人提供大規模的語料支援。
袁甜甜,天津理工大學聾人工學院副院長,是這些聽障大學生的老師,也是無障礙智慧科技研發中心的成員。她介紹:“無障礙智慧科技研發中心將為冬奧會的實況轉播提供AI手語數字人的手語語料支援,我和學生們已經為此忙了兩個多月。能夠為冬奧會服務,我們充滿了榮譽感。”
教AI認知手語
2021年,創辦中國聾人高等工科特殊教育30年紀念大會上,一個“手語角”吸引了不少人駐足。只要在攝像頭前打出手語,身後的顯示屏上就會出現語意連貫的文字翻譯。袁甜甜展示著這個被稱為“複雜場景下中國手語實時翻譯系統”的《“鯨可語”——多模態連續手語自動標注識別系統》項目(下稱“鯨可語”)。據介紹,在光線充足且穩定的室內,系統對手語的識別率最高能達到95%,部分場景下可以實現“同步翻譯”。研發這套系統的目的,是讓每個健聽人都能輕鬆地看懂手語。其自動標注識別系統“鯨可語”還獲得了去年第七屆中國國際“網際網路+”大學生創新創業大賽主賽道的金獎。
王建源是研發團隊的成員之一。他是聾人家庭長大的聾兒,聽力損失嚴重,吐字發聲非常困難,手語是他和這個世界打交道最初也最有效的方式。22年來,聾人的身份沒有讓他感到自卑;口不能言,也沒耽誤他成為一個妥妥的“學霸”;但如果你問他,因為聽力障礙,從小到大遇到過哪些方面的不便,他會平靜地在手機上打出四個字:方方面面——因為認識手語的人太少了。
一個最典型的例子是看病,如果沒有手語翻譯陪著,即便只是頭疼腦熱,像王建源這樣的“手語族”也很難獨自就醫——絕大多數醫生不會手語。
從1991年9月11日首批6名聾生入學到今天,天津理工大學聾人學院的老師們積累了很多與聾人溝通的經驗。
袁甜甜學的是電腦專業,2006年研究生一畢業,她就在聾人工學院電腦科學與技術係工作。上班第一天,她面對的挑戰就是學手語。通過看文字、讀唇語,學生們能夠了解老師,可是老師不能很快地了解學生。磕磕絆絆地學會了手語,袁甜甜記不清有多少次,淩晨一兩點鐘陪學生去看病,幫忙做手語翻譯。
我國有2780萬聾人,如何依靠科技的力量讓健康人走進他們的世界?袁甜甜、王建源等人開始了“鯨可語”手語實時翻譯系統的研發。
“鯨可語”手語實時翻譯類似于手語版的“語音輸入法”。只不過後者是輸入語音、機器識別、轉成文字,而前者是輸入手語動作和表情、機器識別。
要把人工智慧訓練成一個合格的手語翻譯,得把手勢、表情、大肢體動作,通通從視頻轉化為數據,再“教”給電腦。所以,能充分理解、展示手語之美的聽障生,是最適合給人工智慧當“老師”的人。
很多國外團隊建立的手語數據集無法支援複雜場景下的手語翻譯,一個直接的原因,就是無法找到足夠多的人在自然狀態下採集手語。“而我們的團隊背靠聾人工學院,很多成員本身就是手語使用者,在自然手語的採集上有優勢。”袁甜甜説。
讓健聽人“讀懂”聽障人更重要
冬奧會中,袁甜甜團隊服務的AI手語數字人,能夠幫助聾人更好地理解健聽人的表達,“鯨可語”手語識別和翻譯則是借助科技的力量幫助健聽人更好地理解聾人的表達。這兩者之間有怎樣的區別?
做AI手語數字人,是讓聾人用熟悉的方式去理解健聽人的表達方式,核心研發點是手語生成,而“鯨可語”手語識別和翻譯的核心研發點是手語識別,“鯨可語”這項技術更難。“鯨可語”需要電腦視覺和自然語言識別處理兩種技術:聾人的手語包括表情、手部動作,肢體動作,都需要電腦做融合識別,這是電腦識別技術;把電腦識別出來的資訊用電腦程式再變成健聽人所熟悉的語言模式,這是自然語言識別處理技術。AI手語數字人,某種程度上只涉及自然語言識別處理技術過程。從技術轉化上看,AI手語數字人的産業落地時間會更短,數據上的投入相對較少,更容易將成果市場化。
“為什麼一定要搞手語翻譯呢?聾人聽不到,現在有語音識別啊!有的聾人不會説話,拿手機打字不就行了嗎?”曾經有一些企業向袁甜甜了解過正在開發中的手語實時翻譯系統,想談投資。但談來談去,他們卻對項目的必要性産生了疑問,覺得手語翻譯除了“做善事”沒有其他意義。為什麼還要傾心於“鯨可語”的研發和轉化呢?
“在與學生交流的過程中,我知道對殘障人士最好的關心就是平等。他們不是殘障,只是與我們不一樣。”袁甜甜説。
溝通永遠是雙向的。我們教聽障人寫字、認字,讀唇語,他們在努力融入健聽人的世界;我們健聽人也要為聽懂接納聽障人作出一點努力。
袁甜甜説,直到今天,手語仍然是許多聽障人士最自然、高效的表達方式,“比寫字、打字都快”。但為了促進無障礙交流,要求健聽人都去學手語,顯然不現實。“鯨可語”手語實時翻譯系統就是利用高科技讓健聽人努力向聽障人靠攏。