您的位置: 技術市場>人工智慧>

多模態人機交互讓虛擬人“活了”

發佈時間:2022-01-24 10:57:18  |  來源:中國電子報  |  作者:張依依 許子皓  |  責任編輯:徐麗麗

“你好,小布!附近有什麼好吃的?”用戶的話音剛落,手機上就出現了一個小窗口,附近飯店的排名便一目了然。對話中的“小布”是OPPO手機自帶的智慧助手,在前段時間成為業界首個基於“虛擬人”多模態交互的手機智慧助手。去年年末,“虛擬人”市場快速升溫。除OPPO之外,京東、百度、阿里巴巴等科技企業都推出了自己的超寫實數字人,B站還專門為虛擬主播開設分區,“虛擬人”已經走進了人們的生活。


“虛擬人”受到熱捧的重要原因之一,是人們對人機交互的更深層次需要。從單純的文本到語音,再到電腦視覺等技術的融合,人的天性更傾向於融合視覺、聽覺等多種感官的交互過程。而“虛擬人”背後的多模態人機交互技術,恰好能夠滿足人們對外界資訊獲取逐漸升維的需求,讓“虛擬人”看起來像人、聽起來像人,更加具備人的溫度。


“虛擬人”背後的技術支撐


人機交互走過了鍵盤交互、觸摸交互、語音交互等若干階段。如今,由於用戶對人機交互的便利性、自然性以及準確性提出了更高要求,更加智慧化且能夠理解用戶意圖的多模態人機交互,開始成為人機交互發展的重要趨勢。


在接受採訪時,OPPO小布助手首席架構師萬玉龍向《中國電子報》記者表示,當深度學習演算法在各技術方向逐漸趨於産業化後,智慧交互變得愈發重要。在這之後,感測器、視覺技術、語音技術和自然語言處理技術等都進行了迭代升級,多種技術的融合形成了多模態人機交互方式。


通過文字、語音、視覺的理解和生成,結合動作識別和驅動、環境感知等多種方式,多模態人機交互能夠充分模擬人與人之間的交互方式。萬玉龍舉例,在地鐵、銀行、商場等複雜環境下的服務類機器人就是結合感測器、人臉識別、語音交互等技術,來幫助人們完成資訊查詢、購票、商家導航等任務。


現階段,多模態人機交互領域最火的代表就是“虛擬人”了。萬玉龍向記者表示,得益於元宇宙概念的大火,“虛擬人”這一元宇宙世界的“小切口”也得到了業界的廣泛關注。


2021年第三季度,OPPO推出智慧助手小布的首個“虛擬人”版本,為“虛擬人”市場再添一把火。相關資料顯示,小布“虛擬人”涵蓋了視覺、語音、自然語言處理等多模態融合演算法,採用多種基礎創新技術,可以實現與用戶在多個場景生態下的內容服務、實時交互以及情感化交互。


作為多模態人機交互領域的重要成果之一,“虛擬人”依靠前端聲學處理、語音喚醒、語音識別、對話理解和管理、語音合成、電腦視覺和圖形學等技術支撐。萬玉龍告訴記者,語音交互是在對話理解的基礎上,通過對話管理生成對應的回復話語和內容服務,結合語音合成技術(TTS)生成播報音頻;虛擬人多模態交互則需要在此基礎上,進一步理解播報文本所蘊含的表達資訊,通過文本和語音分析,生成對應的表情、口形和動作。


“除了口形以外,要想呈現出眼部、臉部的表情,以及我們説話或者非常開心時做出的動作,都需要3D人物設計和建模,並實時地根據表達內容預測人物身體各部位的驅動參數,進而結合渲染引擎實現對人物模型的驅動。”萬玉龍舉例,某個人在説“大”的時候,他的口型就會張得很大,然後説字母“O”的時候,口型會呈現出一個圓形。


為了讓智慧助手變得更加智慧,人機互動過程還會涉及知識圖譜、內容推薦等寬泛的技術領域。


AI學習還需要大量數據積累


現階段,虛擬人在三個環節上存在關鍵性的技術難點。萬玉龍向《中國電子報》記者指出,第一,從形象生成來説,用戶會越來越希望他們所構建出來的“虛擬人”十分逼真,比如髮絲、衣服的紋理等很細緻入微的特點都能完美呈現。只有“虛擬人”真正像一個活生生的人站在用戶面前,用戶才能感覺到自己與虛擬人之間的距離被拉近。


“但要實現這一點,涉及的技術其實非常多,處理起來會非常困難,且製作成本居高不下。”萬玉龍對記者坦言。


第二,在形象驅動方面,“虛擬人”的行動需要呈現得更加流暢和自然,而不是像機器人那樣僵硬。人在交流表達的時候,不管是手、眼還是表情,所有的肢體動作都是根據表達的內容和情緒變化的。但“虛擬人”想要達到這點,還需要更強大的AI機器學習和深度學習能力。AI只有在積累了大量真人表情、肢體表達的數據之後,才會慢慢趨近於真人,但這是一個非常漫長的過程。


第三,形象互動對於虛擬人來説尤為重要,因為“虛擬人”最大的賣點就在於互動性。如果“虛擬人”不能為用戶提供自然、舒適的交互體驗,用戶很快就會失去興趣。但這種互動性的提升其實並不簡單。比如,人在回答問題時,通常會結合語句上下文,運用自己的背景知識很快給出合適的答覆。智慧虛擬人助手則需要通過學習大量人跟人的對話數據,來構建和豐富知識庫。這些數據的獲取並非易事,因為AI學習所需的數據量十分龐大,且需要不斷更新,其中的難度不言而喻。而且,在獲得數據之後,AI還需要對獲取的數據進行品質把控和篩選,很難做到逐一排查。AI如果沒有辨別能力,在學習完數據之後很難對學習到的內容進行修改,所以有些不合時宜的語句很可能會對用戶造成不良影響。


另外,假設人們問AI一個知識點,它也許會從知乎或者其他網站上選一個答案進行反饋,但這就涉及智慧財産權的問題,同時AI所學習到的知識也無法保證具有絕對專業性。比如,人們在生病的時候不能去詢問智慧虛擬人助手自己該吃什麼藥,因為無法保證所獲取的答案的專業性。如果“虛擬人”助手給出一個錯誤的答案,人照做了健康就可能會出現問題。綜上所述,“虛擬人”要想與用戶進行無障礙且自然流暢的交流,還需要更多的技術積累與沉澱。


向具備更多應用價值的領域拓展


儘管“虛擬人”在技術上尚存難點,但近年來,底層技術其實也在不斷進步。萬玉龍對《中國電子報》記者表示,不管是語音識別、對話理解、語音合成等語音交互技術,還是唇形驅動、表情驅動等多模態驅動參數預測技術,建模流程和方案都變得更加簡單。


“從機器學習的模型層面來説,演算法的迭代已經讓模型訓練和調優進入到了門檻越來越低的階段。”萬玉龍表示。


算力的提升也會讓“虛擬人”形象更加接近真人。萬玉龍告訴記者,手機等設備端的算力正變得越來越強,雲端伺服器的算力也在不斷增強,促使AI工程師們可以生成更加複雜、更加真實的人物形象。


2021年,英偉達CEO黃仁勳的一段“虛擬人”演講視頻風靡全球,英偉達推出的Omniverse平臺進一步走入大眾視野。據了解,Omniverse平臺是英偉達推出的實時3D設計協作和虛擬世界模擬平臺,旨在通過將圖形、AI、模擬技術和可擴展計算整合到一個平臺上,成為連接虛擬世界的基礎。


萬玉龍表示,借助自身強大的GPU算力,英偉達構建了一個看上去比較真實的人物形象。這進一步表明,目前的算力確實提升了一個臺階,算力的提高也讓超寫實人物的渲染變得更具可行性。一方面是對話式AI技術的不斷升級,另一方面就是虛擬人物的形象構建能力越來越強,整個對話體驗也變得更加智慧。對話理解、知識圖譜等認知能力的建設更上一層樓,助力“虛擬人”産品化的能力日益提升。


有人説,汽車是下一代移動終端,有望成為實現人機互動、情感交互的移動載體。那麼,“虛擬人”是否有可能出現在智慧座艙領域?


在萬玉龍看來,不管是手機還是汽車,其實都可以被視為智慧交互載體。OPPO推出的小布“虛擬人”目前的著力點主要還是在提升手機、電視、可穿戴設備等智慧設備的交互體驗。萬玉龍表示,在智慧座艙等設備形成一定的規模之後,智慧助手在這些設備中一定會有與用戶頻繁交互的機會,所以必然會産生一些場景的應用價值。只要是有應用價值的領域,“虛擬人”的觸角其實都是可望又可即的。(記者 張依依 許子皓)


 
分享到:
0