AI驅動,多形態“數字人”如何推動數字時代變革?

發佈時間:2020-04-03 09:22:25 | 來源:中國網 | 作者:一鳴 | 責任編輯:張青

在2019年數博會上,《連線》雜誌創始主編及暢銷書《失控》的作者凱文·凱利發表了以“數字孿生,鏡像世界”為主題的演講,演講中凱文·凱利描繪了對未來20年數字世界的想像:在未來的世界裏,真實世界裏的每個東西都會有一個晶片,整個世界都將被數字化,一切都將在虛擬數字世界裏有一個複製品,像是現實世界的一面鏡子。”

那麼,在這樣的數字世界,你也許只需一個數字替身或者虛擬數字人,通過它便能更深入看到和理解這個世界的全貌。

“虛擬數字人”的歷史淵源

虛擬數字人,是存在於數字世界的“人”,通過動作捕捉、三維建模、語音合成等技術高度還原真實人類,再借助AR/MR/VR等終端呈現出來的立體“人”。我們在好萊塢科幻電影中看到的各種外星人,都是數字人技術的應用成果。

AI驅動,多形態“數字人”如何推動數字時代變革?

其實,“虛擬數字人”概念最早起源於1989年美國國立醫學圖書館發起的“可視人計劃”(Visible Human Project, YHP),2000年南韓開始了可視人研究的5年計劃。當時“數字人”主要用於醫療領域,以VHP數據集為基礎,全世界的科研工作者在圖像處理、三維建模、可視化軟體開發等很多領域取得重大成果。而在國內,2001年,以“中國數字化虛擬人體的科技問題”為主題的香山科學會議第174次學術討論會首次提出了“數字化虛擬人體”的概念,所以“虛擬數字人”其實並不是一個新鮮的概念,隨著5G萬物互聯時代的到來和深度學習和卷積神經網路(CNN)利用大量的視覺推動基於人工智慧(AI)的電腦視覺迅速改進,虛擬數字人在人們的日常生活中有了更實際、廣泛、深度的應用,例如影視動漫、數字行銷、文化旅遊、通訊會議、教育教學等領域,並逐漸打破現實世界和虛擬世界的邊界。

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:世界地理雜誌官網)

“虛擬數字人”的産生是有多方面原因,電腦視覺、深度學習和語義理解

方面的創新;3D成像感測器和硬體成本的降低;商業模式的轉變和消費升級的趨勢對生産力效率與成本提出了更高要求等,但根本原因還是資訊成本的指數級降低,按照摩爾定律,每隔一年半到兩年,資訊處理效率翻一倍同時成本減半,這將推動了整個電腦視覺行業的發展,實現史上“虛擬數字人”能夠比人類更好的完成任務。

根據全球調研機構MARKETS AND MARKETS估計,全球容積視頻市場規模將從2020年的14億美元增長到2025年的58億美元,2020年至2025年的複合年均增長率為32.8%,推動這一市場增長的最重要因素是娛樂和AR/VR應用中對 3D內容日益增長的需求,同時隨著 AR/VR HMD等內容交付設備的激增,屆時“虛擬數字人”將在三維視頻市場中發揮重要作用。

AI驅動,多形態“數字人”如何推動數字時代變革?

數據來源:《Volumetric Video Market by Volumetric Capture 》MARKETS AND MARKETS 2019

AI驅動,多形態“虛擬數字人”花樣百齣

目前,超寫實“虛擬數字人”、倣真“虛擬數字人”、卡通“虛擬數字人”等多種形態的“虛擬數字人”花樣百齣。從技術角度出發,這些多形態“虛擬數字人”主要應用了動態三維重建、CG結合動作捕捉、倣真人體模型、卡通建模結合語音合成等AI技術。其背後,是機器學習新演算法(深度學習)的出現、運算力的提升、數據量的上漲、電腦視覺“基礎設施”的日益精進等,這些都為“虛擬數字人”提供了充分的“養料”。

基於動態三維重建的“虛擬數字人”

基於動態三維重建的超寫實“虛擬數字人”,是根據光影驅動的實時動態重建方法,並引入了動態對象的骨架運動和體態先驗,實現了深度相機的實時人體動態三維重建。這類型“虛擬數字人”突破了人體動態重建需要多相機從不同角度進行聯合採集的前提假設,不僅實現了360度全視點重建人體模型,還可以同時獲得動態人體的體態(胸圍,腰圍等)和三維骨架運動資訊。事實上,國外企業Microsoft微軟、4DViews、8i和國內企業疊境數字,在探索基於動態三維重建的“虛擬數字人”應用上投入了數年的專注研究和鉅資,他們將其視為未來數字世界發展的關鍵。

4D Views

Raise Virtual to Reality

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:4D Views官網)

2017年4月份,4D Views推出了一款免費的應用4DViews: Raise Virtual to Reality,適用於Android和 iOS設備。4D Views通過動態三維捕捉系統,拍攝演員的動作,然後通過軟體為虛擬環境生成逼真的全息圖,然後把虛擬人物放進真實世界,打造接近真實人類的體驗。因為 4DViews捕捉的不止是人的表情或身體模型,而是整個環境,光和陰影都存在,所以稱作 4D。法國 ARTE電視臺製作的紀錄片《羅馬的命運》中用到了 4DViews的系統,裏面涉及到古羅馬時代的軍隊,士兵數量龐大。

Microsoft微軟

Mixed Reality Capture Studios

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:Microsoft官網)

2017年10月,Microsoft微軟開設了舊金山混合現實捕捉工作室及混合現實學院,幫助開發者進一步學習和創作混合現實內容。在微軟混合現實捕捉工作室中,採用了兩種不同類型的攝影機實現360度記錄真人的動作、表演,甚至包括手部細節和面部表情。內容錄製後,客戶能夠在增強現實(AR)、虛擬現實(VR)、以及 2D螢幕環境下,與之進行全息交互。目前,該技術主要是為娛樂創造內容,但教育和培訓也是一個日益龐大的市場。

疊境數字

高精度重建虛擬數字人

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:疊境數字官網)

2019年8月,疊境數字在世界人工智慧大會上推出了實時的動態人物三維重建技術,實現了上百個深度相機進行動態人物的360度實時重建系統。不同於CG結合動作捕捉生成三維模型,該系統提供了雙目視差、移動視差、選擇性聚焦三方面的視覺資訊,讓傳統的二維平面圖像提升到了四維光場圖像,再利用AI演算法驅動表情動作、基於深度學習的光線追蹤演算法等,快速生成一個超高精度的虛擬數字人。該公司表示,實際上早在2016年,就已經開始了動態人物三維重建的研發和應用,而其中最核心的技術是實時渲染演算法,通過特殊的光場渲染技術,實現了細微表情、毛孔斑點、服裝材質等細節的超高精度還原。基於這項技術,2020年初疊境與中國移動、中國聯通、芒果TV合作了5G AR明星互動應用。

GoogleRelightables系統

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:Google官網)

隨著市場對AR三維視頻的需求開始逐漸增長,2019年11月,谷歌在ACM SIGGRAPH亞洲展覽會上展示了一種包含330可編程LED燈泡和約100個攝像頭的球形設施Relightables系統。谷歌Relightables系統可完美還原人物周圍的光影效果,使得合成的影像看起來更加逼真。該系統的核心是不僅能捕捉人身上的反射資訊,還能記錄人在 3D環境中自由移動時的資訊,因此,該系統能在任意環境中産生高解析度、照明獨立、可調光源的動態人體3D模型,可用於遊戲、電影等應用場景。

基於CG結合動作捕捉的“虛擬數字人”

騰訊數字虛擬人Siren

動作捕捉+實時渲染

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:騰訊官網)

2018年5月,騰訊公佈了一個名為“Siren”的研究項目,這是由騰訊、Epic Games、Cubic Motion和3Lateral企業合作打造的一個虛擬人物。操作者需要將一套特製的設備戴在頭上,這一設備會實時跟蹤200多個面部特徵點,再把這些特徵點實時反映到系統構造的3D臉部模型上,最終呈現為以每秒60幀輸出的動作表情。

根據騰訊官方介紹,Siren的所有動作表情都由實時捕捉以及實時渲染形成,其中實時動作捕捉,被分成兩部分。一部分是動作捕捉,一部分是表情捕捉,分別採用了Epic Games公司的虛幻4引擎,Vicon動作捕捉技術和3Lateral的面部實時解算技術。

數字王國虛擬替身DigiDoug

可實時操控的虛擬人

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:數字王國官網)

在TED2019上,數字王國通過借助NVIDIA RTX和Epic Games開發的遊戲引擎虛擬引擎,實現了表情和動作的實時捕捉,從而打造逼真的虛擬人DigiDoug。DigiDoug是數字王國基於Doug Roble(數字王國軟體研發部門負責人)構建的虛擬形象,它採用了慣性運動捕捉套裝,同時搭配支援輕量單一攝像頭的面部動畫系統。圍繞DigiDoug,數字王國將機器學習融入創作流程中,與此同時,採集了幾千張Doug Roble不同角度和光線條件下的面部圖像,用來獲取盡可能多的數據,隨後運算出所需資訊,這些資訊讓DigiDoug像真人一樣行動。

基於卡通建模結合語音合成的“虛擬數字人”

超級AI虛擬主播絆愛

AI驅動,多形態“數字人”如何推動數字時代變革?

(圖片來源:youtube)

2016年底,youtube出現了一個自稱是“超級AI”的虛擬主播,名字叫絆愛 (kizuna ai)。絆愛的角色形象由森倉圓設計,利用MikuMikuDance進行三維模型設計,3D模型由Tda製作。絆愛其實與普通的Youtuber一模一樣,上傳唱歌、脫口秀等視頻,也會直播打遊戲與粉絲實時互動,粉絲送愛稱“人工智障”。她的背後是一整支團隊在運作,用演員的動作表情捕捉,以及聲優同步配音塑造出一個鮮活的二次元少女形象。

隨著技術的成熟,現在不少“虛擬主播”已經可以完全映射真人演員:通過完善的肢體動作、面部表情捕捉設備與精緻的3D建模進行實時輸出。而AR與全息投影技術則讓觀眾與“虛擬主播”之間的距離更近了一步。

虛擬數字人最終將走向人性化

在科幻電影中,我們經常看到,在不遠的未來,人類和各種形式的“虛擬數字人”

共存,並作為人類出色的幫手。其中,避免不了有人擔憂“虛擬數字人”是否會發展成讓人恐懼的智慧生物?在不可預知的環境中傷害人類?2019年3月4日,聯合國教科文組織召開了一次關於制定圍繞人工智慧的核心原則的會議,重點討論採用更人性化的人工智慧方法,並考慮應該允許機器為社會做出什麼樣的決定,包括將什麼價值觀和優先權寫入機器的演算法。

5G時代,人機共存的序幕才剛剛拉開“虛擬數字人”的出現,而這只是第三産業智慧化趨勢的一個縮影,隨著我國産業轉型升級的腳步逐漸加速,將會有各種形態的虛擬數字人出現在各行各業。

無論是哪種形態的“虛擬數字人”,將來一定會在多個場景下大放光彩,並用AI傳遞愛,比如南韓MBC電視臺利用諾亦騰Hi5動作捕捉手套,打造了一場超越生死界限的感人重逢,讓一個失去女兒的母親與女兒重新“見面”,未來“虛擬數字人”將給人類更多的創作空間,進一步解放人類的雙手,讓生活更有AI。(一鳴)