清華團隊國産“Sora”火了長度可達16秒

來源：環球網2024-04-28 09:17:56

大字

【清華團隊國産“Sora”火了】近日，生數科技聯合清華大學發佈了視頻大模型「Vidu」，引發了廣泛關注。這一模型支援一鍵生成長達16秒、解析度達1080p的高清視頻內容，畫面效果接近Sora，並且在多方面表現出色，包括鏡頭語言、時空一致性、物理模擬等方面，讓人驚嘆。背後的團隊僅用了兩個月的時間就取得了這一突破。

與Sora的對標

在視頻生成方面，「Vidu」與Sora進行了全面對標。從視頻長度、時空一致性、鏡頭語言、物理模擬等方面看，「Vidu」已經逼近了Sora的水準。生成的視頻長度達到了16秒，畫面流暢，細節豐富，邏輯連貫，呈現出高度接近真實世界的效果。

鏡頭語言注入

在視頻製作中，鏡頭語言是非常重要的概念，能夠幫助表達故事情節、揭示角色心理、營造氛圍等。現有AI生成的視頻在鏡頭語言方面往往表現單調，而「Vidu」則通過生成轉場、追焦、長鏡頭等效果，成功注入了更加豐富的鏡頭語言，提升了視頻的整體敘事感。

時空一致性保持

視頻畫面的連貫和流暢性取決於人物和場景的時空一致性。「Vidu」在一定程度上克服了這一問題，保持了視頻的連貫性和流暢性，展現出良好的時間、空間一致性，讓觀眾體驗更加真實。

模擬真實物理世界

「Vidu」能夠模擬真實物理世界的運動，包括物體的移動和相互作用。與Sora相比，「Vidu」在灰塵、光影等細節方面表現出色，接近真實世界的體驗，展現出優秀的技術能力。

豐富的想像力與中國元素

「Vidu」不僅能生成現實世界中的畫面，還能虛構出真實世界不存在的超現實主義畫面。此外，「Vidu」還能注入特有的中國元素，如熊貓、龍等，為視頻內容增添了新意。

團隊背景與技術路線

生數科技的團隊來自清華大學人工智慧研究院，致力於圖像、3D、視頻等多模態大模型領域的研究。他們基於自研的U-ViT架構開發了「Vidu」，該架構融合了Transformer和Diffusion模型，展現出卓越的生成能力。團隊在多模態領域發表了多篇頂會論文，積累了豐富的研究經驗。

生數科技通過「Vidu」展現了其在視頻生成領域的創新能力和技術實力，為未來視頻內容創作帶來了更多可能性。其快速突破和優秀表現也讓人期待其未來的發展和應用。

分享到

更多推薦

037165901996 回頂部