【清華團隊國産“Sora”火了】近日,生數科技聯合清華大學發佈了視頻大模型「Vidu」,引發了廣泛關注。這一模型支援一鍵生成長達16秒、解析度達1080p的高清視頻內容,畫面效果接近Sora,並且在多方面表現出色,包括鏡頭語言、時空一致性、物理模擬等方面,讓人驚嘆。背後的團隊僅用了兩個月的時間就取得了這一突破。
與Sora的對標
在視頻生成方面,「Vidu」與Sora進行了全面對標。從視頻長度、時空一致性、鏡頭語言、物理模擬等方面看,「Vidu」已經逼近了Sora的水準。生成的視頻長度達到了16秒,畫面流暢,細節豐富,邏輯連貫,呈現出高度接近真實世界的效果。
鏡頭語言注入
在視頻製作中,鏡頭語言是非常重要的概念,能夠幫助表達故事情節、揭示角色心理、營造氛圍等。現有AI生成的視頻在鏡頭語言方面往往表現單調,而「Vidu」則通過生成轉場、追焦、長鏡頭等效果,成功注入了更加豐富的鏡頭語言,提升了視頻的整體敘事感。
時空一致性保持
視頻畫面的連貫和流暢性取決於人物和場景的時空一致性。「Vidu」在一定程度上克服了這一問題,保持了視頻的連貫性和流暢性,展現出良好的時間、空間一致性,讓觀眾體驗更加真實。
模擬真實物理世界
「Vidu」能夠模擬真實物理世界的運動,包括物體的移動和相互作用。與Sora相比,「Vidu」在灰塵、光影等細節方面表現出色,接近真實世界的體驗,展現出優秀的技術能力。
豐富的想像力與中國元素
「Vidu」不僅能生成現實世界中的畫面,還能虛構出真實世界不存在的超現實主義畫面。此外,「Vidu」還能注入特有的中國元素,如熊貓、龍等,為視頻內容增添了新意。
團隊背景與技術路線
生數科技的團隊來自清華大學人工智慧研究院,致力於圖像、3D、視頻等多模態大模型領域的研究。他們基於自研的U-ViT架構開發了「Vidu」,該架構融合了Transformer和Diffusion模型,展現出卓越的生成能力。團隊在多模態領域發表了多篇頂會論文,積累了豐富的研究經驗。
生數科技通過「Vidu」展現了其在視頻生成領域的創新能力和技術實力,為未來視頻內容創作帶來了更多可能性。其快速突破和優秀表現也讓人期待其未來的發展和應用。