中國人工智慧視頻生成産品密集上線

在對話方塊中輸入一句話或添加一張照片，點擊“生成視頻”按鈕，不到一分鐘，一條6秒的短視頻立馬生成。“看，照片動起來了。”第一撥嘗鮮國産自研視頻生成産品“清影”的“00後”用戶施司羽説。

今年初，文生視頻大模型Sora在全球人工智慧業內外引發廣泛關注。近日，多個中國科技企業自主研發的視頻生成産品扎堆上線，引發關注。這意味著中國人工智慧大模型的“應用試驗田”又多了一塊。

生數科技今年4月聯合清華大學發佈了視頻大模型Vidu，並於7月底正式上線。“此次Vidu正式上線，並全面開放了文生視頻、圖生視頻兩大功能，提供4s、8s兩種時長選擇，解析度最高達1080P，將讓更多人感受文生視頻、圖生視頻的美好體驗。”生數科技聯合創始人兼首席執行官唐家渝説。

Vidu上線前數天，北京另一家人工智慧公司智譜AI也上線了基於其自研大模型開發的視頻生成産品Ying（清影）。“清影不僅支援文本生成視頻、圖片生成視頻，還支援視頻生成視頻。”智譜AI首席執行官張鵬説。

今年6月，快手發佈的視頻生成大模型“可靈”，在文生視頻、圖生視頻方面展現出了創造逼真運動場景、精確模擬物理特性的能力與潛力。

唐家渝和張鵬表示，當前中國視頻生成産品的主流技術路線，採用的是深度學習模型與擴散模型相結合的架構，遵從“規模定律”，強依賴演算法、算力、數據。

當前，全球範圍內文本、圖片生成視頻模型賽道上已有多家科技企業參與競逐。除OpenAI的Sora之外，還有Runway的Gen系列、微軟的Nuwa、Meta的Emu、谷歌的Phenaki等。中國最早的入局者有生數科技的Vidu、智譜AI的清影、快手的可靈、商湯的日日新等。

張鵬説，目前中國的視頻生成技術還處於起步階段，並不完美；接下來還有高品質數據、演算法等一系列問題有待逐一破解。然而加速人工智慧技術發展的最好方式就是並行加速技術的研發與應用，而不是把技術關在實驗室裏閉門造車。

“從今天的技術實現角度，視頻大模型的迭代將顛覆影視動畫製作在內的內容産業。”唐家渝預判，未來十年，影視創作生産的門檻與影視動畫製作的成本將進一步降低，更好地將想像力、創造力轉化為生産力。

(責任編輯：沈曄)