12月10日,OpenAI(美國人工智慧研究公司)宣佈正式向用戶開放人工智慧AI視頻生成模型Sora,該系統可以根據文本提示生成逼真的視頻。截至當日,距離OpenAI首次公開預覽這款産品已過去了10個月時間。
OpenAI相關負責人表示,Sora將於當天晚些時候向美國及其他市場的ChatGPT付費用戶開放。新版工具SoraTurbo可以生成最長達20秒的視頻,並且可以提供這些視頻的多種變體。
據悉,Sora的發佈是OpenAI為期12天的産品直播活動的一部分。作為視頻生成領域龍頭,Sora發揮著“鲇魚效應”。據《證券日報》記者不完全統計,自Sora發佈以來,國內外已有近20家公司發佈或更新了視頻生成模型。
美股視頻巨頭遭衝擊
據了解,Sora能夠根據用戶輸入的描述性提示快速生成視頻,並及時向前或向後擴展現有視頻。
Sora引發了全球科技産業的震動,尤其是在視頻生成領域。Sora以其極高的生成品質、快速的響應時間和低成本的生成方式,一度讓一些傳統視頻公司面臨巨大壓力。
以Adobe Systems Incorporated(以下簡稱“Adobe”)為例,其股價曾在Sora首次發佈的次日(2月16日)大跌了7.41%,創去年11月1日以來的新低,市值在短短一個交易日蒸發了近198億美元。
Adobe長期以來在圖像處理、視頻編輯軟體等領域佔據領先地位,而OpenAI此次發佈的Sora技術,將視頻生成的門檻大大降低。市場普遍認為,Sora的發佈可能會改變視頻創作的格局,Adobe的市場份額受到威脅。
不過,市場上也有另一種觀點,認為像Sora這樣的開放式模型,無法為專業人士提供同等的安全保障,Sora的主要使用場景可能僅限于社交媒體平臺。在專業用戶市場上,Adobe的領導地位依然無法撼動。
面對Sora的衝擊,國外企業加速佈局AI視頻生成領域。2024年Runway AI,Inc.發佈Gen-2模型,在視頻生成領域迅速重回第一梯隊陣營。用戶只需輸入文字描述,即可生成一段4秒的視頻,並且可以根據需求調整解析度和幀率。
而就在Sora正式向用戶開放的幾天前,當地時間12月4日,谷歌旗下人工智慧研究機構DeepMind Technologies Limited發佈了一款名為Genie2的新型模型,可通過單張圖片和文字描述生成“無限”種類的可玩3D世界。
貝恩諮詢公司商品戰略顧問總監潘俊在接受《證券日報》記者採訪時表示,Sora的發佈將對現有的視頻生成模型生態産生重大影響。它將打破傳統視頻製作的技術壁壘,為視頻生成領域帶來新的競爭格局。其他視頻生成模型公司可能會面臨來自Sora的競爭壓力,需要調整其産品和服務以適應新的市場需求和技術趨勢。未來,視頻生成領域的競爭格局可能會更加激烈,創新和差異化將成為關鍵。
國內企業積極佈局
Sora的發佈也促使國內科技巨頭紛紛加緊文生視頻大模型的研發。
中國電信集團有限公司在2024數字科技生態大會上發佈及更新了崑崙雲網能力開放平臺、“息壤”算力服務、視覺大模型及文生視頻大模型等方面的進展;12月3日,深圳市騰訊電腦系統有限公司旗下騰訊混元大模型(以下簡稱“騰訊混元大模型”)官微發佈消息稱,騰訊混元大模型正式上線視頻生成能力,參數量130億,是當前最大的視頻開源模型;北京快手科技有限公司推出可靈AI,這款AI視頻生成模型可以生成長達兩分鐘的1080p視頻,還支援多種視頻輸出比例,並可以模擬現實世界的物理特性。
清華大學戰略新興産業研究中心副主任胡麒牧在接受《證券日報》記者採訪時表示,雖然目前這些國內公司推出的視頻生成技術在部分功能上與Sora尚有差距,但它們的迅速跟進顯示出國內企業對AI視頻生成技術的重視。自Sora發佈以來,國內視頻大模型的生成效果顯著提升,與Sora的差距在不斷縮小,部分功能甚至已實現趕超。
例如,北京智譜領航科技有限公司全新迭代的AI視頻模型“新清影”,在文生視頻性能上實現了進一步提升,支援10秒時長及4K、60幀超高清畫質,以及任意尺寸的視頻輸出,並自帶音效和更好的人體動作及物理世界模擬。
北京火山引擎科技有限公司總裁譚待表示,視頻大模型的技術突破十分困難,需要大模型能理解複雜指令,包括對多鏡頭語言的運用,實現多個主題的交互視頻,保持風格的一致性等。當前視頻生成功能仍有很多難關亟待突破。豆包兩款模型會持續演進,在解決關鍵問題上探索更多可能性,加速拓展AI視頻的創作空間和應用落地。
推動多模態大模型創新
在文生視頻演算法領域,國內也取得了顯著進展。中國國家網際網路信息辦公室公開資訊顯示,今年以來國內共有2277個深度合成服務演算法通過備案。其中,主要用途描述中帶有可實現文生視頻能力的演算法共34個,備案名稱中明確界定為“文生視頻演算法”的僅有6個。
例如,商湯集團有限公司通過備案的商湯V-ME視頻合成演算法支援已有人物視頻、動畫、聲音、文字等多種元素進行驅動。天娛數字科技(大連)集團股份有限公司子公司北京智境雲創科技有限公司在今年6月份一次性通過了“智境雲創人臉融合演算法”“智境雲創文本生成視頻演算法”“智者千問大語言模型演算法”三項演算法備案。
德邦證券股份有限公司分析師陳涵泊表示,Sora的正式開放,有望成為全球視頻生成領域的新標桿,加速多模態大模型的迭代與應用。
在潘俊看來,Sora的推出有望加速AI在視頻生成領域的商業化進程。由於Sora具有高度的創新性和廣泛的應用潛力,預計將吸引許多企業投資和合作,包括內容創作者、廣告公司、電影製作公司等。隨著商業化的推進,Sora可能會為視頻生成領域帶來新的商業模式。
“不過,Sora遠未達到替代人類內容創作的程度,其發展水準僅相當於GPT-1,尚處於起步階段。對於其他視頻生成模型公司而言,真正的競爭才剛剛開始。它們將在算力、數據和演算法這三個關鍵領域展開角逐。”工業和資訊化部資訊通信經濟專家委員會委員盤和林向《證券日報》記者表示。
此外,胡麒牧表示:“技術創新與安全倫理之間的平衡是AI技術發展中的重要問題。在推動技術發展的同時,我們必須充分關注其可能帶來的社會影響,如隱私保護、版權爭議以及濫用風險等問題,確保技術在符合倫理和社會責任的基礎上得到合理應用。”
(責任編輯:王擎宇)