最新原創 專題 新經濟 曝光臺 中國訪談 中國三分鐘 沖浪特殊資産 潮評社 溫州 紹興 衢州 淳安 岱山 桐廬 文娛 元宇宙
您的位置:首頁 > 數字浙江 新聞詳情
Sora問世,帶來哪些新機遇
發佈時間 | 2024-02-23 14:20:43    

   分鏡頭多角度,畫面精細流暢,時長是此前市場上産品的2——5倍……2月16日,曾因ChatGPT一炮走紅的人工智慧研究公司OpenAI推出的文生視頻大模型Sora,令全球從事文字、音視頻以及科技的工作人士驚嘆不已。

  就在OpenAI已公佈的演示視頻中,我們看到一名時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街頭;看到兩艘海盜船在咖啡杯中纏鬥,咖啡如海浪洶湧;看到可愛的水獺穿著黃色救生衣站在滑板上沖浪……惟妙惟肖,與實景拍攝、高清特效無異。網友的評價也出奇一致:炸裂!驚艷!顛覆!

  而這,也被視作整個AI産業、視頻産業的新挑戰、新機遇。連日來,有人為新“風口”的到來振奮不已;有人如音視頻領域從業者感受到了危機:“要失業了。”

  Sora到底厲害在哪?它又將掀起哪些新的浪潮?

  意料之中與出乎意外

  “沒想到這一天來得這麼快!”“沒想到效果這麼有顛覆性。”這是記者採訪業界人士時聽到最多的兩句話。

  儘管截至記者發稿,Sora尚未公開發佈或未公測,有的只是OpenAI公佈的數十段演示視頻。但前有ChatGPT為證,後有Sora遠超其他模型的效果——任誰都會思考,一個新的時代是否來了?

  Sora可簡單視作一個人工智慧視頻生成工具:只需我們輸入一段文字,它就能創建一個與真實世界接近的虛擬世界,時長可達60秒。此前在文生視頻領域,谷歌、Meta、Runway、Pika等産品大都在30秒甚至10秒之內。

  更讓人嘖嘖稱奇的是,Sora生成的視頻,無論是光影色彩的轉變,還是多鏡頭多角度的切換,甚至細微到紋理結構變化,都呈現出“大片感”。

  “Sora還能模擬現實世界的物理規律。這尤其有難度。”阿里巴巴大模型演算法專家曹宇舉例説,其中有一段視頻展現的是兩艘船在咖啡中戰鬥,Sora精準呈現了咖啡流動的流體動力學效果。

  要知道,在文字、圖片、視頻等不同體裁中,視頻生成是最難的。Sora不僅要理解文本指令的含義,即語義理解能力,不能輸入“女孩”出來一“老頭”,也不能違背邏輯與物理規則,如輸入“狗坐在椅子上”出來“狗嵌入了椅子”;生産效果要好,畫面流暢程度、穩定性、連貫性等都不能缺,比如太陽在左上角,不能右下角又無故生出陽光;還有就是時長,時間越長,視頻表現力越強,AI“露餡”的可能性也越大。

  Sora有遠超同類的表現,其核心技術與底層邏輯卻被普遍認為“還是老一套”,即時空Patch技術和DiT架構。前者的技術論文由谷歌DeepMind團隊于2023年7月發表。後者的技術論文,是Sora團隊領導者之一William Peebles與另一位科學家合作的。記者瀏覽了OpenAI公佈的參考文獻清單,其中有很多出自谷歌、Meta、微軟、斯坦福、MIT、UC伯克利等機構的成果。也就是説,Sora的誕生源於整個AI社區多年來的探索,是“意料之中”的事情。

  “事實上,Sora依然遵循OpenAI的規模理論——大量數據、大模型和大量算力。”浙江大學杭州國際科創中心求是科創學者、AI交叉中心專家丁科炎估計,Sora與ChatGPT一樣,也是來自大力出奇跡的“暴力美學”。

  此前,AI視頻創業公司Runway和Pika被認為是視頻生成賽道的佼佼者,如今卻被Sora輕鬆“吊打”。業內人士分析,Sora制勝之道,一在其使用的圖文對、視頻等的數量比這兩家大一個量級以上;二在算力堆疊的效果更好。

  在杭州城市大腦有限公司CEO申永生看來,Sora體現了AI對現實世界的理解已更上一層樓,“它在訓練中結合了多种先進的演算法,比如masked(遮掩)演算法,把一個畫面隨機遮掩掉30%局部,讓AI根據對畫面整體理解還原出來,同時利用生成式演算法讓畫面比原作更富有創意。”

  曹宇則表示,Sora的基礎架構Transformer能實現“作文續寫”,相比于傳統“完形填空”式的技術擁有更優秀的創作能力。

  “打個比方,我們可以將一堆雜亂無章的積木整理好放入一個個小盒子中。如此一來,即便面對眾多積木,只要找到了這個小盒子就能輕鬆找到所需積木。”丁科炎也給出自己的解讀,由於前期用於訓練的海量視頻數據被轉化成一個個“小方塊”,當我們向Sora提供一個新任務時,AI就會從視頻數據中提取出一些包含時間和空間資訊的“小方塊”,並將之交給Sora,讓其根據這些資訊生成新視頻。

  “某種程度上,Sora已經可以像人一樣,對世界有了一定認知。”丁科炎説。

  浪漫與現實

  Sora帶來的産業變革,被視作技術進步産生的“浪漫”。

  “相比于ChatGPT,Sora的産業空間更廣,影視劇、遊戲視頻、廣告策劃、創意和設計可視化、數字孿生、自動駕駛、醫療等都是它的舞臺。”申永生表示,視頻與文本有著本質的區別,其開放空間很大,“比如我們在做城市大腦新場景應用的推廣宣傳片時,以前要麼是找人拍,要麼做動漫,成本很高,創新挑戰的壓力也很大;有了Sora這類新工具,我們可以用更少的成本、更快的速度、更貼近現實的視頻來做推廣,效果也會更好。”

  這種強大的生成能力,或將打開AIGC新的空間,特別是突破智慧財産權領域的瓶頸。

  浙江震天律師事務所律師錢航告訴記者,是否具有“獨特個性”,是傳統著作權法理論判斷一件創作物是否是作品的關鍵因素之一。此前不少專家反對人工智慧創作物具有獨創性,主要認為人工智慧的創作物是演算法、模板等統一産生的結果,“但現在看來,一方面Sora等新工具的創新能力明顯更強;另一方面,Sora生成視頻的好壞也更受制于提示文本的好壞、文本創作者創意的好壞,其獨創性也更明顯。”

  更重要的是,Sora一旦公開投用,其強大的能力肯定會被大量用於商業用途,成為具備經濟價值的交易客體,隨之也會産生越來越多的法律問題。錢航認為:“當下應該儘快立法,明確人工智慧創作物的法律屬性,完善相關權利保障體系,一方面激勵人工智慧及相關産業發展,一方面維護現有版權秩序。”

  很多“浪漫遐想”已經展開。

  浙江省工業和資訊化研究院區域經濟研究所所長趙立龍認為,隨著Sora的到來,其“模擬數字世界”能力將對元宇宙發展産生顛覆性影響。它不僅能夠直接根據需求生成虛擬視頻,迅速構建元宇宙所需的場景,而且其展現出了直接生成可深入探索的動態虛擬空間的潛力,這意味著元宇宙將進入到全新的發展階段。

  影視行業的變化最受關注。

  工信部資訊通信經濟專家委員會委員、數字經濟專家劉興亮稱,AI生成的視頻可能減少了對人類演員、導演和其他創意角色的需求,從而影響到這個行業的就業。

  “Sora將重塑影視創作等行業的遊戲規則,以文生視頻模式顛覆電影創作過程,可能今後會有若干人通過AIGC相關技術來生成電影。”浙江大學人工智慧研究院院長、電腦與技術學院教授吳飛認為。

  確實,去年拿到七項奧斯卡大獎的年度影片《瞬息全宇宙》就使用了AI視頻,迪士尼更是完全用 AI 製作了《秘密入侵》的開頭動畫。就在2月10日晚,一場AI(人工智慧)春晚上演,成為眾多AI愛好者的盛宴。

  但在杭州時空奇跡互娛科技有限公司CEO胡小凡看來,Sora只是一種工具,“它可以在短時間內把視頻産品的産量拉出來,但影視級別的産品目前還是替代不了。”胡小凡判斷,未來影視作品的發展方向是多維度多鏈路的,就像玩遊戲一樣,按照用戶的不同想法推進、分化,最後的結果是不一樣的,而Sora未來可以幫助影視公司降低這類遊戲化影視作品的生産成本。

  浙江省社會治理與傳播創新研究院研究員宋哲認為,也許未來的影視創作是由編劇+大模型+算力供應商來完成,不再需要演員、攝像、導演,但實現起來還有很長的路要走。“最現實的限制條件就是算力。目前的算力成本對影視創作來説是極其昂貴的,雖然可能會有第一個吃螃蟹的人嘗試用AI做一部電影出來,但是規模化應用於影視産業,我覺得短期內還不會實現。”他説。

  2月18日,一則“Sora首部AI電影共創計劃”的共用文檔開始在東陽橫店的編劇圈子裏流傳。文檔發佈者稱,將“共創世界第一部AI電影這一壯舉”,現面向全社會徵集劇本。網友評價:噱頭十足。

  現實中,亂象也隨之而生。某電商平臺上,有人在售賣Sora教程,內容據悉90%是網上公開資料;儘管還未公測,也有商家號稱有“內測名額”;而“Sora讓人賺到了‘第一桶金’”的消息也是不絕於“屏”……亂象背後,是亟需引起重視的投機與“套路”。

  正視差距與奮起直追

  “差距很大。”……相比ChatGPT剛出來時國內業界的群情激動,各種相關大模型迅速成“雨後春筍”之勢,記者發現,Sora問世,目前幾乎沒有大廠跟進發聲。記者的採訪也被紛紛婉拒。

  “從ChatGPT到Sora,人工智慧發展的地區之間的代差,還是很明顯的。”一位從業者説出了大家的心聲。

  但也有樂觀者。

  業界公認,發展大模型離不開三要素:人才、算力和數據。三者我們與國外有差距,但並不是沒有機會。

  先看算力。這也是被業界公認OpenAI能超過谷歌這種“老牌大廠”的關鍵。“OpenAI對算力的投入很堅定。”曹宇觀察。

  前不久,OpenAI宣佈啟動“造芯”計劃,希望籌得7萬億美元,相當於世界各國GDP加起來的10%。如此天文數字,可窺得OpenAI算力缺口的冰山一角。

  在中國,算力等同煤電水等基礎資源已日漸成為共識。不少專家分析,儘管目前國內頂級晶片相對缺乏,但總量及增量發展迅速。

  2023年11月,工信部公佈的一組數據顯示,近年來,我國算力産業年增長率近30%,算力總規模位居全球第二。截至去年底,我國算力核心産業規模達到1.8萬億元。

  再看人才。記者查詢OpenAI官網發現,Sora團隊核心成員包括12人,其中有多位華人。值得注意的是,這支團隊十分年輕,成立時間未超過1年。“OpenAI招了很多畢業生,這説明該企業的試錯空間很大。我們也要鼓勵類似的創業環境。”曹宇説。

  相比較,我國差距比較大的是數據。“目前的研發範式,數據一方面看量,另一方面看標準,國際上視頻解讀標準以及軟體基礎設施基本都是英語為核心的技術語言底座,這兩方面我們相對不足。”申永生説。確實,目前網際網路上英語內容約佔90%,其他語言才佔10%。

  不過,隨著對新質生産力的進一步重視,我國的競爭力也在不斷增強。

  2月19日,國務院國資委召開“AI賦能 産業煥新”中央企業人工智慧專題推進會。會議強調,中央企業要把發展人工智慧放在全局工作中統籌謀劃,深入推進産業煥新,加快佈局和發展智慧産業。

  前不久召開的杭州市“新春第一會”上,省委副書記、杭州市委書記劉捷兩提Sora,提到杭州要將人工智慧時代的算力成本降到最低。

  目前來看,Sora有自己的局限性,或將成為各方追趕的機遇。

  ChatGPT這樣評價這位“小弟”:“Sora模型在模擬基本物理交互,如玻璃破碎等方面,不夠精確。這可能是因為模型在訓練數據中缺乏足夠的這類物理事件的示例,或者模型無法充分學習和理解這些複雜物理過程的底層原理。”

  “Sora還無法理解類似中國詩畫的深刻意境。”浙江大學杭州國際科創中心求是科創學者張強説。中國繪畫史上有個著名典故叫“深山藏古寺”。有人在山腰間畫座古廟,半遮半露;有些只能讓古寺露出小角。但最佳答案是,崇山峻嶺之中有和尚在挑水。

  機遇,還在於比拼的最終方向並不只是Sora,而是通用人工智慧(AGI)。

  一般認為,AGI是指擁有與人類相當甚至超過人類智慧的人工智慧類型。去年,北京通用人工智慧研究院院長朱松純曾給讀者寫信道:“如果我們把實現通用人工智慧看作‘探月工程’,大模型現在取得的成就如同登上了珠峰,雖然也是了不起的成就,但並不能實現終極目標。”

  浙大研究院人工智慧中心副主任趙俊博最近在朋友圈發文:“反對很多自媒體把這個技術類比在AGI上面,我們距離AGI還差得遠……我覺得一個世界模型需要有能力去輸出動作,輸出對未來的預測,輸出對當前所處狀態的判斷。Sora大概率是學到了一些世界運轉的模式,但是否具備其他上述能力我們不知道。”

  對此,業界學界的觀點也不盡相同。不過,大家都表達了追趕的急迫性。2月16日,360創始人周鴻祎在微網志上寫道:Sora的誕生意味著AGI的實現可能從10年縮短至一兩年。張強在接受記者採訪時也表示:“我們距離通用人工智慧的目標雖然還有相當的距離,但正在以越來越快的速度來挨近它。”

來源:潮新聞    | 撰稿:金春華 何冬健 姚穎康 朱高祥    | 責編:俞舒珺    審核:張淵

新聞投稿:184042016@qq.com    新聞熱線:135 8189 2583