當前位置：新聞>滾動>

「C位觀察」AI 2.0革命：産業視角下生成式AI如何落地

發佈時間：2024-07-26 11:01:16 | 來源：中華網 | 作者： | 責任編輯：科學頻道

生成式AI的未來:技術革新與産業落地的雙重奏

生成式AI在過去2年吸引了全球目光,ChatGPT用破紀錄的5天時間達到百萬用戶,2個月破億,Sora可生成最長1分鐘的模擬真實世界的視頻,Suno創作出讓用戶驚艷的音樂作品,我們看到AI在文本、圖像、視頻、音頻生成等領域取得了重大突破,OpenAI和Anthropic為代表的公司完成了數十億到百億美金的融資。大家在經歷AI技術日新月異的突破的同時,也關注生成式AI如何應用落地,如何産生商業價值。

CMC資本投資了快手(1024.HK)、B站(NASDAQ: BILI、9626.HK)、快看漫畫、網易雲音樂(9899.HK)、愛奇藝(NASDAQ:IQ)等網際網路平臺,兄弟企業“華人文化集團公司”控股電視廣播有限公司(00511.HK,香港TVB)、正午陽光、紫龍遊戲、華人影業、東方夢工廠、日月星光等具有領先優勢的頭部內容集群和綜合協同生態,以上都是生成式AI的天然應用和落地場景,因此我們在深度覆蓋技術供給端的科技公司進展的同時,也關注到産業端有強烈的AI需求,網際網路平臺公司在積極嘗試AI,用AI製作了不錯的作品,但還在尋找好的商業模式。在産業端大規模的有效商業落地更是處於早期階段,也存在著各種挑戰。

本期「C位觀察」由 CMC資本管理合夥人陳弦指導,投資副總裁王鶴宇執筆,將帶著産業視角,談一談我們對生成式AI在B端産業落地的思考。2C和2B在模型能力要求上有差異,思路和場景亦有不同,CMC資本在過往投資了很多2C的産品,經歷了科技範式的變化帶來C端消費方式變化的階段,C端落地將不在本篇幅中重點展開,請期待陸續推出的系列分享。

1 AI2.0時代和新型生産關係

AI1.0時代

大家過往接觸的AI,即所謂AI1.0,是判別式AI,機器可以在電腦視覺、自然語言理解等領域超越人類,常見的智慧內容推薦、智慧安防攝像頭、貨架識別等都是AI1.0時代的應用,誕生了商湯為代表的“AI四小龍”和字節這樣的超級獨角獸。

模型架構上,AI1.0時代主要基於RNN等網路,RNN的數據處理使用的是串列,導致處理長序列數據能力有限;訓練方法上,主要使用有監督學習,需要大量的標注數據和專業的編程人員,以上都導致其Scalability有限,往往一個模型對應單一的任務,其自身的泛化能力也有限。模型的參數通常在百萬-千萬級別,因此在算力上,部分模型使用消費級顯示卡即可。

61a24638bbe2d73d7b4c4caaae961c55_2024072520113316.001.jpeg

圖:判別式AI的模型、數據、任務關係

AI2.0時代

模型架構上,2017年谷歌提出了Transformer架構,引入自注意力機制,如在自然語言處理時,它能讓模型評估句子中各個詞的重要性,從而根據上下文鎖定關鍵資訊,提高下一階段的文本預測與建模能力。Diffusion模型,模倣物質在氣體或液體中擴散的過程(如墨水在水中的擴散過程),通過前向擴散(加噪)和反向擴散(去噪)不斷修正訓練自己,在圖像、視頻、音頻領域展現了良好的生成能力,超越了GAN的地位,模型本身的Scalability較AI1.0時代取得重大進步。

訓練方法上,Transformer主要使用自監督學習,無需人工標注數據和專業編程人員,可以自動適配和執行各種任務,大幅提高了模型的Scalability。

近些年GPU計算能力的進步,使得早在2017年就提出的Transformer架構成為可能,Transformer為代表的大模型的參數量在百億以上,在當時的GPU能力下無法進行有效訓練。但英偉達代表的GPU不斷進步,其製程從28奈米進步到5奈米,NVLink技術增加了GPU間通信的效率,GPU的調度能力也獲得提升,千卡GPU集群並行計算成為可能,促進了算力能力大幅度綜合提高,為大模型的訓練提供了基礎。

以上的模型架構的突破、訓練方法的優化、GPU能力的提升,共同驅動了生成式AI開啟AI2.0時代。基於超級海量數據訓練的大模型,可以生成文本、圖像、視頻、音頻和3D等各類媒介的內容,具有更強的理解、推理和創造能力,也解鎖了AI1.0時代(安防和智慧推薦為主)以外更豐富的場景和更大的市場空間。預訓練的模型,本質整合壓縮了豐富的世界知識,在泛化性上有極大的提升,如果將AI1.0的模型能力類比于只能完成特定任務的學前班學生,大模型是高中生,具備可以完成多個任務的能力。

8b2992a41ae9314253273d661aee0f5c_2024072520113316.002.jpeg

圖:生成式AI的模型、數據、任務關係

如前所述,生成式AI在模型架構、訓練方法上具備良好的Scalability,展現出了Scaling Law,即越多的訓練數據,越多的模型參數,就會獲得越強的AI模型能力。目前Scaling Law還在發揮作用,因此也有部分業界把生成式AI當作未來有可能實現AGI(通用人工智慧)的方法之一。

新型生産關係

我們看好生成式AI的新範式,不僅是其遠大於AI1.0的市場空間,更是看好其所代表的新型生産關係。過去的生産過程中,工廠消耗能源和基礎材料,製造出實體的産品。未來的核心生産關係將圍繞著電力、AI模型和token(數據)展開。數據中心作為AI工廠,在電力供能下,結合AI模型,通過token不斷生産資訊化的內容(語言、圖形、視頻、音樂等),也即是新的成産出來的産品,圍繞token的新型生産關係正在形成,構築新一輪的資訊工業革命。當然以上是我們認為的遠期狀態,當前也僅僅是生成式AI取得大的影響力突破的第二年,該新型生産關係還在構建和發展中。

2生成式AI並非完美,也給應用落地帶來了挑戰

在語言、視覺和音頻領域,我們看到了過去一段時間生成式AI日新月異的發展,這離不開Transformer和Diffusion模型的突破。但與此同時,我們也看到了大語言模型存在幻覺的問題,AI生成的視頻和圖像也並不穩定,我們在看到巨大潛力的同時,也不能忽視其不完美的現狀。

B端對內容的精準、可控、一致性、可靠性、穩定性有著極高的要求,C端雖然相對要求更包容,但也存在著來自合規性的監管,這些要求給尚不滿完美的生成式AI如何落地帶來了挑戰。

Transformer模型,1)缺乏可解釋性,神經網路本質上是黑箱模型,輸入和輸出之間的關係是通過訓練數據和複雜的計算學習到的,而非通過明確的規則編碼,在金融、醫療等複雜、專業或者高度監管的行業中,模型的決策過程需要符合特定的法規和標準,不可解釋性可能導致合規性問題;2)會出現幻覺,産生邏輯謬誤、捏造事實以及數據驅動的偏見,也就是通俗説的大模型“一本正經的胡説八道”,客戶可能對模型的輸出結果持懷疑態度,難以建立信任,如用AI檢索的結果,為了保證真實,需要復查,特別是在安全性和嚴肅性要求較高的場合此問題更加突出;3)除此之外,計算和記憶體消耗大,特別是在處理大規模數據集時,需要大規模並行計算能力;4)優化難度大,模型的複雜性和參數量大增加了優化難度。

Diffusion模型,1)擴散模型可以生成圖像和文本,但它們還難以同時理解和生成涉及多種類型數據的複雜多模態內容。比如目前用擴散模型生成一張“紅色衣服”的圖片較為簡單,但讓其生成一張胸前印著“明天總是美好的”紅色衣服圖像,生成的衣服上的文字往往出錯;2)擴散模型仍是隨機採樣,導致其生成內容的精準、可控、一致性等方面仍然不足,比如同樣的prompt下,AI生成的2個漫畫男孩不是同一人,這就導致了應用前後不對應的問題,使得商業落地困難。雖然業界在積極探索,ControlNet,LoRA,Dreambooth等技術的出現對局部內容實現了控制,如人臉、畫風、動作等,但仍有較大的進步空間;3)其基於高斯求和的方式會帶來求解難度的提高,尤其隨著維度的上升會帶來顯存佔用的幾何級別的增長。這種架構下,顯示卡的顯存大小限制了視頻的時長,目前最長的AI生成的視頻時長在1分鐘左右,仍無法在長視頻應用場景呈現。

雖然目前的模型能力還有不足,但我們也注意到模型架構也在迭代。工程上,如融合了Transformer和Diffusion的DiT,使用Transformer替換U-Net主幹,並在潛在空間訓練,展現出了比單純Diffusion更好的訓練效率和生成效果。再如Mamba架構,可進行“線性時間序列”建模,隨序列長度增長其計算保持線性增長,而非Transformer的指數級膨脹,同時改善了注意力機制,減少了處理序列數據所需的計算量,加快了數據處理速度。同時學術界也在對模型底層的數學、人腦科學做更深層次的研究,希望能找到更多樣化的實現AGI的通路。

3落地思路:"End to End" vs"Step by Step"

目前生成式AI的産業落地,大致分為2種思路,即“End to End/端到端”和“Step by Step/按步驟拆解”,相應特點也有不同。

End to End

方法:跳過現有專業製作流程,直接一步生成最終的內容

代表産品:ChatGPT, Midjourney, Suno

落地場景:主要在C端大眾用戶,用於泛娛樂的場景,或者非嚴肅場景,如編程,資訊檢索等

特點:1)簡單直接,通常輸入文字prompt描述,直接産出最終的內容;2)“黑盒”狀態,過程不透明,生成的結果具備隨機性;3)生成的內容往往不精準和不可控;4)基本上通過多次生成,選擇最滿意的方式進行生産

以漫畫創作為例,漫畫工具“AI Comic Factory”,提供了簡單易用的用戶界面和使用步驟:

4d791dc3409a90f266a2dd5d2d03fb39_2024072520113316.003.jpeg

圖:AI Comic Factory的創作案例

以上可見,目前端到端的産品易於上手,但同時因為無法對過程進行控制,且目前AI技術又不能一步到位生成高品質的內容,所以局限了出品的作品品質,更多的還是在用在for fun或者專業製作workflow中各步驟的第一步創意環節,如動畫美工/畫師或影視劇導演,在創作過程中將腦中的想法迅速通過AI畫圖展現出來,高效呈現預覽效果,方便團隊內部溝通及靈感碰撞。

Step by Step

方法:儘量沿用現有的工作流,不追求一步到位,AI專注于每一步工作的提效

代表産品: Adobe Firefly,ComicsMaker.AI

落地場景:主要用於B端的專業工作者,用在高品質工業級的生産製作流中

特點:1)對每個環節的生成內容相對更精準、更可控,2)往往和現有工作流和製作工具融合,更易於流程管理

以專業的動畫創作為例,以下是國內某2B定制化AI內容創作公司的案例,專業的動畫製作環節包括“人設圖-分鏡-排版-草稿-線稿-上色-動畫”,其創作工具依照現有專業workflow設計,目標在創作過程中降本增效,目前在一些案例中可以得到40%的人力成本節省。雖然AI的能力看似無所不能,多方面都可以覆蓋,但實操上每個環節涉及到眾多的細節,如何反哺AI的産品能力,甚至進階的精簡/重塑專業的工作流,這都需要和産業方共建。

d6ad21ce0632ca863300e5badfd6e5df_2024072520113316.004.jpeg

圖:某國內公司的AIGC動畫製作step by step賦能案例

be47dae14dce3ea71c6b3a0317e1cebb_2024072520113316.005.png

我們認為,雖然生成式AI在過去2年取得了快速發展,但今天行業仍在早期,長期我們確信AI會顛覆現有的工作流,甚至企業的管理學,但從務實的角度,B端的AI落地,會經歷1)短期先Step by Step在可能的環節部分落地,降本增效;2)行業公司效倣,滲透率提升;3)技術進步,更多環節可以被AI賦能,滲透率再次提升;4)技術迭代,workflow開始合併縮短,甚至出現全新的成産方式;5)理論上最終極的方式可能是一步端到端。

71506881604940455aa48495af5694a9_2024072520113316.006.jpeg

圖:B端AI落地趨勢

4行業know-how和專有數據對B端落地不可或缺

根據上文,按照步驟拆解的思路在B端産業落地,需要更多的行業know-how和專有數據。如上文的動畫製作案例,第一步就是拆解工作流,如“人設圖-分鏡-排版-草稿-線稿-上色-動畫”,本身就是know-how。然後每個環節如何和AI結合,如何高品質打標簽,如何實現美學對齊(比如創作端什麼內容才是“美”,什麼才是“好”等),哪些功能和模組更符合使用需求,也是需要與行業know-how結合打磨,也是PMF的過程。

專業製作內容,有大量的數據1)本身很難或者無法進行數字化沉澱,如電影/漫畫的分鏡設計,其構思往往在導演/創作者腦中,無法有效沉澱;2)在製作方手中,特別是製作環節過程中産生的高品質結構化數據,對模型訓練有巨大幫助,但往往這些數據並不是公開的。相關數據的缺乏導致了AI模型本身無法有效獲得訓練而不具備對應能力,這也是上文案例動畫製作環節中,分鏡設計的AI滲透率極低,但上色環節(公開數據較多)有較好效果和滲透率的原因。

預訓練模型的本質是歷史數據和知識的壓縮,數據的質和量極大程度決定了AI能力。專有數據對於提升模型能力,滿足企業的特定需求(調性風格、品牌特點、行業知識等)至關重要。

5073539bc82a4cf5f2fd51e32fcaadf0_2024072520113316.007.jpeg

表:訓練數據對比

因此我們也期待産業方更開放的同科技公司合作,目前雖然中國底層大模型的發展和學術研究暫時還處於追趕國外的狀態,但中國的産業更豐富,我們對應用的落地有著更強的人才和資源投入,我們在AI2.0的商業化應用上有機會復現中國在AI1.0時代的引領地位。

5 B端需要的並非單一的AI産品和工具

對企業客戶來説,經過我們的調研,相比于底層技術和實現方式,其往往更關注交付的效果,所以生成式AI的落地,除了行業know-how和專有數據以外,我們認為需要滿足以下幾點:

首先,是多個模態的組合

生成式AI的落地在眾多的行業和場景,但從介質的角度來看,主要是文本/圖像/視頻/3D/音頻。真的在産業落地,單一的模態往往是不充分的。其中,文本往往被廣泛用作跨模態(和圖像/視頻/3D/音頻)交互的自然語言,連接著多模態的組合。如AI製作3D遊戲,就涉及到文本、圖像和3D等模態,文本可用於編程和對話,以及其他模態的交互,圖像用於人物設計的美術環節,3D用於建模環節。

1923ccf5cfd79f0ce14f39318412efee_2024072520113316.008.jpeg

圖:某3D遊戲開發中AI的應用

其次,還會是多個模型構建的系統

大模型和小模型的組合:大模型泛化和通用性強,但對於很多AI1.0時代已經解決的標準化的場景,用小模型更具備經濟性(算力消耗少),因此可以組合大模型和小模型搭配,分別完成複雜和標準場景。

通用和垂直模型組合:通用模型覆蓋大部分業務,但對特定的垂直領域,調用對應的垂直模型,如法律翻譯和文學翻譯,AI翻譯系統可以是不垂直模型的組合。

57b46f068f1a99b52e73ca2b6f48e0e8_2024072520113316.009.jpeg

圖:翻譯場景通用+垂類模型

除此之外,為了實現特定的目標,還會包含眾多的嵌入的模組來擴展模型能力的邊界,從而構成一個系統。比如會在Stable Diffusion模型中加入Control Net的神經網路架構,通過選擇不同的輸入條件,生成滿足特定需求的圖像來實現內容控制。或者在模型中加入文本特徵抽取模組,多層映射網路實現關鍵詞解耦,從而提升理解能力等,使得AI能真正落地使用。

最後,還會是AI能力+現有業務系統和管理流程的結合

很多AI公司都可以做到前述2點,但最終在企業的落地效果不佳,究其原因還是在於1)要麼沒有和現有的業務系統結合,導致雖然局部環節提效,但和現有業務系統的融合中額外增加成本,總效率更低,或者2)目前大模型無法嵌入企業的工作體系裏,也無法解決企業的管理邏輯,所以往往都是設計師/員工自行使用,AI和管理體系需要協同和融合。

我們觀察到國內某新型主流全媒體集團旗下的“生成式人工智慧媒體融合創新工作室”達得了顯著的應用效果,內部結合自身的工作管理和業務流程,疊加AI能力,開發了一套全棧的AI+業務+管理系統。其1)在AI製作上,涵蓋了多個功能,涉及文本、圖像、視頻、音頻等多個模態;2)現有的媒體集團的業務和管理,涉及“媒資庫入檢索-內容製作-內容審核-內容分發-媒資入庫”等環節和系統。所開發的AI系統和公司媒資管理系統、專屬(新聞采編等)業務系統有連接,同時也是與安全播出的多重審核機制管理許可權藕合。不僅僅是單純的內容製作工具,其也整合AI媒資管理、安全審核結合等業務和監管環節,形成一套綜合的系統。3)同時製作全流程不需要切換系統,方便管理和流程轉移。這是我們看到的目前較好的B端的綜合AI落地,結合了多個模態,多個模型,同時和企業的業務和管理流程系統融合,具備較高的使用率,也表現出較好的提效結果。

0e8f904980d69e3b3a02797581df2ba2_2024072520113316.010.jpeg

圖:某媒體龍頭公司的AI系統

6 AI 2B發展路徑:Native生成式AI公司 vs Non-native生成式AI公司

我們觀察到在AI 2B賽道有2類公司。一類是Native生成式AI公司,從0-1利用AI的模型能力為企業客戶提供服務。另一類是Non-native生成式AI服務公司,比如數字化時代的企業服務公司,他們通常已在一些2B場景裏取得了不錯的結果,如今把生成式AI能力融合到現有場景中,謀求更好的實現效果。

第一類路徑

比如在視頻製作領域有眾多的Native生成式AI創業公司,他們致力於通過AI模型,輸入文字或者圖像直接産出視頻。隨著Sora的推出,我們觀察到眾多相關創業公司當前的努力重點還是提升模型能力,儘快復刻Sora展現出來的效果。我們認為如果想要將其做成一個企業級的應用産品,合理的路徑除了進一步提高模型本身之外,還需要1)産品的功能設計和工作流相結合,如增加分鏡的順序組合搭配工具,使得生成的視頻具備故事性;2)增加編輯和控制工具,如局部內容的特定顏色,特效的編輯功能,或者關鍵幀的控制工具等。通過和産業需求和know-how結合,才能將模型能力變成産品,且其符合使用習慣從而取得很好的落地效果。

第二類路徑

智慧化的基礎是數字化,很多場景已經在AI1.0時代被企業服務公司覆蓋,如智慧客服、AI行銷、翻譯等。在已經被數字化改造的行業的提供企業服務公司,其有沉澱的場景數據,有業務的落地,有現成的客戶access,如果疊加生成式AI的能力,如把大模型應用到客服系統和行銷對話場景,對話效果比AI1.0的模型更加自然,從而獲得更高的用戶滿意度和付費轉化率。再如大模型對商業運營表現和市場商機進行分析,進一步完善BI(商業智慧)的功能,這些都可以加深對客戶的服務深度和拓寬服務邊界,增加企業客戶對産品的價值感。我們觀察到在AI電商行銷領域,隨著生成式AI技術的普及,原本處於不同環節分工的企業,都在拓寬服務邊界,彼此滲透,例如提供AI客服的公司,使用大模型能力,不僅提升了客戶對話能力,也拓展到AI蓄客、行銷文案製作、數字人、智慧行銷切片等。因此我們認為以上也是一個生成式AI 2B有機會的發展路徑。

7結語

生成式AI技術解鎖了巨大的市場空間和可能性,但當前技術並不完美,特別在對精準性、可控性、一致性要求較高的B端産業落地面臨較多挑戰。End to End思路更直接,但想要取得更好的結果更依賴底層技術的突破,Step by Step思路在當前的技術棧下短期更加務實,追求降本增效。但無論哪種思路,行業的know-how,專有數據,AI與業務和管理系統的耦合,都在産業端落地中都至關重要。

此外,生成式AI也是設計和生産範式的變化,年輕的創作者對新技術的擁抱度更高,AI科技公司可以參與培育新一批的AI Native的創作者,在大學共創課程體系,隨著相關學生畢業進入産業界,將促成新的創作範式的行業落地,同時也形成了産品的隱性的護城河。