華東師範大學MEM科創專家公開課回顧
在世界大變局的當下,國家發展亟待科技創新引領,個人發展同樣需要戰略方向。攻讀華東師範大學工程管理碩士MEM專業學位(首席技術官方向、智慧創新工程方向、應急技術與管理方向、重大項目管理方向),是一個全新的選擇。為讓申請MEM項目的考生們更加準確地理解和體驗我們學位培養的理念和方向,並準備好提前面試,學院舉辦華東師範大學MEM科創專家公開課。
3月7日,華東師大MEM科創專家公開課第十三講成功舉辦。本次公開課邀請到浩鯨雲數字化轉型資深專家梅叢銀,以“AI産業鏈數據集和熱點産品及企業DT+AI實踐”為題進行授課。梅叢銀主要圍繞AI的整個産業鏈,包括數據集、大模型AI在企業側的實施等展開授課內容。
01人工智慧簡史與技術應用
梅叢銀首先介紹了人工智慧歷史與産業應用。他指出,過去100年,科技進步推動了人類社會的進步,特別是近20年,人工智慧的發展對GDP增長産生了巨大影響。未來幾十年,人工智慧將具有劃時代意義,對全球經濟具有重要影響。他講述了人工智慧的發展史,生成式AI技術日新月異,大語言模型(LLM)不斷發展,一個巨大的神經網路(Transformer)誕生並應用到産業中,大語言模型經歷了從演算法到算力再到産業的轉變。
梅叢銀分析了2024 AI熱點SORA(索拉)視頻生成模型及特點。他認為,索拉作為世界模擬器的視頻生成模型,其栩栩如生的模擬技術將對電影、教學、醫療、遊戲等行業産生很大影響。梅叢銀介紹了索拉團隊的技術文檔和技術論文以及他們的演算法和基本原理,分享了自己對索拉的理解,認為它不僅僅是一個人工智慧技術,還需要有藝術的觀點。梅叢銀強調學習並分享優質産品的重要性,認為一個好的産品需要符合專業,特別是團隊的領導者需要有複合視角,這樣才能做出更優秀的産品。
梅叢銀指出,Sora區別於pika、runway、MJ等視頻生成模型。第一,復用LLM訓練思路。採用DiT擴散轉化器模型,將各種尺寸品質圖片/視頻進行降維,統一為patch補片,用GPT進行文本字幕訓練(類似LLM中的token)。不同於其他視頻生成模型使用特定類型、固定尺寸的視覺數據訓練,導致生成的視頻限制較大。第二,相較于對手産品,速度快。Sora AI視頻市場突破60s,遠高於Pika、Runway的3-5秒。Sora採用Diffusion+Transformer模型,一次性生成完整時長的視頻,並逐步消除噪聲。第三,單視頻多角度鏡頭。不同於現有産品智慧通過單一視角呈現物體,Sora支援多角度的鏡頭無縫切換,一致性高。第四,具備物理世界模型特點。Sora可以模擬影響物理世界狀態的簡單行為。
02技術管理視角下的技術創新
梅叢銀錶示,要從技術管理的角度考慮技術創新。他指出,CTO、技術總監或研發總監需要從多個維度、內容、技術、數據工程等角度去考慮創新。他分析了谷歌和Open AI在從零到一的創新過程中存在的問題,以及如何進行交叉創新,介紹了了技術管理視角下的算力需求和市場商業化問題。梅叢銀介紹了大模型的商業化成本、市場接受度以及人工智慧的發展趨勢。大模型的定價通常以1K個token為單位,其價格約為55美金。從更宏觀的角度來看,AI技術正在重新定義工作,包括預測未來十年的人工智慧、區塊鏈、數字貨幣、人工生物學等。此外,AI技術與機器人、自動駕駛、LRL三等功能相結合,預計未來市值可能達到220萬億。
梅叢銀分析了科技與金融的關係,指出科技的發展需要資金的支援,而金融則需要技術的創新。科技與金融相互依存,只有同時發展,才能更好地推動科技創新。他指出,人工智慧、電池能源和是未來的兩大主要技術,而資本對技術創新的重要性不容忽視。部分企業在晶片領域的價格下降,以及國內晶片産業的發展,相信這些都會推動我國GPU研發和人工智慧技術的應用。人工智慧對效率提升産生影響。人工智慧在過去70年裏沒有明顯變化,但隨著ChatGPT的出現,消費者和企業對人工智慧的認可度有所提高。AI技術模型正在從基本模型向專業領域滲透,如醫療、法律等。此外,成本降低和性能提升也是AI技術帶來的好處。然而,開源和閉源的問題仍然存在,隨著市場的發展,開源社區和自由在競爭。未來,隨著算力的提升,可能會出現超人類AI,但這也帶來了定價權問題。
緊接著,梅叢銀講述了AI技術模型的五大特徵。AI技術模型具有五個能力,包括語言、視覺、機器人、推理和人機交互。這些能力在人工智慧領域非常重要,特別是對於未來的人機交互影響會非常大。數據集在人工智慧研究中非常重要,醫療、法律和社會等三個行業在人工智慧研究中具有基礎地位。梅叢銀介紹了人工智慧教育技術模型的構建和應用。教育是社會三大基礎行業之一,技術模型在構建過程中需要考慮可擴展性、多模態、適配性、安全和隱私等方面。同時,要關注可解釋性、可追溯性和公正性等問題。此外,隨著大數據中心的興起,能源消耗成為了一個重要問題,需要關注環境影響。預計人工智慧産業規模將越來越大,未來可以達到萬億級別。
接下來,梅叢銀分析了人工智慧産業的發展與挑戰。簡述了人工智慧領域的基礎設施問題,包括存儲計算、雲設施、基礎模型等。同時,國內外在數據集、數據標注、向量數據庫等方面存在差距。目前國內在數據集方面還存在一些問題,如英文佔主導地位、中文排名較後等,需要努力提高數據品質。梅叢銀對於數據集的選擇與應用方面給出建議。他介紹了幾個數據集,包括Big Science的Rose語料庫等。這些數據集涵蓋了各種主題和領域,如知識問答、學術研究等。重點介紹了如何從數據集的角度來考慮方法論和流水線,以及如何組織數據集。首先,可以從公共網站或數據源上爬取數據,然後進行過濾和下載。其次,要關注國內大模型的進展,包括註冊數量、流行度等。最後,他強調了在商業角度考慮數據集的重要性,以及如何分配利益和指導驗證。
03大模型技術參數與應用
叢銀討論了數據集、技術參數、模型選擇和應用趨勢。從大模型産業數據集和模型評測如何選型,到分析端到端的時間、成本和技術參數的重要性,以及一些應用趨勢,包括將企業行業的特徵放入本地數據庫,結合通用框架進行整合,以及使用自然語言處理技術等。梅叢銀介紹了向量化數據庫在各個領域的應用,包括運營商在海外市場的應用。首先,通過向量化數據庫,可以滿足海外企業和跨境企業的需求。其次,通過RAG和向量數據庫,可以建立問答系統,方便企業各部門進行溝通。最後,他重點討論了數據流水線的實現方法,包括轉換、拆解、清洗、召回和閱讀。
梅叢銀介紹了大模型使用與數據安全問題,以及如何進行專業數據的培養與市場應用。國內企業在使用大模型時遇到禁止數據出企業等問題。為了解決此問題,一些公司採用緩衝池或安全池來過濾數據,但這種方式仍然存在風險。此外,由於技術模型在我國法律上受到保護,導致很多政府行業都是私有化模型。為了提高大模型的準確性和專業性,需要在訓練過程中加入驗證環節。關於數據集的重要性以及專業數據的來源。梅叢銀認為,要成為一個在某領域專業的數據分析師,需要不斷學習和實踐,特別是要掌握專業的數據集,如中國的刑法、民事法等。同時,還需要時間的積累。
本文轉載自微信公眾號“華東師範大學MEM”