OpenAI又“炸場”了。近日,具備“聽、看、説”出色本領的“GPT-4o”亮相,新模型能夠處理50種不同的語言,還能讀取人的情緒。僅僅兩日後,OpenAI宣佈與社交網路Reddit建立合作夥伴關係,這個被稱為“美國貼吧”的平臺內容,將被引入ChatGPT和其他産品中。
將兩條資訊連起來看,當大眾驚嘆于AI的訓練速度時,不少業內人士已嗅到一絲危機:全能,意味著需要更強大的語料庫來訓練AI,而優質的AI語料已經越來越稀缺。
AI語料,簡單來説,就是用於訓練和優化人工智慧模型的數據集合。根據人工智慧研究機構Epoch的分析,在2026年前,科技公司很可能會耗盡網際網路上所有的高品質數據。
數字經濟發達的浙江,是國內優質AI語料資産庫存區域之一。如何充分發揮AI語料的存量優勢?應對AI語料短缺的預期,浙江如何先發佈局?
優質中文語料是稀缺資源
在AI大模型技術路徑逐漸清晰、各方搶佔算力迭代産品的當下,越來越多的業內人士重新將目光投向驅動模型生成的“燃料”——語料。
“大模型就像初生的孩子,教它學習、成長的課本就是AI語料,編纂教材的過程就是構建語料庫的過程。”杭州城市大腦有限公司總經理申永生形象比喻。目前,我國10億參數規模以上的大模型數量已超100個,每一個都“嗷嗷待哺”,更優質更豐富的語料資源,才能支援其更新迭代。未來,AI語料將是行業爭奪的新戰場。
城市大腦即是通過“消化”“吸收”優質語料,形成分析研判能力,不斷提升社會治理與服務能力。“一方面,我們從各類用戶反饋端獲取語料,比如12345、留言箱、辦事窗口等資訊,通過學習百姓與‘端’的互動數據,讓城市大腦更智慧;另一方面,政府資訊公開的數據也是語料來源之一,基於這類天然可抓取的數據,我們能提供匯總更多公共服務的資訊。”申永生介紹。
儘管有雙重途徑獲取語料,但存量資源短缺的事實也擺在眼前。眾多大模型“饑腸轆轆”,但面對海量數據卻不能“饑不擇食”,因為原始數據需要經過層層標注與篩選,才會變成有價值的語料。
中文優質語料的供給,更迫在眉睫。“中國大模型發展要獲得突破,必然依賴於中文優質語料庫的建立。”申永生分析,目前多數大模型的數據訓練多以英文為基礎,如在ChatGPT的訓練數據中,英文語料佔比超92.6%,中文語料佔比卻不足千分之一。語言的壁壘、流通的受限,使得中文優質語料在業內成為“香餑餑”。
將語料數據化為生産力
在浙江,優質AI語料的存量優勢明顯。
以阿里巴巴為代表的電商企業,擁有産品材料、客戶互動數據、電商直播素材等大量電商相關AI語料;商湯科技、海康威視等企業,在AI視頻識別方面積累了大量可用數據;眾多MCN公司擁有海量短視頻素材;杭州的網路文學作家村、之江編劇村等則是優質文本語料的儲藏地……
眼下,擁有語料“富礦”的浙企,已在暗自發力,利用自身擁有的語料資産,開發和優化自研工具庫,拓展行業AIGC工具的應用場景。
作為國內電視劇行業的龍頭公司,華策集團正在探索將語料數據變為創作生産力。企業擁有超5萬小時的影視素材,以及影視劇本、IP評估報告、宣發材料等文本素材,這些都是製作AI語料的原料。基於專業語料,華策集團AIGC應用研究院訓練並開發了一整套“影視劇本智慧創作輔助系統”,整合了編劇助手、劇本評估、視頻檢索等多項功能。
“影視級別語料不僅品質高,而且具有中華傳統文化特色,用影視語料訓練出的大模型克服了海外大模型國外元素多或品質低下的問題。”華策集團AIGC應用研究院副院長沈雄介紹,在高品質語料的基礎上,華策自研的“有風”大模型3分鐘內就能完成一部IP作品的初篩,30分鐘內能精確評估百萬字作品內容,這樣的體量過去依靠人工需要一週以上的時間,極大地提高了工作效率。
另一家金融浙企同花順,擁有企業十幾年積累的自身數據及市場的公開金融數據,這些數據涵蓋了股票、基金、債券等各種證券類型,囊括了財經領域的公告、新聞、研報等九大類語料,預訓練金融語料達到了萬億級Tokens。
今年1月,同花順發佈大模型問財HithinkGPT,成為市場上唯一集金融查詢、投資諮詢、資訊分析以及事件點評于一體的大模型。“專業的AI語料促進了大模型技術和業務的創新,為金融領域提供了研究和開發的基礎資源。”企業相關負責人表示,目前,同花順AI開放平臺可面對客戶提供智慧金融問答、智慧政務平臺、數字虛擬人等多項AI産品及服務。
探路數據交易體系
隨著AI語料價值凸顯,眾多問題也浮出水面。今年初,《紐約時報》起訴OpenAI及其投資人微軟公司,指控二者未經授權使用其數百萬篇文章訓練大模型,打響了語料維權“第一槍”。
採訪中,不少企業表示,目前企業的語料數據主要用於開發和優化自研工具庫,尚未與其他公司達成商業合作。“語料數據産品交易潛力巨大,但存在諸多不確定性,企業的擔憂在所難免。”申永生分析,除了版權盜用的法律問題和訓練模型存在的道德風險、價值觀隱患,AI語料真正走向市場,最根本的是建立健全交易平臺和機制。
“這正是浙江搶佔先機的重要方向。”申永生認為,浙江已在數字經濟領域佔領高地,在語料儲備較充足的基礎上,可以從建立數據交易所開始嘗試,探索一條語料交易的新路。對此,浙江已下出“先手棋”。2022年,中國(溫州)數安港開園,直面數據不能共用、不敢共用、不願共用“三不”難題,在全國數據要素市場化改革中探路先行。
兩年來,改革通過構建數據安全合規體系、司法保障體系等方面數據基礎制度,確保流通交易合規,破解“不敢共用”難題;通過構建數據金庫、聯合計算平臺、安全可信數據空間、公共數據授權運營域等數據基礎設施,為流通交易全過程提供技術保障,破解“不會共用”難題;通過構建從數源歸集到數據産品流通交易的全鏈條産業生態,營造成熟的數據市場,破解“不願共用”難題。
開園至今,數安港已落地企業311家,發佈數據産品344個,成交6.6億元;與國內七大數交所簽署戰略合作協議,設立了10個國家級數據安全實驗室與創新基地。“隨著數據交易市場的開放與完善,其訓練出的大模型將為社會提供更精細化的服務,浙江數字經濟將迎來新的飛升。”申永生説。
來源:浙江線上-浙江日報 | 撰稿:辛文 | 責編:張逸彬 審核:張淵
新聞投稿:184042016@qq.com 新聞熱線:135 8189 2583