來源:中國之聲
當人工智慧以驚人的速度重塑世界,你是否想過,支撐它不斷進化的“燃料”從何而來?這個答案就藏在“數據工廠”的新興業態裏。它不像傳統工廠那樣生産鋼鐵或汽車,而是專門“生産”高品質的數據集,為AI大模型提供源源不斷的“糧食”。
國內部分企業率先試水“數據工廠”
在天津,有一座工廠格外特別。這裡沒有轟鳴的機器,取而代之的是一排排整齊的小格子間。每天,大約有50萬條高品質數據從這裡“下線”,這裡是一傢具身智慧超級數據工廠。
這家工廠創始人許晉誠介紹,他們在整個手上搭載了接近4000個觸覺感測器,也創造出了世界最小的角度編碼器,手指彎曲的時候,對它的角度幅度去實時檢測。
借助能實時記錄觸覺、力覺的特質手套和數十組攝像頭,這裡生産的每一條數據都包含了視覺、觸覺、音頻、軌跡等多維資訊。許晉誠説,這樣的數據能讓機器人在訓練中不僅“看見”動作,還能“感受”細節。
“數據工廠”是什麼?
然而,這僅僅是數據價值釋放的冰山一角。當前,整個AI行業正面臨一個巨大的瓶頸——高品質數據嚴重短缺。一個名為“數據工廠”的新興事物,正試圖成為這個瓶頸的破局者。它不像傳統工廠那樣生産汽車或手機,而是專門“生産”和“加工”數據,就是將散亂、原始的龐大數據資源,轉化為人工智慧可以直接吸收、高效利用的“高品質數據集”。
北京交通大學資訊管理理論與技術國際研究中心教授張向宏介紹,我們在農業社會效率很低,是因為沒有基礎設施。工業社會效率提高的一個很重要的突破點就是有了基礎設施,我們有自來水、燃氣的供應。
如今進入數智社會,數據成為核心生産要素,同樣需要類似“水廠”“電廠”這樣的基礎設施來規模化供給,這就是“數據工廠”。
張向宏表示,現在這些大模型,其實他們現在都遇到了這個問題了,原因就是數據就是那些公域數據,私域數據確實開發不出來,數據瓶頸非常的突出。
這個瓶頸導致了一個怪圈:一邊是手握海量數據的企業“有數不採、採而不存、存而不加工”;另一邊是渴求數據的大模型公司,不得不重復“自己打井自己喝”,從採集、清洗到標注全部自己來,成本高昂且效率低下。數據工廠,正是破局的關鍵。
“數據工廠”建設路徑如何走?
我國的數據工廠建設之路該如何走?張向宏指出,數據工廠本身就有不同的形態,主要分為集中式、半集中式和分佈式三種:
集中式是統一採集、統一匯聚、統一加工。目前來看做數據工廠的,90%以上採取都是集中式的。
半集中式是通用的技術根據不同的應用它搭建不同的平臺。
分佈式是沒有一個工廠的物理的形態,但是數據採存算管用這套技術就是數據編織技術,就數據虛擬化技術是一模一樣的。
業界認為,從長遠看,能實現“數據可用不可見”的分佈式數據工廠是必然趨勢,因為它從根本上解決了數據持有者對安全和控制權的擔憂。但短期內,三種模式將並行發展。
政策出臺助力數據生産與人工智慧深度對接
國家層面,國家數據局、工業和資訊化部、公安部、證監會2月7日聯合發佈《關於培育數據流通服務機構 加快推進數據要素市場化價值化的意見》,首次明確我國將培育三類數據流通服務機構。三類數據流通服務機構包括:數據交易所(中心)、數據流通服務平臺企業、數據商。《意見》中提出,支援各類數據流通服務機構加強與人工智慧企業等合作,依託數據基礎設施提供數據匯聚、治理、模型訓練等服務。
國務院發展研究中心研究員馬源表示,當前人工智慧企業普遍面臨數據荒問題,現在數據流通服務機構就有了一個新的核心使命:匯聚、整合跨行業、跨領域的數據資源,促進數據供方和AI企業需求高效匹配。
展望未來,數據工廠的意義遠不止于為AI“供糧”。它將成為國家數據基礎設施的核心單元。從天津數據車間裏採集數據的傳感手套,到構想中全國聯動的數據基礎設施網路,數據工廠正從一個前沿概念,快步走向産業現實。它或許沒有傳統工廠的喧囂,但它“生産”出的數據洪流,必將無聲卻深刻地重塑我們的時代。
(責任編輯:王晨曦)