中國科技創新“乘”數直上
當今時代,數據已成為重要的創新要素。人工智慧大模型、新材料創制、生物育種、基礎科學研究等都離不開數據的支撐。
國家數據局等17部門近日印發《“數據要素×”三年行動計劃(2024—2026年)》,明確開展“數據要素×科技創新”行動,從推動科學數據有序開放共用、強化高品質科學數據資源建設和場景應用、以科學數據助力前沿研究、以科學數據支撐技術創新、以科學數據支援大模型開發、探索科研新範式等方面闡述了數據要素與科技創新相結合的著力點。
從支援基礎研究,到助力前沿技術如人工智慧的發展,再到推動科研方法的變革,借著“數據要素×”三年行動計劃的“東風”,中國的科技創新正在“乘”數直上。
建好“軟硬體”
推動科學數據有序開放共用,促進重大科技基礎設施、科技重大項目等産生的各類科學數據互聯互通,支援和培育具有國際影響力的科學數據庫建設,依託國家科學數據中心等平臺強化高品質科學數據資源建設和場景應用,是“數據要素×科技創新”行動的重要目標之一。
建好相關“軟硬體”,各地正在積極佈局。
2024年,北京將推動算力中心、數據訓練基地、國家區塊鏈樞紐節點等一批重大項目落地。
江蘇將體系化推進5G、千兆光網規模部署,支援蘇州國家級網際網路骨幹直聯點建設,加快智慧算力、邊緣計算等算力設施佈局。
四川提出適度超前建設數字資訊基礎設施,加快建設“東數西算”工程國家樞紐節點,建設全省算力調度服務平臺,構建算力、存力、運力一體化算網融合發展體系。
山東提出部署高性能智慧計算中心,統籌佈局通用和垂直大模型算力,累計建成5A級省級新型數據中心25個以上,智慧算力比例達到30%,建成“山東算網”。支援濟寧建設魯南算力中心。深入實施“雙千兆”網路系統工程,打造典型應用項目500個以上,新開通5G基站4萬個。
“硬體”設施加強,“軟體”設施也需要提升。
“網際網路是數據流通、匯聚的平臺,是數字經濟時代基礎設施的關鍵。”中國科學院院士梅宏表示,需要加快構建數聯網和數據空間等新基礎設施。
2021年,中國科學院發佈了一款具有國際化服務能力的開放的通用型科學數據存儲與發佈平臺——科學數據銀行(ScienceDB)。
科學數據銀行由中科院電腦網路資訊中心自主研發,是一個論文關聯數據存儲平臺,能夠為論文關聯數據的匯聚、管理、開放、共用提供高效的解決方案,為落實科研誠信、培育共用文化、加快數據流轉和促進國際合作提供平臺和服務保障。
科研人員可以把各自收集整理的科學數據在科學數據銀行裏進行儲存和出版,而科學數據銀行通過吸納“數據存款”,“變小錢為大錢,變死錢為活錢”,把分散在個人和集體中的數據資源集中起來,使其更容易被發現、訪問、互操作和重用。同時,學術論文投稿前,科研人員也可以將論文數據上傳到科學數據銀行。
截至今年2月2日,科學數據銀行共收集了開放數據集820多萬個,平臺訪問量超過7億次。
開發大模型
開發人工智慧大模型是“數據要素×科技創新”行動的另一個重要目標。
《“數據要素×”三年行動計劃(2024—2026年)》中提出,以科學數據支援大模型開發,深入挖掘各類科學數據和科技文獻,通過細粒度知識抽取和多來源知識融合,構建科學知識資源底座,建設高品質語料庫和基礎科學數據集,支援開展人工智慧大模型開發和訓練。
近年來,中國在大模型領域擁有良好的算力基礎和廣闊的市場,國産大模型頻頻亮相、加速迭代。工業和資訊化部賽迪研究院數據顯示,目前,中國已有超過19個大語言模型研發廠商,其中,15家廠商的模型産品已經通過備案。
憑藉語言理解、邏輯推理、知識問答、文本生成等通用能力,這些大語言模型産品一經推出,便受到用戶的歡迎。
“科技創新實現新突破。訊飛星火認知大模型處於全國領先水準。”這是寫進今年安徽省《政府工作報告》中的一句話。
訊飛星火是科大訊飛公司在2023年5月正式發佈的新一代認知大模型,從發佈至今曆經多次迭代,不斷升級核心能力的技術底座,持續賦能各行各業。目前,訊飛星火在國務院發展研究中心國研經濟研究院、新華社研究院中國企業發展研究中心等機構的多次評測中獲得肯定,被譽為中國優質的國産大模型。
“只有把大模型建立在完全自主可控的平臺上,我們才能把通用人工智慧時代的發展主動權牢牢掌握在自己手裏。”科大訊飛研究院院長劉聰對本報記者説。2023年10月,在科大訊飛全球1024開發者節上,科大訊飛宣佈聯合華為打造國産大模型算力底座“飛星一號”平臺,在此基礎上,訊飛星火大模型開啟了更大規模的訓練。
目前,基於“飛星一號”的訊飛星火V3.5已完成訓練,並於1月30日發佈。升級後的訊飛星火V3.5在邏輯推理、語言理解、文本生成、數學答題、多模態等方面的能力均顯著提升。同時,訊飛還發佈了星火語音大模型和開源大模型。
“大模型帶來了語音技術發展的全新機會。”劉聰説。讓機器具備學習、推理和決策的能力,就是認知大模型要幹的主要工作。
“我們認為,未來人工智慧大模型的發展可能會有以下四個趨勢。”劉聰告訴本報記者,“第一是多模態和多語言。站在未來通用人工智慧發展的角度,認知智慧大模型是核心基礎,基於此,語音、圖像、視頻等其他數據可以對齊到統一語義空間中,結合插件工具實現多模態系統呈現。第二是可信可解釋。這就需要保證海量數據的源頭品質、大模型本身能力及系統方案的不斷優化迭代,加上國家出臺的監管政策和法律法規護航。第三是向系統性創新方向發展。基於單點技術組合的軟硬一體化創新在AI(人工智慧)領域已有産品、應用的先例,在大模型能力支援下,我們需要聯合多種優勢技術進行系統性創新,並關注其所帶來的護城河效應。第四是軟硬體一體全國産化發展。目前,訊飛投入並深度參與到國産AI晶片軟體生態建設中,在訓練側和推理側已有一定的收穫和進展。”
推進數智融合
智慧檢索、關鍵詞篩選、最新醫訊獲取……依靠大數據與人工智慧帶來的便捷功能,用戶只需動動手指,就可輕鬆體驗這些服務。2023年10月,江蘇省泰州市大健康産業鏈標準雲享站正式上線,以百萬量級標準數據為企業提供正版現行、實時更新、用戶體驗更加友好的資訊服務支撐。
這是泰州推動數字化、智慧化技術與標準深度融合的創新實踐。縱觀泰州醫藥健康産業,從線上到線下,從“實驗室”到“車間”,“智改數轉(智慧化改造、數字化轉型)”的成果紛紛走向“生産線”。
走進泰州醫藥高新區(高港區)的江蘇大同盟制藥有限公司小容量注射劑生産車間,全自動生産線有序作業,藥品生産高效、精準、穩定;揚子江藥業集團旗下生産工廠通過“機器換人”和資訊系統整合管理等一系列“智改數轉”措施,使全流程生産更加智慧化、數字化;江蘇龍鳳堂中藥有限公司形成了一整套從中藥材前期處理到提取的現代化解決方案,在中藥流程智慧製造標準化建設領域打造了“智改數轉”的樣板。
泰州的實踐説明,當前,數據已成為醫藥健康産業的重要要素,數字技術也已成為生物醫藥創新發展的必要工具。數智融合,對賦能醫藥健康産業創新發展的作用不可或缺。
在“數據要素×科技創新”行動中,推進數智融合也是重要舉措之一。《“數據要素×”三年行動計劃(2024—2026年)》提出,以科學數據支撐技術創新,聚焦生物育種、新材料創制、藥物研發等領域,以數智融合加速技術創新和産業升級。
近年來,人工智慧、區塊鏈、深度學習、物聯網等新一代數智技術的整合迭代與擴散,已滲透到研發設計、生産製造、客戶服務等各個環節,對生産技術、生産方式帶來全形度、全方位、全鏈條的改造,全面提升産業的自動化、數字化和智慧化水準,為推動數智融合應用、加快形成新質生産力提供了關鍵驅動力。
西北大學經濟管理學院教授鈔小靜認為,數據要素作為數字經濟時代以非物質形態被電腦設備存儲和處理的新型關鍵生産要素,具有非競爭性、低複製成本、非排他性、強外部性等技術和經濟特徵,可以被不同主體重復利用,通過解構重組、匯聚融合等方式産生“數據+演算法+算力”融合價值,為夯實數智融合內在形態、加快形成新質生産力提供了基礎性重要資源。
“一方面,數據要素與傳統生産要素的有機融合應用,豐富了數智融合的表現形態,將數智融合的方式由地理空間轉向為數字空間。”鈔小靜説,“另一方面,數據要素在傳統生産要素的再配置、再組合中發揮‘媒介’作用,産生了新的要素加工模式,催生了數智融合新形態。”記者 楊俊峰
來源:人民日報海外版 責任編輯:鄒鈺坤
(原標題:中國科技創新“乘”數直上)