開放科學數據,助推科技創新
- 發佈時間:2016-04-12 01:29:57 來源:科技日報 責任編輯:羅伯特
□ 本報記者李建榮通訊員張 楊
迅速發展的資訊技術正不斷助推科研行為方式的變革和科技創新發展。當前,世界各科技強國已經把科研資訊化作為21世紀科技創新的戰略舉措。在我國,科研活動資訊化已是提高科研水準和創新能力的必要手段。
作為中國科技的“國家隊”,中國科學院(以下簡稱中科院)一直高度重視科學數據在科研發現、資訊化建設中的創新及應用。上世紀70年代,中科院開始建設專業數據庫。1982年科學數據庫被列入中科院“七五”和後十年的10項重大基本建設項目。1986年國家計委正式批復同意建設“中國科學院科學數據庫及其資訊系統”,1987年科學數據庫數據資源和資訊系統正式啟動建設,1997年獲“中國科學院科技進步一等獎”, 1998年獲“國家科技進步二等獎”,基本形成了以研究所和課題組自主自治為單元的科學數據資源建設和積累模式。“十五”期間,科學數據庫建設逐步系統化、規範化,共建成503個專業子庫。“十一五”期間,在中科院資訊化專項和國家科技基礎條件平臺等支援下,科學數據庫逐步形成結構合理的科學數據網格體系,整合可共用數據量達148TB。
“十二五”期間,隨著感測器、資訊獲取等數字技術的不斷發展,科學數據也以史無前例的速度急劇增長。面向科技創新和科研資訊化新需求,中科院啟動“科技數據資源整合與共用工程”建設。“科技數據資源整合與共用工程”涵蓋數據存儲與管理雲服務環境、海量科學數據分析與應用示範、科學數據整合與共用服務等三個子項目,工程著眼于“海·雲”服務思想,開展海量存儲基礎設施服務、海量數據資源共用服務和數據密集型公共支撐服務,全面推進數據環境建設和持續深化數據應用,成為立足中科院,面向科技界,共用開放、服務創新的國家級科技數據中心。
在中科院的統一部署推動、全院50多家下屬單位共同參與下,中國科學院電腦網路資訊中心作為科學數據庫牽頭建設和技術支撐單位,緊緊抓住資訊技術發展的脈搏,推動科學數據庫在建庫、整合和應用的全方位成長。科學數據庫踐行由硬體建設向環境構建、工程化項目向持續化發展方針,以雲服務模式為基礎,形成支援科研活動與科技創新的數據雲,並從基礎設施、數據資源、應用平臺三大類服務的角度整合整合各類資源和服務,形成中國科學院數據雲環境。
從最早“七五”期間15家單位、21個數據庫,發展到目前“十二五”期間58家單位、1340個數據庫,中國科學院數據雲整合了從資源學科領域到植物學科領域等多領域數據庫資源,提供共用數據量已從2.68GB增加到655TB,年均線上訪問超過千萬人次。“十二五”期間,共發表論文751篇,申請軟體著作權55項、專利30項。累計為131項科研項目提供了數據支援和服務,在支援科研項目、支撐學科發展和服務經濟社會發展等方面均取得良好的效果。項目積累的存儲、處理與應用等資源整合為數據雲一站式服務的相關技術,為持續推動科學數據雲發展打下了堅實基礎。
一、面向科研創新前沿 構建科研服務新模式
中科院數據雲以數據資産為核心,充分利用先進的雲計算技術,整合數據全生命週期的重要設施與資源,是現代科研創新體系的重要組成,是大數據科研成果服務於社會應用的示範平臺。
中科院數據雲環境為科研活動提供以海量存儲設施為基礎的雲存儲、雲歸檔、虛擬機和數據雲等服務,為科學數據管理和共用提供運作支撐環境,為科研創新活動存儲提供了有效保障。截止到2015年,中科院數據雲存儲環境運作服務總容量達52PB,雲存儲規模達8PB,共擁有物理伺服器約300台,虛擬機5000+的計算服務能力。數據歸檔總容量達38PB,擁有歸檔能力大於20TB/天,線上磁片陣列容量達到2PB,近線磁帶庫存儲容量達到30PB的歸檔系統。建成佈局中科院、直達各所的“一主一備+12分中心”的分佈式、可擴展存儲系統,提供滿足國標5級的“同城雙中心”、“兩地三中心”的高等級災備服務。
“十二五”期間中科院數據雲形成以基礎設施雲服務、科研數據雲服務、數據應用雲服務為主體的多層次、交叉式資訊化服務體系。中科院電腦網路資訊中心通過研發部署雲計算系統,為中科院資訊化專項、先導專項、重點基金項目、科技支撐計劃等項目提供支援。以生物資訊學分子數據分析環境、地理空間數據雲、DViz大數據可視化等應用的開發,示範了多學科領域數據、模型及雲服務應用的技術手段與服務模式。2015年8月,中科院網絡中心成功申請並獲批我國首批試點網路連續性出版物,創辦《中國科學數據》期刊,探索建立科學數據産權保護的新方法,推動科學數據出版與數據引用,進一步促進我國科學數據資源的開放與共用。
在服務科研的同時,中科院數據雲面向社會需求不斷加強産業化創新服務,提升拓展技術優勢。在交通管理、食品安全、新材料研發等公共領域,中科院電腦網路資訊中心與國家發改委、食藥監總局、北京地稅等三十多家企事業單位開展相關合作。2012年獲得中國産學研創新合作獎,2013年獲批成立大數據應用服務技術北京工程實驗室。2014年、2015年先後兩年成功舉辦科學數據大會,吸引了來自全國科研院所、高校以及相關企業參加。
二、中科院數據雲成果五大亮點
2015年8月31日,國務院發佈了《促進大數據發展行動綱要》標誌著我國正式把發展大數據上升為了國家戰略。中科院數據雲服務平臺的建成,將進一步釋放我國科學大數據價值,為 “一帶一路”、“生態文明”、“科學前沿”、“基礎學科”與“創業、創新”等國家戰略需求及社會熱點應用提供了有力的數據支撐與科學技術應用服務。
(一)讓中國科技照亮“一帶一路”
實施並建設好“一帶一路”,是融合中國發展優勢與全球合作願景,實現中國夢的一個重大舉措和抓手,為促進區域共同繁榮和世界和平發展提供了新契機。“一帶一路”建設需要科技創新引領和驅動,依靠科技創新支撐“一帶一路”實現可持續發展已成為戰略共識。
1.大數據協同平臺提供有力數據保障 成為主管部門決策“智庫”
“一帶一路”建設涉及新亞歐大陸橋、中蒙俄、中國—中亞—西亞、中國—中南半島等多個經濟走廊,經濟帶建設需求已對科學技術發出強勁召喚。2015年4月,中科院白春禮院長做出批示,支援並推動建設“一帶一路”國際科學家聯盟和資訊網路平臺。平臺以中科院為主導,著力打造滿足國際科學家了解問題、開放研討、協同研究和資訊共用需求的協同創新網路平臺。
中科院資訊化建設專項課題“資源學科領域基礎科學數據整合與整合應用”以俄羅斯、蒙古等“一帶一路”國家的基礎地理與資源環境為本底資料,通過整合獲取沿線國家的人口、經濟、能源、交通設施等數據資料,整合大數據資訊,直接為“一帶一路”科學院聯盟和協同創新網路平臺提供數據,實現了為“一帶一路”建設決策和國家治理提供長期的科技戰略諮詢作用。
2.環境監測數據服務於“一帶一路”區域環境治理與資源開發
“21世紀海上絲綢之路”戰略實施過程中,海上經濟活動和海洋保障都需要海洋科技發揮基礎支撐作用,而海洋數據作為海洋科技發展的基礎,其有效管理及共用為國家戰略實施提供重要的科學依據。中科院海洋研究所科研數據整合項目整合了包括觀測浮標、航次調查、國內歷史資料等多源數據,形成了集水上、水面、水下數據于一體的海洋立體綜合數據集,特別是在中國黃海、東海,長期連續的觀測數據與開放航次等調查數據組成的觀測研究網路,為保障海上絲綢之路正常運作提供了基礎海洋環境數據。此外,通過多源數據的整合,科研工作者也可更加方便地獲取海上絲綢之路沿線區域的調查數據,推動海上絲綢之路沿線海洋資源的開發,創造更大的社會經濟價值。
3.語言資源數據庫推動“一帶一路”區域文化與科技交流
中科院合肥物質科學研究院牽頭負責的多民族語言資源數據庫為“一帶一路”少數民族地區的言語教學和言語科研提供了堅實的語言數據基礎。數據庫將藏語言語數據庫應用於當地少數民族青少年的雙語教學,促進當地的對外開放與合作。此外,將蒙語和維語的言語數據庫嵌入面向少數民族地區的旅遊資訊産品中,將旅遊領域的漢語日常會話翻譯成少數民族的語言語音,加強遊客對“一帶一路”相關少數民族地區的了解,利於少數民族地區的旅遊業發展。
中科院自動化研究所中文語言資源庫建立了“100萬詞蒙語單語語料庫”、“漢藏雙語句子級對齊語料庫”、“維吾爾語—漢語綜合領域平行語料庫”等語料庫,增進少數民族語言地區與漢語普通話地區的學術交流,加強上述地區與“一帶一路”上蒙語、藏語語言國家和地區的紐帶作用,促進新疆、內蒙古等地發揮區位優勢,提升其作為向西開放的樞紐和文化科教中心地位。
4.科學數據開放為國際科學數據引進和交流共用奠定基礎
中科院地理科學與資源研究所“東北亞中亞地區資源環境科學數據共用培訓班”在授課期間,以中科院資源學科領域的“人地系統數據庫”作為數據共用教學資源,並由該平台資源建設、平臺開發和標準研製人員授課。來自俄羅斯、吉爾吉斯、塔吉克、烏茲別克、哈薩克、蒙古、泰國、巴基斯坦、孟加拉國的29名青年科學家接受培訓,在掌握資源學科領域科學數據共用的技術和方法的同時,也獲得了國際相關區域科學數據資源,為進一步加強“一帶一路”區域的國際科學數據引進和交換共用奠定基礎。
(二)讓科技創新成為美麗中國的綠色引擎
生態文明建設需要科技創新支撐和引領。當前以大數據為基礎的新一輪科技革命和産業變革,對我國的綠色發展既是挑戰,也是機遇。如何將科技創新作為戰略基點,加快培育和發展新興産業,推進傳統産業優化升級,支撐引領綠色發展成為時下科技工作者的新使命。
1.生態系統與安全數據庫為全國生態功能區劃提供依據
全國生態系統評估與生態安全數據庫為全國和區域尺度的生態環境重大科研項目提供了數據支援,同時為國家生態環境保護、生態文明建設提供了重要科學支撐。由環境保護部與中科院聯合頒布實施的《全國生態功能區劃》以全國生態系統、生態服務功能及生態敏感性數據為基礎。全國生態系統評估與生態安全數據庫還為區域和地方生態保護與生態文明建設提供了數據支撐,在長江流域生態健康評估中,明確了長江生態環境狀況、面臨的生態環境問題與未來生態風險;在北京市生態保護紅線規劃研究中,明確了北京生態保護的關鍵區域;在內蒙古阿爾山市生態系統生態總值核算中,為地方開展生態效益核算開展了示範。
2.南海海洋科學數據庫支撐我國海洋經濟發展和海洋權益維護
黨的十八大報告提出“大力推進生態文明建設”的戰略決策並明確指出保護海洋生態環境。海洋是地球的主體,海洋生態子系統的狀況對地球生態母系統起著舉足輕重的影響,海洋生態文明是整個生態文明建設的重要方面。
立足南海,跨越深藍。圍繞熱帶海洋環境與資源兩個重大研究方向,中科院南海海洋研究所南海海洋科學數據庫致力於海洋動力環境與觀測技術、邊緣海地質演化與油氣資源、海洋生態與生物資源優先學科領域科技數據資源的整合,南海海洋研究所數據資源體系和一站式共用服務系統的建設,支撐我國海洋科技創新、海洋經濟發展和海洋權益維護。
3.地理與湖泊數據庫為湖泊流域生態文明治理提供決策依據
湖泊流域大多為人口和經濟發展密集區,流域生産生活排放的大量氮、磷等營養鹽進入湖泊,造成湖泊富營養化和藻類水華頻發,湖泊成為我國水環境問題最為突出的地理單元。目前,太湖、巢湖和滇池等大型湖泊富營養化突出,藻類水華暴發的水污染事故頻繁發生。
圍繞湖泊水環境保護,中科院南京地理與湖泊研究所承建的“南京地理與湖泊研究所數據整合與共用應用示範”開展了“面向政府決策的湖泊水環境治理決策與預警”專題服務,為太湖流域水資源保護局、巢湖流域管理局掌握太湖和巢湖藍藻水華範圍分佈及水華面積,提供了及時有效的資訊。在太湖、巢湖藍藻調查、水資源調度以及流域水資源保護等方面起了較大的支撐作用,併為有關行政管理決策提供了依據,受到太湖流域水資源保護局的高度認可。
(三)取之於科學用之於科學 科學數據庫激活科學前沿新研究
數據的爆髮式增長,已把科學研究各個領域和環節推到了一個前所未有的“大數據”時代。一個國家的科學研究水準將越來越多地取決於其在數據的優勢以及將數據轉換為資訊和知識的能力。中科院數據雲作為科學大數據的基礎數據庫,在促進我國科學技術研究佔領國際制高點上發揮了越來越多的支撐作用。
1.核能數據處理開啟核能領域未來發展大門
大亞灣反應堆中微子實驗是由中科院高能物理研究所主導、中美亞歐等國家和地區參加的大型國際合作項目,主要目標是利用核反應爐産生的電子反中微子來測定具有重大物理意義的參數—中微子混合角。中微子實驗數據庫主要存儲大亞灣實驗産生的實驗數據,結合數據中心計算環境向大亞灣國際合作組的研究人員提供數據和計算服務。
中微子實驗正式取數以來,取得了突破性的研究成果。2015年,大亞灣國際合作組在《物理評論快報》發表了中微子測量的最新結果,將中微子混合角θ13和中微子品質平方差的測量精度都提高了近一倍,為世界最高精度。大亞灣中微子實驗獲得的研究成果,開啟了未來中微子發展的大門,産生了極大的社會影響。 2012年,首次精確測量θ13,入選美國Science雜誌“2012年度十大科學突破”,為此大亞灣中微子實驗合作組在2013獲得“影響世界華人大獎”提名;2015年,大亞灣國際合作組發表迄今世界最精確的反應堆中微子振蕩測量結果,實驗團隊獲 “基礎物理學突破獎”, 這是中國科學家和以中國科學家為主的實驗團隊首次獲得該獎項。
面向核能發展對數據的緊迫需求,為解決核能學科領域數據資源匱乏、分散等嚴峻問題,中科院核能安全技術研究所在中科院“十二五”資訊化專項的支援下,聯合中科院電腦網路資訊中心、高能物理研究所、近代物理研究所等優勢單位經過3年的持續建設,建成包括核數據庫、核材料數據庫、可靠性數據庫、聚變數據庫等數據資源,二十余套線上服務軟體的綜合性數據平臺。核能數據庫網站,已為來自中國、美國、英國等二十多個國家11500余名核能研究人員提供了核能數據及線上計算服務,用戶累計下載量超過2TB,為核能設計及安全分析提供了全面的支援。核數據庫子庫HENDL面向先進核能系統核數據應用需求,成功解決了世界首個嬗變高放射性核廢料ADS系統設計關鍵問題。核反應爐材料子庫支援世界三大低活化馬氏體鋼之一的CLAM鋼性能優化,為世界核材料領域低活化鋼研發做出了突出貢獻。
2.中國植物物種資訊數據庫開闢後植物分類學新時代
隨著生物多樣性資訊學、新一代網際網路技術的發展與應用,以及後基因組時代測序技術的發展,植物資源和植物多樣性的研究遇到更多新的挑戰。基於中國植物物種資訊數據庫基礎上編著的《中國植物志》出版後,昆明植物研究所率先提出了“iFlora研究計劃”。iFlora研究計劃擬基於《中國植物志》的研究成果,整合植物學、分子生物學、生物資訊學等現有優勢學科力量,通過與生態學、自然地理學、植物化學、電腦科學等學科的交叉,打破傳統意義上的紙本和單一産品的《植物志》的界限,實現植物物種多樣性研究標準化、資訊化和動態化,滿足我國生物多樣性保護研究與資源持續利用需求。“iFlora”研究計劃的提出,開闢了後植物分類學的新時代。
(四)科學大數據孕育科研方法新範式
大數據作為改變人類生活及理解世界的新方式,正驅動著科學研究範式的轉化,科學大數據已成為科學發現與知識創新的新引擎。從海量數據中解析所蘊含的新模式,科學大數據正帶來科研方法論的新範式。
1.高能天體物理數據庫成為我國空間天文科學體系中的重要組成部分
隨著全球大型巡天觀測項目的開展,天文學研究從小樣本向著大數據模式轉變,海量的天文數據給天文學家帶來了巨大的機遇和挑戰,天文學的研究也越來越離不開大數據集的統計分析,即數據挖掘和知識發現。
硬X射線調製望遠鏡(Hard X-ray Modulation Telescope, 簡稱HXMT)衛星是我國正在研製的既可以實現寬波段、高靈敏度X射線成像巡天又能夠研究黑洞、中子星等高能天體的短時標光變和寬波段能譜的空間X射線天文觀測設備。HXMT將於2016年發射升空,併發布大量科學觀測數據,用於開展緻密天體和黑洞強引力場中動力學和高能輻射過程、X射線脈衝星的物理性質等方面的研究。
中科院先導專項項目“HXMT數據處理技術”將建成具備對HXMT衛星有效載荷實施在軌性能分析、完成數據處理與數據産品生成、提供數據發佈與用戶支援服務的數據分析平臺,高能天體物理數據庫為科學用戶開展數據分析提供基礎支撐,並成為我國空間天文科學體系中的重要組成部分。
2.海量土地數據確立我國土係變化趨勢
在高強度利用下,我國農田究竟是丟碳還是固碳,國內外爭論很多。在此之前,由於科研過程長時期缺失足夠數據支撐造成結果難以定論。“中國農田土壤固碳潛力與速率研究”課題基於我國農田土壤有機碳採樣分析和中國土壤數據庫歷史數據,進行“面對面”和“點對點”的比對,對於我國農田土壤碳庫變化進行了研究。初步結果顯示,除了東北地區丟碳,其他區域都有不同程度固碳。“中國土壤數據庫”在該項目中提供了本底的土壤數據,對於土壤固碳速率正確估算,並確立我國農田主要是碳匯等結論提供了關鍵的數據支援。
面向《內蒙古自治區土係調查與<中國土係志·內蒙古卷>編制》項目的需求, 中科院地理科學與資源研究所基於收集整理的原始數據、初級加工數據以及項目成果數據建立了內蒙東四盟土壤分析剖面實物和數據組。東北地理所黑土數據整合中心負責對課題採集的剖面數據和表層樣點數據進行分析,並通過空間處理落實到相關圖位上,建立土壤剖面實體模型,為中國土係的建立奠定了基礎。
3.生物庫成為科研人履行保護生物多樣性公約的具體行動
生物多樣性是人類共同的財富,也是人類社會賴以生存和可持續發展的基礎。為了摸清中國生物多樣性的家底,中科院生物多樣性委員會自2007年起組織國內外100多位分類學專家,依據物種2000標準數據格式,每年編研、更新《中國生物物種名錄》,並與全球生物物種名錄實現資訊共用。2015版《中國生物物種名錄》,包括了動物界、細菌界、色素界、真菌界、植物界、原生動物界和病毒等七個部分,共收錄物種8.3萬個,編研過程中參考了中國動物志數據庫,中國動物名錄數據庫、動物名稱引證數據庫。《中國生物物種名錄》的編研和發佈為生物多樣性保護政策和規劃的制定提供科學依據,為開展生物多樣性科學研究提供基礎數據,為公眾參與生物多樣性保護創造必要條件,是中國貫徹實施《中國生物多樣性保護戰略與行動計劃》和積極履行《生物多樣性公約》的具體行動。
(五)大數據撬動創業創新新應用
在資訊經濟發展迅猛的今天,大數據扮演生産要素的角色,讓數據在碰撞中聚變,充分釋放大數據的價值,帶動“大眾創業、萬眾創新”是中科院數據雲的應用目標,雖然我國基於大數據的創業、創新業務和服務模式還不成熟,但卻意味著更多機會,中科院數據雲實際應用中已不斷涌現出基於大數據的新嘗試和探索。
1.災種、救災數據庫為應急救災提供災害預測等創新服務
2014年10月,廣東登革熱疫情嚴重,為了支撐軍事醫學科學院的救災防疫行動,“資源學科領域基礎科學數據整合與整合應用”為其提供了廣東省鄉鎮級數字地圖、廣東省面狀人口數據和GDP數據、廣東省土地利用數據直接應用於疫情聚集區的分析、重點採取防控區域的確定、傳播風險的預測,為防疫救災和危險評估提供了保障。
2015年4月,尼泊爾發生8.1級地震。“資源學科領域基礎科學數據整合與整合應用”人地系統主題數據庫迅速反應,第二天就整理出災區及周邊範圍的基礎地理、冰川冰湖、人口及社會經濟、土地覆蓋、歷史地震資料等15個數據集,無限制、無償向公眾開放下載。通過開放尼泊爾數據直通車,快速整合不同災種、救災階段所需要的數據資源和産品,為應急救災提供無障礙的無償共用服務,成為科學救災的重要依據。
2.DNA條碼標準參考數據庫助力森林公安快速破案
隨著分子生物學的快速發展,DNA條碼為快速的物種鑒定提供了分子水準的精細分類學標準。該技術通過建立一套基於標準短基因片段的數字化序列文庫來實現物種鑒定。
森林公安、海關等有關部門在打擊野生動物盜獵、珍稀植物砍伐時,很多時候發現的是一些骨頭,毛皮,甚至是一些木屑等不完整樣本,而依法追責一定要鑒定出這些是動植物的具體資訊。中科院昆明植物研究所在獲得迪慶州森林公安的木屑標本後,通過與其建設的標準數據庫進行比對,不僅鑒定出這些木屑來自紅豆杉,而且準確地告訴了這些紅豆杉大概生活區域,即採伐地。森林公安憑藉這份鑒定報告,快速地破獲了這起盜伐偷運案件。
3.語言資源庫促進人工智慧領域産品研發
中科院自動化所中文語言資源庫項目在建立和整合語言資源的基礎上,形成系列化的標準和規範,整合百餘套數據庫,建立了數據支撐服務平臺,大大提高了語料庫的有效獲取和共用利用,並積極開展與企業合作,將語料庫應用到企業的創新技術、新産品研發中。平臺的數據庫大量應用於30余個企業的技術研發,支援包括百度在內的商業公司的産品研發中。基於“語音合成語料庫”等數據資源研發的語音合成技術,已與三星和聯想分別合作,應用在其多款手機中。
“十三五”期間,在國家大數據行動背景下,以中科院“率先行動”計劃為行動指南,面向智慧中科院發展願景,中科院數據雲將以科研需求為牽引,社會應用為落腳點,繼續推動科學大數據的整合與開放、提高科學大數據為科學家與公眾的服務,探索科學數據庫發展和共用服務新模式。
科學大數據正在使科學世界發生變化,促進數據密集型科研範式的産生。中科院數據雲先進的發展理念和有效的運作機制,有力的引導和整合了科學數據基礎性工作,將科學數據戰略機遇轉化,成為數據密集型科學發現的制高點和前沿陣地。科技引領著社會的發展,面對“網際網路+”、“萬眾創新、創業”的時代號召,科學大數據將釋放出巨大潛力,在社會管理、民生保障、産業發展方面提供新的動能。
- 股票名稱 最新價 漲跌幅