大數據時代下的新科研
- 發佈時間:2014-11-06 01:31:12 來源:科技日報 責任編輯:羅伯特
“大數據的概念聽上去和雲計算一樣,有些‘高大上’,但是大數據絕不是一個空泛的口號,事實上它不僅改變了人們的生存面貌,更為科學研究帶來重大的機遇。”中國科學院遙感與數字地球所研究員郭華東説。
依託海量的數據狀態和雲級別的數據處理能力,大數據以其Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實)的4V特點,帶來了一場全方位的思維變革、産業變革和管理變革。郭華東表示:“它把我們的科學研究各個領域以及各個環節都推到了一個前所未有的‘大數據時代’。”近日,以“科學大數據的前沿問題”為主題的第507次香山科學會議在北京香山飯店舉行,會議邀請了來自全國各地多學科跨領域的專家學者,共同探討大數據時代下科學研究的基礎設施、創新模式與共用機制以及人才培養等問題。
大數據讓科研面臨新挑戰
在中國科學院電腦網路資訊中心主任黃向陽看來,電腦技術、以網際網路為代表的通信技術和以物聯網為代表的傳感技術的持續創新和廣泛應用使人類的數據化能力和範圍快速擴張。“以大科學裝置為代表的機構內部産生的數據量能夠被測量和記錄的越來越多,而我們對事物、現象等的測量、記錄也更加頻繁和細緻。”他説。
“如今,這種擴張讓我們看到大量從宏觀到微觀、從自然到社會的觀察,計算、傳播等儀器設備和活動都在快速産生著海量、多樣的數據。”黃向陽説,“比如高通量科學儀器、望遠鏡、衛星、加速器、感測器網路、醫療成像設備、測序儀等各種科研儀器和裝置、模擬方法、智慧終端以及各種應用等,這些都使得科研領域被推到了一個前所未有的‘大數據’時代。”
海量數據的劇增,勢必讓量變引起質變,黃向陽表示,不斷增加的數據引發人們思維和行為模式的變革,而在科學研究領域,這也將直接為科研模式帶來極大的改變。“繼實驗科學、理論科學、計算科學之後出現了第四種研究範式,即‘數據密集型科學’,成為大數據時代下的新模式。”
“我們有理由相信,大數據為科學研究帶來了重大機遇,比如當所能利用的數據增加時,人們將可以做很多在小數據基礎上無法完成的事情。”黃向陽説。
取之於科學用之於科學
中國科學院高能物理研究所計算中心主任陳剛説:“中國的髙能物理實驗每年産生的數據也達到PB級(百萬GB級——編者注)。高能物理實驗是典型的大科學裝置和大科學研究項目,這意味著跨國家跨地域的國際合作。這樣的大科學項目需要將實驗數據收集和存儲起來,並通過高速網路分發給處於不同國家或機構的合作者。這對高速網路提出了巨大挑戰。”陳剛表示,正因如此,高能物理需要建設專用高速網路並採用新的網路技術來實現數據的全球共用。
“通俗的説,科學大數據是科學工程研究中的海量數據。”中國科學院遙感與數字地球研究所研究員王力哲説。在他看來,大數據“無處不在,且蘊含著巨大的經濟價值”,它既是一門多學科融合的一個交叉學科,也在反過來影響和改變著更多的科學領域。
王力哲以我國人口密度對比線——“胡煥庸線”的形成機理分析作為一個實例來解釋科學大數據知識發現的理論方法:“‘胡煥庸線’的形成涉及多方面自然、社會、經濟因素的影響,個體空間行為—空間過程—空間格局的相互作用機理模型極其複雜;這項研究伴隨著超長序列的海量空間數據和社會經濟數據,包括地理、氣候、遙感、 人口、工農業生産、資源、環境、商業、教育、交通等等。”他表示,“而空間大數據時代的到來,使用超長時空序列的、多源、異構的自然、社會、經濟空間大數據,進行空間大數據分析和知識發現,能夠為研究‘胡煥庸線’形成機理進而為‘新型城鎮化建設’這一重大國家需求提供理論決策支援。”
在天文領域,大數據也在為挖掘有價值的資訊及規律發揮著重要的作用。中國科學院國家天文臺研究員趙永恒説:“隨著全球各個大型巡天觀測項目的開展,天文學研究的模式正在從以往的小樣本向著大數據模式轉變,海量的天文數據給天文學家帶來了巨大的機遇和挑戰,天文學的研究也越來越離不開大數據集的統計分析,即數據挖掘和知識發現。”
他表示,現如今,對這些海量天文大數據進行數據處理與分析已經超越了當前的計算能力。“如何對天文大數據進行高效和及時的處理從而加速天文學研究的科學産出已成為天文觀測和天文研究迫切需要解決的難題,而大數據無疑可以幫助天文學家重新審視和了解我們的宇宙。”
大數據管理帶來新思考
儘管大數據時代的到來為諸多科研領域帶來新的曙光,然而如何將科學數據變成創新資源,並在數據共用的積極作用下有效保障國家安全與個人隱私,成為人們關心的話題。
“尤其像現在,科學數據的應用邊界,已經從傳統的科研和教育領域,向社會經濟和商業領域延伸,因此這仍然是一個複雜的、系統的問題。”中科院網路資訊中心科學數據中心主任黎建輝説。
據他介紹,為此,國際國內均在做一些有益的探索和嘗試。“在學術領域,新的數據出版模式正在逐步形成。”黎建輝説,“在商業領域,數據集
市作為在雲計算技術支援下的數據共用、交換與交易的模式,在國內外呈現快速發展的趨勢。”
在浩瀚的數據海洋裏挖掘和捕捉能夠推動人類進步的資訊,與此同時還要保障一系列的數據安全隱患,在復旦大學上海數據科學實驗室主任朱揚勇看來,培養數據科學家十分重要。“這裡説的是數據科學家而非傳統的資訊科學家,他們關注對數據現象和規律的研究,並開始出現在領先的企業和大學中,發揮著他們的巨大作用。”
合格的大數據人才需要具備哪些品質?王力哲表示:“數據科學是一個多學科融合的交叉學科;數據科學是以數據為研究對象,以資訊論、統計學、數據理論、數學分析等理論為研究手段,以獲取海量數據中蘊含的知識為目標的一門學科。” 也正因此,他認為從事大數據研究勢必應該是複合型人才。
“除此之外,他還要關注國際數據科學領域熱點議題,關心數據及其涉及的一系列政策、標準、技術、方法和國際發展態勢。”中國科學院地理科學與資源研究所研究員劉闖表示,“世界性的數據科學領域學術帶頭人正在一些熱點議題中涌現出來。”
她認為,數據領域國家化人才還應對數據領域熱點問題把握準確,有一定超前的戰略思想,並在這些問題上有“開放的、獨特的學術業績”。
“我國在數據領域培養國家化人才方面與大國地位差距甚遠,特別是一些關鍵性領域尚屬空白。在這個方面,我們還有很多工作要做。”劉闖説。
聲音連線
大數據或許可以“創造大腦”
10月26日,由復旦大學主辦的浦江創新論壇·未來科學論壇上,多位國內外頂尖科學家齊聚一堂,圍繞“關注未來:拓展認知的疆界”這一主題,就當今時代科學發展最具吸引力的重大領域展開了精彩的討論。
據中新社報道,中國科學院院士,北京航空航太大學校長懷進鵬在論壇上公佈了一個有趣的科學設想:大數據也許可以“創造大腦”。從神經科學來認知腦,也許通過數據人類可以創造一個腦。孩子學習識物的時候,不需要一兩百張、而是通過20張左右的圖片,他就能學會區別什麼是馬,什麼是牛,什麼是車,這與大數據識別有著相似之處。
懷進鵬設想,通過研究從數據科學到電腦到智腦的演化,也許能從無數據到大數據建立人腦圖譜,在移動計算和現有的大數據當中嘗試“創造大腦”,創造一個部分的功能或者倣真一個功能,使電腦向智腦轉換。
今天的時代是一個用戶産生內容的時代,但是對於大數據的運用,基本還停留在淺顯的層面,如通過網頁瀏覽量數據分析用戶的喜好、需求等。更多的數據依然是無序、不可被分析的狀態。
懷進鵬説,如果能建立一種智慧模式,“教會”電腦掌握從數據的無序到有序關聯,以便認識人的一部分世界,通過建立一系列融合關聯,讓電腦學會構成一個時間段的社會理解,用晶片或者機器創造“一天的宇宙”。
加入電腦能夠形成跨語言之間的遷移學習,最後形成自主生長和所派生的複雜結構下相互數據、資訊和知識之間的關聯,以便對智腦的理解有附加的幫助,在這樣的方式下通過數據分析出傳播學、社會學的新特徵。或許還可以了解人是如何學習和記憶的,如何認知和增長智力、形成自主學習的,甚至了解情感形成的過程。
“也許通過數據,我們可以創造一個腦,因為基於數據的科學可以使得機器更聰明,也可以使得社會更理性。”懷進鵬展望説。