警惕“大數據傲慢”
- 發佈時間:2015-07-01 08:10:00 來源:人民網 責任編輯:王磊
我們每天聽到“數據”一詞的頻率突然高起來,如“大數據”、“數據經濟”和“政府數據公開”等,“數據”與現代社會、與大家的日常生活越來越息息相關。
從“數字”、“數值”到“數據”
沒有電腦和資訊技術的年代裏,“數據”更多的是“數字”或“數值”,至多也就是用於統計的“數字”或“數值”。電腦問世初期,資訊技術有了“數值計算”和“數據處理”的差別,只不過,“數值”通常指連續變化的物理量;而“數據處理”處理的是離散的一組組“數字”而已,“數據”仍然停留在統計應用的水準。
隨著電腦和資訊技術的普及和發展,網際網路的普及特別是移動網際網路的普及,“數據”有了更多的內涵和更廣外延,“數據”不再限于“數字”或“數值”,只要是電腦可以處理,“數據”可以是文本、語音、圖形、圖片、視頻和更多其他的形式。“金融數據”包括但不限于銀行交易、證券交易、外匯牌價和交易、信貸、資信、金融趨勢等。“醫療數據”包括但不限于病人症狀、檢查結論、診斷、用藥、流行病、專家就診時間、醫療資源分佈等。“教育數據”包括但不限于適齡學生數、課程計劃、成績、教育品質、升學、就業等等。各種數據,林林總總,不一而足。
曾記得,“數字化”風靡一時。科學家香農在上個世紀40年代就提出了採樣定理,即對一個連續函數,按給定間隔提取其值,就可以用一組離散的數字序列代表這個連續函數,這就是數字化的重要基礎。“數字化”的另一個意思是“數字化標示”,用一串數字來標示一個客體。“數字化”目標是數字電腦可以處理模擬信號,也可以紀錄處理各種客體的“數字化標示”,我們不能不説這是一場技術革命,只不過這個革命是一種工具(電腦)或過程(電腦處理)的革命。“數據”就不同了,“數據”是現在資訊社會的一個新生兒,它像石油和礦石,是一種新的原材料,可以用來加工、産生價值;它像農具和機器,是一種新的生産資料,可以提高生産的效率;它像高速路和機場,是一種新的基礎設施,投資和利用它可以改善經濟和民生。
有創新企業的生産原材料就是“數據”,他們對這樣的原材料加工,生産去形形色色的“數據産品”,獲得受益,比如:加工過的病案數據對於醫藥企業,加工過的點評數據對於餐飲企業,加工過的人口流動數據對於規劃部門。有些企業很好的利用了“數據”這種生産資料,通過收集分析用戶習慣“數據”,可以設計生産出更有人緣的産品,比如:世界知名的網際網路公司和手機公司都不斷在收集分析用戶使用習慣的“數據”,進而改進自己的産品,搜索服務提供商不停收集用戶的搜索關鍵詞,藉以分析各種有價值的趨勢。也有不少地方開始關注對於“數據”基礎設施的投入,提高本地區的競爭力,
有企業家説,滑鼠嫁給水泥,誕生的寶寶叫數據經濟。
“大數據”並不僅僅是因為“數據”量大
“大數據”極大的提升了“數據”一詞的使用頻率。多大是“大”?
其實歷史上“海量數據”被用過很長時間,“海量數據”也是在説“數據”的規模,“大數據”也包含“數據”的規模,不同的是:“大數據”不僅關乎規模,同時還涉及數據的多樣性和複雜性,最關鍵的是用傳統的理論和方法都無法高效處理。
曾幾何時,人民熟知的數據大小的單位,從位、K(千、10的3次方)、M(百萬、10的6次方)、G(十億、10的9次方)、到了T(兆、10的12次方)、P(千兆、10的15次方)、甚至E(百京、10的18次方)。《經濟學人》期刊2010年2月出版的專輯“The data deluge(數據洪流)”中提到數據大小的單位E時,不少專業人士也得上網查查,E到底是多大?
“大數據”與“數據”或“傳統數據”有規模上的不同,同時在收集方式上,特別是分析方法上有著根本的差別。搜索服務提供商不停收集用戶搜索關鍵字,用於分析各種趨勢;社交網路不停收集聊天主體,分析其中關鍵字和語義,判斷社會大眾心情;電商則通過售買數據解讀熱銷産品,這些和“傳統數據”或“小數據”的收集方式有明顯的差異。“傳統數據”的分析方法主要是統計和數據挖掘。“大數據”的加工與“傳統數據完全不同”:高度併發的數據採集、數據全集(而非抽樣)的處理、數據清洗等預處理,非結構化數據的處理、語義分析、深度學習。正是由於採用了各種新的數據處理方法,“數據”才能成為“大數據”,“數據”才有價值,“數據”才能成為原材料、生産資料、基礎設施。
- 股票名稱 最新價 漲跌幅