科技 > 網際網路 > 正文

字號：大 中 小

大數據也有問題：數據量增加遠超摩爾定律需要“智慧遺忘”

發佈時間：2016-06-13 14:46:32 來源：大河網作者：任天責任編輯：張潔欣

大數據的問題之一是太過於關注當前，而忽略了即使最近的過去。

我們需要更好地確定哪些數據值得優先保存

　　據國外媒體報道，在經濟領域和人類行為的大量數據採集中，存在著一個違反直覺的弊端，而這會使我們忽略歷史的教訓。

　　你或許很熟悉這樣一個統計結論：世界90%的數據是過去幾年裏産生的。事實上，過去三十年中，全世界的數據量大約每兩年增加10倍——遠遠超過了電腦領域的摩爾定律。

　　這樣的資訊增長速率會帶來一些問題，其中之一便是現時的數據量總是遠遠超過即使最近的過去。想像你正在通過一本相片簿回顧人生的頭18年，假設在兩歲時你有兩張照片，如果資訊增長速率與世界數據量相同，那麼在你6到8歲時，你會有驚人的2000張照片；10到12歲時有20萬張照片；而在16到18歲時，照片數量會達到2億張，相當於在最後兩年中，每秒有3張以上的照片。

　　當然，這並非是全球數據增長情況的完美類比。首先，世界大部分數據的增長源於有更多的人創造出了更多的資訊來源，同時伴隨更大、更精細的格式。不過，有關比例的觀點還是成立的。如果你像前述的例子那樣回顧以往的記錄，或者試圖進行分析，那距離越久遠的過去就會變得越無關緊要。

　　這就是目前採集和分析大數據時所面臨的問題。當你開始以更長遠的視角往前回溯時，會發現近期的事情太多，而以前的事情太少。短視是結構性的，對短期趨勢的過度估計是壓倒性的，同時卻忽略了歷史的經驗教訓。

　　為了理解這個問題的重要性，需要考慮社會科學中有關“近期偏差”（recency bias，又稱近因效應）的研究發現。近期偏差是指在判斷趨勢時，認為未來事件與近期體驗更加類似。這可以説是某種“可利用性法則”（availability heuristic） ——不恰當地以最容易被知覺到的資訊來作為思考的基礎。這還是一種普遍的心理學特徵。舉例來説，如果在你居住的地方，過去幾年中夏季都異乎尋常地寒冷，你可能會認為夏天正在變得更冷——或者説你當地的氣候正在變冷。事實上，你不應當把任何東西都塞到數據裏分析。你需要有一個長遠的視角，才能認識真正有意義的氣候趨勢。在短時期內，你最好不進行任何猜測。不過，我們之中又有誰能真正做到這點呢？

　　現實生活中大部分複雜的趨勢正是如此：股票市場、經濟發展、企業的成功或失敗、戰爭或和平、國家關係、帝國的崛起和衰落等等。短期分析不僅不夠紮實，而且毫無益處甚至會帶來誤導。看看2009年金融危機即將到來的時候，還有那麼多經濟學家信誓旦旦地宣稱這一事件不會發生。認為從那種時間尺度的數據就能做出紮實的預測，本身就有很大的問題。

　　我們還應當記住，在決定哪些數據是保存還是刪除的時候，新穎性往往會成為主要的考慮因素。舊的淘汰，新的進來，在這個搜索演算法本質上偏向於新鮮事物的數字世界中，這是明顯的趨勢。從高等法院的裁決，到所有的社交媒體服務平臺上，我們到處都可以看到已經失效的網址。對當前的偏好已經滲透到我們身邊幾乎所有的技術中，大多數人已經習慣用個四五年就把原本光鮮亮麗的機器拋棄。

　　怎麼辦？這不僅是一個如何更好保存舊數據的問題——儘管這並不是個壞主意，想想我們現在還有什麼東西能保留10年的。更重要的是，這個問題關係到確定哪些東西值得優先保存，如何在知識的名義下，確定哪些資訊最有意義。

　　或許我們需要的是“智慧遺忘”：讓我們的工具變得更會放棄最近的過去，從而在整體視角上保持更大的連續性。這有點像是重新組織一本相片簿，儘管加上了更多的數學方法。什麼時候兩百萬張照片的價值比兩千張照片更低？什麼時候較大的樣品覆蓋的範圍反而較小？什麼時候細節水準能提供有用的質疑證據，而不是虛假的自信？

　　許多數據集是無法縮減的，而且在完整的情況下才最寶貴，比如，基因序列、人口統計學數據、地理和物理學的原始觀測數據等。科學性越弱，數據規模與數據的品質更可能呈現負相關，此時時間本身就成為更加重要的過濾工具。我們如果不仔細選擇過去保存下來的有價值、有意義的東西，那它們就會悄無聲息地淹沒在如今日益增長的噪音之中。

　　今天的企業、個人和政府機構都能夠獲得比以往（甚至就在幾年前）大許多數量級的數據，但這些數據並沒有獲得更多的處理時間。利用越來越高效的工具，董事會成員、首席執行官、政府官員等決策者可以就已有的資訊提出更有意義的問題。單純的堆積不是問題的答案。在一個數據量越來越大的時代，如何選擇不知道哪些事情，與選擇做什麼事情一樣重要。