新聞源 財富源

2024年11月24日 星期天

財經 > 滾動新聞 > 正文

字號:  

大數據: 一種新經驗主義方法

  • 發佈時間:2015-06-22 05:45:35  來源:經濟日報  作者:佚名  責任編輯:羅伯特

  當今世界,“大數據”已成為一個熱點話題,學術界和産業界都試圖在該領域取得突破。何為大數據?這是在充分收集、整理和分析歷史經驗數據的基礎上,運用已有經驗對新事物進行判斷與預測的新興思維和方法。

  在人類傳統的思維、行為模式中,受數據收集的歷史條件局限,所謂理性主義長期佔據主導地位,即:通過長期觀察和經驗的積累,人類能透過現象看到本質,從而總結出事物發展的一般規律。具體説來,便是從有限數據中抽象出一般規律和模型,將泛化有限經驗推廣到一般情況。所以説,理性主義方法就是模型方法。然而,由各方參與和博弈的人類社會複雜紛繁,人們並非總能從有限經驗中抽象出一般規律,也難以處處用理性分析方法建立模型。

  隨著資訊科學技術的高速發展,人類對數據的收集和分享能力空前強大,包括以物聯網收集物理世界數據,以網際網路收集虛擬世界數據,以移動設備收集個人數據等等。從某種意義上來講,這也是對人類經驗的收集和分享。當數據達到一定的深度和廣度,量變就會發生質變,我們發現:數據(經驗)越多,對模型(理性)的依賴程度越小。於是,一種基於大數據的新的經驗主義方法迅速興起,很快獲得社會廣泛認可並運用到諸多領域。

  在傳統的理性主義方法中,由於只掌握小樣本數據,人們通常基於小樣本數據構建模型並將其泛化,進而解決新的問題。顯然,若待解決的問題與小樣本差別過大,這種模型就會失效。相比之下,大數據的特點是省略複雜的模型,直接尋求面臨情況與已知樣本的匹配。其核心就是盡可能多地收集樣本,構建足夠大的樣本數據庫來覆蓋所有可能遇到的情況,令每種情況總能找到一個或多個相同或相近的樣本,從而運用老經驗解決新問題。

  也可以這樣比喻:傳統方法是個理性主義者,“他”循規蹈矩,有很強的邏輯思維和歸納能力,能夠通過小樣本建立模型、總結規律;“大數據”則是經驗主義者,“他”不是科班出身,但實踐經驗豐富,頭腦包羅萬象卻有條不紊,遇到難題總能迅速找出以往經驗與之應對。規範地説,“大數據是現代社會在掌握海量數據收集、存儲和處理技術基礎上所産生的一種以群體智慧進行判斷和預測的能力,它代表了一種新的經驗主義思想和方法。”

  那麼,多大的數據才是大數據呢?目前,這個問題沒有絕對的答案。不妨這樣回答:“當數據多到能對問題的樣本空間進行充分覆蓋,從而減弱對理論和模型的依賴時,這樣的數據就足夠大了。”實際上,數據之“大”與問題的規模成正比,即:若問題的規模小,少量數據即能覆蓋全部情況,這些數據已構成具體環境的“大數據”;反之,若問題的樣本空間大,則需要更多數據才能將其完全覆蓋。

  既然大數據體現著先進的新經驗主義,在實踐中展現巨大價值並逐漸成為社會主流,那麼傳統的理性主義難道就要退出歷史舞臺了嗎?回答是否定的。

  首先,人類社會的不少問題樣本空間極大,數據雖盡力收集卻總是不夠,即總是不能覆蓋所有可能的情況。以不同語言之間的機器翻譯為例:從一種語言翻譯為另一種語言,其樣本空間需囊括所有可能出現的詞句,而對這樣的樣本空間進行全面覆蓋則需收集幾乎無窮盡的數據。由於不能實現全面覆蓋,即使收集數據再多,也很難説這就是“大數據”。

  其次,萬物都處在運動當中,一成不變的事物是難以想像的。具體到某一社會問題的樣本空間,“不變”是相對的,“變”是絕對的,像自然領域的氣象數據、人文領域的人口數據,甚至是時刻在變化著。又如,網際網路上新的詞語層出不窮,有時令人難以理解,而已知數據中根本沒有相似的樣本,當然無法直接運用大數據的方法進行處理。

  因此,將大數據(經驗主義)和傳統方法(理性主義)結合起來、綜合運用,才是順利解決社會問題的明智選擇。就是説,遇到數據不能完全覆蓋的情況,還是需要借助模型的泛化能力進行處理,將已知經驗推廣到數據未能覆蓋的地方。

大數據 詳細

漲幅榜 更多

排名 股票名稱 最新價 漲跌幅
1 紫光股份 80.14 10.01%
2 東軟集團 15.94 10.01%
3 賽為智慧 18.52 9.98%
4 航太資訊 27.13 7.28%
5 天源迪科 17.00 6.25%

跌幅榜 更多

排名 股票名稱 最新價 漲跌幅
1 天夏智慧 12.58 -5.77%
2 上海鋼聯 74.30 -3.19%
3 美的集團 52.84 -3.10%
4 南威軟體 12.10 -2.97%
5 奧飛數據 75.28 -2.87%

熱圖一覽

  • 股票名稱 最新價 漲跌幅