華爾街玩轉社交網路大數據:利用你的恐懼賺錢
- 發佈時間:2015-06-01 09:34:31 來源:光明網 責任編輯:書海
每經實習記者 黃修眉
5月28日,當上證指數以重挫6.5%結束一天行情時,網路上到處瀰漫著恐慌與迷茫的情緒。就在投資者在堅守和撤離之間難做抉擇之時,有一種軟體已在後臺蒐集這些情緒數據,並進行量化分析,形成具體的投資意見。這就是美國華爾街投行、對衝基金、甚至紐約證券交易所都在使用的社交網路股市情緒量化分析法。
我國的股市情緒量化分析,也隨著股票雷達、投資脈搏以及百度股市通等應用的出現,進入了起步階段。在大市走向震蕩加劇的當下,將感性的情緒量化為理性數據,不失為投資者縱觀全局的參考指標。
2015年4月,總部位於波士頓的對衝基金Tashtego宣佈,將依靠數據演算法,利用社交網路分析客戶情緒和投資者行為進行交易。這則消息,向大眾揭開了華爾街使用的情緒量化分析法的神秘面紗。
實際上,從2013年美國證監會(SEC)允許上市公司在社交網路披露公司資訊起,美國股市情緒分析應用如雨後春筍般冒出,華爾街投行、對衝基金等紛紛加入到這股網際網路金融浪潮中。
社交數據分析公司受追捧
2013年3月8日,紐約數據分析公司Dataminr(數據礦工)的客戶收到一條緊急推送,稱一艘皇家加勒比海遊輪抵達佛羅裏達的埃弗格萊茲港,船上的105名乘客和3名船員全部感染諾如病毒(常見伴隨症狀是食物中毒和腹瀉)。這則經確認的新聞剛公佈,皇家加勒比海遊輪公司的股價旋即急跌2.9%。Dataminr的客戶在新聞公佈前48分鐘即得知此事件。
引起Dataminr員工警覺的,是南佛羅裏達新聞電臺WSVN于當天下午1點發佈的一條推文。“我們心中警鈴一震”,Dataminr公司創始人彼得·貝利説,後臺語義演算法系統發現這條推文與曾經産生過類似價值的資訊行文類同。當天下午1點02分,即該推文發佈兩分鐘後,Dataminr公司的相關客戶就收到一封警示郵件。
上述Dataminr提供的服務,不過是美國近幾年社交網路股市情緒分析浪潮中的一例。
諸如Social Market Analytics(社交市場分析公司SMA)和Hedge chatter等公司都以Twitter、Facebook等社交網路大數據為基礎,收集並分析網路上對上市公司或某一事件的看法評論,並作出與股價有關的預測分析。
全球最大社交數據提供商GNIP2014年發佈白皮書指出,社交網路股市情緒分析最早始於2010年,用途還只限于企業分析客戶感受。2013年,美國證監會(SEC)允許上市公司在社交網路披露公司資訊後,包括湯森·路透、彭博社在內的全球著名數據提供商也開始提供社交網路數據分析服務。
面向機構和個人的相關應用如雨後春筍般冒出。Dataminr創始人彼得·貝利透露,他們的客戶就包括華爾街前5大超級投資銀行中的3家,和一家估值150億美元的股權避險基金公司。
SMA與全球領先的數據分析商Markit合作,向超3000家機構投資者提供資訊,裏面就包括中央銀行、華爾街投行、對衝基金、政府機構和保險公司等。值得注意的是,SMA甚至打入了交易所內部,向美國紐約交易所用戶訂閱欄目提供實時數據分析結果。
理論基礎和數據池更成熟
對市場情緒的分析早有理論基礎。2002年,心理學家丹尼爾·卡納曼和經濟學家弗農·史密斯因對結合了心理學和經濟分析的行為經濟學的研究,分享了這一年的諾貝爾經濟學獎,讓這一細分學科在沉寂了幾十年後真正走進了公眾視野。
2010年,美國印第安納大學和英國曼徹斯特大學的三位學者合作發表了一篇題為《Twitter情緒預測股市》的論文,指出基於大量推文而分析出的公眾情緒與道瓊斯工業指數相關聯,甚至具有預測性。
他們選取2008年2月28日至12月19日近1000萬條推文作為樣本,採用兩種情緒追蹤工具將其分類。一種是開源工具OpinionFinder,將推文二分為積極和消極情緒;另一種是以臨床醫學使用的情緒狀態量表(POMS)基礎而新開發的情緒測試工具GPOMS,能將公眾的情緒分為冷靜、警惕、確信、活力、友善和幸福這六個類別。
研究者發現,將“冷靜”情緒指數後移3天,竟然與道瓊斯工業平均指數驚人一致,也就是説,Twitter反映出的情緒能在一定程度上預測3~4天后的股市變化。另外,研究者還測試了一個稱為SOFNN的股市預測模型。當僅輸入股市數據時,模型已經有73.3%的準確率;加入“冷靜”的情感資訊後,準確率更升至86.7%。
分析軟體如何在全球每天數百億推文中篩選有效資訊,成為量化市場情緒的關鍵,專業的演算法成為篩選有效資訊的利器。
對相對成熟的美國公司來説,其能利用的數據池非常廣泛。《每日經濟新聞》記者注意到,Dataminr、SMA和Hedge chatter三家業界主力的資訊來源分為兩種。
一種是依託全球最大專業數據提供公司英國DataSift(數據雨燕)和美國GNIP。DataSift數據池共有超過21家網站,擁有強大的資訊過濾演算法,每秒能挖掘12萬條推文,數據池除了主要的Twitter、Facebook、Wordpress和Tumblr外,還有圖片社交網站Instagram、視頻分享網站Youtube和Dailymotion等,其中Datasift還取得了新浪微網志、騰訊微網志的資源授權。
二是公司用自己的語義分析法對數據進行細分。例如SMA鎖定超過30萬的專業投資者,這部分人密切關注資本市場動向,有規定地發佈股市推文。因此成為SMA數據庫的基礎來源,並每月自動篩選替換。