內部管理還需居安思危
- 發佈時間:2015-06-08 09:32:41 來源:中華工商時報 責任編輯:羅伯特
數個小時未能恢複數據,反映出攜程技術人員顯得羸弱的技術水準,這也反映出攜程管理層對技術團隊忽視的悲哀。其實,攜程對安全的漠視釀成大禍,已經成為國內網際網路企業的通病。攜程事故再度提醒了中國網際網路企業,在注重高速發展的同時應不斷提高自己的安全和災備能力
5月28日,攜程系統崩潰。登錄攜程系統發現,攜程官方網站突然陷入癱瘓,打開主頁後點擊時均顯示“ServiceUnavailable”,而百度搜索上的攜程官方頁面也顯示404錯誤。APP打開後也無法正常使用。
被戲稱為“黑色五月”中,網易、支付寶、攜程先後出現癱瘓事件,究竟是什麼讓這些網路公司陷入膠著?
“宕機”12小時
當天上午11:09,攜程網站和APP全線癱瘓,多項功能無法使用。點擊攜程官方網站,頁面顯示404報錯,點擊“返回首頁”後依然可進入攜程,但其功能和其他連結均無法使用;APP的酒店查詢頁面則顯示“Error503Service”,其他業務線的産品均不能查詢和預訂。然而28日臨近中午時,攜程的網頁和APP都崩潰了,攜程的Logo藍色小海豚一直處於哭泣狀態,訂單難以處理,網頁刷不出來。
因攜程未在第一時間公佈原因,隨後,各種猜測甚囂塵上。
對於“宕機”的原因,坊間流傳係內部員工報復所為。一則消息在微信朋友圈風傳:攜程數據庫被物理刪除(指文件存儲所用到的磁存儲區域被真正地擦除或清零,不可恢復)。
攜程方面也兩次作出解釋:中午12:38,攜程先是稱“因部分伺服器疑似遭到不明攻擊所致”;次日淩晨,攜程又宣佈此次事件係內部人員錯誤操作導致。兩次解釋,理由不同。對此,攜程公關部石凱峰在接受採訪時表示:“伺服器攻擊可以來自內部或者外部,此次主要是攜程內部技術人員刪除了生産伺服器上的執行代碼所致。”
一位自稱為攜程員工的網友在微網志上爆料:“網站根目錄被刪除,所有節點上的業務代碼包括發佈日誌都被幹掉了,個人猜測是有人內部報復。”另有網友分析,攜程數據龐大,從外部直接攻擊的難度可想而知,應該是內部人員動了“手腳”,“最大的可能性是某人破解公司內部密碼和驗證條件,放置了某些惡意程式”。
而有媒體輾轉獲得一個來自攜程內線的消息稱,據説是烏雲平臺曝了攜程的漏洞,攜程技術人員就開始修復,結果在修復過程中不小心用發佈工具刪除了整個目錄,所以各個業務單元的代碼分別發佈,一個一個功能修復,修復週期會長一些,但不至於説徹底垮了,那個發佈工具許可權太高,現在修復過程中傳上去的代碼會被繼續刪除,老闆説誰解決了就獎勵100萬元。
5月29日0:18,攜程微網志稱:5月28日23:29,經技術人員搶修,攜程官方網站及APP全面恢復正常。經過排查,攜程鄭重聲明,數據沒有丟失,預訂數據也保存完整。從癱瘓到修復,攜程“宕機”近12小時。若按攜程一季度營收3.37億美元估算,“宕機”一小時的平均損失為106.48萬美元,12個小時算下來總損失超過1200萬美元。
值得注意的是,很多已經離開攜程的技術人員都紛紛在28日下午暫時趕回“老東家”攜程幫忙恢復系統,可見問題不輕。
實際上,從今年1月起,烏雲平臺就已經曝光了超過十次攜程的漏洞,包括撞庫、官方郵件劫持、內部員工郵箱歷史資訊洩露,但攜程的回應大多是“廠商忽略”。
導流弄癱藝龍
頗有意思的是,就在5月22日,攜程投資藝龍,成為藝龍最大股東,昔日“冤家”變成“一家人”後,攜程立馬發生了重大危機。原本作為“冤家”應該“落井下石”的藝龍如今卻成為了攜程的危機應對渠道。在28日攜程系統癱瘓後,其頁面上赫然出現了“攜程網站暫時無法提供服務,正在緊急修復中……您可以訪問:藝龍旅行網”的字樣,這在以往是根本無法想像的,因為攜程遭遇危機後居然請藝龍幫忙下訂單。當然,現在攜程和藝龍是一家人,此行為可以被理解。
本著有資本關聯就可以一起應對危機的想法,攜程正尋找合作夥伴幫助。
有一位攜程內部人員發佈了一則帖子稱,攜程癱瘓後,如果要訂酒店機票則可以找藝龍,訂門票可以用同程,訂旅遊可以用途牛,訂公寓可以用途家,用車可以找一嗨,訂郵輪可以用天海。據悉,上述這些都是攜程參與投資的相關企業。去年4月,攜程以逾2億美元的價格戰略投資同程,成為其第二大股東。
其實,攜程現在是藝龍的最大股東,也是同程的第二大股東,因此這兩家或許真的可以成為攜程應對危機的幫手。
但是,28日下午3點,攜程的官網及APP查詢和預訂服務仍未恢復。剛剛收歸攜程門下的藝龍,暫時承擔起了崩潰後的導流任務。就在攜程導流藝龍兩個小時後,藝龍首頁也無法正常訪問;幾乎同時,同程旅遊因接入攜程的酒店數據,酒店預訂服務也出現癱瘓。
對於同程和藝龍網站短時間崩潰的原因,華南地區一名從事網際網路資訊安全的人士分析説:“攜程過大的流量導入,使得同程和藝龍首頁的承壓過大而致首頁崩潰,藝龍最後借助騰訊的流量清洗系統解決了該問題。”癱瘓更引來業內質疑:難道導流量的時候不和對方商量下並且算算流量漲兩倍多會有啥結果嗎?
管理問題大於技術問題
“宕機”事件發生後,攜程一直沒有給出明確的原因,官方微網志中都以“疑似”來説明。
攜程12個小時恢復網站,在網際網路公司實屬罕見,足以説明內部管理、系統、技術投入都存在問題,如果有災難恢復機制,不太可能花如此長時間,此前攜程的支付系統調試介面被洩露,已足以暴露它在網際網路資訊安全管控這塊的短板。
如此長的時間還沒有恢復服務,可能有兩個原因:一是數據庫根本沒有備份;二是數據庫恢復過程中出現了不可預見的問題。
據接近攜程網的技術人士稱,作為美國上市企業的攜程,數據庫沒備份的幾率很小,數據庫恢復受阻的可能性最大。數個小時未能恢複數據,反映出攜程技術人員過於羸弱的技術水準,而這也反映出攜程管理層對技術團隊忽視的悲哀。其實,攜程對安全的漠視釀成大禍,已經成為國內網際網路企業的一個通病。
現在SOA架構的網站,都是由成百上千個應用子系統組成。平時真正經常發佈的,可能就是不到20%的核心子系統。而且發佈時都是做加法,很少完全重新部署一個應用,一旦遇到需要所有系統都需要重新部署的極端情況,管理協調的問題,應用之間的依賴關係、還有很多平時欠下的技術債都集中爆發了,更不用説很多不常用的子系統,上線之後就沒人動過,一時半會兒都找不到能處理的人。而且,在這樣的高壓之下,各種噪音和干擾很多,運維工程師的反應也沒有平時靈敏。
獵豹移動安全專家李鐵軍分析,攜程的癱瘓很可能是內部管理失控所致,通常駭客從外部攻擊很難做到數據大量丟失,且備份的還原也不至於拖延太久。駭客僅僅是拿走核心數據而不是進行破壞性操作。
有業內人士分析稱,攜程歷來對資訊安全並不算重視,從之前信用卡用戶資訊洩露、到忽略白帽子駭客上報的漏洞、再到本次的事件,不管始作俑者是內部員工、競爭對手、還是惡意的攻擊者,攜程自己的資訊安全管理混亂在此次事件中肯定是重要因素之一,發生了這樣的事情,公關和應急處置上也一團亂。公關先不説,應急處置,按照目前的方式和速度來看,估計攜程缺少切實可行的全系統癱瘓應急預案。
作為動輒擁有上億、甚至數億用戶的網際網路企業,遇到資訊系統故障通常如何應對?據多位網路安全技術專家介紹,目前,不少普通的網際網路企業並沒有災難備份,但如果涉及支付、資金交易等業務,往往有災難備份,只是備用的數據中心平常並不啟用或很少啟用,即“冷備”。安全級別高的企業通常採用異地“熱備”,再高一級就是不同的城市多個數據中心同時“備”,也就是業內常説的“異地多活”。
如果是攜程內部人員所為,至少説明攜程對於內部的管理不到位,或者是線上環境和其他環境隔離不夠,或者是角色和許可權的劃分、控制以及記錄不夠。如果是代碼被刪除,那也就是説某個員工可能擁有攜程大部分伺服器的登錄和操作許可權。所以有人認為攜程在安全審核和許可權控制方面的流程存在問題。但也有人認為再完善的流程也有可能被鑽漏洞,人品比技術更重要。攜程事故再度提醒了中國網際網路企業,在注重高速發展的同時應不斷提高自己的安全和災備能力。
如果把這次的故障比作一次地震,那這次災難可能就是攜程的“汶川地震”了。減少地震傷亡的一種有效做法是應急演練,同樣,軟體公司也需要災難演練,以防不備之災。
- 股票名稱 最新價 漲跌幅