新聞源 財富源

2024年09月18日 星期三

復盤支付寶緊急恢復的技術真相

  • 發佈時間:2015-05-29 16:36:39  來源:北京晨報  作者:吳玉徵  責任編輯:畢曉娟

復盤支付寶緊急恢復的技術真相

  怎麼看支付寶在光纖被挖恢復中的技術表現?

  5.27日下午17時許,支付寶被反映故障;18時許,支付寶通過官方微網志給出回應,解釋是因為電信運營商光纖被挖斷。19時許,支付寶服務恢復正常。22時許,支付寶官方微網志正式回應復原了整個事件。

  圍繞整個事件有很多討論,討論的中心最主要的有兩點:“為什麼光纖被挖斷,會造成整個機房癱瘓”、“為什麼支付寶的業務恢復用了兩個小時”。其中,第一個問題,應該是電信運營商的光纖災備出現問題。

  第二個焦點問題“為什麼支付寶用了2個小時恢復了業務”,一堆所謂“業內人士”眾説紛紜。其實,這應該是中國金融史上,首次完全意義的災難成功切換案例。在此之前,中國金融行業投入重金建設的災備系統基本上有這麼兩類用武之地(一般來説,增建一個災備數據中心的建設成本是單數據中心成本的1.1-1.2倍):

  1.計劃內災備切換演習,全副武裝、如臨大敵、不開一槍、全身而退。

  2.因系統升級造成的被動災備切換,例如2013年鬧得沸沸颺颺的某行DB2升級造成的系統回滾切換。萬幸的是,這是發生在淩晨的系統升級故障,當時沒有實時交易發生;某行也準備了各種應急預案,只是恢復的時間超出了計劃,網點推遲了一個小時開業而已;而另一家西部的區域銀行就沒有這麼強的科技實力了,同樣是DB2升級失敗,系統恢復時間用了37小時40分鐘(37小時啊,吼吼,坐火車都到莫斯科了)

  像昨晚支付寶這種突發情形下的災備切換還真是頭一遭,而且居然成功了。支付寶雖然運氣差了點,但技術能力還真不是一般金融機構能拼的。

  在支付寶微網志答覆中,有一個新名詞——“異地多活”。在傳統了災備方案中,一般提的都是同城災備、異地災備、兩地三中心。與傳統的災備技術相比,異地多活的特點是:在不同地點的數據中心都可以同時支援業務,而且每個地點發生的交易都是真實業務流量,而不是常見的一主一備,如果主中心沒有問題,備份中心永遠都是“備胎”。

  這種多活數據中心的好處是:因為所有的數據中心都在支援交易,所以能節約IT成本;另外傳統方式中備份系統都不在真實的交易活動狀態,所以很難判斷它的狀態到底怎麼樣,在出現問題時,都不一定敢切過去。

  大規模的“異地多活”,據説目前全球除了阿裏能做到,也就Google和Facebook實現了,還是非金融類的業務。中國銀行業,只有某國有大行在去年6月份實現了上海同城兩個數據中心的雙活,是“同城雙活”,還沒有實現“異地多活”,而且在災難真正發生時,切換效果如何,還有待驗證。

  昨天是支付寶“異地雙活”第一次真刀實槍的上戰場,支付寶因為要滿足金融行業的很多要求,特別是對交易一致性、數據完整性等方面的要求,目前還處於小範圍試用階段,沒有全體上線,例如昨天杭州機房癱瘓後,有一部分流量跑在支付寶異地機房。因此,在昨天支付寶2小時整體恢復之前,並不是所有交易都停止的,並且基於“異地多活”技術,實現了這部分用戶的無感知切換。

  對另外沒有通過“異地多活”技術切換的交易流量,支付寶選擇了最穩妥的做法:首先進行了完整的數據校驗,保證所有客戶的客戶資訊、賬戶資訊、資金資訊、交易資訊都是正確的,一切確認完成後,才重新“開門迎客”。這個過程耗時了一個多小時,不過相比較支付寶數億客戶所對應的校對數據量,這個時間還是可以接受的。

  側面印證切換效果的是:被挖斷的光纖修到半夜才恢復,而支付寶的業務在晚間19點多恢復正常。

  客觀來講,支付寶的這次表現,是一次説不上完美、但很成功的真實災難切換,也是中國金融史上第一次在完全突發情形下,成功完成切換的真實案例。整個切換過程中,沒有一條客戶數據丟失,也體現了金融級的數據高可用要求,雖然切換的時間對用戶來説長了點,但“就像是一次跳水,整體完成的品質很高,只是落水時水花沒有壓好,水花稍微大了點。”

  估計經過這次折騰,支付寶全盤推進“異地多活”的速度會加快,可能在今年七八月份實現。真正實現異地多活後,阿裏在金融領域所能提供的解決方案,安全性和用戶體驗將比傳統IT的異地災備技術提升一個很大的量級。

熱圖一覽

  • 股票名稱 最新價 漲跌幅