易觀CTO郭煒:混合雲是大數據分析服務的“基石”
- 發佈時間:2016-04-14 18:07:07 來源:大眾網 責任編輯:書海
大數據和雲計算結合已經成為趨勢。易觀CTO郭煒在2016第八屆雲計算中國峰會上分享了在使用雲服務時的幾點體會。
業內知名大數據專家、易觀CTO郭煒
大數據分析服務的四個層面
大數據分析服務其實分為四個層面:
一個是基礎服務,比如像saas這些基礎技術軟體硬體平臺搭建,它給我們上層應用提供了基礎;
二是數據服務,如PASS這些數據處理平臺;
三是分析服務,如AAS或MAS這些分析與模型服務;
四是業務服務,主要是行銷類服務。
易觀處於第三層,是雲服務和雲化的支援者。前兩層是我們的供應商,第四層是我們的合作夥伴,他們會基於我們的分析服務最終得到行銷服務。
大數據分析服務四個層面
堅持雲化,但大數據使用公有雲尚美中不足
我們既要保證有數據出來,同時要保證集群擴展性好,所以剛開始我們選擇用三家不同的公有雲,通過一些MQ組件去接受數據,通過Hadoop去處理數據。
公有雲優勢在於可以快速部署,快速實現。很短的時間就可以把集群搭起來,沒有採購的成本,不需要做很多攻擊防護的事情,硬體本身也是免維護的。但當數據量非常大時,它的缺陷就暴露了,根據我們的使用經驗,也有一些無法回避的缺陷:
(1)數據量大,執行效率低
不管使用哪家公有雲,我們都遇到了這樣的瓶頸,特別是月活超過1億後更加明顯。一個是執行效率低,一個是數據量非常大,每次這個時候查詢再加優化,要30分鐘左右,這個時間我是不能忍受的。
(2)公有雲單位成本高
公有雲單價成本高,好機器年度投入超過三萬塊。
(3)IO瓶頸明顯
因為我們這種是高密度,高CPU型IO的計算。無論換哪一家公有雲,IO瓶頸還是很明顯的,和線下集群對比是幾倍的關係。
(4)不確定性強
因為公有雲是大家共用一個計算池子,所以使用的時候會出現CPU搶佔的情況。因為我是高密集計算,這樣搶佔對CPU切分不是很好,有的跑十來分鐘有的跑一個小時,這樣對我們大數據應用來講存在不可確定性。
(5)防護策略少
因為我們是在做大數據Hadoop的東西,它的網路的千兆的交換,再加上虛擬機,像網口方面會形成瓶頸。因為我們數據是源源不斷到雲端的,它的防護策略也比較少,我們這麼大量的數據實時傳到雲端,很多時候公有雲會把它當做攻擊,把這些給清掉。
不過,即使公有雲有這麼多缺陷,但它幫助我們快速地進入數據分析領域,迅速滿足了我們需求,所以我們還會堅持雲化的策略。
解決方案——兼顧性能與靈活性的混合雲
數據越來越多,怎麼讓集群更有效呢?我們想到了混合雲的策略。
(1)混合雲讓集群更有效
最簡單來講,易觀所有數據分析服務是在公有雲上面在給大家提供的,底下所有的集群則從雲端遷到了線下。如果一個公司想在基礎的雲服務之上再加一些軟體提供,我覺得單一的軟體是不能滿足企業需要的。一個集群一定是多空間、多組件混合在一起,才能滿足業務需求。
(2)公有雲、私有雲難打通問題
如何把原來公有雲的數據和私有雲,包括底層使用打通這件事也頗費腦筋。當時用到了雲的計算,像加密各種方法,最後用了一個光纖,先到公有雲的機房,然後把集群跟光纖做互通,達到目前混合雲的效果。
混合雲的優點在於大數據平臺性能非常穩定,雲端也比較能夠靈活的做些配置,雲端和線下集群可以相互轉換。但麻煩的是,公有雲和私有雲打通並不是那麼容易。
第一,它的結構非常複雜,如果出現一些問題需要排查,會對我們人員造成比較大的負擔。
第二,它的管理成本比較高,因為線上線下同時監控。
這對技術管理提出了更高的要求,目前易觀基於開源工具,優化一套DevOps工具,在使用混合雲便利的同時,優化整個維護流程,從而降低管理複雜度。
作者簡介:
郭煒:現任大數據分析公司易觀CTO,負責公司的技術架構以及開發者生態産品研發、生態市場運營工作。加入易觀前,曾任聯想大數據總監、萬達電商數據部總經理