奇葩説竟然沒有廣告?原來是用了這款智慧小程式 | 售價1399元的小米8青春版值不值?看看這款手機的性價比就知道了 | 小米魅族發佈多款新品 千元機仍是手機品牌主戰場 | 百度的IPhoneX?揭秘百度第二款搜索工具“簡單搜索” | 快手20位鄉村網紅“入學”清華 官員、學者有話説 | 它説成功加入百度AI加速器 將獲得百度四大資源支援為技術行銷再提速 | 綠色應用 讓你的手機流暢度“更新換代” | 錘子科技官方商城“拼團購”再來襲 中秋鉅惠值得搶購 | 商業時代下 沒有靈魂的紅包只是推銷 | 華為雲攜手中科院上海生科院 加速生物資訊業務向AI 大數據轉型 |
 
當前位置: 新聞>滾動>

帆軟| 10億數據秒級展示 FineBI5.0的大數據支撐有個“幕後BOSS”

發佈時間:2018-09-20 08:15:00  |  來源:中國網科學  |  作者:曉梅  |  責任編輯:科學頻道

 隨著各個業務系統的不斷增加,以及各業務系統數據量不斷激增,業務用戶的分析訴求越來越多且變化很快,IT數據支撐方的工作變得越來越複雜。

 1、數據來自多個不同的系統,存在需要跨數據源分析,需要對接各種不同數據源等問題。

 2、需要分析的數據體量越來越大,並且要快速獲得分析結果的問題。

 3、部分數據還需要二次加工處理的問題。

 供數支撐方在業務系統的前端看起來基本沒有任何操作,但背後的邏輯十分複雜,實現難度也很大。就像看得到的是冰山一角,看不到的是海水下絕大部分的支撐。

 為了解決日益激增的大數據量分析訴求,自助式商業智慧分析工具FineBI V5.0版本的Spider引擎應運而生。

 Spider高性能引擎可以支撐10億量級數據在BI前端快速的拖拽分析和展示,且有高可用架構設計保證數據引擎全年可支撐業務分析。

 Spider引擎的前世今生

 為什麼叫Spider引擎呢?聽起來很像爬蟲軟體,和數據分析又有什麼關係呢?

 一則是字面翻譯過來的意思——蜘蛛,從蜘蛛就很容易聯想到結網。從結網的角度的看,有兩個含義,一是將之前已有的引擎功能全部聯結在一起,因為5.0引擎實現了實時數據與抽取數據的對接與靈活切換;二是5.0數據引擎比較重要的分佈式模式,這種模式是由各個組件組合起來的架構,結網就是將這些組件聯結起來的意思。

 二則是諧音法拉利的一款敞篷跑車。跑車嘛,速度快。這款跑車做了加長與加寬設計,使其更穩定,保持性能且更安全。恰好與我們的數據引擎理念不謀而合。

 因此,就取名Spider引擎。

 再來説説它的發展史

 FineBI的數據引擎從起初做數據抽取的cube/FineIndex引擎,發展到後來開發了直連引擎/FineDirect引擎。再到2016年開發,17年到18年迅速擴展到60多家客戶使用的分佈式引擎。引擎功能與支撐數據量都在伴隨著時代的發展不斷進步。然而引擎類別繁多,用戶理解與使用都是問題。

 因此,到v5.0版本,將引擎做了大一統,Spider引擎將之前所有引擎功能全部囊括其中,抽取數據與實時數據可互相切換,本地模式可根據數據量情況擴展為分佈式模式,使用與理解上都更加簡單了。

 定位和亮點

 Spider作為數據引擎,在FineBI中扮演著支撐數據分析的角色,強大的數據處理與計算能力為前端的靈活快速應用分析提供強有力的支撐。

 Spider引擎的本地模式,利用本地磁片存儲,並行數據計算,在小數據量情況下,展示效果優異,且輕量方便。

 在數據量激增之後,可橫向擴展機器節點,利用Spider引擎專為支撐海量大數據分析而生的分佈式方案。Spider引擎分佈式模式,結合Hadoop大數據處理思路,以最輕量級的架構實現大數據量高性能分析。此分佈式方案整合了Alluxio 、Spark、 HDFS、zookeerer等大數據組件,結合自研高性能演算法,列式存儲、並行記憶體計算、計算本地化加上高性能演算法,解決大數據量分析問題以及在FineBI中快速展示的問題。同時從架構上保證了引擎系統全年可正常使用。

 Spider引擎的直連模式,可以直接對接數據庫做實時大數據分析。將用戶在FineBI前端拖拽分析的操作,實時地轉化為經過處理的查詢語言,實現對企業數據庫的數據進行實時分析的效果。

 直連模式的實時數據與本地模式以及分佈式模式下的抽取數據可以靈活轉換,使得分析更加靈活方便。

 引擎亮點:

 (1)引擎支撐前端快速地展示分析,真正實現億級數據,秒級展示。

 (2)用戶可以根據數據量、實時性要求、使用頻次等,自由選擇實時或抽取的方式,靈活滿足實時數據分析與大數據量歷史數據分析的需求。

 (3)抽取數據的高性能增量更新功能,可滿足多種數據更新場景,減少數據更新時間,減少數據庫伺服器壓力。

 (4)合理的引擎系統架構設計可保證全年無故障,全年可正常使用。

 在數據源支援上,常規的數據源都可支援,無需擔心數據源支援問題。

 在抽取數據時候,異步數據抽取保證效率。列式存儲字典壓縮可將數據以多倍壓縮之後存儲過來,不存在數據膨脹的問題,數據量激增之後,硬體成本也不會增加。(如下所示,數據量越大,抽取之後數據壓縮情況越好)。

 智慧位圖索引、分頁引擎,本地模式下的多線程計算,分佈式模式下的記憶體計算、分佈式計算和數據本地化都帶來秒速數據展示的效果。(上圖是100w大分組的場景,速度是秒;下圖是普通操作場景)。

 同時,分佈式數據存儲系統的HA,保證數據計算穩定性,使得數據引擎可以為業務系統全年提供穩定支撐服務。

 使用實時數據的時候,設置參數、智慧暫存等都能充分發揮數據庫的性能。帶來最佳性能體驗。

 客戶案例

 Spider引擎在v4.1版本是直連引擎與分佈式引擎的結合,此版本已經從17年投入使用,目前已有60多家客戶在正式投入使用,覆蓋了保險銀行、證券基金、餐飲零售、畜牧、通信、網際網路、能源化工行業等數十個行業。

(作者:曉梅)