案例應用解決方案 >
機器數據實時分析平臺鼎茂國産化替代解決方案
機器數據實時分析平臺鼎茂國産化替代解決方案,旨在為各類正在尋找日誌管理、數據分析、SIEM平臺等國産化替代産品的機構,提供一個從數據底座到上層應用的整體性替代解決方案。
方案不僅全面滿足技術自主和信創生態的要求,更注重面向“業務快速變化、數據指數級激增、穩定性要求更高”等方面的企業發展性需求。因此,除了功能角度的平滑遷移,解決方案更在吞吐能力、分析速度、AI賦能、架構彈性、可擴展場景構建等角度,為客戶提供了更好的性能體驗和更多的智慧場景平滑擴展。
目前該解決方案已在多家金融、製造等行業客戶中落地。本文的客戶故事為某大型金融機構的實踐案例,鼎茂解決方案幫助客戶完成了平臺的平滑遷移,並快速構建了符合業務發展需要的完整安全運營場景和IT智慧運維場景。該案例為類似規模和數字化發展階段的客戶提供了有價值的參考。
案例背景 >
過去數年,大批金融機構在業務發展過程中,為了積極應對基於實時數據分析與決策的業務創新,採用Splunk等國外的技術平臺,來實現對機器數據的管理和分析。近年來,隨著監管要求的加強,以及數據量激增所帶來的成本壓力,對原有數據分析平臺進行國産化替代,成為了眾多金融機構的迫切需要。
金融機構擁有大量的敏感數據。在銀保監會等監管機構對於數據安全和本地化存儲的嚴格要求下,金融機構必須確保其數據處理平臺符合國家及行業的監管要求。因此,符合要求的國産化替代方案,成為滿足數據存儲本地化、數據隔離等合規要求的必然選擇。
金融業務近年來快速發展,業務系統數據量激增,基於每日數據增量的收費模式迫使金融機構在Splunk上的投入呈指數級增長。這種成本的不可控性使得機構迫切需要尋找性價比更高的替代方案。
與此同時,金融機構業務的快速發展也使得自身不斷地迭代和擴展對數據實時分析的使用場景,因而對數據的處理能力、處理效率以及場景的可擴展性有更高的要求。而國産化平臺廠商近年來在機器數據處理技術上的不斷創新,以及靈活的本地化服務響應能力,能夠有效地為金融機構的業務創新保駕護航。
本案例的客戶,同樣是這種替換需求的典型代表企業。
01
需求分析
01.1管理規模
案例客戶擁有同城雙活數據中心,其網路架構被精細劃分為五個主要區域:DMZ區域、專線區域、生産區域、辦公區域和測試區域。在這些區域內,部署了上千個服務端點,支援著數十個關鍵業務系統的穩定運作。同時,為了保障網路安全,客戶還部署了超過二十種網路安全設備。
在這樣的IT規模下,替換後的數據平臺需具備高效的數據處理能力,能夠每日處理高達500GB的數據增量,並管理超過180T的總存儲量。同時還需提供強大的數據分析能力、資訊安全保障、以及良好的擴展性,從而滿足不斷增長的業務需要。
01.2管理現狀
案例客戶之前使用Splunk作為管理運維日誌和安全事件的分析平臺。並以集群的方式部署在雙中心架構中,採集包括:系統日誌、交易日誌、訪問日誌、用戶行為數據、網路狀態、性能指標以及IPS(入侵防禦系統)、WAF(Web應用防火牆)、防病毒、情報等安全設備日誌等多樣化的數據。
·客戶IT運維部門基於Splunk平臺建設的管理場景包括:系統總覽界面、業務系統請求監控、交易詳情列表查詢、線上用戶分析、自動化可視化週報/月報、指標異常告警等,用以維護IT系統的可用性和業務的連續性。
·客戶安全部門基於Splunk平臺,設置了安全告警規則和可視化儀錶盤,實現安全事件檢測和告警通知,並利用告警關聯資産/身份上下文資訊的功能,進行告警流轉,用以進行業務系統的安全合規保護。
01.3使用痛點
·按索引數據量計價的方式過於昂貴
Splunk的軟體許可費用根據日增索引數據量收費。客戶系統在長期的運作過程中,隨著業務的不斷更新,産生更多的增量數據需要被採集,因而,所産生的軟體許可費用更是指數級增加。對於數量極大而價值密度極低的日誌數據來説,這種計費方式為客戶造成太多的成本負擔。
·本地化服務支撐不足,無法應對隨需應變的業務變化
Splunk作為一家國外的廠商,為本地客戶所提供的客戶化服務支援比較有限。客戶難以獲得足夠及時和高品質的廠商級服務。因而無法在快速變化的業務環境中,得心應手地對數據平臺進行動態的優化和擴展,並及時應對各種技術問題所帶來的系統可用性風險。
·大規模數據處理的響應時間過長
在大規模數據環境中,客戶面臨業務連續性和動態安全威脅的挑戰,需要平臺提供更快的數據分析速度。Splunk採用的是讀時解析模式,在需要海量原始日誌進行聚合統計分析時,響應時間較長。
比如:在系統故障排查場景中,客戶需要平臺迅速檢索和聚合大量相關日誌,才能快速定位問題並採取相應措施,一旦響應時間過長,會延誤解決問題的時機。
在安全攻擊事件分析場景中,客戶需要平臺實時關聯分析大量多源日誌,從而捕獲潛在的安全風險和攻擊模式,一旦分析結果有延遲,會帶來不可控的安全風險。
·技術門檻較高,場景建設有賴於IT人員的技術儲備
Splunk使用門檻相對較高,需要技術人員熟練掌握並靈活運用SPL搜索語言,這種局限性導致客戶需要額外投入技術人員的成本,並投入更多的培訓時間,以實現各類智慧化管理場景的建設和擴展。
01.4替換目標和要求
鋻於以上情況,客戶希望能採用一套完整的國産化數據實時分析平臺,並在平臺之上實現對IT系統的可觀測管理以及安全事件智慧化場景管理,並保證這一方案的平滑性替代和智慧化升級性。滿足以下需求:
·滿足監管合規:遵循監管機構對數據本地化與合規性的要求,提供必要的審計合規性報告功能。
·成本合理可控:替換産品採用更合理的計價方式,有效提升數據實時分析平臺的投資收益率。
·功能滿足:替換方案能夠實現與現有IT基礎設施和系統的無縫整合,並提供與Splunk相似或更優的功能,同時保障管理場景的快速建設和擴充。包括:日誌管理與分析、安全監控告警、性能監控告警、自動化報告、可視化等。
·可擴展性與靈活性:産品能夠適應業務發展變化的數據、架構、功能和場景擴展。
·服務與支援:獲得更及時、更高效的廠商級本地化技術支援和服務。
·平滑過渡:實現0風險遷移,並提供直觀、易用的界面,確保系統功能和用戶體驗的平滑過渡。
02
解決方案及思路
02.1建設思路
該解決方案以鼎茂ARCANA平臺(多模態數據智慧分析與決策平臺)作為數據底座核心,結合原子化AI演算法引擎,並結合Di-SOC(智慧安全運營中心)和Di-Monitor(智慧監控中心)、Di-Alert(智慧告警中心)等系列智慧應用,形成替代方案的構建。
通過ARCANA內置的數據採控中心、ARC-ADP(智慧數據治理平臺)、ARC-IOC(數智運營中心)等組件,完成數據採集、解析、存儲、查詢、可視化、報告等功能替代,支援統一查詢搜索原始數據,還同時支援SQL和SPL雙語言查詢,從而快速構建可視化儀錶盤、告警規則和定制化報告。
平臺增強了以下能力:多源異構數據支援能力;跨源統一查詢能力;讀時建模和寫時建模能力;AI演算法服務能力等。
解決方案採用了更為安全的替代方式。
通過這些有序的步驟,可以確保客戶數據平臺從Splunk到ARCANA的平滑過渡,保障了數據的完整性和平臺的高效運作,並最大限度地減少對現有業務的影響。
02.2方案實施
Step1部署ARCANA多模態數據分析與決策平臺,完成數據接入
·部署ARCANA平臺。通過ARCANA採控中心的標準化日誌介面和靈活的數據接收器,從源端和Splunk端接入原始數據,並確保數據的完整性和連續性。(包括網路、系統、應用、安全、資産/身份等各方面的數據)
Step2基於ARCANA完成數據統一管理
·通過ARCANA平臺的數據引擎進行字段解析,並基於Splunk的索引分類將數據分配至不同的索引,確保數據組織的有效性和查詢的高效性;
·支援多种先進的數據存儲格式,包括列式存儲和非結構化數據格式。這些存儲技術專為處理大規模日誌數據而設計,實現了數據的高效存儲與快速索引,滿足大規模日誌數據實時處理對性能和靈活性的雙重需求。
Step3完成監控告警規則、可視化的等配置
·通過ARCANA規則管理和告警監控功能,根據業務需求進行日誌分析規則、告警規則的配置。這些規則可以基於特定的日誌模式、事件類型或時間窗口來定義,以識別潛在的安全威脅、性能瓶頸或操作異常。一旦觸發告警,及時支援通過多種方式(郵件、短信、釘釘、企業微信、飛書等)將告警資訊推送給相關人員;
·通過ARCANA直觀、易用的可視化界面,方便用戶查看和分析日誌數據。通過豐富的圖表、報表和儀錶盤等功能,用戶可以快速了解系統的運作狀況、安全態勢和業務趨勢等資訊;
·同時,ARCANA還提供了互動式查詢和自定義報表功能,滿足用戶不同場景下的數據分析和展示需求。
Step4完成上層智慧場景構建和增強
·IT運維場景
完成系統總覽界面、業務系統請求監控、交易詳情列表查詢、線上用戶分析等可視化面板依照原系統的快速拖拽式構建;
完成自動化可視化週報/月報依照原系統的快速拖拽式構建;
針對運維指標異常的告警規則在Di-Alert中的配置構建;
增強自動化word報告。
·安全運營場景
安全告警規則與可視化儀錶盤依照原系統的快速拖拽式構建;
完成資産和身份的依照原系統的構建以及告警上下文的關聯。
通過Di-SOC增強任務與值班管理,更好的協助運營一二線及運營經理進行運營管理;
通過Di-SOC增強白名單管理、工單管理,更好的幫助運維人員完成運營閉環;
通過Di-SOC增強漏洞管理,幫助安全人員進行漏洞的全流程管控;
通過Di-SOC增強知識庫功能,明確運維人員針對安全事件的處理提供專家經驗支援。
Step5並行運作與測試驗證後,完成全套系統替換
·在ARCANA和Splunk並行三個月的過渡期後,執行綜合評估。
·全面驗證通過後,完全將原始數據源的發送指向設定為ARCANA,完成從Splunk到ARCANA的全面替換。
03
項目成果
03.1構建了全面的日誌管理和分析能力
在替換Splunk平臺的過程中,ARCANA平臺全面覆蓋了數據採集、解析、存儲、查詢、可視化和告警等核心功能,支援多數據源數據處理的開箱即用,即,無需複雜的配置即可對多種模態的機器數據進行快速接入和解析。這一特性保證企業即刻接入數據的同時,確保了數據的一致性和準確性。
其次,ARCANA平臺提供了可拖拽式的可視化數據視圖儀錶盤,用戶可以根據自身對於數據分析的需要快速生成不同展現形式的數據可視化組件。同時,ARCANA還提供了可自定義可視化報表/報告模板,用戶可以根據管理的需求定制個性化的報告樣式和內容,並通過自動化報告輸出,大大提升了數據分析的效率。
03.2實現跨數據源統一查詢
ARCANA支援跨數據源查詢,包括MySQL、ClickHouse(CK)和Elasticsearch(ES)等。平臺可以通過統一的界面和查詢語言進行實時跨源搜索和查詢,從而打破數據源的界限,提供了可以更快更全面了解系統運作狀況的分析手段。同時,ARCANA還提供了數據源的統一管理和配置功能,簡化了多數據源整合的複雜性。
ARCANA提供了相較于舊平臺大幅提升的查詢性能。
ARCANA平臺支援ClickHouse和Elasticsearch兩種存儲方案。這種存儲方案,一方面充分釋放了ClickHouse快速的 OLAP查詢性能,並結合鼎茂自研的ClickHouse數據源下推優化技術,使得查詢效率更為優秀;另一方面完整發揮了Elasticsearch在全文搜索和實時數據分析方面的出色性能。
依託這種技術支援,客戶不僅可以根據數據特點選擇最合適的存儲位置,更能最大限度地提升數據處理的性能和效率。在案例客戶的環境中,當數據平臺替換為ARCANA後,平臺對於千萬級數據量的查詢耗時,從分鐘級降到了秒級。
03.3低代碼建設了數字化運營中心
ARCANA平臺憑藉其數字化儀錶盤和低代碼拖拽功能,通過實時展示關鍵指標和事件數據,使得運維人員能夠迅速洞察系統狀態。運維人員亦可借助低代碼拖拽功能輕鬆構建自定義的監控和分析應用,大大提高了工作效率和響應速度。
03.4實現了安全運營閉環管理
通過ARCANA平臺+Di-SOC智慧應用,實現了安全事件的閉環管理。能夠實時監控IT環境的安全態勢,一旦發現異常行為或安全風險,平臺自動觸發告警,通過調查分析功能,確認安全事件的誤報以及影響。調查分析後通過工單流轉機制,將處理任務分配給相關運維/運營人員。對於嚴重的安全威脅,平臺支援自動封禁功能,以迅速切斷風險源。這一閉環管理流程確保了安全事件的及時響應和系統安全性的持續提升。
04
客戶收益
鼎茂科技幫助該客戶實現了數據實時分析平臺的平滑的替換和智慧化分析能力的升級。
即時收益:
·ARCANA根據分析節點計價(基於有效分析的數據量收費),費用合理可控,並有效提升了數據分析平臺的投資收益率。
·搜索效率提升,在問題定位需要搜索大規模日誌時,查詢效率提升數十倍。
·ARCANA提供雙語言SQL/SPL查詢搜索能力,兼顧用戶使用習慣的同時,極大降低了運維人員的使用門檻。
·通過ARCANA離線報告功能,實現報告自動化,顯著提高工作的效率和準確性。
·通過ARCANA實時監控交易趨勢,以及各渠道的流量來源等關鍵指標,及時響應非預期的流量突增,確保業務流程順暢。
·通過統一跨源查詢技術,實現不同業務數據的聚合分析,能夠洞悉各類業務場景的深層次特徵。
擴展性收益:
·通過彈性的擴容措施,客戶能夠靈活應對業務需求的波動,確保企業業務在任何時候都能提供穩定、可靠的服務,從而支援業務的持續增長與擴展。