案例應用解決方案 >
全棧監控+統一告警+智慧值守解決方案
全棧監控+統一告警+智慧值守解決方案,旨在為經歷IT系統規模激增和複雜性加劇的企業提供一站式、全方位的運維監控管理服務。該方案通過全面覆蓋系統各層次的監控,統一整合告警管理,以及智慧化的自動值守,確保運維過程的高效和系統運作的穩定。
全棧監控對基礎設施、中間件、服務、應用、調用鏈等各種IT資源進行立體化監控,實時監測系統的運作狀態和性能指標,及時發現潛在的風險和異常,並通過統一告警管理,將所有告警資訊集中治理,避免資訊孤島和重復告警的問題,提高了告警的準確性和響應的及時性。同時,智慧值守系統實現了7*24小時自動化值守和智慧應急處置,能夠在接收到告警後自動響應,給出相關的解決方案建議,並跟進處置狀態,減少了對人工干預的依賴,提高了問題處置的效率和準確性。
通過該解決方案,企業能夠實現“全面立體監控,實時發現異常,提升告警品質,支撐快速響應”的監控管理目標,確保IT系統的高效、穩定運作。
案例背景 >
經過多年的沉澱,案例客戶在運維方面已經佈局搭建了部分運維監控工具,由於各個運維點位建設初期並沒有整體規劃,這些運維監控工具的監控手段比較單一、技術相對落後,且運維數據相對分散,缺乏互聯互通和協同工作機制,不具備統一的一體化管理能力。此外,現有運維團隊受限于自身技能與工具能力,在應對系統故障時無法保證及時性與高效性。
案例客戶為了應對70余套業務系統以及數百個系統節點所帶來的運維壓力,迫切需要一套完整且專業的智慧運維體系以提升運維管理能力,實現一體化和精細化運維管控,全面保障IT系統的穩定運作。
01需求分析
01.1面臨的問題
·運維手段不足-管理盲點範圍大
由於監控工具技術較為陳舊,導致無法相容部分設備類型、軟體版本的監控;而使用開源技術則意味著需要持續投入人力進行開發維護,因此目前僅實現了對於伺服器和日誌的部分監控,應用性能、中間件和數據庫等監控缺失,在監控的覆蓋面、指標覆蓋度和實時性等方面的不足,導致無法實時反應系統運作情況,故障發現比較滯後,甚至出現晚于用戶上報的情況。已無法滿足當前複雜系統的運維監控需求。
·運維數據分散-排查處置效率低
監控數據與其産生的告警分散在各工具平台中,缺乏統一的管理視圖與關聯匯總的告警資訊,在面對大量告警時,運維人員無法快速識別重要告警,並判斷問題影響範圍;故障排查時,各專業組難以進行整體性的關聯分析和故障溯源。
·智慧決策缺失-管理協作靠人工
故障分析與處置環境完全依賴人工。在業務系統出現異常時,一線運維人員由於經驗與技能的不足,往往需要尋求二、三線運維人員的協助,溝通與人力成本較大,而故障處理的用時過長,增加業務受影響的週期。
01.2項目建設目標
·監控全方位100%覆蓋
針對全棧軟、硬體性能指標通過多渠道多方式的監控採集,且具備自定義腳本上報數據的能力,建設一套平臺全面覆蓋各種監控類型,包括但不限于用戶體驗監控、應用性能監控和基礎資源監控(包括伺服器、中間件和數據庫等)。此外,補全日誌數據的實時採集與監控。確保運維團隊能在第一時間感知系統異常。
·構建統一運維數據視圖
通過統一平臺融合運維大數據,包括結構化和非結構化數據,打通監控、告警和資産等數據。從業務視角出發,對核心骨幹鏈路、核心業務應用、監控告警等資訊重點展示,提供運維數據可視化洞察,幫助運維人員全方位掌握IT系統運作狀況。
·提升告警品質、加速故障響應
對日常出現的大量相同或相似告警事件進行壓縮,使運維人員的工作更聚焦于問題與故障的發現與溯源。使用告警處置跟蹤,故障識別與自動升級,一鍵拉會並啟動應急指揮室等自動化、智慧化手段應對告警事件,節省人工干預的時間和精力,並能夠在故障發生後快速響應和處理,降低故障對系統穩定性和業務連續性的影響。
02解決方案及思路
02.1建設思路
該方案內置基礎資源監控、應用性能監控與用戶體驗監控模組,實現集基礎環境、伺服器、存儲、網路、作業系統、中間件、數據庫等於一體的統一監控覆蓋。
方案以鼎茂科技自研的ARCANA平臺(多模態數據智慧分析與決策平臺)作為統一數據底座,匯聚性能指標與日誌等運維大數據;通過ARC-IOC(數智運營中心)使用低代碼方式快速構建運維監控管理可視化視圖;通過Di-Logger(智慧日誌中心)對日誌進行監控與分析,將經由各監控模組與日誌平臺生成的告警推送給Di-Alert(智慧告警中心),實現告警壓縮與處置流轉,並由Di-Robot(智慧值守中心)跟進告警的處置,形成故障發現、分析、處置的閉環。
02.2方案實施
Step1部署全棧監控模組(基礎資源監控、應用性能監控、用戶體驗監控、日誌監控)
·使用各監控模組,圍繞業務價值構建多維度的運維監控體系,實現業務系統與基礎資源的全方位實時監控,擴大監控覆蓋度、提升監控指標靈活性;設置及時準確的監控告警機制,在問題初現端倪的第一時間進行告警;
·利用Di-Logger的日誌分析能力,對日誌進行實時檢測,對日誌中隱藏的異常進行告警。
Step2部署雲原生數智底座(ARCANA平臺)
·通過ARCANA平臺提供統一運維門戶,整合所有運維監控管理工具形成統一運維入口。對運維大數據進行匯聚分析,提供低代碼、可視化編輯的運維監控大屏、移動端視圖等,形成個性化運維界面;
·基於底座搭載的豐富功能模組,可快速實現各項智慧運維能力擴展。
Step3搭載智慧告警功能模組(Di-Alert)
·由Di-Alert承接告警統一、告警壓縮、告警視圖的主要能力。對海量告警進行關聯壓縮,以告警拓撲視圖的形式對關聯告警進行通知和播報。
Step4構建個性化運維可視化視圖(ARC-IOC)
·基於整合運維數據,包括交易-業務-服務-基礎組件-基礎設施的全棧指標、日誌數據、告警資訊,資産資訊和事件工單等,以業務系統為核心,形成業務運作狀態、系統健康狀態等的可視化洞察。
Step5搭載智慧值守功能模組(Di-Robot)
·由Di-Robot承載故障值守和應急管理等能力。實現自動化告警判斷與故障升級,高效組織應急響應,提供故障場景下的智慧決策。
03項目成果
03.1實現70+套業務系統的監控全覆蓋
通過基礎資源監控的替換,實現當前管理機制中所存在的作業系統監控不全、指標遺漏,以及數據庫、中間件等監控缺失等管理盲點的改善。通過建設覆蓋所有業務系統的應用性能監控和用戶體驗監控,直觀反映業務健康狀態,提供故障的感知能力。
03.2提供所有業務系統的全局監控視圖,和IT系統拓撲視圖
通過全局視圖,監視所有應用的健康狀況;通過IT系統拓撲視圖,查看應用相關的主機、網路、中間件和數據庫等的性能情況,可下鑽的拓撲視圖至指標趨勢詳情或日誌明細,為分析故障影響範圍、排查問題根因提供有力支撐。
03.3實現告警壓縮與處置流程線上化
針對各類監控所産生的大量告警事件,進行告警收斂、壓縮、降噪等處置,遮罩告警風暴,聚焦有效告警,提升告警可讀性,並改善多源告警分散管理的現狀,實現統一告警分派、通知、認領、開單、處置、結單的告警處置流程閉環。
03.4以業務視角組建運維管理大屏
實現客戶全量運維數據資産沉澱,以統一數據融合平臺的形式,將當前多數據通道、多數據類型、多數據格式、多數據標準並存的運維數據,以業務視角設計運維管理故事線,並形成統一運維大屏作為日常運維管理的數據檢閱工具。
03.5實現自動化、智慧化運維值守與應急處理
實現7*24的自動值守,啟用了數十類故障自動升級與處置規則,幫助一線運維人員在常見系統故障發生後及時響應。在排障過程中,可以通過故障應急駕駛艙所提供的故障處置最佳實踐、歷史故障處理記錄,輔助應急響應決策,提高故障應急效率。
04客戶收益
鼎茂科技幫助該客戶實現了監控體系的全面升級,並對監控生成的告警進行治理與壓縮,對於故障告警進行高效處置,使用可視化大屏展示業務健康狀態和核心指標趨勢等重要資訊。整體提高了故障發現到定位的時效性,提升故障處置效率。
即時收益:
·達成重要(業務)系統、資産、指標100%的監控覆蓋率;
·統一去除無效告警並進行智慧分析降噪,實現超過90%的告警壓縮率;
·實現自動化故障響應,提升一線運維人員的故障處置率至90%以上。
擴展性收益:
·解決方案能夠快速擴展覆蓋新增的業務系統或軟硬體資産,輕鬆應對業務增長所帶來的增長需求;
·並提供了全面運維數據的採集、治理與分析能力,為後續更多智慧化運維分析場景落地提供了基礎。