IDC發佈報告,商湯科技躋身中國GenAI IaaS第一梯隊 | NO.1!凱美瑞德獲“資金交易系統解決方案”市場份額第一 | 鼎茂科技助製造業客戶實現業務系統監控告警管理 | 助力乘風而起 激發高品質發展新動能——寫在第二十六屆北京科博會開幕之際 | 博大抗風索----改寫行業歷史的發明專利産品 | 高端白酒市場調和復蘇 迎來新一輪價值回歸 | 漢王友基受邀出席全國數據資源産教融合共同體成立大會 | 車載娛樂的未來:技術進步如何重塑汽車行業 | 淺談安數雲智慧安全運營管理平臺:DCS-SOAR | 啟動!泉州城建集團攜手浪潮海岳共同打造智慧財務共用平臺 |
 
當前位置: 新聞>滾動>

鼎茂科技助製造業客戶實現業務系統監控告警管理

發佈時間:2024-07-15 11:03:45  |  來源:東方網  |  作者:  |  責任編輯:科學頻道

案例應用解決方案 >

全棧監控+統一告警+智慧值守解決方案

全棧監控+統一告警+智慧值守解決方案,旨在為經歷IT系統規模激增和複雜性加劇的企業提供一站式、全方位的運維監控管理服務。該方案通過全面覆蓋系統各層次的監控,統一整合告警管理,以及智慧化的自動值守,確保運維過程的高效和系統運作的穩定。

全棧監控對基礎設施、中間件、服務、應用、調用鏈等各種IT資源進行立體化監控,實時監測系統的運作狀態和性能指標,及時發現潛在的風險和異常,並通過統一告警管理,將所有告警資訊集中治理,避免資訊孤島和重復告警的問題,提高了告警的準確性和響應的及時性。同時,智慧值守系統實現了7*24小時自動化值守和智慧應急處置,能夠在接收到告警後自動響應,給出相關的解決方案建議,並跟進處置狀態,減少了對人工干預的依賴,提高了問題處置的效率和準確性。

通過該解決方案,企業能夠實現“全面立體監控,實時發現異常,提升告警品質,支撐快速響應”的監控管理目標,確保IT系統的高效、穩定運作。

案例背景 >

經過多年的沉澱,案例客戶在運維方面已經佈局搭建了部分運維監控工具,由於各個運維點位建設初期並沒有整體規劃,這些運維監控工具的監控手段比較單一、技術相對落後,且運維數據相對分散,缺乏互聯互通和協同工作機制,不具備統一的一體化管理能力。此外,現有運維團隊受限于自身技能與工具能力,在應對系統故障時無法保證及時性與高效性。

案例客戶為了應對70余套業務系統以及數百個系統節點所帶來的運維壓力,迫切需要一套完整且專業的智慧運維體系以提升運維管理能力,實現一體化和精細化運維管控,全面保障IT系統的穩定運作。

01需求分析

01.1面臨的問題

·運維手段不足-管理盲點範圍大

由於監控工具技術較為陳舊,導致無法相容部分設備類型、軟體版本的監控;而使用開源技術則意味著需要持續投入人力進行開發維護,因此目前僅實現了對於伺服器和日誌的部分監控,應用性能、中間件和數據庫等監控缺失,在監控的覆蓋面、指標覆蓋度和實時性等方面的不足,導致無法實時反應系統運作情況,故障發現比較滯後,甚至出現晚于用戶上報的情況。已無法滿足當前複雜系統的運維監控需求。

·運維數據分散-排查處置效率低

監控數據與其産生的告警分散在各工具平台中,缺乏統一的管理視圖與關聯匯總的告警資訊,在面對大量告警時,運維人員無法快速識別重要告警,並判斷問題影響範圍;故障排查時,各專業組難以進行整體性的關聯分析和故障溯源。

·智慧決策缺失-管理協作靠人工

故障分析與處置環境完全依賴人工。在業務系統出現異常時,一線運維人員由於經驗與技能的不足,往往需要尋求二、三線運維人員的協助,溝通與人力成本較大,而故障處理的用時過長,增加業務受影響的週期。

01.2項目建設目標

·監控全方位100%覆蓋

針對全棧軟、硬體性能指標通過多渠道多方式的監控採集,且具備自定義腳本上報數據的能力,建設一套平臺全面覆蓋各種監控類型,包括但不限于用戶體驗監控、應用性能監控和基礎資源監控(包括伺服器、中間件和數據庫等)。此外,補全日誌數據的實時採集與監控。確保運維團隊能在第一時間感知系統異常。

·構建統一運維數據視圖

通過統一平臺融合運維大數據,包括結構化和非結構化數據,打通監控、告警和資産等數據。從業務視角出發,對核心骨幹鏈路、核心業務應用、監控告警等資訊重點展示,提供運維數據可視化洞察,幫助運維人員全方位掌握IT系統運作狀況。

·提升告警品質、加速故障響應

對日常出現的大量相同或相似告警事件進行壓縮,使運維人員的工作更聚焦于問題與故障的發現與溯源。使用告警處置跟蹤,故障識別與自動升級,一鍵拉會並啟動應急指揮室等自動化、智慧化手段應對告警事件,節省人工干預的時間和精力,並能夠在故障發生後快速響應和處理,降低故障對系統穩定性和業務連續性的影響。

02解決方案及思路

02.1建設思路

該方案內置基礎資源監控、應用性能監控與用戶體驗監控模組,實現集基礎環境、伺服器、存儲、網路、作業系統、中間件、數據庫等於一體的統一監控覆蓋。

方案以鼎茂科技自研的ARCANA平臺(多模態數據智慧分析與決策平臺)作為統一數據底座,匯聚性能指標與日誌等運維大數據;通過ARC-IOC(數智運營中心)使用低代碼方式快速構建運維監控管理可視化視圖;通過Di-Logger(智慧日誌中心)對日誌進行監控與分析,將經由各監控模組與日誌平臺生成的告警推送給Di-Alert(智慧告警中心),實現告警壓縮與處置流轉,並由Di-Robot(智慧值守中心)跟進告警的處置,形成故障發現、分析、處置的閉環。

4b7daf4de7077b09674bac9358b462a1_20240712161030_659.png

02.2方案實施

Step1部署全棧監控模組(基礎資源監控、應用性能監控、用戶體驗監控、日誌監控)

·使用各監控模組,圍繞業務價值構建多維度的運維監控體系,實現業務系統與基礎資源的全方位實時監控,擴大監控覆蓋度、提升監控指標靈活性;設置及時準確的監控告警機制,在問題初現端倪的第一時間進行告警;

·利用Di-Logger的日誌分析能力,對日誌進行實時檢測,對日誌中隱藏的異常進行告警。

Step2部署雲原生數智底座(ARCANA平臺)

·通過ARCANA平臺提供統一運維門戶,整合所有運維監控管理工具形成統一運維入口。對運維大數據進行匯聚分析,提供低代碼、可視化編輯的運維監控大屏、移動端視圖等,形成個性化運維界面;

·基於底座搭載的豐富功能模組,可快速實現各項智慧運維能力擴展。

Step3搭載智慧告警功能模組(Di-Alert)

·由Di-Alert承接告警統一、告警壓縮、告警視圖的主要能力。對海量告警進行關聯壓縮,以告警拓撲視圖的形式對關聯告警進行通知和播報。

Step4構建個性化運維可視化視圖(ARC-IOC)

·基於整合運維數據,包括交易-業務-服務-基礎組件-基礎設施的全棧指標、日誌數據、告警資訊,資産資訊和事件工單等,以業務系統為核心,形成業務運作狀態、系統健康狀態等的可視化洞察。

Step5搭載智慧值守功能模組(Di-Robot)

·由Di-Robot承載故障值守和應急管理等能力。實現自動化告警判斷與故障升級,高效組織應急響應,提供故障場景下的智慧決策。

03項目成果

03.1實現70+套業務系統的監控全覆蓋

通過基礎資源監控的替換,實現當前管理機制中所存在的作業系統監控不全、指標遺漏,以及數據庫、中間件等監控缺失等管理盲點的改善。通過建設覆蓋所有業務系統的應用性能監控和用戶體驗監控,直觀反映業務健康狀態,提供故障的感知能力。

cbd95b4ca3f685ff43c757f8d43dc241_20240712161116_209.png

03.2提供所有業務系統的全局監控視圖,和IT系統拓撲視圖

通過全局視圖,監視所有應用的健康狀況;通過IT系統拓撲視圖,查看應用相關的主機、網路、中間件和數據庫等的性能情況,可下鑽的拓撲視圖至指標趨勢詳情或日誌明細,為分析故障影響範圍、排查問題根因提供有力支撐。

220cab31b9fcf9777230bff3ac83cb96_20240712161129_110.png

e323f1a08a4b999f56337136dcf937dc_20240712161202_100.png

03.3實現告警壓縮與處置流程線上化

針對各類監控所産生的大量告警事件,進行告警收斂、壓縮、降噪等處置,遮罩告警風暴,聚焦有效告警,提升告警可讀性,並改善多源告警分散管理的現狀,實現統一告警分派、通知、認領、開單、處置、結單的告警處置流程閉環。

6363c9461df7a521a610656f8431933a_20240712161152_879.png

03.4以業務視角組建運維管理大屏

實現客戶全量運維數據資産沉澱,以統一數據融合平臺的形式,將當前多數據通道、多數據類型、多數據格式、多數據標準並存的運維數據,以業務視角設計運維管理故事線,並形成統一運維大屏作為日常運維管理的數據檢閱工具。

61c0de5d4c398bdaf8654e64814fb03b_20240712161234_889.png

03.5實現自動化、智慧化運維值守與應急處理

實現7*24的自動值守,啟用了數十類故障自動升級與處置規則,幫助一線運維人員在常見系統故障發生後及時響應。在排障過程中,可以通過故障應急駕駛艙所提供的故障處置最佳實踐、歷史故障處理記錄,輔助應急響應決策,提高故障應急效率。

5497e085a4ce2590ddf07147e73503b7_20240712161245_544.png

04客戶收益

鼎茂科技幫助該客戶實現了監控體系的全面升級,並對監控生成的告警進行治理與壓縮,對於故障告警進行高效處置,使用可視化大屏展示業務健康狀態和核心指標趨勢等重要資訊。整體提高了故障發現到定位的時效性,提升故障處置效率。

即時收益:

·達成重要(業務)系統、資産、指標100%的監控覆蓋率;

·統一去除無效告警並進行智慧分析降噪,實現超過90%的告警壓縮率;

·實現自動化故障響應,提升一線運維人員的故障處置率至90%以上。

擴展性收益:

·解決方案能夠快速擴展覆蓋新增的業務系統或軟硬體資産,輕鬆應對業務增長所帶來的增長需求;

·並提供了全面運維數據的採集、治理與分析能力,為後續更多智慧化運維分析場景落地提供了基礎。