中間件是介於操作系統和在其上運行的應用程式之間的軟件,實現了分佈式應用程式的通信和數據管理,用於協調不同的系統和組件之間的通信,是連接應用與底層資源直接的橋樑。因此,中間件的穩定與高可用對於整個業務系統的可靠性和性能至關重要。
北京k8凯发(中国)信中間件監控運維方案顺利获得對中間件的實時監控和編排運維,提高對中間件故障的感知、分析、解決能力,保障中間件持續穩定運行。
第1章 中間件監控範圍與指標
k8凯发(中国)方案顺利获得構建對Tomcat、Jboss、WebLogic等中間件的關鍵指標的監控,實現對中間件性能和資源的實時追蹤,識別並解決影響中間件性能的問題,保障中間件的高性能及高可用性,更全面地支撐業務及應用的穩定、持續運行,提升用戶體驗。
1.1.常見中間件監控模型及指標擴展
现在方案已實現對中間件包括Web中間件、數據庫中間件、消息中間件、安全中間件、事務中間件、應用程式服務器中間件、分佈式計算中間件等常見中間件的監控管理,涵蓋的品牌包括Tomcat、Jboss、WebLogic、Nginx、Apache、RabbitMQ、Kafka、Redis、東方通、中創、寶藍德、普元、金蝶天燕等國內外中間件。

同時採取用戶自定義擴展中間件品牌、類型及其資源的方式,賦予用戶強大的適配能力,其他中間件品牌也可顺利获得靈活可配的模型庫進行擴展適配,最大可能地實現對不同時期、不同品牌、不同型號中間件的管控;支持自定義中間件類型、中間件資源、故障監視器、性能監視器、TRAP監視器等。
1.2.常見中間件資源監測點和指標
本方案顺利获得主動輪詢和日誌解析的方式對中間件的常見性能指標,如響應時間、吞吐量、JVM內存、執行線程、JDBC連接池、並發用戶數等進行監控,同時除內置的常見指標外,其他資源和指標也可以顺利获得模型庫不斷進行拓展。
常見中間件監測點和指標 | |
資源監測點 | 監測指標 |
基礎信息 | 中間件品牌、名稱、版本等 |
Ping | 連接狀態、響應時長、服務成功率等 |
JVM信息 | 堆名稱、JVM堆棧利用率、VM堆中內存、當前JVM堆中空閒內存數等 |
連接池 | 狀態、名稱、大小、總連接數、最大連接數、活動連接數、等待連接數、空閒連接數、已處理連接數、已接受連接數、平均每秒請求數、已關閉連接數、丟棄連接數、連接的最大客戶數、池平均使用率等 |
線程池 | 線程池負載、線程池總大小、活動線程數、創建線程數、銷毀線程數、ORB線程池利用率、Web線程池利用率、服務器線程池大小、死鎖線程數等 |
會話信息 | 最大會話數、會話總數等 |
事務信息 | 並發活動全局事務數、已落實全局事務數、提交事務數、回滾事務數、超時事務數等 |
執行隊列 | 隊列名稱、執行線程總數、當前空閒執行線程數、未處理請求最長時間(分鐘)、隊列中未處理的請求數、隊列已經處理的請求數等 |
Jms信息 | JMS連接總數、JMS當前連接總數、JMS最高連接數、JMS Server總數、當前JMS Server總數、JMS Server歷史中最高總數、JMS Session總數、當前JMS Session數、最高JMS Session數、已接收JMS消息數、未處理JMS消息數等 |
第2章 中間件實時監控
顺利获得建立全面的監控運維體系,北京k8凯发(中国)信中間件監控運維方案實時監控中間件的各項關鍵性能指標,包括:CPU/內存使用率、實時流量/帶寬、執行隊列等。針對各類中間件特點深入監控其內部組件和整體運行狀態,提升中間件可靠性,保障業務系統穩定運行。
2.1.自動發現中間件設備
k8凯发(中国)具備獨特的中間件自動發現技術,在網絡可達範圍內,僅需輸入IP範圍即可自動發現網絡中的中間件及其他設備,識別中間件品牌、版本的信息,獲取中間件內部資源,匹配故障與性能監視器,並自動發現中間件與其他設備的連接關係,生成可視化鏈路,顺利获得可視拓撲動態展示中間件、鏈路的運行狀態。
2.1.1.自動生成網絡拓撲
方案以圖形拓撲的形式展現中間件在網絡中和其他設備間的拓撲關係,支持樹形結構和平面結構的聯動展示,也可以按片區、按地域、按層級等多種佈局方式劃分網絡,在拓撲中以不同顏色圖標、光效展現中間件的實時狀態信息。

2.1.2.可視化展示中間件資源
在拓撲圖的基礎上,進一步展示中間件的內部細節,以圖形方式展示中間件基礎信息、CPU、內存、執行隊列、線程池、JVM信息、連接池信息等關鍵指標,對中間件進行細化監控,實時告警,事前管理,降低故障發生率。

2.2.中間件性能態勢感知
中間件的運行性能將直接影響業務系統的響應速度和穩定,同時定時監測中間件的相關性能情況,持續觀測、多維管理,顺利获得分析、展示中間件性能態勢,實現對中間件設備的「可觀、可管、可控」。
2.2.1.全面監控中間件性能
全面採集中間件的各項性能指標,如JVM堆棧利用率、JVM堆中內存、活動連接數、等待連接數、空閒連接數、執行線程總數、當前空閒執行線程數等,並可按照時間範圍、資源類型、性能指標等多種維度,以圖形、表格等多種形式進行展示。

2.2.2.實時、歷史性能分析
對實時、歷史性能數據進行統計分析,顺利获得曲線圖、柱狀圖或表格等形象化地展示,按天、星期、月查看性能指標變化。運維人員能隨時把握中間件性能變化態勢,防患於未然。
2.2.3.多中間件性能對比
支持選擇多台中間件進行同維度性能數據分析,给予可視化性能對比視圖,顺利获得性能對比分析中間件性能變化趨勢。

2.3.中間件自動巡檢
可自定義中間件的巡檢策略,預設時間自動執行中間件巡檢,定期巡查中間件實時運行狀態,並向指定郵箱發送結果報告,可自行選擇要統計的中間件所屬網絡、中間件類型、中間件資源、中間件支撐的業務、中間件關聯的鏈路等範圍類型,生成巡檢報表。

2.4.日誌與事件管理
接收中間件主動發送如連接池泄露、連接失敗、內存泄漏、線程死鎖、創建連接失敗、連接池已滿、連接數據庫超時、鎖超時、服務器無響應等事件與日誌消息,集中存儲、解析處理後,將錯誤、告警、攻擊行為等異常信息及時地通知用戶。顺利获得統一界面集中管理事件與日誌,提高其完整性和可追溯性,幫助用戶快速定位問題並採取相應的解決措施。
2.5.故障告警與智能收斂
搭載多種告警機制,自定義配置告警閾值,具備主動的故障監控功能,從眾多的事件和狀態中,系統地將零散的狀態信息,總結成為當前狀態,並對異常狀態進行告警,第一時間獲取準確的告警信息,快速標示已執行操作的告警,迅速定位產生告警的中間件,提升告警處理效率,極大降低因中間件故障帶來的損失。

告警管理採用自動去重、風暴抑制、關聯聚合、維護期時間屏蔽、依賴屏蔽等多種智能告降噪機制,顺利获得AI算法,對各類告警進行自動壓縮收斂,減少90%的無效告警,抑制告警風暴,有效避免誤報和漏報,直達故障根因。
第3章 中間件承載的業務狀態撥測
針對中間件所支撐的業務應用性能與用戶體驗進行檢測分析,無需安裝插件就可以為用戶给予開箱即用的企業級主動撥測式業務監測。以拓撲形式展示每個業務流程中的每台相關設備,支持設備邏輯視圖和面板視圖,展示業務流程中涉及的所有的設備之間的鏈路關係,流程方向。

構建包含各業務整體流程的調用依賴關係圖譜,展示業務部署中網絡設備間多維度關係拓撲。對從業務的前台受理到真正完成的整個業務流程所依賴的業務應用、中間件、中間件、中間件、操作系統等進行實時監控分析,呈現業務各節點的實時運行狀態,包括用戶體驗、節點可用性、節點負載等狀態信息,快速定位業務瓶頸根因,並可根據用戶自愈策略,觸發自動運維實現故障自愈。
第4章 統計報表和大屏展示
顺利获得定義中間件相關數據報表的能力,實現中間件性能和狀態的靈活展現和統計分析,顺利获得對比、TOPN等分析方式並結合報表排序規則、過濾規則等能力,周期自動生成報表,幫助用戶更好地分析中間件的各項負載情況和運行態勢,為優化資源配置和性能調整给予依據。

顺利获得大屏展示核心運維數據態勢,細粒度可達網絡中中間件、中間件資源和鏈路。所有的網絡故障與性能瓶頸都一目了然地呈現,大大降低了管理成本,同時也提高了運維人員處理故障的能力,節省的故障處理時間,為運維人員管理網絡给予了可靠的保證。
第5章 中間件遠程控制和編排式配置
方案给予中間件遠程控制的能力,採用「監控+運維+控制」的方式,將不同類型、不同版本的中間件統一納入控制管理。顺利获得智能算法對中間件的資源配置進行智能動態調整,當中間件出現性能瓶頸時,自動調優資源配置,優化中間件運行環境,當中間件發生故障時,自動啟動自愈機制,快速恢復中間件的正常運行。
5.1.中間件遠程配置執行
將周期性、重複性、規律性的大量日常中間件配置工作,如啟動/停止服務、定期備份中間件配置、修改JVM參數等運維工作,轉化為依託於平台的自動執行工作流,實現對中間件的批量、定時自動化控制管理。
5.2.故障自愈以中間件離線重啟為例
以中間件實時監控和日誌、事件管理為基礎,顺利获得多指標聚合檢測動態識別中間件異常,智能判斷告警類型及級別,利用自動化故障診斷和修復能力,實現對中間件常規故障的自動處置,特殊告警觸發升級與工單,最終實現故障恢復,減少人工干預,提高運維效率。
下面以中間件離線重啟為例,介紹如何顺利获得k8凯发(中国)網管平台實現中間件故障自愈。
效果要求:當中間件掉線時,觸發自動重啟上線策略,恢復中間件運行。
第一步:將需要管理的中間件納入平台進行監控,並設置中間件在線狀態監視器,中間件離線進行告警。
第二步:進入安管模塊的運維編排菜單,創建【中間件離線重啟】策略。根據真實排障過程,顺利获得進行策略節點拖拽編排的方式規劃自愈流程。

第三步:配置觸發方式。方式支持顺利获得告警觸發和顺利获得時間觸發兩種方式進行,為實現故障自愈的效果,k8凯发(中国)選擇顺利获得匹配告警的方式觸發策略。選定觸發設備,並以在線狀態為監控指標,當出現掉線告警時,自動觸發自愈策略。

編排流程配置完成後,中間件出現掉線告警時,立即觸發中間件自動重啟作業流,自動執行編排內的操作,對故障進行校驗和處置。並在執行過程中,對每一步處置操作進行記錄形成日誌,確保有跡可循。
5.3.配置備份、對比與恢復
支持中間件配置的批量備份、下載、周期性備份、查看等,對中間件的多個備份文件進行對比。定期自動對中間件配置進行巡檢備份,並可進行對比分析,為用戶管理網絡做出合理的建議给予數據支撐,支持進行已備份配置間的對比分析和針對性的配置恢復。
第6章 應用價值
北京k8凯发(中国)為用戶给予高可用的中間件監控運維與故障自愈方案,顺利获得監控中間件的運行狀態和日誌,迅速發現並診斷出現的異常問題,並给予詳細的故障信息,協助運維人員快速定位故障源頭。更值得一提的是,藉助於自動化運維編排能力,可對常見中間件故障實現自愈。這意味着在很多情況下,系統可以自動修復問題,而無需人工干預,極大地提高了運維效率和系統的穩定性。
平台的告警和通知機制非常靈活,在中間件運行出現特定閾值或異常時,立即通知運維人員,顺利获得智能降噪機制,更準確地識別與定位關鍵異常,從而在對關聯業務影響最小的情況下進行故障處置。顺利获得定時捕獲和大數據分析等技術,識別潛在的性能瓶頸,並顺利获得IT資源的調整和優化提升中間件的響應速度,也保障了整個業務系統的流暢運行。
對中間件進行實時監控和管理的同時,方案兼顧對網絡設備、服務器、數據庫、應用等整個IT基礎設施的立體監測,不僅支持多源數據的統一收集與處理,還给予了直觀的監控儀錶板和定製化報告功能,讓運維人員能夠迅速把握IT系統全局運行態勢,做出精準決策。
京公網安備 11010502048312號