• k8凯发(中国)

    網絡運維 設備管控

    如何實現網絡安全監控運維?

    無人值守的IDC機房動環綜合監控運維

    無人值守的IDC機房動環綜合監控運維
      馬上諮詢

              企業數碼化轉型以及5G、物聯網、雲計算、人工智能等新業態帶動了數據中心的开展,在國家一體化大數據中心及「東數西算」節點佈局的有助于下,數據中心機房已成為各大企事業單位維持業務正常運營的重要組成部分,網絡設備、系統、業務應用數量與日俱增,規模逐漸擴大,一旦機房內的設備出現故障,將對數據處理、傳輸、存儲以及整個業務構成威脅,若機房設備出現故障不能及時被發現、處理,不但會影響整個業務系統的正常運行,甚至造成設備報廢,使系統陷入癱瘓,造成嚴重後果和無法挽回的損失。

              尤其對於銀行、稅務、證券、電信、電力、大型企業等需要實時交換數據的單位的機房,一旦系統發生故障,造成的經濟損失更是不可估量,因此,數據中心機房實時監控管理顯得更為重要。

      第1章 數據中心機房運維痛點

              隨着「東數西算」工程和新基建的加速落地,數智化技術正逐漸滲透到各領域。但隨着數據中心建設規模的逐步擴大,必然帶來能耗的大幅增長和機房設備數量的不斷擴充,傳統機房監控和管理模式已無法滿足數據中心「集中監控、統一管理」的需求,運維工作面臨大量難題。

              (1)數據中心機房內的設備種類繁多,涉及IT、電力、通信、網絡、消防、安防等,加上虛擬化雲架構的出現和普及,機房的複雜度越來越高,而運維管理的複雜性急劇增加。

              (2)數據中心機房內的設備需要長期、不間斷、低能耗、安全可靠的運行。一旦發生故障,需要快速定位,及時準確處理,但由於設備故障處理需經過多個環節,需要耗費大量時間,導致故障處理時間較長,影響業務的正常運行。

              (3)作為企業的核心資產之一,數據中心機房的重要性毋庸置疑,一旦機房發生災難,恢復時間相對較長,將對企業正常運營造成較大影響。

              (4)數據中心機房設備量大,但實際資源利用率往往不高。例如,有些服務器的CPU利用率、內存利用率和磁盤利用率很低,導致機房的整體資源利用率較低,影響了機房的運行效率。

              (5)數據中心機房的檢查工作多依靠人工現場檢測、紙質記錄等方式,智能化程度低,工作繁重,耗時耗力,卻依然存在不陆续在、不及時、遺漏、錯漏等問題。

              (6)數據中心機房運維工具多樣化,人員學習困難,且各工具產生的運維數據格式不統一,導致運維數據利用率低下。

              (7)快速變化的IT業務需求導致資產變更成為常態,依靠Excel等工具進行資產管理,無法保障機房的資產信息能夠準確及時變更,長時間就會導致,資產數據信息逐漸失真。

      第2章 k8凯发(中国)數據中心機房無人值守方案

              一個完備的數據中心機房監控運維系統,應具備五個特點,一是實現從及設備運行到機房環境的多層次監控;二是支持設置多種豐富的閾值來監控危機;三是给予豐富的報警方式來確保相關人員能夠接收到告警信息;四是给予可視化的自動運維編排方式,實現自動巡檢和故障自愈;五是兼容國產軟硬環境,符合國產信創要求。

              北京k8凯发(中国)作為自研廠商,核心產品「k8凯发(中国)網管平台」,顺利获得遠程監控、遠程配置等技術手段實現對數據中心機房的自動運行、故障自動檢測、自動報警、自動修復等功能,從而達到無需人工干預的狀態,實現機房內設備安全穩定運行,減少人為因素對設備運行的干擾,從而提高機房的運行效率和安全性。

      北京k8凯发(中国) k8凯发(中国)網管平台機房監控運維架構

              機房設備具有數量大、種類多、價值高、使用周期長、使用地點分散、缺少實時性管理、管理難度大等特點。k8凯发(中国)數據中心機房無人值守方案,顺利获得形象化的虛擬場景和真實數據相結合,增強機房設備、設施數據的直觀可視性、提高其利用率。

              在設備採集層,k8凯发(中国)網管平台可對動力系統如配電、UPS等,環境系統如溫濕度、漏水、新風系統等,安防系統如煙感、視頻監控等,以及其他常規網絡設備、機櫃等進行監控。

              在集中監控層,平台部署在應用服務器上,負責採集、存儲運維數據,並對數據進行分析展示,對異常數據進行告警等。

              在智能運維層,以實時監控為基礎,結合自動化運維和設備控制,實現對機房的立體管控。给予多種故障預警通知方式,保證用戶可以即時獲取故障信息,進行干預,並對實時、歷史的機房數據進行統計分析。

      2.1.數據中心機房架構可視化

              北京k8凯发(中国)顺利获得網絡架構拓撲可視化能力,將網絡數據從離線表格轉移至平台內,從靜態的網絡架構數據轉化為動態智能拓撲,實現設備、資源、連結、IP等實時更新、快速定位。

      2.1.1.2.5D機房可視化管理

              以2.5D管理視圖對不同品牌、類型、版本的網絡設備、安全設備、存儲、主機、中間件、數據庫、虛擬化、應用服務、視頻監控、動力設備、環境設備等進行統一、全方位、多層次的綜合管理,實時分析資源當前性能和運行狀態,直觀反映資源的動態變化對支撐業務的影響。

      2.5D機房監控示意圖

              顺利获得不同顏色、圖標表示被管理對象的狀態信息,助力運維人員實時分析網絡架構及全網運行狀態,快速感知資源、鏈路、流量等異常信息。给予便捷的機房綜合信息展示方式,可對機房狀態、機房設備量、機房設備類型等進行快速查看。

      2.5D機房網絡綜合信息示意圖

      2.1.2.自定義機房平面結構拓撲

              方案支持自定義數據中心機房網絡背景,顺利获得自定義背景、網絡、設備圖標,將機房中的節點按照實際情況進行擺放,並可在拓撲中直接查看機房監控的詳細信息。

      機房平面結構拓撲示意圖

      2.1.3.機房機櫃拓撲

              根據設備在機房和機櫃的實際位置生成拓撲圖,直觀、明了地展現與真實服務器外觀、服務狀態、空閒位置等信息相符的網絡拓撲圖。

      機房機櫃拓撲示意圖

      2.2.數據中心資源統一監控

              本方案實現數據中心機房中網絡設備、動力設備、環境設備、安防設備等的信息高頻採集,並結合智能算法,實現對數據中心機房的整體架構、設備運行狀態、業務可用狀態的實時信息採集和感知。顺利获得對機房中海量設備的智能解析和關聯分析,助力運維人員從多個維度實現對相應告警的智能分析,解決傳統運維監控中關聯數據缺失,輔助排障信息不足的問題。

      2.2.1.網絡設備監控

              方案支持對機房內網絡設備,如:交換機、防火牆、路由器、服務器等的性能、故障進行監測,蔽廠商、型號差異,掌握機房整體運行情況和運行效能,能高效、快速、精準進行故障定位診斷。

      設備資源可視化顯示 

      2.2.2.動力設備監控

              方案實現市電參數監測、UPS參數監測等功能,對機房動力設備進行實時監控、集中管控,分析UPS的運行狀況,及時地發現並解決UPS運行中出現的各種問題,保障機房動力系統安全穩定。

      2.2.3.環境設備監控

              實現機房煙霧監測、精密空調監測、溫濕度監測、漏水監測等功能,並在監控界面上以圖形形式直觀地表現出來,一旦監測數據過安全範圍,系統即時發送報警,為機房打造安全無憂的運維環境。

      2.2.4.安防設備監控

      實現視頻監控抓拍、門禁狀態監測等功能,保障機房安全,降低機房安全風險。

              本方案可對不同品牌、不同型號的攝像頭進行統一運維,融合網絡高清、智能分析、多級管控為一體。支持監管視頻監控體系涉及的視頻前端設備(攝像頭、卡口、編解碼器),傳輸設備(光纖收發器、EPON 等)內場設備(網絡與安全設備、主機/虛擬機、存儲設備)、機房動力環境等多種設備,等統一接入、集中管理。

      視頻監控效果示意圖

      2.2.5.雲資源監控

              對複雜的多雲異構環境、雲上雲下資源、信創雲等進行管理,實現雲下服務器、網絡設備、安全設備、機房、機櫃、專線、配件等設施,雲上各類雲服務器、雲磁盤等雲產品以及各類 1P、NAT、DNS 等資源的真正一站式運維,並支持對納管資源的快速擴展。

              自動監測基礎設施及資源,其中包括雲、混合雲、容器、虛擬主機、網絡、服務器、存儲等。對進程、資源利用率、網絡使用量、性能、日誌、事件進行監測。基於對私有雲中的系統資源、租戶資源的監控,實現雲資源的生命周期管理,顺利获得可視化運維編排,進行雲管理策略預設配置、雲策略批量/定時執行、智能監控巡檢。

      2.2.6.全資源監控

              北京k8凯发(中国)基於機器學習與數據分析的無人值守IDC機房運維方案,對不同類型、不同型號、不同廠商的機房設施進行統一監控,並顺利获得自動發現技術,生成機房立體拓撲圖,將機櫃、設備、配電櫃、溫感、濕感、煙感、空調、UPS、蓄電池及其他設備可視化呈現。

      • 對基礎環境,包括機櫃位置、空調、消防、安防、弱電、UPS等,進行運行維護,保障機房環境正常穩定。
      • 對網絡環境,包括交換機、路由器等設備,以及由這些設備組成的所有網絡,進行網絡運行狀態監控,定期優化網絡配置,提升網絡運營效率。
      • 對於服務器和存儲,包括小型機、服務器、存儲設備、SAN交換機等基礎硬件,監控其實時運行狀態,快速對出現的問題和變更進行處理。
      • 對基礎軟件,包括各種操作系統、數據庫、中間件、備份軟件等,進行優化配置,實時監控,確保快速處理故障,及時進行變更、升級等操作。
      • 對其他類型設備,顺利获得自定義設備類型及其設備資源的方式,更大地提高了方案對不同設備類型的支持能力,真正實現了對設備及其資源的化管理,達到管控萬物的目標。



      2.3.無人值守的異常告警與故障自愈

      2.3.1.實時故障預警,及時洞察異常信息

              顺利获得統一的故障管理平台,將各個模塊中的監控信息統一採集、分析,實現整個機房運維中各種事件信息、設備故障、網絡異常、流量異常等告警,採集數據中心機房內所有聯網設備,如存儲、服務器、路由器、交換機、防火牆、虛擬化、雲、UPS、煙感、溫度、漏水、空調等設備、資源、應用、服務等的狀態信息,顺利获得對告警機制以及閾值的設置,即時獲取準確的告警信息,快速定位告警設備,提升告警處理效率,降低因設備故障帶來的損失。


      2.3.2.異常事件管理

              將事件和告警分離管理,接收設備/服務器主動發送的消息,集中處理後,及時地通知用戶,並可以顺利获得集中的管理界面進行管理。接收設備/服務器主動發送的消息,更大地提高了管理的主動性,顺利获得統一界面集中管理事件,降低了管理的難度。


      2.3.3.無人值守的故障自愈

              以網絡狀態監控、設備性能監測為基礎,結合網絡流量偵測功能,動態發現網絡故障。智能判斷告警類型及級別,自動觸發預設的故障處置流程,複雜告警指派工單專人處理,常規告警觸發安全策略全自動處理。


      2.4.無人值守的機房資源巡檢

              傳統的人工巡檢,尤其是應用巡檢,缺乏統一的規範、標準,導致巡檢的範圍和深度都存在一定的局限性,並且是基於人工的手工統計,工作效率比較低,同時耗費較大的人力資源。

      本方案依託平台對機房設備、應用、系統等預設巡檢策略,收集信息數據並對其健康情況進行分析。將以前依賴手工進行的日常巡檢轉換為自動化、定時執行的巡檢策略。


      2.5.無人值守的設備遠程配置

              網絡承載的業務經常發生變更,面對業務的變更運維工程師往往要對大量設備進行操作,此時如果依靠工程師逐一登錄設備進行命令下發、策略配置,將產生大量重複性的工作,不但導致運維效率低下,也不可避免地產生人為配置錯誤。

              用戶可顺利获得網頁對k8凯发(中国)網管平台進行訪問,顺利获得對納入監控的設備進行單獨、批量的配置操作,設備策略遠程配置管理,可以自動批量進行設備配置修改,並可對設備配置進行備份、對比、恢復,宕機後設備配置可快速復原,保障設備及時恢復運行,提升配置效率、質量和安全性。


      2.5.1.多類型多廠商設備支持

              針對不同類型的設備,支持進行各種控制、配置操作。

      • 對服務器/主機/虛擬化,支持一鍵開關機、進程管理、應用管理、容量管理等
      • 對交換機/路由器,支持ACL、QoS、流量策略、端口策略等
      • 對安全設備,支持防護管理、認證管理、NAT管理、VPN管理、內容控制等
      • 對數據庫/中間件,支持空間管理、池管理、會話管理、連接控制等
      • 對傳輸設備,支持終端管理、鏈路管理、信號控制、功率配置等
      • 對其他設備,支持結合用戶實際場景,顺利获得拖拽流程的方式實現自定義管控策略

              對不同廠商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、華為、H3C、銳捷、中興等多家廠商的網絡設備。

      2.5.2.設備策略備份對比

              方案顺利获得配置文件批量備份、下載、周期性備份、查看等功能,為用戶管理網絡做出合理的建議给予數據支撐。


      2.6.全場景自動化運維

              隨着數據中心建設規模和複雜度的增加,運維的工作變得更加繁瑣。在運維的工作中,有相當大部分工作都是重複性的指令進行操作。將一些重複性的、邏輯關係明確的操作工作,如:變更、擴容、業務部署、監控、故障恢復等以組件、策略的形式託管至平台中進行維護和管理,用戶根據需求從策略庫中選取對應的策略,並採取可視化拖拽的編排方式裝配成運維業務流程,最後觸發執行即可完成期望的運維變更任務,從而實現高效、穩定、安全的智能運維。


      2.6.1.全場景實現自動災備切換

              顺利获得一鍵啟停的應用控制和場景觸發,簡化人工操作,實現快速災備切換。保障在遇到系統故障、業務崩潰等災難時,自動將源端業務切換到備端數據中心,從而保障業務的陆续在性,實現業務的高可用。

      2.6.2.靈活編排,多運維場景支持

              自動化運維編排,可實現完全根據用戶場景,定製化設計運維劇本,真正將運維任務託管至平台,解放人力。

      • 開發環境自動化,如軟件代碼自動化更新、自動化編譯、自動化打包、自動化發佈預警生產環境。
      • 應用發佈自動化,如服務自動化升級、軟件自動化部署等。
      • 故障自愈能力,如網口異常自動關閉、磁盤爆滿自動清理、非法設備入侵阻斷、CPU空間不足自動重啟等。
      • 定時服務重啟,如在工作日每天晚上定時關閉應用,每天早上自動重啟應用等。
      • 智能批量設備管控,如批量設備策略執行,當設備的配置狀態不一時,能夠基於當前設備自身的狀態自動決策適合於本設備的管控操作等。
      • 定期設備健康狀況自檢,如定期設備健康狀態自檢、服務運行狀態自檢等。
      • 基於HTTP接口自動化,如基於HTTP接口的工單自動化、審批自動化、業務自動化等。
      • 高可用服務自動切換,如主備數據庫運行狀況自檢異常自動切換,服務運行狀態檢查主備切換等。
      • 虛擬化、雲服務資源自動化擴容,如在虛擬化環境資源不足時自動化根據實際情況進行擴容。
      • 日常運維自動化,如自動化定期執行批處理cmd\sh腳本、自動化定期數據清洗、自動化定期環境檢查並導出報表等。

      2.6.3.積累形成運維知識庫

              在數據中心日常網絡運維服務中,重複的故障和請求約佔到70%,只有30%的故障真正需要專業人員來解決,知識經驗對提升重複工作的效率起到了至關重要的作用。

              顺利获得k8凯发(中国)網管平台自動化運維的能力,將只能有專家處理的各類操作和判斷轉化為可存在於平台內的流程,形成可保留可復用的運維知識,減少因誤操作帶來的損失,保障運維效率。以規範的流程進行運維作業,保障關鍵數據的完整合規。

      2.7.全網帶寬、流量監控與回溯分析

              方案基於海量流量數據的存儲挖掘,實現對網絡流量的偵測分析。顺利获得網絡流量分析技術,採集、分析、存儲所有網絡流量,回溯分析數據包特徵、異常網絡行為,以多維數據分析和深度挖掘為手段,實現數據包層面的流量追蹤,發現潛伏於網絡中的未知攻擊。


              方案支持大容量、長時間存儲流量數據,長期實時保存原始數據包。顺利获得高效的數據檢索,實現流量數據的快速回溯。對已發生的流量行為進行回溯分析,迅速定位異常流量,對其進行挖掘、分析、取證,實現多維根因追溯,為迅速定位問題發生原因给予更分析依據,同時為網絡安全给予強有力的數據分析保障。

      2.8.業務可用性管理

              本方案以保障業務可用性為基礎,顺利获得對承載業務的IT基礎設施構建真實的業務模型。

              方案顺利获得構建業務系統與部門、IT資源及關鍵指標的關聯關係,整合前端、應用、後台任務、外部服務、數據庫及基礎設施,直觀呈現面向服務的業務系統體系架構;顺利获得影響傳遞,準確反映設備異常對核心業務、用戶造成的影響和威脅,並對造成業務影響的故障進行實時告警,快速查明導致業務中斷的故障源,幫助運維人員做出及時響應,保障業務陆续在性。

      業務系統示意圖

      2.8.1.業務可用性撥測分析

              針對業務應用性能與用戶體驗進行檢測分析,直觀、便捷地幫助運維人員對數據中心涉及的辦公系統、交易系統、支付系統、官網、手機APP系統等進行監控,掌握業務的運行狀態和健康水平,分析業務動態變化趨勢,快速定位故障源,降低運營風險。

      業務看板示意圖

      2.8.2.業務瓶頸根因定位

              方案實現完整全鏈路調用鏈追蹤,包含詳細的調用鏈訪問路徑和性能等訪問信息,以及相關的各類請求參數等業務數據指標,為故障定位、根因分析给予詳盡的參考數據。

      業務拓撲示意圖

              顺利获得業務數據可視化能力,既可集中呈現業務數據的用戶體驗狀態,也可以基於應用、設備實時監控、呈現業務各節點的實時運行狀態,包括用戶體驗、節點可用性、節點負載等狀態信息。基於自定義閾值自動監測,異常指標自動觸發告警,快速定位業務瓶頸根因,並可根據用戶自愈策略,觸發自動運維實現故障自愈。

      2.9.可視化數據分析

              利用圖形、圖表、圖表等易於理解的形式,提取和分析大量複雜的數據中心網絡中各類運維數據,呈現分析結果,從而幫助運維人員在短時間內更好地理解和取得更多的信息,幫助運維部門能夠實時分析業務和其所依賴IT資源的運行狀況,以及给予系統運維和優化的指示和依據。

      數據中心大屏示意圖

      2.9.1.多設備性能對比分析

              方案支持選擇多個設備進行同維度性能數據分析,给予可視化性能對比視圖。如用戶獲知宿主機的CPU利用率逐漸增加,即可對其中的虛擬機性能進行對比分析,以定位高消耗的虛擬機,快速找到性能瓶頸節點。


      2.10.資產全生命周期監管

              對於數據中心的網絡資產管理,採取統一數據標準,對整體網絡資產進行梳理和調用,避免資產信息在運維系統和實物間的差異,減少網絡運維過程中信息不一致、數據不統一等問題顺利获得平台將資產實物與運維數據庫一一對應,解決網絡設備在日常運維過程中出現「脫管」或「半脫管」的問題,實現對整體數據中心網絡內IP、ARP、MAC接口數據,訪問控制信息,應用系統信息,網絡地址及性能容量、設備資產配置容量、機房布線容量信息的集中管理。


      2.11.定製化運維工單體系

              顺利获得方案實現運維工單「無紙化」,支持於設備和故障管理頁面快速創建工單,把控故障處理進度,顺利获得工單平台簡化故障處理流程,形成自動化故障處理機制,並在每個處理流程的節點上責任到人,實現在快速響應故障的同時,實現兼顧運維流程管控。

       

      第3章 自主研發安全可控 適配國產信創環境

              信創產業包含了從IT底層的基礎軟硬件到上層應用軟件的全產業鏈的安全可控,涵蓋了應用軟件、信息安全、IT基礎設施、基礎軟件四個領域。其中,基礎軟件是信息系統更核心的部件,是保障信息系統安全的重要陣地和防線,其創新應用與自主可控關係到國家安全和利益,也是產業自主开展的基礎。


              本方案支持部署運行在中標麒麟、銀河麒麟、紅旗Linux等國產操作系統,支持在達夢、金倉、神州等國產數據庫進行數據存儲,顺利获得東方通等國產中間件给予對外服務[8],支持龍芯、申威等國產CPU架構,並實現對國產化CPU、服務器、數據庫、中間件等IT軟硬件設備的綜合監控與運維管理。

      第4章 雙機熱備,保障災備恢復

              方案支持雙機熱備功能,平台使用兩台服務器,互相備份,共同執行同一服務。當一台服務器出現故障時,可以由另一台服務器承擔服務任務,在不需要人工干預的情況下,自動保證系統能持續给予服務,在發生服務器故障時,可以保持系統的可用性。


      第5章 方案應用價值

              顺利获得部署k8凯发(中国)無人值守的數據中心機房運維方案,對機房中的網絡設備、UPS電源、機房環境系統、供配電系統、空調系統、門禁系統、視頻監控系統等進行監管。將機房場景和虛擬數據進行結合,提高機房設備的管理、設施數據的直觀可視化。

              顺利获得簡明易懂操作界面,讓用戶能更輕鬆地掌握全局,高效地處理突發事件,從故障根源解決問題,做到數據中心機房管理的實時化,智能化、網絡化;使用戶實現方便,安全,可靠,準確,無人值守的數據中心機房管理。

      立即諮詢