摘要:排障突出根源告警前文提到,告警數(shù)量多的根源在于層次多、關(guān)聯(lián)多,底層故障衍生出大量高層告警。如果我們能夠突出根源告警,忽略或者抑制衍生告警,就不需要針對無效告警派單處理,從而減少工作量。從華為的網(wǎng)上問題庫中統(tǒng)計發(fā)現(xiàn),IP網(wǎng)絡(luò)的故障根源大部分來自于硬件、鏈路的劣化。尤其是網(wǎng)絡(luò)中的鏈路,如光纖、微波等,容易受到
排障
突出根源告警
前文提到,告警數(shù)量多的根源在于層次多、關(guān)聯(lián)多,底層故障衍生出大量高層告警。如果我們能夠突出根源告警,忽略或者抑制衍生告警,就不需要針對無效告警派單處理,從而減少工作量。
從華為的網(wǎng)上問題庫中統(tǒng)計發(fā)現(xiàn),IP網(wǎng)絡(luò)的故障根源大部分來自于硬件、鏈路的劣化。尤其是網(wǎng)絡(luò)中的鏈路,如光纖、微波等,容易受到環(huán)境影響,從而導(dǎo)致接口閃斷。接口反復(fù)UP/DOWN,將引發(fā)大量接口的告警,同時又引起IGP協(xié)議收斂,引發(fā)IGP反復(fù)告警,進(jìn)而引發(fā)LSP的反復(fù)告警。即鏈路的告警將衍生出大量的協(xié)議告警。
針對以上情況,華為提出兩種告警優(yōu)化的思路:第一,在告警監(jiān)控中,將告警歸類為環(huán)境、硬件、軟件、接口、鏈路管道、協(xié)議和業(yè)務(wù)等幾個類別,環(huán)境、硬件類告警的處理優(yōu)先級大于協(xié)議、業(yè)務(wù)類告警。高級別告警處理恢復(fù)后,其衍生的低級別協(xié)議告警會自動恢復(fù)。這種方法簡單實(shí)用,可短期見效。第二,建設(shè)告警相關(guān)性系統(tǒng),按協(xié)議、業(yè)務(wù)運(yùn)行關(guān)系定義告警的衍生關(guān)系。在告警監(jiān)控系統(tǒng)上,將衍生告警掛接在根源告警上顯示,管理員直接處理根源告警,這種方法可以比較完善地解決告警多的問題,但建設(shè)困難且周期較長。
解決“無告警故障”的關(guān)鍵在于預(yù)期和現(xiàn)狀的對比,我們?nèi)詮目刂破矫婧娃D(zhuǎn)發(fā)平面分別闡述。
路徑預(yù)期和檢測
盡管IP的控制平面采用了動態(tài)協(xié)議,但其運(yùn)行的基礎(chǔ)仍然是物理鏈路和SPF(Shortest Path First)算法,鏈路規(guī)劃越簡單,路徑預(yù)期就越清晰。如在大部分的中小型城域網(wǎng)設(shè)計中,網(wǎng)絡(luò)層次少,層次之間采用主備雙鏈路進(jìn)行保護(hù),路徑非主即備。對于這種網(wǎng)絡(luò),只要維護(hù)好網(wǎng)絡(luò)拓?fù)鋱D,就可以滿足故障處理的需要。
對于大型、復(fù)雜的網(wǎng)絡(luò),管理員通過物理鏈路的分布,已無法快速識別業(yè)務(wù)路徑。在這種情況下,需要采用仿真計算的方式,將網(wǎng)絡(luò)上的配置、拓?fù)涞燃械椒抡孳浖校嬎愠鰳I(yè)務(wù)的預(yù)期路徑。
預(yù)期建立之后,采用OSS軟件定期獲取路徑的現(xiàn)狀并與預(yù)期對比的方式,若不一致即發(fā)送告警,并提示管理員網(wǎng)絡(luò)發(fā)生了故障。中小型、簡單網(wǎng)絡(luò)可以采用TraceRt獲取路徑。大型、復(fù)雜網(wǎng)絡(luò)一般都會存在ECMP(Equal-Cost MultiPath等價多路徑),此類情況一般可以綜合TraceRt、轉(zhuǎn)發(fā)表查詢等方式來詳細(xì)判斷業(yè)務(wù)流的路徑。另一種方式是通過分析IGP的泛洪報文,掌握路徑建立的詳細(xì)過程,根據(jù)路由算法和配置來掌握轉(zhuǎn)發(fā)路徑。
你適合考什么證書?掃碼一查便知

免費(fèi)課程:通信工程師精講試聽課程 | 通信工程師備考經(jīng)驗(yàn)分享
資料下載:通信歷年真題及答案下載 | 通信工程師模擬試卷
師資介紹:通信工程師師資介紹與課程體系
通信工程師備考資料免費(fèi)領(lǐng)取
去領(lǐng)取
共收錄117.93萬道題
已有25.02萬小伙伴參與做題
專注在線職業(yè)教育25年