那些網(wǎng)絡(luò)中容易出現(xiàn)的故障!
來源:弱電工程師的圈子 編輯:小月亮 2020-07-21 17:07:13 加入收藏
運(yùn)維人最怕網(wǎng)絡(luò)出故障。先拋開一些閑話不談,網(wǎng)絡(luò)故障從大體上來講,有下面幾種情況:
// 硬件問題 //
既然網(wǎng)絡(luò)設(shè)備是一臺(tái)機(jī)器,就有可能出現(xiàn)“疲勞”,從而導(dǎo)致各種各樣的硬件故障出現(xiàn)。硬件的故障,一般有下面幾種情況。
第一種是造成整機(jī)停機(jī)的故障。
停機(jī)屬于重大安全問題,造成停機(jī)的原因一般有以下幾點(diǎn):
(1)設(shè)備電源模塊損壞,常見于一些單電源的盒式交換機(jī);
(2)設(shè)備在搬移過程中,因?yàn)榕鲎?,摔打造成的主板芯片受損;
(3)一些使用超年限的設(shè)備,在重啟的時(shí)候出現(xiàn)問題,起不來了;
(4)因?yàn)闄C(jī)房環(huán)境不好,設(shè)備溫度過高造成“假死”的現(xiàn)象。
設(shè)備停機(jī)屬于重大安全問題,也是特別緊急的事件,需要馬上更換設(shè)備。即使是假死,都要把備機(jī)準(zhǔn)備好了再操作,防止假死的設(shè)備重啟時(shí)真的掛了。
第二種是設(shè)備的模塊、板卡損壞,不至于造成停機(jī),但是引起了單點(diǎn)故障的隱患或者部分網(wǎng)絡(luò)業(yè)務(wù)中斷。
比如,Cisco 6509一般都會(huì)配備兩款引擎板卡,如果其中一塊引擎板卡損壞了,不至于造成該交換機(jī)停機(jī),也不會(huì)導(dǎo)致網(wǎng)絡(luò)業(yè)務(wù)中斷。但如果不及時(shí)換掉這塊壞引擎板,就造成了這臺(tái)Cisco 6509單引擎運(yùn)行,這肯定就是單點(diǎn)故障的隱患。如果這臺(tái)Cisco 6509壞掉的是一塊48口的千兆電口板呢?那肯定連接在這塊電口板上的業(yè)務(wù)全部中斷了。這種情況,就看根據(jù)整體的網(wǎng)絡(luò)業(yè)務(wù)有沒有受到影響來確定緊急程度了。對(duì)于客戶來說,壞一個(gè)板卡也是需要立即更換的。
// 軟件問題 //
軟件問題一般分為操作系統(tǒng)自身BUG,還有人為因素導(dǎo)致的操作系統(tǒng)拷貝不完整造成的一系列問題。操作系統(tǒng)本來是一類軟件,或多或少都會(huì)有一些BUG,可能體現(xiàn)在一些功能上面。
比較經(jīng)典的一個(gè)BUG就是H3C R6600系列,出廠自帶的操作系統(tǒng)Comware v7.1.059, ESS 0322,在配置BFD和BGP聯(lián)動(dòng)的時(shí)候(對(duì)端是Cisco),BFD就不生效,需要升級(jí)為v7.1.064, Release 7618才可以。這也就是為什么說官網(wǎng)經(jīng)常對(duì)一些設(shè)備的操作系統(tǒng)軟件提供一些新版本的軟件包或者補(bǔ)丁包。
人為因素則是因?yàn)樵趯?duì)設(shè)備做軟件升級(jí)的時(shí)候,因?yàn)閷?duì)設(shè)備操作系統(tǒng)軟件.bin文件拷貝不完整導(dǎo)致設(shè)備重啟以后就起不來了。導(dǎo)致這個(gè)問題的原因一般都是在拷貝軟件到設(shè)備的Flash里時(shí),沒有仔細(xì)核對(duì)拷貝后文件的大小。
// 實(shí)施造成的問題 //
實(shí)施造成故障,這也算是一種比較常見的問題。網(wǎng)絡(luò)割接實(shí)施本來就有風(fēng)險(xiǎn)。如果是操作人員經(jīng)驗(yàn)不足或者技藝不精,對(duì)割接的風(fēng)險(xiǎn)評(píng)估不足,前期的測試準(zhǔn)備不充分,就有可能在網(wǎng)絡(luò)割接的時(shí)候不僅沒能對(duì)網(wǎng)絡(luò)完成優(yōu)化改造,反而帶來一些新的故障。
一個(gè)很典型的例子,就是思科的設(shè)備換成華為或者H3C。比如拿一個(gè)拓?fù)鋱D來說:
第一個(gè)風(fēng)險(xiǎn)點(diǎn)就是私有協(xié)議要改通用協(xié)議。
之前的Cisco 4503E使用的網(wǎng)關(guān)冗余協(xié)議是HSRP,換成華為就要換成VRRP。在這里要注意的就是,HSRP的組播地址是224.0.0.2,VRRP的組播地址是224.0.0.18,這里是HSRP和VRRP最關(guān)鍵的一個(gè)差異點(diǎn)。所以,HSRP改VRRP,首先就要檢查Cisco 4503E上的所有VLAN接口(SVI),看看VLAN接口下是否掛了ACL,這個(gè)ACL下必須增加放行224.0.0.18。
隨后的風(fēng)險(xiǎn)點(diǎn),就是這個(gè)鏈路捆綁 。
你可能會(huì)說,LACP是通用協(xié)議,華為的設(shè)備也支持啊!但是你要知道的是,思科的鏈路捆綁是Port-Channel,華為是Eth-Trunk。華為Eth-Trunk捆綁的默認(rèn)是手工模式,也不是LACP,所以,華為這邊需要在配置Eth-Trunk的時(shí)候,加一條“mode lacp”命令。
還有呢,就是路由協(xié)議這邊的風(fēng)險(xiǎn)了。
可能你也會(huì)認(rèn)為,OSPF是通用協(xié)議,靜態(tài)路由更是幾乎所有三層設(shè)備都能支持,又能有什么問題呢?
在這個(gè)例子中,兩臺(tái)Cisco 4503E通過OSPF收取路由,再利用靜態(tài)路由進(jìn)行分流。對(duì)于Cisco設(shè)備來說,OSPF路由的AD值是110,靜態(tài)路由的AD值默認(rèn)是1。而華為設(shè)備,OSPF內(nèi)部路由Pref值(類似于Cisco的AD值)是10,OSPF外部路由的Pref值是150,靜態(tài)路由的Pref值是60。所以這里可以看見:對(duì)于Cisco設(shè)備,靜態(tài)路由優(yōu)先級(jí)高于OSPF;而華為設(shè)備,OSPF內(nèi)部路由的優(yōu)先級(jí)卻高于靜態(tài)路由。所以為了防止思科換華為以后分流失效,所以在華為設(shè)備上配置靜態(tài)路由時(shí),將pref值強(qiáng)行改為1。
如果是多路由協(xié)議混跑的骨干網(wǎng)中,思科設(shè)備換華為或H3C后,有時(shí)候也要在把華為或H3C上,把路由的Prefer值強(qiáng)行改為與Cisco一致。
當(dāng)然,這里說的風(fēng)險(xiǎn)都是從宏觀上就能發(fā)現(xiàn)的一些風(fēng)險(xiǎn),還有一些小細(xì)節(jié)也可能是風(fēng)險(xiǎn)點(diǎn)。比如光模塊能兼容Cisco,但不一定能兼容華為這些問題,能考慮到哪些就考慮到哪些,考慮得越細(xì)致,割接時(shí)出問題的概率就越低。
// 用戶造成的問題 //
這里說的用戶指的都是一些非專業(yè)用戶。很多運(yùn)維人員都說:不怕這個(gè)用戶一點(diǎn)都不懂,就怕這個(gè)用戶是個(gè)似懂不懂的。有時(shí)候在辦公室里面悄悄接一個(gè)HUB,然后這個(gè)HUB上接滿了網(wǎng)線,一不小心就把網(wǎng)線的兩頭就插在同一個(gè)HUB上造成環(huán)路了;還有就是有些人不知道從哪里聽來的“旁門左道”,網(wǎng)速稍微一慢就亂改IP,認(rèn)為一改IP上網(wǎng)就快了,結(jié)果搞得IP沖突。還有就是亂接U盤,亂下載軟件,整一些ARP相關(guān)的病毒,弄得一個(gè)網(wǎng)段內(nèi)的主機(jī)全部都掉線。
// 設(shè)計(jì)缺陷導(dǎo)致的故障 //
設(shè)計(jì)的缺陷分為以下幾種情況:
IP地址規(guī)劃問題。
任何一個(gè)企業(yè),網(wǎng)絡(luò)規(guī)模都是從小到大的,在最初的時(shí)候,因?yàn)橛脩魯?shù)量少,IP地址充足,所以在規(guī)劃IP地址的時(shí)候都比較“奔放”。到了后期,用戶數(shù)量逐漸增加,業(yè)務(wù)分類也越來越多,IP地址的管理也會(huì)變得越來越復(fù)雜。如果在最初的時(shí)候就沒有對(duì)IP地址有一個(gè)較好的規(guī)劃,就很容易在后期導(dǎo)致IP不夠用或者是把兩段IP地址規(guī)劃到了不同的站點(diǎn)里面。
一些人員技藝不精的問題。
比如設(shè)計(jì)二層網(wǎng)絡(luò)的時(shí)候,讓生成樹的計(jì)算拓?fù)鋱D變得比較復(fù)雜,使得STP無法收斂;還有就是OSPF的區(qū)域規(guī)劃欠考慮,路由協(xié)議也是隨心所欲的用,設(shè)備上重分發(fā)很多,這些都會(huì)大大提升網(wǎng)絡(luò)中出故障的概率。
評(píng)論comment