網(wǎng)絡(luò)故障和排除
網(wǎng)絡(luò)故障和排除
近年來,網(wǎng)絡(luò)熱潮不斷上漲,最典型的例子就是網(wǎng)吧的層出不窮和網(wǎng)民數(shù)量的不斷上升,不管你是用DDN、ADSL、ISDN或者家里的小貓,網(wǎng)絡(luò)中可能出現(xiàn)的故障總是多種多樣,往往解決一個復(fù)雜的網(wǎng)絡(luò)故障需要廣泛的網(wǎng)絡(luò)知識與豐富的工作經(jīng)驗(要不CCIE、MCSE怎能那么紅呢)。
我們可以根據(jù)網(wǎng)絡(luò)故障的性質(zhì)把網(wǎng)絡(luò)故障分為物理故障與邏輯故障,也可以根據(jù)網(wǎng)絡(luò)故障的對象把網(wǎng)絡(luò)故障分為線路故障、路由故障和主機故障。
計算機網(wǎng)絡(luò)故障診斷與排除的步驟:
1.物理故障
物理故障指的是設(shè)備或線路損壞、插頭松動、線路受到嚴(yán)重電磁干擾等情況。比如說,網(wǎng)絡(luò)管理人員發(fā)現(xiàn)網(wǎng)絡(luò)某條線路突然中斷,首先用ping或fping檢查線路在網(wǎng)管中心這邊是否連通。 網(wǎng)管網(wǎng)bitsCN_comping的格式為:ping www.cisco.com或ping 192.168.0.1 (192.168.0.1是IP地址,可以是主機的IP也可以是網(wǎng)絡(luò)中另一臺計算機的IP)。ping一般一次只能檢測到一端到另一端的連通性,而不能一次檢測一端到多端的連通性,但fping一次就可以ping多個IP地址,比如C類的整個網(wǎng)段地址等。順便多說一句,網(wǎng)絡(luò)管理員經(jīng)常發(fā)現(xiàn)有人依次掃描本網(wǎng)的大量IP地址,不一定就是有黑客攻擊,fping也可以做到。如果連續(xù)幾次ping都出現(xiàn)"Requst time out"信息,表明網(wǎng)絡(luò)不通。這時去檢查端口插頭是否松動,或者網(wǎng)絡(luò)插頭誤接,這種情況經(jīng)常是沒有搞清楚網(wǎng)絡(luò)插頭規(guī)范或者沒有弄清網(wǎng)絡(luò)拓?fù)湟?guī)劃的情況下導(dǎo)致的。
另一種情況,比如兩個路由器Router直接連接,這時應(yīng)該讓一臺路由器的出口連接另一臺路由器的入口,而這臺路由器的入口連接另一路由器的出口才行。當(dāng)然,集線器Hub、交換機、多路復(fù)用器也必須連接正確,否則也會導(dǎo)致網(wǎng)絡(luò)中斷。還有一些網(wǎng)絡(luò)連接故障顯得很隱蔽,要診斷這種故障沒有什么特別好的工具,只有依靠經(jīng)驗豐富的網(wǎng)絡(luò)管理人員了。
2. 邏輯故障
邏輯故障中最常見的情況就是配置錯誤,就是指因為網(wǎng)絡(luò)設(shè)備的配置原因而導(dǎo)致的網(wǎng)絡(luò)異?;蚬收?。配置錯誤可能是路由器端口參數(shù)設(shè)定有誤,或路由器路由配置錯誤以至于路由循環(huán)或找不到遠(yuǎn)端地址,或者是路由掩碼設(shè)置錯誤等。比如,同樣是網(wǎng)絡(luò)中的線路故障,該線路沒有流量,但又可以ping通線路的兩端端口,這時就很有可能是路由配置錯誤了。遇到這種情況,我們通常用“路由跟蹤程序”就是traceroute,它和ping類似,最大的區(qū)別在于traceroute是把端到端的線路按線路所經(jīng)過的路由器分成多段,然后以每段返回響應(yīng)與延遲。如果發(fā)現(xiàn)在traceroute的結(jié)果中某一段之后,兩個IP地址循環(huán)出現(xiàn),這時,一般就是線路遠(yuǎn)端把端口路由又指向了線路的近端,導(dǎo)致IP包在該線路上來回反復(fù)傳遞。幸好traceroute可以檢測到哪個路由器之前都能正常響應(yīng),到哪個路由器就不能正常響應(yīng)了。這時只需更改遠(yuǎn)端路由器端口配置,就能恢復(fù)線路正常了。
邏輯故障的另一類就是一些重要進(jìn)程或端口關(guān)閉,以及系統(tǒng)的負(fù)載過高。比如也是線路中斷,沒有流量,用ping發(fā)現(xiàn)線路端口不通,檢查發(fā)現(xiàn)該端口處于down的狀態(tài),這就說明該端口已經(jīng)關(guān)閉,因此導(dǎo)致故障。這時只需重新啟動該端口,就可以恢復(fù)線路的連通了。還有一種常見情況是路由器的負(fù)載過高,表現(xiàn)為路由器CPU溫度太高、CPU利用率太高,以及內(nèi)存剩余太少等,如果因此影響網(wǎng)絡(luò)服務(wù)質(zhì)量,最直接也是最好的辦法就是——更換路由器,當(dāng)然換個好點的。
網(wǎng)絡(luò)故障根據(jù)故障的不同對象也可以劃分為:線路故障、路由故障和主機故障。
1. 線路故障
線路故障最常見的情況就是線路不通,診斷這種情況首先檢查該線路上流量是否還存在,然后用ping檢查線路遠(yuǎn)端的路由器端口能否響應(yīng),用traceroute檢查路由器配置是否正確,找出問題逐個解決。方法在前面已經(jīng)提過,這里就不多說了。
2. 路由器故障
事實上,線路故障中很多情況都涉及到路由器,因此也可以把一些線路故障歸結(jié)為路由器故障。檢測這種故障,需要利用MIB變量瀏覽器,用它收集路由器的路由表、端口流量數(shù)據(jù)、計費數(shù)據(jù)、路由器CPU的溫度、負(fù)載以及路由器的內(nèi)存余量等數(shù)據(jù),通常情況下網(wǎng)絡(luò)管理系統(tǒng)有專門的管理進(jìn)程不斷地檢測路由器的關(guān)鍵數(shù)據(jù),并及時給出報警。而路由器CPU利用率過高和路由器內(nèi)存余量太小都將直接影響到網(wǎng)絡(luò)服務(wù)的質(zhì)量。解決這種故障,只有對路由器進(jìn)行升級、擴大內(nèi)存等,或者重新規(guī)劃網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)。
3. 主機故障
主機故障常見的現(xiàn)象就是主機的配置不當(dāng)。像主機配置的IP地址與其它主機沖突,或IP地址根本就不在子網(wǎng)范圍內(nèi),由此導(dǎo)致主機無法連通。主機的另一故障就是安全故障。比如,主機沒有控制其上的finger,RPC,rlogin等多余服務(wù)。而攻擊者可以通過這些多余進(jìn)程的正常服務(wù)或bug攻擊該主機,甚至得到Administrator的權(quán)限等。還有值得注意的一點就是,不要輕易的共享本機硬盤,因為這將導(dǎo)致惡意攻擊者非法利用該主機的資源。發(fā)現(xiàn)主機故障一般比較困難,特別是別人惡意的攻擊。一般可以通過監(jiān)視主機的流量、或掃描主機端口和服務(wù)來防止可能的漏洞。最后提醒大家不要忘了安裝防火墻,因為這是最省事也是最安全的辦法。