现代的因特网环境越来越复杂,这意味着网络的连通性和性能故障发生的可能性越大,而且引发故障的原因也越发难以确定。同时,由于人们越来越多的依赖网络处理日常的工作和事务,一旦网络故障不能及时修复,其所造成的损失可能很大甚至是灾难性的。

能够正确地维护网络尽量不出现故障,并确保出现故障之后能够迅速、准确地定位问题并排除故障,对咱们网管来说是个挑战。

下面让我们来接受这个挑战,保证良好的排查思路并合理应用于实际中,将一个又一个复杂的故障问题进行修复。

网络故障排查流程H3C交换机之网络故障排查方案-LMLPHP

网络故障分类

l  连通性问题

硬件、媒介、电源故障;

配置错误;

设备兼容性问题。

l  性能问题

网络拥塞;

路由环路;

网络不稳定。

常用故障诊断命令简介

         作为一个非常娴熟的高端职业网管,ping、tracert、display这3个网络设备诊断的指令是必须熟练掌握的,想闯交换的天下,这些命令“一个都不能少”。

我们以H3C交换机为例

Ping常用命令说明

ping ?                                               

-a    指定PING命令的源地址

-c  设置发送ICMP ECHO_REQUEST报文的数目

-d    打开所使用套接口上的SO_DEBUG 选项

-f    指定发送数据包不能被分片

-h    指定发送回显请求报文的TTL值

-i    指定PING命令的发送接口

-n    不对目的主机作域名解析

-q    除统计数字外,不显示其他的详细信息

-r     记录路由. 包括在ECHO_REQUEST包中的RECORD_ROUTE设置,并且显示返回包中的路由缓冲区

-t    设置等待ECHO_REQUEST 报文响应的超时时间

Tracert常用命令说明

tracert ?

-a指定tracert命令的源地址

-f         初始TTL

-m        设置最大TTL

-p        设置UDP端口号

-q        设置探测数据包个数

-w        设置超时时间

Display常用命令说明

硬件状态、IOS版本信息检查:

display clock                      系统时间

display version                查看版本信息,最近一次重新启动的时间

display enviroment          设备温度

display power                   查看电源状况

display fan                         查看风扇状况

display cpu-usage           查看cpu最近5S、1m、5m占用率

display cpu history           查看cpu使用记录

display memory              查看内存大小和占用率

系统运行配置状态检查:

display interface                                 查看接口流量、链路状态

dis current-configuration                 查看当前使用的配置文件信息

display saved-configuration             查看保存的保存配置文件

display ip routing-table                     查看路由信息

display ip interface                             显示vlan端口统计数据

display logbuffer                                 日志信息

检查硬件常用方法

替换法

当我们在检查硬件是否存在问题时最常用的方法就是“换”。

当怀疑是网线问题时,更换一根确定是好的网线试一试;

当怀疑是接口模块有问题时,更换一个其他接口模块试一试;

当怀疑是某一接口有问题时,将网线换接至其他相同配置的接口上试一试。 

案例分析一

H3C交换机之网络故障排查方案-LMLPHP

故障描述:PC_A无法ping通路由器

原因分析:

1.物理线路问题(路由器/三层/二层/接口/模块/光纤/网线损坏)

2.设备配置错误

故障排除过程:

1.PC_A可以ping通二层交换机/三层交换机vlan 1/vlan 200

2.Dis cur查看三层配置,vlan划分正确,静态路由配置正确

3.三层光口link灯不亮,拔下光纤发现两根均没有光源发出

4.更换一对光纤后问题解决

总结:在排查故障中,50%的问题可以通过分段/分层/替换的方法迅速找出问题所在

案例分析二

H3C交换机之网络故障排查方案-LMLPHP

故障描述:PC_A下可以ping通PC_B,但延迟很大,有时丢包

原因分析:

1.物理线路问题(路由器/三层/二层/接口/模块/光纤/网线损坏)

2.Dis cpu/Dismem查看交换机的CPU和内存使用情况

3.端口协商是否有问题

4.抓包分析,是否有病毒攻击

5.PC_B性能太低

故障排除过程:

1.替换网线发现问题没有解决

2.Dis cpu/Dismem查看交换机的CPU和内存均正常

3.Dis int eht 查看二层交换机与三层交换机的互联端口,发现大量error和crc错误,两端分别为设定的半双工、100M与自协商模式

4.修改设置为全双工、100M后问题解决

总结:全双工半双工的不匹配对网络的性能有很大影响,虽然在多数情况下并不易察觉,但当网络流量非常大时,确实会造成网络性能问题。如果发现在大流量下网络丢包现象

较为严重时,设备间工作方式的匹配性应是排错的关注点

案例分析三

H3C交换机之网络故障排查方案-LMLPHP

故障描述:二层交换机A下的PC出现异常(网慢、丢包、甚至不通),二层交换机B下的PC没有异常

原因分析:

1.三层交换机处理三层报文的时候出现问题

2.二层交换机A处理二层报文的时候出现问题

故障排除过程:

1.在三层交换机直接接PC机,PC能够正常上网,排除三层交换机的问题

2.将二层交换机A下的问题PC接至二层交换机B下,配置对应IP、掩码、网关,PC能够正常上网,排除PC机的问题

3. 查看二层交换机A接口状态,发现端口UP,但接口下超过总流量50%的广播包,这种现象可能说明两个问题:A.网络环路 B.arp攻击

4.组网设计为树状串型结构,各接口上也没有网线打环,排除网络环路的可能性

5.继续查看二层交换机A下各个接口的广播包流量,拔掉异常的广播包流量的接口,其他PC机网络恢复正常

总结:查看某端口流量是否异常,查看之前可以先清除一下(reset cou int),并通过抓包检查是否有arp病毒攻击。且三层交换机与二层交换机都是可网管型的,可以使用arp static或users-bind命令来绑定每一台PC的MAC+IP+端口以杜绝arp攻击。

03-14 14:23