现代的因特网环境越来越复杂,这意味着网络的连通性和性能故障发生的可能性越大,而且引发故障的原因也越发难以确定。同时,由于人们越来越多的依赖网络处理日常的工作和事务,一旦网络故障不能及时修复,其所造成的损失可能很大甚至是灾难性的。
能够正确地维护网络尽量不出现故障,并确保出现故障之后能够迅速、准确地定位问题并排除故障,对咱们网管来说是个挑战。
下面让我们来接受这个挑战,保证良好的排查思路并合理应用于实际中,将一个又一个复杂的故障问题进行修复。
网络故障排查流程
网络故障分类
l 连通性问题
硬件、媒介、电源故障;
配置错误;
设备兼容性问题。
l 性能问题
网络拥塞;
路由环路;
网络不稳定。
常用故障诊断命令简介
作为一个非常娴熟的高端职业网管,ping、tracert、display这3个网络设备诊断的指令是必须熟练掌握的,想闯交换的天下,这些命令“一个都不能少”。
我们以H3C交换机为例
Ping常用命令说明
ping ?
-a 指定PING命令的源地址
-c 设置发送ICMP ECHO_REQUEST报文的数目
-d 打开所使用套接口上的SO_DEBUG 选项
-f 指定发送数据包不能被分片
-h 指定发送回显请求报文的TTL值
-i 指定PING命令的发送接口
-n 不对目的主机作域名解析
-q 除统计数字外,不显示其他的详细信息
-r 记录路由. 包括在ECHO_REQUEST包中的RECORD_ROUTE设置,并且显示返回包中的路由缓冲区
-t 设置等待ECHO_REQUEST 报文响应的超时时间
Tracert常用命令说明
tracert ?
-a指定tracert命令的源地址
-f 初始TTL
-m 设置最大TTL
-p 设置UDP端口号
-q 设置探测数据包个数
-w 设置超时时间
Display常用命令说明
硬件状态、IOS版本信息检查:
display clock 系统时间
display version 查看版本信息,最近一次重新启动的时间
display enviroment 设备温度
display power 查看电源状况
display fan 查看风扇状况
display cpu-usage 查看cpu最近5S、1m、5m占用率
display cpu history 查看cpu使用记录
display memory 查看内存大小和占用率
系统运行配置状态检查:
display interface 查看接口流量、链路状态
dis current-configuration 查看当前使用的配置文件信息
display saved-configuration 查看保存的保存配置文件
display ip routing-table 查看路由信息
display ip interface 显示vlan端口统计数据
display logbuffer 日志信息
检查硬件常用方法
替换法
当我们在检查硬件是否存在问题时最常用的方法就是“换”。
当怀疑是网线问题时,更换一根确定是好的网线试一试;
当怀疑是接口模块有问题时,更换一个其他接口模块试一试;
当怀疑是某一接口有问题时,将网线换接至其他相同配置的接口上试一试。
案例分析一
故障描述:PC_A无法ping通路由器
原因分析:
1.物理线路问题(路由器/三层/二层/接口/模块/光纤/网线损坏)
2.设备配置错误
故障排除过程:
1.PC_A可以ping通二层交换机/三层交换机vlan 1/vlan 200
2.Dis cur查看三层配置,vlan划分正确,静态路由配置正确
3.三层光口link灯不亮,拔下光纤发现两根均没有光源发出
4.更换一对光纤后问题解决
总结:在排查故障中,50%的问题可以通过分段/分层/替换的方法迅速找出问题所在
案例分析二
故障描述:PC_A下可以ping通PC_B,但延迟很大,有时丢包
原因分析:
1.物理线路问题(路由器/三层/二层/接口/模块/光纤/网线损坏)
2.Dis cpu/Dismem查看交换机的CPU和内存使用情况
3.端口协商是否有问题
4.抓包分析,是否有病毒攻击
5.PC_B性能太低
故障排除过程:
1.替换网线发现问题没有解决
2.Dis cpu/Dismem查看交换机的CPU和内存均正常
3.Dis int eht 查看二层交换机与三层交换机的互联端口,发现大量error和crc错误,两端分别为设定的半双工、100M与自协商模式
4.修改设置为全双工、100M后问题解决
总结:全双工半双工的不匹配对网络的性能有很大影响,虽然在多数情况下并不易察觉,但当网络流量非常大时,确实会造成网络性能问题。如果发现在大流量下网络丢包现象
较为严重时,设备间工作方式的匹配性应是排错的关注点
案例分析三
故障描述:二层交换机A下的PC出现异常(网慢、丢包、甚至不通),二层交换机B下的PC没有异常
原因分析:
1.三层交换机处理三层报文的时候出现问题
2.二层交换机A处理二层报文的时候出现问题
故障排除过程:
1.在三层交换机直接接PC机,PC能够正常上网,排除三层交换机的问题
2.将二层交换机A下的问题PC接至二层交换机B下,配置对应IP、掩码、网关,PC能够正常上网,排除PC机的问题
3. 查看二层交换机A接口状态,发现端口UP,但接口下超过总流量50%的广播包,这种现象可能说明两个问题:A.网络环路 B.arp攻击
4.组网设计为树状串型结构,各接口上也没有网线打环,排除网络环路的可能性
5.继续查看二层交换机A下各个接口的广播包流量,拔掉异常的广播包流量的接口,其他PC机网络恢复正常
总结:查看某端口流量是否异常,查看之前可以先清除一下(reset cou int),并通过抓包检查是否有arp病毒攻击。且三层交换机与二层交换机都是可网管型的,可以使用arp static或users-bind命令来绑定每一台PC的MAC+IP+端口以杜绝arp攻击。