网络故障

1、环路故障

  概念

  1)、以太网是一个支持广播的网络, 在没有环路的环境中,广播报文在网络中以泛洪的形式被送达到网络的第一个角落,以保证每个设备都能够接受到它。每台二层设备在接收到广播报文以后,都会向除接收端口以外的其他所有接口轩发这个广播报文,一旦网络中有环路,这种简单的广播机制就会引发灾难性后果。

  2)、以太网产生环路后可能会有如下现象产生:

  A、设备无法远程登录

  B、在设备上使用display interface 命令查看接口统计信息时发现接口收到大量广播报文

  C、使用串口登录设备进行操作时,操作比较慢慢。

  D、CPU占用率超过70%

  E、 通过ping命令进行网络测试时丢包严重

  F、设备上发生环路的VLAN的接口指示灯频繁闪烁

  G、设备部署环路检测后,设备出现环路告警

  3)、本类故障的常见原因主要为设备线缆连接错误导致环路

2、环路故障的排障流程

A、确认存在广播风暴的接口

可以采用如下方式确认存在广播风暴的接口

1)、通过观察接口指示灯状态,如果接口指示灯频繁闪烁,可以判断该接口可能存在广播风暴。

2)、在设备上执行display interface brief 命令查看接口接收方向和发送方向最近一段时间的带宽利用率,显示信息中 “inUti'字段表示入方向上的带宽利用率,outTti字段表示出方向上的带宽利用率,接口接收方向发送方向最近一段时间的带宽利用率接近100%的接口可能是存在广播风暴的接口

B、判断环路产生的设备

1)、如果存在广播风暴的接口没有下连其他交换机,此时可以判断环路发生在该交换机上

2)、如果存在广播风暴的接口下连其他switch,此时环路可能发生在该swith上也可能发生在下连swith上此时可以选择如下方式进行环路检测

  2.1、在swith上海针对指定VLAN部署 loopback Detection 协议,检测存在环路的接口,并且loopback Detection 的处理动作配置为发现环路后产生告警,如何swith产生告警,则可根据告警  中提示的接口信息确认产生环路的接口,如果产生环路的接口是下连其他switch的接口,证明环路发生在下连switch如果未产生告警,证明环路发生在本swith

  2.2、执行完上述操作后如果本switch还下连其他switch,并且发生环路的设备下连swith,则重复执行上述操作

  2.3、如何存在多个接口下连其他swith,并且该接口产生广播风暴,说明环路可能发生在设备与设备之间

C、判断产生环路的接口后并破环

如果环路发生在单个设备上,说明环路是因为本设备两个属于相同vlan的接口直接连接导致,可以采用如下方式进行环路排除:
A、根据广播风暴产生的接口逐个排查该接口连接的线缆对端是不是本设备的其他接口,如果有是则拔出线缆
B、在产生广播风暴的接口执行shutdown命令,如果此时广播风暴消失,并且在执行shutdown命令时设备上的另外一个接口也变成down状态,此时此时证明这个接口为产生环路的接口,此时怀管理员确认后拔出线缆
如果确认环路发生在设备之间,此时参考网络规划,排查本设备相连的其他设备之间是否存在错误的连接导致网络形成环路,根据广播风暴产生的接口逐个排查该接口接连的线缆对端设备是不是和规划中的一样,查找出错误的连接并拔出线缆
D、如果执行完上述操作后故障仍然存在,则收集如下信息,并联系上级支持工程师,同时将上述步骤的执行结果和设备的配置文件、日志信息、告警信息给上级支持工程师
05-11 15:15