网络故障排查的核心方法

现在咱们聊聊网络故障排除,主要围绕BGP、Console、DHCP、DNS、Datacom、HCIP、HCIP-Datacom、OSPF、RIP、Telnet和VPN这些知识点来展开。网络故障就是指因为某些原因,导致网络没法正常运作,影响了正常业务。咱们先不管别的,用户体验不好就是故障,管它多复杂。 咱们要把故障排查的核心方法搞定。第一种是业务流量路径为核心的排查法。一般来说,网络流量的路径都是在规划阶段就定下来了。咱们要做的就是先把受故障影响的业务的流量来回路径弄清楚,然后顺着这个路径一步步去排查。 首先确认数据包在网络层的传输路径,因为转发的时候可能有好几条路可选。接下来确认数据帧在数据链路层的转发情况,看看交换机是怎么处理的。 接着分层法简单实用。所有的网络模型都遵循一个基本规则:只有低层结构正常了,高层结构才能正常工作。所以一般建议咱们从底向上去排查故障。 华为交换机和路由器这些设备配置文件结构都很清晰。遇到故障时咱们可以把问题归类到以下几类里面:管理部分(路由器名称、口令、日志等等)、端口部分(地址、封装等等)、路由协议部分(静态路由、RIP、OSPF、BGP等等)、策略部分(路由策略、安全配置等等)、接入部分(Console登录、Telnet登录等等),还有其他应用部分(DNS、DHCP、VPN配置等等)。这样一来定位范围就小了很多。 最后替换法是最常用的检查硬件问题的方法。如果怀疑是网线有问题就换根好线试试;如果怀疑接口模块有问题就换个试试。 最后说说对网络维护和管理人员的要求: 对协议要有精深的理解。能引导客户详细描述故障现象和相关信息。充分了解自己维护的网络。及时做好文档记录和经验总结。熟悉各种故障排除方法并结合使用。