对于网管来说,最关心的莫过于:当出现网络故障时,如何进行快速的定位?本文以解决冲击波病毒为例,从设备故障、网络流量、协议分析等多种途径分析网络故障来源之所在,最后总结出解决网络故障的一般思路和方法。
笔者所维护的网络是某省政府电子政务网专网,它覆盖全省、市、县(区)三级党政机关,鉴于它的典型性和广泛性,我希望将自己两年来分析定位及解决网络故障的经验与大家分享,共同进步。
网络医生前提:了解对手
网络故障的现象总是多种多样,令人扑嗍迷离,然而最终追究起原因,大抵分为以下几个层面的故障:物理层中物理设备相互连接失败或者硬件及线路本身的问题;数据链路层的网络设备的接口配置问题;网络层网络协议配置或操作错误;传输层的设备性能或通信拥塞问题;上三层或网络应用程序错误。 而如今,随着黑客集团的迅速崛起,网络病毒日益猖獗,病毒的种类繁多且攻势强大,这种故障占据了网络故障的80%以上。
所以想成为一名优秀的网络管理工程师,必须对时下的各种病毒特征有着基本的了解,当遇到网络病毒引起的网络故障时才能准确定位并及时排除。
下面,我借助自己所遇到的一则实例向大家讲述遇到网络病毒引起的故障时的定位及解决的典型过程,我所维护的网络环境为:港湾Flex2024E作为接入交换机下接用户,上联当地汇聚交换机Flex5010,Flex5010通过光纤上联到市级政务信息网平台。
拓扑图为:
故障定位一:排除线路故障可能
2005年2月24日,我们在网管平台监控发现宜春市袁州区Flex5010时通时断,网络延时大,有丢包现象发生。
但是所运行的业务正常。2月25日,该设备时通时断的频率变大了,有时候还不能远程telnet登陆设备进行管理查看。
在保证中间物理线路畅通的前提下,一般面对设备时通时断,首先应该登陆设备查看设备的板卡是否正常,查看设备的各项性能参数是否正常,如内存利用率,cpu利用率,各个端口实时速率是否在正常范围内。
我们在联系当地网管中心确保线路无故障后,登陆设备查看Flex5010 cpu利用率,高达60%
sh cpu u
YC_YZSFH5010_01(config)# sh cpu usage
cpu usage: 60%
并实时监控交换机带宽,如下图。发现端口(流入流出)流量并不大,25口为上行端口,最大流量还没有500kbps。下联端口最大流量的端口11,流量还没有100kbps。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号

TechTarget
官方微博

TechTarget中国
相关推荐
-
网络冗余设计并不总是等同于弹性
Ivan Pepelnjak在一篇IPSpace文章中重点阐述了冗余是否等于弹性的问题,他指出:网络冗余设计不等于一切……
-
云中重生:统一网络管理系统
统一网络管理系统一直是IT管理员关注的领域。能够使用一个控制面板实现有线与无线网络的配置、监控和故障修复,这确实很吸引人,但是……
-
可用性追踪是虚拟化网络的关键
网络管理绝不简单,而虚拟化网络则让网络变得更复杂了。在虚拟化出现之前,网络配置相对较为稳定。但是,现在在很短时间内就可能新建和删除了若干虚拟交换机……
-
作为一名合格的网络管理员,需要担起哪些重任?
网络管理员的工作内容和工作职责各有不同,一定程度上取决于企业是否依赖于托管服务提供商。除一些常规职责外,网络管理员可能还要帮助企业开发新的网络系统……