• 全国 [切换]
  • 深圳市鼎达信装备有限公司

    扫一扫关注

    当前位置: 首页 » 新闻动态 » 真空技术 » 正文

    关注交换机版本

    放大字体  缩小字体 发布日期:2021-11-01 14:28:50    浏览次数:18    评论:0
    导读

    引言:在网络的运行维护中,网管人员经常关注的是网络的通断、丢包率和时延等指标,而对组成网络的各个网络设备的性能关注不够,导致看似运行正常的网络,故障的隐患正在悄然积聚。笔者单位发生的一起故障,就是因为交换机系统问题,导致内存利用率出现单调递增的现象。单位为实现总部与各分散下属单位召开视频会议,根据需

    引言:在网络的运行维护中,网管人员经常关注的是网络的通断、丢包率和时延等指标,而对组成网络的各个网络设备的性能关注不够,导致看似运行正常的网络,故障的隐患正在悄然积聚。笔者单位发生的一起故障,就是因为交换机系统问题,导致内存利用率出现单调递增的现象。

    单位为实现总部与各分散下属单位召开视频会议,根据需要先后采购了3套视频会议系统,在总部中心机房利用3台华为S5700交换机分别作为3套系统的接入交换机,进行连接入网。同时,利用现有的运维管理系统对新入网的3台交换机进行了监测。网络结构如图1所示。

    故障现象

    某天,最先投入使用的视频会议系统在一次使用中突然出现画面中断,现场保障人员迅速到机房查看系统运行情况,发现是网络连接中断导致。由于查看及时,还观察到了该视频会议系统的接入交换机正在进行重启。随即排除了线路的原因,将排查的重点定位在华为S5700视频接入交换机上。约5分钟后,交换机重新启动,并恢复了视频会议系统的业务功能。

    图1 视频会议系统网络组织图

    图2 视频交换机一个月的内存变化曲线

    由于事先将该交换机纳入了运维系统的监测管理,运维系统通过SNMP主动向交换机轮询采集各种数据,同时交换机也通过trap配置,适时向运维服务器发送trap事件。就在故障发生的同时,在运维系统的监测画面中也出现了该交换机发生linkdown事件的告警,由此更加断定确实是由于交换机故障才导致的视频会议系统中断。

    故障分析

    故障发生后,单位组织技术专家对问题交换机进行分析,先后查看了交换机日志,并没有发现异常的告警,之后又查看了交换机的其他配置,也没有发现问题,故障前也没有出现丢包等不正常现象。就在调查进行了2天后,终于在运维管理系统的一项数据统计中发现了端倪。

    通过运维系统,在对该交换机各类数据近一个多月的分析中发现,内存利用率在发生故障时为91.003%,进一步查看历史数据,发现5月1日的内存使用率为61.267%,每天内存利用率以07%~1%的速度单调递增,历时33天,达到峰值91.003%,随后发生了交换机重启(如图 2、图 3)。至此,故障确诊为交换机内存溢出,引起重启,最终导致故障发生。

    (备注:运维系统每3分钟采集一次,以上数据为每天晚上8点整的瞬时内存利用率。)

    交换机自动重启后内存利用率恢复为56.994%,3天后又上升为59.626%,仍然在按照之前的单调递增规律,每天不断累计内存。此外,在对另外2台视频接入交换机的内存利用率统计时,也发现了同样的变化趋势。为防止故障再次发生,当利用率达86%时,对交换机进行了计划重启,暂时延缓了故障的发生。

    故障分析

    在涉及视频会议系统的4台交换机中,型号均为华为S5700,其中汇聚交换机1台,版本为V100R005C01SPC100,未出现类似的故障现象,接入交换机3台,版本为V200R001C00SPC300(2012年6月版本)。会不会是后者的系统版本存在内存溢出的漏洞导致的呢?带着这个疑问,笔者查阅了华为官方网站相关信息,自2014年底以来,华为交换机通告了有关该问题版本的部分漏洞,会导致内存溢出。经与华为客服的工程师联系沟通,得知曾经在其他单位也遇到类似问题(内存使用率单调递增)。由此,故障原因可以确定是交换机的IOS版本存在隐患。

    图3 故障发生时的内存监测曲线

    图4IPv6-TCP-MIB

    为进一步深入分析内存溢出的原因,请来了华为公司设备研发工程师对故障现象进行确认,并协助调查故障原因,从故障交换机的系统版本入手,进行查找问题。

    1.确认当前交换机型号及系统版本,现网华为S5700设备为v200r001c00spc300,加载补丁V2R1SPH002.PAT,交换机作为一个二层设备使用,无特殊配置。

    2.查看日志,没有看到导致设备内存升高的信息。

    3.查看MAC漂移信息,没有看到有MAC漂移记录,dis mac-address flapping record。

    4.查看攻击报文的统计数据,只有icmp-flood有计数增长。因为运维服务器在一直Ping交换机,所以该项有计数增长是正常 的,display anti-attack statistics。

    在分析了所有可能的问题后,开始怀疑存在运维管理系统和被管交换机之间的配合存在问题,通过命令行:

    display inspect memdebug-info 29000

    发现设备内存的BLK1024字节的内存大量占用,而且不断累加,没有正常释放。通过反复实验,原来是运维管理系统在进行SNMP采集轮询中,当获 取IPv6-TCP-MIB中ipv6TcpConnTable(OID:1.3.6.1.2.1.6.16)的任意节点时,交换机对申请的配置消息内存未做释放处理,导致出现1024字节内存泄漏(如图 4)。

    试验验证

    1.实验环境

    为进一步验证华为S5700系列交换机在内存性能方面存在的隐患问题,我们搭建了实验环境,分为两个部分:

    (1)对交换机加运维管理系统进行测试:将相同型号、相同版本的3台华为S5700交换机与2台运维管理服务器组成一个局域网(如图5)。其中一台加载最新的SPH018补丁,另一台升级版本为Version 5.130(S5700 V200R003C00SPC300),第三台保持原始版本不变。这三台交换机均配置SNMP,并利用运维管理系统进行监控。三台交换机上均没有加载任何业务。

    (2)对原始版本不加运维管理系统进行观测:将一台华为S5700交换机直接与一台计算机利用Console线相连,用于观测其内存使用情况,交换机上不加载任何业务。测试环境如图5所示。

    图5 华为5700系列交换机内存溢出验证测试拓扑图

    图6 华为5700系列交换机内存溢出试验测试登记表

    2.测试结论

    在测试环境中,未升级版本的3台交换机开机后,初始内存利用率均为57%,升级版本后的1台交换机开机后初始内存利用率为48%。7月3日至7月13日,10天内我们均定时对交换机内存使用率进行采集,不同条件的交换机内存增长曲线图如图6所示。

    分析以上测试结果可以得出以下结论:

    (1) 版 本 为Version 5.110(S5700 V200R001C00SPC300)的华为S5700系列交换机,会在网管系统的采集触发下出现内存利用率单调递增的现象。

    (2)版本为Version 5.110的交换机加载SPH018补丁后,内存使用率保持稳定在57%左右,不再单调递增。

    (3)版本为Version 5.110的交换机在进行整体IOS版本升级后,内存使用率较升级前降低了8%,并保持稳定在48%左右,未出现利用率单调递增的现象,但升级后CPU利用率较升级前上升了5%。

    故障启示

    网管人员在网络维护过程中,不应只关注端到端的网络状态,组成网络的各个网元设备的性能,更需要进行经常性的预检维护,将各种故障和隐患的苗头解决在萌芽状态。当然,要进行分析就必须依托现代化的运维管理平台,进行自动的数据采集、传输和存储,并根据需要产生相应的报表,方便网管人员进行预测分析。在分析过程中,要善于运用各种手段进行多角度验证,确保分析的结果真实可靠。


     
    (文/小编)
    打赏
    免责声明
    • 
    本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:https://2024.dingdx.com/news/show.php?itemid=1737 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们。
    0相关评论
     

    © Copyright 深圳市鼎达信装备有限公司 版权所有 2015-2022. All Rights Reserved.
    声明:本站内容仅供参考,具体参数请咨询我们工程师!鼎达信作为创新真空产品研发制造商,我们提供海绵吸具,海绵吸盘,真空吸盘,真空发生器,真空泵,真空鼓风机,缓冲支杆,真空配件,真空吊具等等产品

    粤ICP备17119653号