电信网中交换机的集中网管系统的设计探讨

来源:岁月联盟 作者:王亚斌 时间:2010-08-30
  摘 要:研究和设计基于机技术的交换机管理系统,可以使维护人员通过同一操作终端,对电信网络的各种交换机设备进行集中监控,从而提高电信网运行效率和运行质量,减少维护管理人员,提高工作效率。?
  关键词:网管系统;功能设计;数据拆包;故障采集和处理?
  
  1 交换机的传统网管系统存在的问题?
  
  目前,电信网中主要有AXE10,EWSD,NEAR-61,SIGMA,SESS和华为CC08等交换机机型。由于交换机告警故障信息的原始报告类型和定义复杂,不同交换机型的告警原始报告的格式和内容差异较大,甚至是同一种交换机机型,不同软件版本的告警原始报告也有差异,传统网管系统为了准确分析和处理各种机型的告警原始报告,在网管接口机上开发多个告警分析处理模块,分别处理一种特定的交换机机型的告警原始报告。告警分析处理模块的功能包括:实时接收告警原始报告;提取告警原始报告中的告警时间、告警交换局、告警关键字、告警内容等信息;把处理后的告警信息保存在数据库;同时通过Socket连接发送到前台工作站。?
  这种方式使系统具有结构清晰、数据结构简单、开发过程简单的优点。但是对于新增机型和新版机型的告警原始报告,只要告警原始报告的格式发生变化,程序员必须对告警分析处理模块进行相应的程序修改。完全依赖程序员对交换机告警原始报告进行分析,归类,再转化为计算机语言,对于缺乏交换机专业知识的程序员来说是一个艰巨的过程。为解决这个问题,在新系统开发中,告警故障信息集中采集和处理单元采用全新的设计方案,使系统具有处理所有交换机告警故障信息而不用依赖程序员修改程序的高灵活性。这种全新的设计方案可以处理所有交换机的告警报告,网管用户只需通过前台工作站自行定义告警信息的提取方法,添加、修改或删除系统数据库的相关设置,就能完成新型交换机或者新版交换机的网管接入,而不再依赖程序员修改告警分析处理模块程序来实现。?
  
  2 告警信息集中采集和处理的高实时性设计?
  
  ××电信本地网12个NEC交换机局点、7个朗讯5ESS交换局点、10个C&C08交换机局点共200万门的容量的交换设备,网管系统需要收集和处理的数据量巨大,如何保证告警故障信息集中采集和处理的高实时性将直接影响到整个系统的总体性能。在系统的开发过程中采取了许多措施来解决该问题。?
  (1)所有只能提供串口交换机设备的端口首先都通过IOLAN进行协议转换,将RS232转换为TCP/IP方式再通过网络交换机接入到拆包服务器,提供网口方式的交换机直接通过网络交换机接入到拆包服务器进行拆包处理,这种布局方式有利于大数据流的快速传输。?
  (2)采用快速、稳定的TCP/IP网络。拆包服务器处理告警信息后必须通过TCP/IP网络把告警信息送到前台工作站,拆包服务器和网管监控室(24小时有专人值班)的计算机设备采用性能较高的3COM 100M网片,并且把所有拆包服务器与网管监控室的前台工作站接入同一个CI SCO 100M网络交换机上,提高网络传输速率,缩短告警信息在TCP/IP网络上的传输时延。?
  (3)提高拆包服务器的硬件配置,使拆包服务器拥有强大的处理能力,提高告警信息的处理速度。拆包服务器采用HP LH3000 PC服务器,2G双核 CPU,高速SCSI硬盘,内存2G。?
  (4)拆包服务器的系统拆包模块在处理告警小报告时,每个交换机都有一个线程专门负责把重要告警信息通过SOCKET连接发送到前台工作站告警监视程序,产生告警;另一个线程专门负责把告警信息录入告警数据库中。两个线程并行运作,不通过数据库提供告警信息,避免了由于数据库故障而丢失告警信息的危险和录入、查询告警数据库而产生的时延。新网管系统通过SOCKET实时连接到交换机告警端口,并发送一定的连接信息保持端口的长时间连接,如果发现端口中断(由于网络原因,或交换机重新启动原因),接收程序立即(1分钟内)对这个端口进行重连,重连三次(次数和重连开始时间可以通过配置文件由用户设置)。重连三次如果发现这个端口还没有连接上,系统进入等待状态,等待下次重新连接(如三分钟后),这样循环尝试,直到连接正常。同时将接收程序所有与端口有关的动作记录到日志中,必要时可以查看接收程序的运行情况。?
  (5)拆包服务器采用热备份的机制,尽可能提高系统的安全性,防止告警信息的大量丢失。系统设有专门拆包服务器健康侦察进程,如发现有拆包服务器停止工作时间达到设定时间,该拆包服务器上连接的交换机将自动接入事先在数据库中设定的单台或多台备用拆包服务器,由备用拆包服务器负责故障拆包服务器所接入交换机的信息处理,直到故障拆包服务器恢复为止。?
  (6)完善前台工作站告警监视程序语音告警功能,保证以最快的速度准确把告警信息通知用户。前台工作站告警监视程序能够按照设定的告警等级和告警过滤条件,把过滤后的告警信息由重要到次要的顺序产生语音告警,使重大故障的告警信息能够最快的送到网管中心。?   3 系统报表的动态性设计?
  
  动态报表是指从数据库流水表中读取数据,用户不必修改报表程序,而根据自己的需要自行定义报表,经过特定的运算产生个性化的图表,做到及时了解故障的发生,又能快捷、准确地对故障进行智能化分析,作为通信设备维护工作的重要和依据。系统由报表生成工具和报表使用工具两大模块实现动态报表功能。?
  
  4 系统的显示部分设计?
  
  对采集到的各类告警,系统实时地以声音和图形界面提供给维护人员。具体显示方式有告警监视总图和各种告警列表。用户可以自由决定某一类(根据告警类型、告警级别等)告警的到来是否需要声音指示。在以地图为背景的全局监视图中,显示全网所有交换局点的位置。?
  (1)显示多种告警源:设备告警、性能告警、网管系统自身告警,从各局点可方便浏览到该局点目前各级别告警的统计信息,并可切换到设备告警列表,同时设备告警列表自动以该局作为过滤条件以进一步查询该局点当前所有设备告警?
  (2)系统收到告警发出相应级别的告警音,同时用相应告警级别的颜色进行直观的闪烁指示,用户可自定义告警级别、告警声音和告警颜色。活动告警得到确认后或者接收到对应告警的消除报告后,停止声音指示并转变为休眠告警。提供声音/闪烁开关控制功能。?
  (3)设备告警列表:设备告警列表显示的信息包括:交换机名称、告警类型、告警级别和发生时间、告警确认时间等信息。可以按照交换局类型、局点、告警类型和告警级别等过滤显示。可用鼠标点击告警以显示详细原始信息,告警列表上实时反映最新的告警,并按告警发生时间顺序滚动显示。当收到新的告警时,系统自动产生对应级别的告警音。?
  
  5 结语?
  
  通过对分散的多机型的交换机告警信息集中采集和处理功能的开发,系统具有了告警故障监视、告警故障设置、告警信息统计和查询等功能。可以缩短设备故障历时,也可以通过分析和预处理查找故障隐患,将故障消除在萌芽状态,从而有效地提高维护人员的工作效率和的运行质量,为创造良好的效益和社会效益。另外新系统实现了对所有交换机型的集中监控,取消了不同交换机自带的网管系统,做到各个交换机房和光纤站无人值守或少人值守,使机房值守人员大约可以减少60%。 ?
  
  参考?
  [1]?陈榕,徐昌华.电力通信网综合网管系统实施策略[J]. 电力系统通信,2004,25(9).?
  [2]?匡红阳.初探电信网络管理系统的现状和趋势[J]. 机系统应用,2003,(3).

图片内容