Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PROCESSING METHOD AND PROCESSING DEVICE FOR ALARM STORM
Document Type and Number:
WIPO Patent Application WO/2011/026342
Kind Code:
A1
Abstract:
A processing method and a processing device for alarm storm are provided by the invention, the method involves the following steps: acquiring frequency and duration of reported alarms (S101); and judging that an alarm storm is generated when the frequency and the duration of the reported alarms are both larger than respective preset threshold values (S102), the alarm storm is processed according to a set rule (S103). The processing device comprises an alarm processing-setting unit, an alarm information obtaining unit, an alarm storm judging unit and an alarm storm processing unit. The generation of the alarm storm is judged according to the frequency and the duration of the alarms; and the alarm storm generated by known or unknown alarms is processed, thereby the flexibility, the stability and the consistency of network management system are improved. In addition, the alarms are recovered by transferring the alarms after the alarm storm is finished, thereby avoiding discarding some alarms with significance and effectively reducing the load of a server terminal.

Inventors:
JIANG YOUZHI (CN)
Application Number:
PCT/CN2010/072663
Publication Date:
March 10, 2011
Filing Date:
May 12, 2010
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZTE CORP (CN)
JIANG YOUZHI (CN)
International Classes:
H04L12/24
Foreign References:
CN101222361A2008-07-16
CN101636000A2010-01-27
CN101374324A2009-02-25
CN101375539A2009-02-25
Attorney, Agent or Firm:
CHINA PAT INTELLECTUAL PROPERTY OFFICE (CN)
北京派特恩知识产权代理事务所(普通合伙) (CN)
Download PDF:
Claims:
权利要求书

1、 一种告警风暴的处理方法, 其特征在于, 所述方法包括以下步骤: 获取上报告警的频率和持续时间;

当所述上报告警的频率和持续时间均大于预先设置的相应阔值时, 则 判定告警风暴产生, 对所述告警风暴按照设定规则进行处理。

2、 如权利要求 1所述的告警风暴的处理方法, 其特征在于, 所述对告 警风暴按照设定规则进行处理的方法包括: 将所述上报告警丟弃、 或转存 到文件系统中。

3、 如权利要求 2所述的告警风暴的处理方法, 其特征在于, 将所述上 4艮告警转存到文件系统中之后, 该方法还包括以下步骤:

当所述告警风暴结束后, 将转存到文件系统的上报告警从文件系统中 恢复成告警对象, 并插入到历史告警库中。

4、如权利要求 1至 3任一项所述的告警风暴的处理方法,其特征在于, 在对所述告警风暴进行处理的同时, 该方法还包括:

产生一条告警风暴告警, 用于提示用户告警风暴的发生;

所述告警风暴告警包含的信息包括: 引起告警风暴的告警名称、 频率 和持续时间。

5、 一种告警风暴的处理装置, 其特征在于, 所述装置包括:

告警信息获取单元, 用于获取上报告警的频率和持续时间;

告警风暴判断单元, 用于根据所述告警信息获取单元获取的上报告警 的频率和持续时间、 以及预先设置的相应阔值, 判断告警风暴是否产生; 告警风暴处理单元, 用于当告警风暴产生后, 对所述告警风暴按照设 定规则进行处理。

6、 如权利要求 5所述的告警风暴的处理装置, 其特征在于, 所述告警 风暴处理单元包括至少以下之一: 告警丟弃子单元, 用于丟弃产生告警风暴的上报告警;

告警转存子单元, 用于将产生告警风暴的上报告警转存到文件系统中。

7、 如权利要求 6所述的告警风暴的处理装置, 其特征在于, 所述告警 风暴处理单元还包括:

告警恢复子单元, 用于当所述告警风暴结束后, 将转存到文件系统的 上报告警从文件系统中恢复成告警对象, 并插入到历史告警库中。

8、 如权利要求 7所述的告警风暴的处理装置, 其特征在于, 所述处理 装置还包括:

告警恢复设置单元, 用于设置将转存到文件系统的上报告警从文件系 统中恢复时, 恢复其中一部分或全部。

9、如权利要求 5至 8任一项所述的告警风暴的处理装置,其特征在于, 所述告警信息获取单元包括:

计数器, 用于记录所述上报告警的数目以及上报告警的发生时间; 告警风暴处理器, 用于接收所述上报告警, 并更新所述计数器。

10、 如权利要求 5所述的告警风暴的处理装置, 其特征在于, 所述处 理装置还包括:

告警处理设置单元, 用于设置上报告警的频率阔值和持续时间阔值, 以及设置对告警风暴按照设定规则进行处理的方法。

Description:
种告警风暴的处理方法及处理装置 技术领域

本发明涉及移动通讯领域, 特别是涉及网管系统中对于告警风暴的处 理方法及处理装置。 背景技术

告警管理作为 TMN ( Telecommunications Management Network Model, 电信管理网)体系结构提供的重要管理功能之 一, 其稳定性直接影响到整 个网管系统的稳定。 对告警管理模块的稳定性与处理效率影响最大 的莫过 于告警风暴。 当告警风暴来到时, 其会大量消耗系统资源, 导致网管系统 反映迟緩甚至崩溃。 告警风暴是任何一个网管系统都应该面对的问 题, 如 果没有有效的处理方法, 告警风暴会带来无可挽回的损失。

当前的网管系统中, 对于告警风暴的处理方法主要是釆用用户定制 告 警制规则的方式来抑制某种类型的告警, 使指定类型的告警上报到网管后 直接被抛弃, 或者只保存到数据库, 而并不显示到客户端。

上述方法存在以下缺陷: 只能对依靠经验事先已知可能造成告警风暴 的告警进行屏蔽, 对于未知类型的告警, 无处理能力。 当未知类型的告警 风暴来临时, 系统已经来不及做出反应, 导致网管系统反映迟緩甚至崩溃。 另外, 屏蔽告警风暴的时候, 如果釆取告警风暴期间所有告警直接丟弃的 方式, 那么可能丟弃某些具有重要意义的告警, 进而影响到系统的使用。 如果釆用将告警保存到数据库, 只是不显示到客户端的方式, 那么服务器 端仍然需要做处理, 不能有效减轻服务器端的负荷。 发明内容

本发明要解决的技术问题是提供一种能够对告 警风暴进行自适应处 理, 不会丟失关键数据, 且能够提高网管系统的灵活性、 稳定性和一致性 的告警风暴的处理方法及处理装置, 用以解决现有技术不能对未知类型的 告警风暴处理, 或不能有效减轻服务器端的负荷, 以及可能丟弃某些具有 重要意义的告警的问题。

为解决上述技术问题, 本发明的技术方案是这样实现的:

一种告警风暴的处理方法, 所述方法包括以下步骤:

获取上报告警的频率和持续时间;

当所述上报告警的频率和持续时间均大于预先 设置的相应阔值时, 则 判定告警风暴产生, 对所述告警风暴按照设定规则进行处理。

所述对告警风暴按照设定规则进行处理的方法 包括: 将所述上报告警 丟弃、 或转存到文件系统中。

将所述上报告警转存到文件系统中之后, 该方法还包括以下步骤: 当所述告警风暴结束后, 将转存到文件系统的上报告警从文件系统中 恢复成告警对象, 并插入到历史告警库中。

在对所述告警风暴进行处理的同时, 该方法还包括:

产生一条告警风暴告警, 用于提示用户告警风暴的发生;

所述告警风暴告警包含的信息包括: 引起告警风暴的告警名称、 频率 和持续时间。

一种告警风暴的处理装置, 所述装置包括:

告警信息获取单元, 用于获取上报告警的频率和持续时间;

告警风暴判断单元, 用于根据所述告警信息获取单元获取的上报告 警 的频率和持续时间、 以及预先设置的相应阔值, 判断告警风暴是否产生; 告警风暴处理单元, 用于当告警风暴产生后, 对所述告警风暴按照设 定规则进行处理。

所述告警风暴处理单元包括至少以下之一:

告警丟弃子单元, 用于丟弃产生告警风暴的上报告警;

告警转存子单元, 用于将产生告警风暴的上报告警转存到文件系 统中。 所述告警风暴处理单元还包括:

告警恢复子单元, 用于当所述告警风暴结束后, 将转存到文件系统的 上报告警从文件系统中恢复成告警对象, 并插入到历史告警库中。

所述处理装置还包括:

告警恢复设置单元, 用于设置将转存到文件系统的上报告警从文件 系 统中恢复时, 恢复其中一部分或全部。

所述告警信息获取单元包括:

计数器, 用于记录所述上报告警的数目以及上报告警的 发生时间; 告警风暴处理器, 用于接收所述上报告警, 并更新所述计数器。

所述处理装置还包括:

告警处理设置单元, 用于设置上报告警的频率阔值和持续时间阔值 , 以及设置对告警风暴按照设定规则进行处理的 方法。

本发明有益效果如下:

通过根据告警的频率和持续时间来判断告警风 暴的产生, 可以对已知 或未知告警产生的告警风暴进行处理, 提高网管系统的灵活性、 稳定性和 一致性; 另外, 通过对告警的转存, 在告警风暴结束后, 再对告警进行恢 复处理, 避免丟弃某些具有重要意义的告警, 也有效减轻了服务器端的负

附图说明

图 1 是本发明第一实施例告警风暴处理方法的流程 图;

图 2 是本发明第二实施例告警风暴处理方法的流程 图; 图 3 是本发明第三实施例告警风暴处理装置的结构 示意图; 图 4 是本发明第四实施例告警风暴处理装置的结构 示意图;

图 5 是本发明第五实施例告警风暴处理装置的子系 统结构图; 图 6 是本发明实施例告警风暴处理方法中告警处理 流程图;

图 7 是本发明实施例告警风暴处理方法中后台处理 线程流程图。 具体实施方式

为了解决现有技术对告警风暴处理不恰当的问 题, 本发明提供了一种 告警风暴的处理方法及处理装置, 以下结合附图以及实施例, 对本发明进 行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用以解释本 发明, 并不限定本发明。

告警风暴的特征就是告警在短时间内大量地上 报, 从而大量消耗系统 资源导致系统崩溃。 如果我们在网管系统接收到告警上报而未真正 进行处 理之前先进行一个预处理, 当发现告警在一段时间内以一个较高的频率上 报时, 则认为告警风暴发生, 对于这些告警进行直接丟弃或者转储到文件 系统, 则能有效去除垃圾数据, 降低网管系统的负载。

本发明的核心思想是根据上报告警的频率以及 持续时间来动态的判断 告警风暴是否产生。 当告警风暴产生时, 上报的告警不会再发送到告警模 块进行处理, 而是直接丟弃或者转储到文件系统中。 当转储到文件系统中, 待告警风暴过去以后, 用户可以自行手动将这些转储到文件系统的告 警数 据恢复, 并转换为历史告警以供用户查看。

图 1是本发明的实施例 1 , 本实施例中, 对告警风暴的处理方法包括以 下步骤:

S101 , 首先获取上报告警的频率和持续时间。 上报告警的频率通过记 录告警的个数, 以及记录每条告警的发生时间, 经过计算获得上报告警的 频率; 并且记录上 ^艮告警的持续时间。 5102, 判断告警风暴是否产生。 具体步骤如下: 将步骤 S101中获取的 上报告警的频率和持续时间, 分别与预先设置在系统中的上报告警的频率 阔值和上报告警的持续时间阔值进行比较, 只有当步骤 S101中获取的上报 告警的频率和持续时间均大于各自的阔值时, 才判定告警风暴产生; 两者 只有其一超过其设置的阔值, 或两者均没有超过其设置的阔值时, 则判定 没有产生告警风暴。 即, 假设预先设置在系统中的上报告警的频率阔值 为 每秒 50条, 上报告警的持续时间阔值为 10秒, 则当步骤 S101中获取上报 告警的频率大于每秒 50条, 且步骤 S101 中获取的上 4艮告警的持续时间大 于 10秒时, 则判定告警风暴产生; 若步骤 S101 中获取上报告警的频率不 大于每秒 50条,或步骤 S101中获取的上 4艮告警的持续时间不大于 10秒时, 则判定没有产生告警风暴。 当告警风暴产生时, 转步骤 S103 , 否则, 转步 骤 S104。

5103 , 对告警风暴按照设定规则进行处理。 本步骤中对告警风暴按照 设定规则进行处理的处理方法可以为任何对告 警风暴处理行之有效的方 法, 例如, 直接丟弃上报告警, 或者将告警保存到数据库, 或者将上报告 警转存到文件系统中。

5104, 结束。 本步骤的结束是指对本次上报告警的判断、 处理过程的 结束, 并不是所有程序的结束, 在结束本次步骤之后, 需要对下一时段内 的上报告警进行监测, 获取下一时段内的上报告警的频率和持续时间 , 即 循环步骤 S101~S104。

通过根据上报告警的频率和持续时间对告警风 暴是否产生进行判断, 可以准确的判断告警风暴的产生, 并且不受告警是否已知或未知的限制, 大大提高了系统对告警风暴的处理能力。

图 2是本发明的实施例 2, 本实施例中, 对告警风暴的处理方法包括以 下步骤: 其中步骤 S201、 S202、 S205分别与实施例 1 中的步骤 S101、 S102、

S104相同, 在此不再详述。 当判断告警风暴产生后, 包括以下步骤:

S203 , 将上报告警转存到文件系统中。 在将告警对象转储到文件系统 的时候, 本实施例使用了一个第三方的包 Xstream来协助处理。 Xstream是 一套简单实用的类库, 用于序列化对象与 XML ( Extentsible Markup Language, 可扩展标记语言)对象之间的相互转换, 它具有以下几个特点: 灵活易用, 无需映射, 高速稳定, 清晰易懂。 本实施例使用 Xstream来将告 警对象转换为 XML文件并存储到文件系统中, 在恢复的时候再由 XML文 件提取告警对象并恢复。

S204, 当告警风暴结束后, 将转存到文件系统的上报告警从文件系统 中恢复成告警对象, 并插入到历史告警库中。 本步骤中, 可以查看在文件 系统中存有哪些时段的被转存的告警风暴, 选择某个时间段内的告警进行 恢复, 可以选择恢复一部分或者全部告警, 通过解析对应的文件, 恢复告 警风暴, 被恢复的告警会进入历史告警库以备日后察看 。

经过测试, 直接将告警转储到文件系统耗用的时间, 是让告警走完整 个网管的处理链所花费的时间的二十分之一, 可以大大节省处理的时间和 网管的负荷, 有利于在告警风暴来时保持系统的稳定。

在实施例 1步骤 S103和实施例 2步骤 S203进行的同时, 还包括以下 步骤:

产生一条告警风暴告警, 其详细信息包括是何种告警引起了告警风暴, 风暴持续时间, 频率等信息, 提示用户告警风暴的发生。

图 3是本发明的实施例 3 , 本实施例中, 告警风暴的处理装置包括以下 结构:

告警信息获取单元 31 , 用于获取上报告警的频率和持续时间; 告警风暴判断单元 32 ,用于根据告警信息获取单元 31获取的上报告警 的频率和持续时间, 判断告警风暴是否产生。 具体判断方法如下: 将告警 信息获取单元 31获取的上报告警的频率和持续时间, 分别与预先设置在系 统中的上报告警的频率阔值和上报告警的持续 时间阔值进行比较, 只有当 告警信息获取单元 31获取的上报告警的频率和持续时间均大于各 的阔值 时, 才判定告警风暴产生; 两者只有其一超过其设置的阔值, 或两者均没 有超过其设置的阔值时, 则判定没有产生告警风暴。 即, 假设预先设置在 系统中的上 4艮告警的频率阔值为每秒 60条, 上 4艮告警的持续时间阔值为 8 秒, 则当告警信息获取单元 31获取上报告警的频率大于每秒 60条, 且告 警信息获取单元 31获取的上报告警的持续时间大于 8秒时, 则判定告警风 暴产生; 若告警信息获取单元 31获取上报告警的频率不大于每秒 60条, 或告警信息获取单元 31获取的上 ^艮告警的持续时间不大于 8秒时, 则判定 没有产生告警风暴。

告警风暴处理单元 33 , 用于当告警风暴产生后, 对告警风暴按照设定 规则进行处理。 告警风暴处理单元 33对告警风暴按照设定规则进行处理的 处理方法可以为任何对告警风暴处理行之有效 的方法, 例如, 直接丟弃上 报告警, 或者将告警保存到数据库, 或者将上报告警转存到文件系统中。

图 4是本发明的实施例 4, 本实施例中, 告警风暴的处理装置包括以下 结构:

告警信息获取单元 41 , 用于获取上报告警的频率和持续时间; 告警信 息获取单元 41进一步包括计数器 411和告警风暴处理器 412, 其中, 计数 器 411 用于记录上报告警的数目以及上报告警的发生 时间; 告警风暴处理 器 412用于接收上报告警, 并更新所述计数器。

告警风暴判断单元 42 ,用于根据告警信息获取单元 41获取的上报告警 的频率和持续时间, 判断告警风暴是否产生。 本实施例中, 告警风暴判断 单元 42、 与实施例 3中的告警风暴判断单元 32的结构、 功能、 作用相同, 在此不再重述。

告警风暴处理单元 43 , 用于当告警风暴产生后, 对告警风暴按照设定 规则进行处理。

本实施例的告警风暴的处理装置还包括告警处 理设置单元 44和告警恢 复设置单元 45。 其中, 告警处理设置单元 44用于设置所述上报告警的频率 阔值和持续时间阔值, 以及设置对告警风暴进行处理的方法; 告警恢复设 置单元 45用于设置将转存到文件系统的上报告警从文 系统中恢复时, 恢 复其中一部分或全部。

告警风暴处理单元 43进一步包括告警丟弃子单元 431、 告警转存子单 元 432和告警恢复子单元 433。 其中, 告警风暴处理单元 43对告警风暴按 照设定规则进行处理具体为: 当告警处理设置单元 44设置了对告警风暴进 行处理的方法为丟弃上报告警时, 在告警风暴产生后, 告警丟弃子单元 431 丟弃产生告警风暴的上报告警; 当告警处理设置单元 44设置了对告警风暴 进行处理的方法为将上报告警转存到文件系统 中时, 在告警风暴产生后, 告警转存子单元 432将产生告警风暴的上报告警转存到文件系统 中。 当告 警恢复设置单元 45设置了将转存到文件系统的上报告警从文件 统中时, 告警恢复子单元 433在所述告警风暴结束后, 将转存到文件系统的上报告 警从文件系统中恢复成告警对象, 并插入到历史告警库中。

本发明上述实施例的实施, 可以通过硬件或软件的方式实施, 也可以 通过软件、 硬件结合的方式实施, 下面给出通过软件、 硬件结合实施的具 体实例 (实施例 5 )。

如图 5所示, 本实施例所述告警风暴处理装置按照 C/S结构实现, 包 括客户端和服务器端。

客户端包含一个告警风暴处理规则设置对话框 , 提供设置告警风暴处 理规则信息的界面, 包括以下内容: 1、 规则名称, 及其描述。

2、 子规则属性: 这里选择当告警风暴来临时使用哪种子规则来 处理上 报告警, 可以选择的选项有直接丟弃和转储到文件系统 中。

3、 规则属性: 在这里我们选择告警风暴处理规则在什么情况 下启动, 要设置的有持续时间和频率两项, 当告警的上报频率达到某个门限值并持 续一段时间后, 系统会自动启动告警风暴处理规则, 当上报频率或持续时 间之一不满足条件时系统自动暂停规则。 比如我们可以定义当告警上报达 到每秒 50条并持续 10秒钟后启动规则。

4、 同时有一个 "告警风暴恢复" 菜单, 用户点击后会出现一个 "告警 风暴恢复" 对话框, 如果处理告警风暴时选择的是转储到文件系统 , 这个 界面中会显示目前在文件系统中存在哪些时段 的被转储的告警风暴, 则用 户可以在客户端手工选择某个时间段内的告警 进行恢复, 被恢复的告警会 进入历史告警库以备日后察看, 用户可以选择恢复一部分或者全部告警。

服务器端告警风暴处理规则处理包含以下内容 :

1、 告警风暴处理器: 接收告警后台送来的告警, 并更新记数器。

2、 记数器: 记录告警的数目以及告警的发生时间。

3、 后台处理线程: 定时查看记数器, 判断告警的频率以及持续时间是 否达到门限值, 以决定是否激活子处理器。

4、 子处理器: 被后台处理线程所管理, 执行实际的屏蔽告警风暴的任 务。

告警风暴管理器包含以下内容:

1、 告警风暴管理器: 其纪录所有被转储到文件系统的告警风暴, 响应 客户端的请求返回这些告警的信息, 并将其从文件系统恢复成告警对象并 插入到历史告警库中。

告警处理流程如下: 后台处理流程主要分为两个, 一个是告警风暴处理器对上报告警的处 理, 一个是后台处理线程的流程, 下面分别结合图示进行介绍。

告警风暴处理器对上报告警的处理流程如图 6所示:

当网管系统收到一条上报的告警后, 告警模块将其发送到告警风暴处 理器处理。

告警风暴处理器更新记数器。 注意这里的不是一个简单的记数器, 不 但要记录告警的个数, 还要记录每条告警的发生时间, 以便计算告警的持 续时间以及频率。

后台处理线程的流程如图 7所示:

首先后台处理线程启动, 查看告警记数器, 计算之前一个时间段内的 告警频率, 即每秒钟内告警的次数, 查看告警频率是否一直高于设定阔值。

如告警频率高于设定阔值, 需要判断之前是否有已存在并处于激活状 态的子处理器。

如无子处理器, 则新建一个子处理器并激活, 之后子处理器会进行抑 制告警风暴的任务, 同时产生一条新的告警风暴告警, 其详细信息包括是 何种告警引起了告警风暴, 风暴持续时间, 频率等信息, 提示用户告警风 暴的发生。

如已有子处理器但是其未处于激活状态, 则将其激活, 同样需要产生 一条新的告警风暴告警。

如已有子处理器且处于激活状态, 则需要更新之前产生的告警风暴告 警的信息, 包括持续时间, 频率等。

如果告警频率不是高于门限值, 则判断之前是否有已经创建并处于激 活状态的子处理器, 如有, 则暂停该规则处理器并恢复之前产生的告警风 暴告警。 如无, 则不做任何处理。

处理完毕后后台处理线程进入休眠状态, 等待一段时间后重复执行以 上操作, 如等待 1秒钟。

告警风暴的恢复流程如下:

用户点击客户端 "告警风暴恢复" 菜单。 服务器端告警风暴管理器返 回当前系统中被保存在文件系统中的告警风暴 信息给客户端。

用户在客户端选择所要恢复的告警风暴, 服务器端告警风暴管理器解 析对应的文件, 恢复告警风暴并将其插入到历史告警库中。

综上所述, 通过上述实施例可以看出, 本发明通过根据告警的频率和 持续时间来判断告警风暴的产生, 可以对已知或未知告警产生的告警风暴 进行处理, 提高网管系统的灵活性、 稳定性和一致性; 另外, 通过对告警 的转存, 在告警风暴结束后, 再对告警进行恢复处理, 避免丟弃某些具有 重要意义的告警, 也有效减轻了服务器端的负荷。

尽管为示例目的, 已经公开了本发明的优选实施例, 本领域的技术人 员将意识到各种改进、 增加和取代也是可能的, 因此, 本发明的范围应当 不限于上述实施例。