Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
FAULT DETECTION METHOD, RELEVANT DEVICE AND STACKING SYSTEM
Document Type and Number:
WIPO Patent Application WO/2014/079383
Kind Code:
A1
Abstract:
Disclosed are a fault detection method, relevant device and stacking system. The fault detection method is applied in the stacking system; a first communication device comprises a first service board and a second service board; the first service board comprises a first processor and a first device, and the second service board comprises a second processor and a second device; the second device receives a first signal from the first device, updates the total number of the current abnormal ports of the second communication device based on the number of abnormal ports of the second communication device indicated by the first signal, and if the updated total number of current abnormal ports of the second communication device satisfies a failure confirmation condition corresponding to the second communication device, then notifying the second processor of a partial or complete failure of the second communication device. The solution provided in an embodiment of the present invention improves fault detection efficiency and reliability.

Inventors:
WANG JING (CN)
Application Number:
PCT/CN2013/087656
Publication Date:
May 30, 2014
Filing Date:
November 22, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI TECH CO LTD (CN)
International Classes:
H04L12/24
Foreign References:
CN102255751A2011-11-23
CN101610182A2009-12-23
CN102164056A2011-08-24
Other References:
See also references of EP 2919417A4
Download PDF:
Claims:
权利要求

1、 一种故障检测方法, 应用于堆叠系统, 其特征在于, 所述堆叠系统包括第一 通信设备和第二通信设备, 其中, 所述第一通信设备包括第一业务板和第二业务板, 所 述第一业务板包括第一处理器和第一器件, 所述第二业务板包括第二处理器和第二器 件, 其中, 所述第一处理器和所述第二处理器用于业务处理, 所述第一通信设备和第二 通信设备通过 M个端口互联, 所述第一器件包括处理器和 /或可编程逻辑器件, 所述第二 器件包括处理器和 /或可编程逻辑器件;

其中, 所述故障检测方法包括:

所述第二器件接收来自所述第一器件的第一信号,基于所述第一信号所指示的所述 第二通信设备的异常端口数, 更新所述第二通信设备当前的异常端口总数, 若更新后的 所述第二通信设备当前的异常端口总数满足所述第二通信设备对应的失效确认条件, 则 通知所述第二处理器所述第二通信设备部分或整体失效, 其中, 所述第一信号由所述第 一器件在接收到所述第一业务板的 N1个端口发起的端口异常中断信号之后发送,所述第 一信号指示出所述第二通信设备的 N1个端口存在异常, 所述 N1个端口为所述 M个端口中 的部分或者全部端口。

2、 根据权利要求 1所述的方法, 其特征在于,

所述第一通信设备还包括第三业务板, 所述第三业务板包括第三处理器和第三器 件, 其中, 所述第三处理器用于业务处理, 所述第三器件包括处理器和 /或可编程逻辑 器件;

所述方法还包括: 所述第二器件接收来自所述第三器件的第二信号, 基于所述第二 信号所指示的所述第二通信设备的异常端口数, 更新所述第二通信设备当前的异常端口 总数,若更新后的所述第二通信设备当前的异常端口总数满足所述第二通信设备对应的 失效确认条件, 则通知所述第二处理器所述第二通信设备部分或整体失效, 其中, 所述 第二信号由所述第三器件在接收到所述第三业务板的 N2个端口发起的端口异常中断信 号之后发送, 所述第二信号指示出所述第二通信设备的 N2个端口存在异常, 所述 N2个端 口为所述 M个端口中的部分端口。

3、 根据权利要求 1或 2所述的方法, 其特征在于,

所述方法还包括: 所述第二器件接收所述第二业务板的 N3个端口发起的端口异常中 断信号, 其中, 所述 N3个端口为所述 M个端口中的部分端口, 基于所述 N3更新所述第二 通信设备当前的异常端口总数,若更新后的所述第二通信设备当前的异常端口总数满足 所述第二通信设备对应的失效确认条件, 则通知所述第二处理器所述第二通信设备部分 或整体失效。

4、 根据权利要求 1至 3任一项所述的方法, 其特征在于,

所述若更新后的所述第二通信设备当前的异常端口总数满足所述第二通信设备对 应的失效确认条件, 则通知所述第二处理器所述第二通信设备部分或整体失效, 包括: 若更新后的所述第二通信设备当前的异常端口总数等于所述 M, 则通知第二处理器 所述第二通信设备整体失效; 或者, 若更新后的所述第二通信设备当前的异常端口总数 大于或等于所述 M-X1 ,则通知所述第二处理器所述第二通信设备部分或整体失效,其中, 所述 XI小于所述 M; 或者, 若更新后的所述第二通信设备当前的异常端口总数大于或等 于 X2%*M, 则通知所述第二处理器所述第二通信设备部分或整体失效, 其中, 所述 X2大 于 0且小于或等于 100。

5、 根据权利要求 1至 4任一项所述的方法, 其特征在于,

所述堆叠系统还包括第三通信设备, 其中, 所述第一通信设备和所述第三通信设备 通过 Y个端口互联;

所述故障检测方法还包括:

所述第二器件接收来自所述第一器件的第四信号,基于所述第四信号所指示的所述 第三通信设备的异常端口数, 更新所述第三通信设备当前的异常端口总数, 若更新后的 所述第三通信设备当前的异常端口总数满足所述第三通信设备对应的失效确认条件, 则 通知所述第二处理器所述第三通信设备部分或整体失效, 其中, 所述第四信号由所述第 一器件在接收到所述第一业务板的 W1个端口发起的端口异常中断信号之后发送,所述第 四信号指示出所述第三通信设备的 W1个端口存在异常, 所述 W1个端口为所述 Y个端口中 的部分或者全部端口。

6、 一种通信设备, 其特征在于, 所述通信设备通过 M个端口与第二通信设备互联, 其中, 所述通信设备包括: 第一业务板和第二业务板, 所述第一业务板包括: 第一处理 器和第一器件, 所述第二业务板包括: 第二处理器和第二器件, 其中, 所述第一处理器 和所述第二处理器用于业务处理, 所述第一器件包括处理器和 /或可编程逻辑器件, 所 述第二器件包括处理器和 /或可编程逻辑器件;

所述第二器件, 用于接收来自所述第一器件的第一信号, 基于所述第一信号所指示 的所述第二通信设备的异常端口数, 更新所述第二通信设备当前的异常端口总数, 若更 新后的所述第二通信设备当前的异常端口总数满足所述第二通信设备对应的失效确认 条件, 则通知所述第二处理器所述第二通信设备部分或整体失效, 其中, 所述第一信号 由所述第一器件在接收到所述第一业务板的 N1个端口发起的端口异常中断信号之后发 送, 所述第一信号指示出所述第二通信设备的 N1个端口存在异常, 所述 N1个端口为所述 M个端口中的部分或者全部端口。

7、 根据权利要求 6所述的通信设备, 其特征在于,

所述通信设备还包括第三业务板, 所述第三业务板包括第三处理器和第三器件, 其 中, 所述第三处理器用于业务处理, 所述第三器件包括处理器和 /或可编程逻辑器件; 所述第二器件还用于, 接收来自所述第三器件的第二信号, 基于所述第二信号所指 示的所述第二通信设备的异常端口数, 更新所述第二通信设备当前的异常端口总数, 若 更新后的所述第二通信设备当前的异常端口总数满足所述第二通信设备对应的失效确 认条件, 则通知所述第二处理器所述第二通信设备部分或整体失效, 其中, 所述第二信 号由所述第三器件在接收到所述第三业务板的 N2个端口发起的端口异常中断信号之后 发送, 所述第二信号指示出所述第二通信设备的 N2个端口存在异常, 所述 N2个端口为所 述 M个端口中的部分端口。

8、 根据权利要求 6或 7所述的通信设备, 其特征在于,

所述第二器件还用于, 接收所述第二业务板的 N3个端口发起的端口异常中断信号, 其中, 所述 N3个端口为所述 M个端口中的部分端口, 基于所述 N3更新所述第二通信设备 当前的异常端口总数,若更新后的所述第二通信设备当前的异常端口总数满足所述第二 通信设备对应的失效确认条件, 则通知所述第二处理器所述第二通信设备部分或整体失 效。

9、 根据权利要求 6至 8任一项所述的通信设备, 其特征在于,

所述通信设备还与第三通信设备通过 Y个端口互联;

所述第二器件还用于, 接收来自所述第一器件的第四信号, 基于所述第四信号所指 示的所述第三通信设备的异常端口数, 更新所述第三通信设备当前的异常端口总数, 若 更新后的所述第三通信设备当前的异常端口总数满足所述第三通信设备对应的失效确 认条件, 则通知所述第二处理器所述第三通信设备部分或整体失效, 其中, 所述第四信 号由所述第一器件在接收到所述第一业务板的 W1个端口发起的端口异常中断信号之后 发送, 所述第四信号指示出所述第三通信设备的 W1个端口存在异常, 所述 W1个端口为所 述 Y个端口中的部分或者全部端口。

10、 一种堆叠系统, 其特征在于, 所述堆叠系统包括: 互联的多个通信设备, 其中, 所述多个通信设备中的至少一个为如权利要求 6至 9任 项所述的通信设备。

Description:
故障检测方法及相关设备和堆叠系统

本申请要求于 2012年 11月 23日提交中国专利局、 申请号为 201210482460. 3、 发 明名称为 "故障检测方法及相关设备和堆叠系统"的中国 利申请的优先权, 其全部内 容通过引用结合在本申请中。 技术领域 本发明涉及通信技术领域, 具体涉及一种故障检测方法及相关设备和堆叠 系统。 背景技术 当前, 堆叠技术(包括堆叠和集群技术等)在数通设 备应用广泛, 而堆叠技术大多 都是通过如以太网、高速以太网等数据通道连 接,将多台数通设备组建成一个堆叠系统。 使用数据通道建立的堆叠系统, 每一台数通设备与邻接数通设备之间可能只有 数据通 道。 数通设备通常包括至少 1个业务板, 每个业务板包括至少 1个用于业务处理的处理 器。

在邻接通信设备部分或整体失效时,通常需要 本端通信设备自身通过检测来发现故 障, 以便及时进行相应的应急处理, 通常的, 是由本端通信设备中用于业务处理的处理 器来直接监测各数据通道的端口状态, 并由该处理器根据监测结果判断邻接通信设备 是 否部分或整体失效。 实践发现, 监测邻接通信设备是否部分或整体失效的现有 机制通常 需较长时间且可靠性低, 已难以满足快速故障处理需求。 发明内容

本发明实施例提供一种故障检测方法及相关设 备和堆叠系统, 以期提高故障检测效 率和可靠性。

本发明第一方面提供一种故障检测方法, 应用于堆叠系统, 所述堆叠系统包括第一 通信设备和第二通信设备, 其中, 所述第一通信设备包括第一业务板和第二业务 板, 所 述第一业务板包括第一处理器和第一器件, 所述第二业务板包括第二处理器和第二器 件, 其中, 所述第一处理器和所述第二处理器用于业务处 理, 所述第一通信设备和第二 通信设备通过 M个端口互联, 所述第一器件包括处理器和 /或可编程逻辑器件, 所述第二 器件包括处理器和 /或可编程逻辑器件;

其中, 所述故障检测方法包括: 所述第二器件接收来自所述第一器件的第一信 号,基于所述第一信号所指示的所述 第二通信设备的异常端口数, 更新所述第二通信设备当前的异常端口总数, 若更新后的 所述第二通信设备当前的异常端口总数满足所 述第二通信设备对应的失效确认条件, 则 通知所述第二处理器所述第二通信设备部分或 整体失效, 其中, 所述第一信号由所述第 —器件在接收到所述第一业务板的 N1个端口发起的端口异常中断信号之后发送, 述第 一信号指示出所述第二通信设备的 N1个端口存在异常, 所述 N1个端口为所述 M个端口中 的部分或者全部端口。

结合第一方面, 在第一种可能的实施方式中,

所述第一通信设备还包括第三业务板, 所述第三业务板包括第三处理器和第三器 件, 其中, 所述第三处理器用于业务处理, 所述第三器件包括处理器和 /或可编程逻辑 器件;

所述方法还包括: 所述第二器件接收来自所述第三器件的第二信 号, 基于所述第二 信号所指示的所述第二通信设备的异常端口数 , 更新所述第二通信设备当前的异常端口 总数,若更新后的所述第二通信设备当前的异 常端口总数满足所述第二通信设备对应的 失效确认条件, 则通知所述第二处理器所述第二通信设备部分 或整体失效, 其中, 所述 第二信号由所述第三器件在接收到所述第三业 务板的 N2个端口发起的端口异常中断信 号之后发送, 所述第二信号指示出所述第二通信设备的 N2个端口存在异常, 所述 N2个端 口为所述 M个端口中的部分端口。

结合第一方面或第一方面的第一种可能的实施 方式, 在第二种可能的实施方式中, 所述方法还包括: 所述第二器件接收所述第二业务板的 N3个端口发起的端口异常中断信 号, 其中, 所述 N3个端口为所述 M个端口中的部分端口, 基于所述 N3更新所述第二通信 设备当前的异常端口总数,若更新后的所述第 二通信设备当前的异常端口总数满足所述 第二通信设备对应的失效确认条件, 则通知所述第二处理器所述第二通信设备部分 或整 体失效。

结合第一方面或第一方面的第一种可能的实施 方式或第一方面的第二种可能的实 施方式, 在第三种可能的实施方式中, 所述若更新后的所述第二通信设备当前的异常 端 口总数满足所述第二通信设备对应的失效确认 条件, 则通知所述第二处理器所述第二通 信设备部分或整体失效, 包括:

若更新后的所述第二通信设备当前的异常端口 总数等于所述 M, 则通知第二处理器 所述第二通信设备整体失效; 或者, 若更新后的所述第二通信设备当前的异常端口 总数 大于或等于所述 M-X1,则通知所述第二处理器所述第二通信设 部分或整体失效,其中, 所述 XI小于所述 M; 或者, 若更新后的所述第二通信设备当前的异常端口 总数大于或等 于 X2%*M, 则通知所述第二处理器所述第二通信设备部分 或整体失效, 其中, 所述 X2大 于 0且小于或等于 100。

结合第一方面或第一方面的第一种可能的实施 方式或第一方面的第二种可能的实 施方式或第一方面的第三种可能的实施方式, 在第四种可能的实施方式中, 所述堆叠系 统还包括第三通信设备, 其中, 所述第一通信设备和所述第三通信设备通过 Y个端口互 联;

所述故障检测方法还包括:

所述第二器件接收来自所述第一器件的第四信 号,基于所述第四信号所指示的所述 第三通信设备的异常端口数, 更新所述第三通信设备当前的异常端口总数, 若更新后的 所述第三通信设备当前的异常端口总数满足所 述第三通信设备对应的失效确认条件, 则 通知所述第二处理器所述第三通信设备部分或 整体失效, 其中, 所述第四信号由所述第 一器件在接收到所述第一业务板的 W1个端口发起的端口异常中断信号之后发送, 述第 四信号指示出所述第三通信设备的 W1个端口存在异常, 所述 W1个端口为所述 Y个端口中 的部分或者全部端口。

本发明第二方面提供一种通信设备, 所述通信设备通过 M个端口与第二通信设备互 联, 其中, 所述通信设备包括: 第一业务板和第二业务板, 所述第一业务板包括: 第一 处理器和第一器件, 所述第二业务板包括: 第二处理器和第二器件, 其中, 所述第一处 理器和所述第二处理器用于业务处理,所述第 一器件包括处理器和 /或可编程逻辑器件, 所述第二器件包括处理器和 /或可编程逻辑器件;

所述第二器件, 用于接收来自所述第一器件的第一信号, 基于所述第一信号所指示 的所述第二通信设备的异常端口数, 更新所述第二通信设备当前的异常端口总数, 若更 新后的所述第二通信设备当前的异常端口总数 满足所述第二通信设备对应的失效确认 条件, 则通知所述第二处理器所述第二通信设备部分 或整体失效, 其中, 所述第一信号 由所述第一器件在接收到所述第一业务板的 N1个端口发起的端口异常中断信号之后发 送, 所述第一信号指示出所述第二通信设备的 N1个端口存在异常, 所述 N1个端口为所述

M个端口中的部分或者全部端口。 结合第二方面, 在第一种可能的实施方式中, 所述通信设备还包括第三业务板, 所 述第三业务板包括第三处理器和第三器件, 其中, 所述第三处理器用于业务处理, 所述 第三器件包括处理器和 /或可编程逻辑器件;

所述第二器件还用于, 接收来自所述第三器件的第二信号, 基于所述第二信号所指 示的所述第二通信设备的异常端口数, 更新所述第二通信设备当前的异常端口总数, 若 更新后的所述第二通信设备当前的异常端口总 数满足所述第二通信设备对应的失效确 认条件, 则通知所述第二处理器所述第二通信设备部分 或整体失效, 其中, 所述第二信 号由所述第三器件在接收到所述第三业务板的 N2个端口发起的端口异常中断信号之后 发送, 所述第二信号指示出所述第二通信设备的 N2个端口存在异常, 所述 N2个端口为所 述 M个端口中的部分端口。

结合第二方面或第二方面的第一种可能的实施 方式, 在第二种可能的实施方式中, 所述第二器件还用于,接收所述第二业务板的 N3个端口发起的端口异常中断信号,其中, 所述 N3个端口为所述 M个端口中的部分端口, 基于所述 N3更新所述第二通信设备当前的 异常端口总数,若更新后的所述第二通信设备 当前的异常端口总数满足所述第二通信设 备对应的失效确认条件, 则通知所述第二处理器所述第二通信设备部分 或整体失效。

结合第二方面或第二方面的第一种可能的实施 方式或第二方面的第二种可能的实 施方式, 在第三种可能的实施方式中, 所述通信设备还与第三通信设备通过 Y个端口互 联;

所述第二器件还用于, 接收来自所述第一器件的第四信号, 基于所述第四信号所指 示的所述第三通信设备的异常端口数, 更新所述第三通信设备当前的异常端口总数, 若 更新后的所述第三通信设备当前的异常端口总 数满足所述第三通信设备对应的失效确 认条件, 则通知所述第二处理器所述第三通信设备部分 或整体失效, 其中, 所述第四信 号由所述第一器件在接收到所述第一业务板的 W1个端口发起的端口异常中断信号之后 发送, 所述第四信号指示出所述第三通信设备的 W1个端口存在异常, 所述 W1个端口为所 述 Y个端口中的部分或者全部端口。

本发明第三方面提供一种堆叠系统, 所述堆叠系统包括:

互联的多个通信设备, 其中, 所述多个通信设备中的至少一个为如上述实施 例提供 的所述的通信设备。

由上可见, 本实施例在堆叠系统的通信设备中的业务板上 , 增设用于故障检测的器 件 (如第一器件和第二器件) , 该器件可包括处理器和 /或可编程逻辑器件, 利用专用 器件来进行端口故障检测, 例如当第二器件接收来自第一器件的第一信号 , 基于第一信 号所指示的第二通信设备的异常端口数, 更新第二通信设备当前的异常端口总数, 若更 新后的第二通信设备当前的异常端口总数满足 第二通信设备对应的失效确认条件, 则可 通知第二处理器第二通信设备部分或整体失效 。 由于将故障检测和业务板正常业务处理 工作分离, 业务板上负责业务处理的处理器(如第一处理 器和第二处理器) 的性能得到 释放, 且利用专用器件来进行故障检测, 有利于提高故障检测效率和可靠性。 附图说明 为了更清楚地说明本发明实施例中的技术方案 , 下面将对实施例描述中所需要使用 的附图作简单地介绍, 显而易见地, 下面描述中的附图仅仅是本发明的一些实施例 , 对 于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根据这些附图获得 其他的附图。

图 1-a是本发明实施例提供的一种堆叠系统的架构 示意图;

图 1-b是本发明实施例提供的另一种堆叠系统的架 构示意图;

图 1-c是本发明实施例提供的另一种堆叠系统的架 构示意图;

图 1-d是本发明实施例提供的另一种堆叠系统的架 构示意图;

图 2是本发明实施例提供一种故障检测方法的流 示意图;

图 3-a是本发明实施例提供的另一种堆叠系统的架 构示意图;

图 3-b是本发明实施例提供的另一种堆叠系统的架 构示意图;

图 4-a是本发明实施例提供的一种通信设备的示意 图;

图 4_b是本发明实施例提供的另一种通信设备的示 意图;

图 4-c是本发明实施例提供的另一种通信设备的示 意图;

图 4-d是本发明实施例提供的另一种通信设备的示 意图。 具体实施方式 本发明实施例提供一种故障检测方法及相关设 备和堆叠系统, 以期提高故障检测效 率和可靠性。

为了使本技术领域的人员更好地理解本发明方 案, 下面将结合本发明实施例中的附 图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例仅仅 是本发明一部分的实施例, 而不是全部的实施例。 基于本发明中的实施例, 本领域普通 技术人员在没有做出创造性劳动前提下所获得 的所有其他实施例, 都应当属于本发明保 护的范围。

以下分别进行详细说明。

本发明的说明书和权利要求书及上述附图中的 术语 "第一" 、 "第二" 、 "第三" "第四"等 (如果存在)是用于区别类似的对象, 而不必用于描述特定的顺序或先后次 序。 应该理解这样使用的数据在适当情况下可以互 换, 以便这里描述的本发明的实施例 例如能够以除了在这里图示或描述的那些以外 的顺序实施。 此外, 术语 "包括"和 "具 有" 以及他们的任何变形, 意图在于覆盖不排他的包含, 例如, 包含了一系列步骤或单 元的过程、 方法、 系统、 产品或设备不必限于清楚地列出的那些步骤或 单元, 而是可包 括没有清楚地列出的或对于这些过程、 方法、 产品或设备固有的其它步骤或单元。

本发明故障检测方法的一个实施例, 其中, 该故障检测方法可应用于堆叠系统, 该 堆叠系统可包括: 第一通信设备和第二通信设备, 其中, 第一通信设备可包括: 第一业 务板和第二业务板, 第一业务板可包括: 第一处理器和第一器件, 第二业务板可包括第 二处理器和第二器件, 其中, 第一处理器和第二处理器用于业务处理, 第一通信设备和 第二通信设备通过 M个端口互联, 第一器件包括处理器和 /或可编程逻辑器件, 第二器件 包括处理器和 /或可编程逻辑器件。 其中, 故障检测方法包括: 第二器件接收来自第一 器件的第一信号, 基于第一信号所指示的第二通信设备的异常端 口数, 更新第二通信设 备当前的异常端口总数,若更新后的第二通信 设备当前的异常端口总数满足第二通信设 备对应的失效确认条件, 则可通知第二处理器第二通信设备部分或整体 失效, 其中第一 信号由第一器件在接收到第一业务板的 N1个端口发起的端口异常中断信号之后发送, 一信号指示出第二通信设备的 N1个端口存在异常, 上述 N1个端口为上述 M个端口中的部 分或者全部端口。

首先参见图 1-a和图 2, 其中, 图 1-a为本发明实施例提供的一种堆叠系统的架构 示 意图, 图 2为本发明实施例提供的一种故障检测方法的 程示意图。 图 1-a所示堆叠系统 包括第一通信设备 101和第二通信设备 102, 其中, 第一通信设备 101可包括: 第一业务 板和第二业务板, 第一业务板可包括: 第一处理器和第一器件, 第二业务板可包括: 第 二处理器和第二器件, 其中, 第一处理器和第二处理器用于业务处理, 其中, 第一通信 设备和第二通信设备通过 M个端口互联, 第一器件包括处理器和 /或可编程逻辑器件, 第 二器件包括处理器和 /或可编程逻辑器件。 如图 2所示, 本发明实施例提供的一种故障检测方法, 可应用于图 1-a所示架构的堆 叠系统或可应用于经过形变或扩展的类似堆叠 系统, 方法具体可包括如下内容:

201、 第二器件接收来自第一器件的第一信号,

其中, 第一信号 (第一信号例如可以是中断信号或者其它类型 的信号)可由第一器 件在接收到第一业务板的 N1个端口发起的端口异常中断信号之后发送, 一信号可指示 出第二通信设备的 N1个端口存在异常。 若第一通信设备和第二通信设备通过 M个端口互 联, 则上述 N1个端口可为上述 M个端口中的部分或者全部端口。

在本发明的一些实施例中, 第一业务板与第二通信设备之间可存在 N1个互联的端 口, 或者, 第一业务板与第二通信设备之间互联的端口也 可能多余 N1个。 进一步的, 可 为不同通信设备或者不同业务板之间互联的端 口可分配不同的端口组号, 以便根据端口 组号来区分不同端口的互联情况。

202、 第二器件基于第一信号所指示的第二通信设备 的异常端口数, 更新第二通信 设备当前的异常端口总数。

在本发明的一些实施例中,例如可设第二通信 设备当前的异常端口总数的初始值为 0, 第二器件在首次接收到用于指示第二通信设备 的异常端口数的信号 (如第一信号) 之后,可将收到的信号所指示第二通信设备的 异常端口数和上述初始值累加以得到第二 通信设备当时的异常端口总数, 而后续第二器件在每次收到用于指示第二通信 设备的异 常端口数的信号之后,便可将收到的信号所指 示第二通信设备的异常端口数累加到最新 得到的第二通信设备当前的异常端口总数,进 而实现更新第二通信设备当前的异常端口 总数。

203、 若更新后的第二通信设备当前的异常端口总数 满足第二通信设备对应的失效 确认条件, 则第二器件可通知第二处理器第二通信设备部 分或整体失效。

在本发明的一些实施例中, 第二器件可通过向第二处理器发送中断信号或 其它信 号, 来通知第二处理器第二通信设备部分或整体失 效。 第二处理器若获知第二通信设备 出现部分获知整体失效, 则第二处理器可进行与第二通信设备相关的故 障应急处理, 例 如第二处理器可进行相应业务备份、 发布故障告警等操作。

在本发明的一些实施例中, 第二业务板可以是普通的业务板, 也可以是通信设备中 的控制板。

例如图 1-b所示, 在本发明的一些实施例中, 若第一通信设备还包括第三业务板, 第三业务板包括第三处理器和第三器件, 其中, 第三处理器用于业务处理, 第三器件包 括处理器和 /或可编程逻辑器件; 则方法还可包括: 第二器件接收来自第三器件的第二 信号 (第二信号例如可以是中断信号或者其它类型 的信号) , 基于第二信号所指示的第 二通信设备的异常端口数, 更新第二通信设备当前的异常端口总数, 若更新后的第二通 信设备当前的异常端口总数满足第二通信设备 对应的失效确认条件, 则通知第二处理器 第二通信设备部分或整体失效, 其中, 第二信号由第三器件在接收到第三业务板的 N2个 端口发起的端口异常中断信号之后发送,第二 信号指示出第二通信设备的 N2个端口存在 异常, 上述 N2个端口为上述 M个端口中的部分端口。 这样就在一定程度上实现了多个单 点链路故障的汇聚和处理, 有利于提高故障检测的可靠性。

例如图 1-c所示, 在本发明的一些实施例中, 若第二业务板与第二通信设备之间也 存在互联端口, 则方法还可包括: 第二器件接收第二业务板的 N3个端口发起的端口异常 中断信号, 其中, 上述 N3个端口为上述 M个端口中的部分端口, 基于上述 N3更新第二通 信设备当前的异常端口总数,若更新后的第二 通信设备当前的异常端口总数满足第二通 信设备对应的失效确认条件, 则通知第二处理器第二通信设备部分或整体失 效。 这样就 在一定程度上实现了多个单点链路故障的汇聚 和处理, 有利于提高故障检测的可靠性。

在本发明的一些实施例中,若更新后的第二通 信设备当前的异常端口总数满足第二 通信设备对应的失效确认条件, 则通知第二处理器第二通信设备部分或整体失 效, 可包 括: 若更新后的第二通信设备当前的异常端口总数 等于上述 M, 则通知第二处理器第二 通信设备整体失效; 或者, 若更新后的第二通信设备当前的异常端口总数 大于或等于上 述 M-X1 , 则通知第二处理器第二通信设备部分或整体失 效, 其中, 上述 XI小于上述 M; 或者, 若更新后的第二通信设备当前的异常端口总数 大于或等于 X2%*M, 则通知第二处 理器第二通信设备部分或整体失效, 其中, 上述 X2大于 0且小于或等于 100。

例如图 1-d所示, 在本发明一些实施例中, 若上述堆叠系统还包括第三通信设备, 第一通信设备和第三通信设备通过 Y个端口互联; 上述故障检测方法还可包括: 第二器 件接收来自第一器件的第四信号, 基于第四信号所指示的第三通信设备的异常端 口数, 更新第三通信设备当前的异常端口总数,若更 新后的第三通信设备当前的异常端口总数 满足第三通信设备对应的失效确认条件, 则通知第二处理器第三通信设备部分或整体失 效, 其中, 第四信号由第一器件在接收到第一业务板的 W1个端口发起的端口异常中断信 号之后发送, 第四信号指示出第三通信设备的 W1个端口存在异常, 上述 W1个端口为上述 Y个端口中的部分或者全部端口。 在本发明的一些实施例中,若更新后的第三通 信设备当前的异常端口总数满足第三 通信设备对应的失效确认条件, 则通知第二处理器第三通信设备部分或整体失 效, 可包 括: 若更新后的第三通信设备当前的异常端口总数 等于上述 Y, 则通知第二处理器第三 通信设备整体失效; 或者, 若更新后的第三通信设备当前的异常端口总数 大于或等于上 述 Υ-Χ3, 则通知第二处理器第三通信设备部分或整体失 效, 其中, 上述 Χ3小于上述 Υ; 或者, 若更新后的第三通信设备当前的异常端口总数 大于或等于 Χ4%*Μ, 则通知第二处 理器第三通信设备部分或整体失效, 其中, 上述 Χ4大于 0且小于或等于 100。

可以理解, 对于存在多个通信设备的情况, 每个通信设备均可按照上述方式来进行 邻接通信设备的故障检测, 此处不再额外举例。

由上可见, 本实施例在堆叠系统的通信设备中的业务板上 , 增设用于故障检测的器 件 (如第一器件和第二器件) , 该器件可包括处理器和 /或可编程逻辑器件, 利用专用 器件来进行端口故障检测, 例如当第二器件接收来自第一器件的第一信号 , 基于第一信 号所指示的第二通信设备的异常端口数, 更新第二通信设备当前的异常端口总数, 若更 新后的第二通信设备当前的异常端口总数满足 第二通信设备对应的失效确认条件, 则可 通知第二处理器第二通信设备部分或整体失效 。 由于将故障检测和业务板正常业务处理 工作分离, 业务板上负责业务处理的处理器(如第一处理 器和第二处理器) 的性能得到 释放, 且利用专用硬件来进行故障检测, 有利于提高故障检测效率和可靠性。

为便于更好的理解, 下面通过举例两个具体场景进行描述。

参见图 3_a, 其中, 图 3-a为本发明实施例提供的另一种堆叠系统的架 构示意图。 图 3-a所示堆叠系统包括第一通信设备 301和第二通信设备 302, 其中, 第一通信设备 301可 包括: 第一业务板、 控制板和第三业务板。 其中, 第一业务板可包括: 第一处理器和第 一可编程逻辑器件, 控制板可包括: 第二处理器和第二可编程逻辑器件, 第三业务板可 包括: 第三处理器和第三可编程逻辑器件, 其中, 第一处理器、 第二处理器和第三处理 器用于业务处理,其中第一通信设备 301和第二通信设备 302通过 6个端口(ΤΓΤ6 )互联。

在一种可能应用场景下, 假设第一可编程逻辑器件在接收到第一业务板 的 3个端口

( ΤΓΤ3 ) 发起的端口异常中断信号, 第一可编程逻辑器件可向第二可编程逻辑器件 发 送第一中断信号, 其中, 第一中断信号指示第二通信设备的异常端口数 为 3。 第二可编 程逻辑器件接收到来自第一可编程逻辑器件的 第一中断信号后,基于第一中断信号所指 示的第二通信设备的异常端口数,更新第二通 信设备当前的异常端口总数为 3 ( 0+3=3 ), 第二可编程逻辑器件判断出更新后的第二通信 设备当前的异常端口总数仍小于 6, 因此, 暂时不满足第二通信设备对应的失效确认条件 , 故第二可编程逻辑器件目前不通知第二 处理器第二通信设备整体失效。 之后, 假设第三可编程逻辑器接收到第三业务板的 3个 端口 (Τ Τ6 ) 发起的端口异常中断信号之后, 第三可编程逻辑器件可向第二可编程逻 辑器件发送第二中断信号, 第二中断信号指示第二通信设备的异常端口数 为 3。 第二可 编程逻辑器件接收来自第三可编程逻辑器件的 第二中断信号后,基于第二中断信号所指 示的第二通信设备的异常端口数,更新第二通 信设备当前的异常端口总数为 6 ( 3+3=6 ), 第二可编程逻辑器件判断出更新后的第二通信 设备当前的异常端口总数等于 6, 因此满 足第二通信设备对应的失效确认条件, 第二可编程逻辑器件向第二处理器发送中断信 号, 以通知第二处理器第二通信设备整体失效。

在另一种可能应用场景下, 假设当第二通信设备当前的异常端口总数小于 4时不上 报第二通信设备失效, 当第二通信设备当前的异常端口总数大于或等 于 4且小于 6时, 可 上报第二通信设备部分失效, 当第二通信设备当前的异常端口总数等于 6时, 可上报第 二通信设备整体失效。

假设第一可编程逻辑器件在接收到第一业务板 的 2个端口 (ΤΓΤ2 )发起的端口异常 中断信号, 第一可编程逻辑器件可向第二可编程逻辑器件 发送第一中断信号, 其中, 第 一中断信号指示第二通信设备的异常端口数为 2。 第二可编程逻辑器件接收到来自第一 可编程逻辑器件的第一中断信号后,基于第一 中断信号所指示的第二通信设备的异常端 口数, 更新第二通信设备当前的异常端口总数为 2 ( 0+2=2 ) , 第二可编程逻辑器件判断 出更新后的第二通信设备当前的异常端口总数 小于 4或 6, 因此, 暂时不满足第二通信设 备对应的失效确认条件, 故第二可编程逻辑器件目前不通知第二处理器 第二通信设备部 分或整体失效。 之后, 假设第三可编程逻辑器接收到第三业务板的 3个端口 (Τ Τ6 )发 起的端口异常中断信号之后,第三可编程逻辑 器件可向第二可编程逻辑器件发送第二中 断信号, 第二中断信号指示第二通信设备的异常端口数 为 3。 第二可编程逻辑器件接收 来自第三可编程逻辑器件的第二中断信号后, 基于第二中断信号所指示的第二通信设备 的异常端口数, 更新第二通信设备当前的异常端口总数为 5 ( 2+3=5 ) , 第二可编程逻辑 器件判断出更新后的第二通信设备当前的异常 端口总数是大于 4且小于 6的, 因此, 满足 第二通信设备对应的失效确认条件, 第二可编程逻辑器件向第二处理器发送中断信 号, 以通知第二处理器第二通信设备部分失效, 其中, 通知整体失效的中断信号可不同于通 知部分失效的中断信号。 参见图 3-b, 其中, 图 3-b为本发明实施例提供的另一种堆叠系统的架 构示意图。 图 3-b所示堆叠系统包括第一通信设备 301和第二通信设备 302, 其中, 第一通信设备 301可 包括: 第一业务板、 控制板和第三业务板。 其中, 第一业务板可包括: 第一处理器和第 一可编程逻辑器件, 控制板可包括: 第二处理器和第二可编程逻辑器件, 第三业务板可 包括: 第三处理器和第三可编程逻辑器件, 其中, 第一处理器、 第二处理器和第三处理 器用于业务处理,其中第一通信设备 301和第二通信设备 302通过 8个端口(ΤΓΤ8 )互联。

在一种可能应用场景下, 假设第一可编程逻辑器件在接收到第一业务板 的 3个端口 ( ΤΓΤ3 ) 发起的端口异常中断信号, 第一可编程逻辑器件可向第二可编程逻辑器件 发 送第一中断信号, 其中, 第一中断信号指示第二通信设备的异常端口数 为 3。 第二可编 程逻辑器件接收到来自第一可编程逻辑器件的 第一中断信号后,基于第一中断信号所指 示的第二通信设备的异常端口数,更新第二通 信设备当前的异常端口总数为 3 ( 0+3=3 ), 第二可编程逻辑器件判断出更新后的第二通信 设备当前的异常端口总数仍小于 8, 因此, 暂时不满足第二通信设备对应的失效确认条件 , 故第二可编程逻辑器件目前不通知第二 处理器第二通信设备整体失效。 之后, 假设第三可编程逻辑器接收到第三业务板的 3个 端口 (Τ Τ6 ) 发起的端口异常中断信号之后, 第三可编程逻辑器件可向第二可编程逻 辑器件发送第二中断信号, 第二中断信号指示第二通信设备的异常端口数 为 3。 第二可 编程逻辑器件接收来自第三可编程逻辑器件的 第二中断信号后,基于第二中断信号所指 示的第二通信设备的异常端口数,更新第二通 信设备当前的异常端口总数为 6 ( 3+3=6 ), 第二可编程逻辑器件判断出更新后的第二通信 设备当前的异常端口总数仍小于 8, 因此, 暂时不满足第二通信设备对应的失效确认条件 , 故第二可编程逻辑器件目前不通知第二 处理器第二通信设备整体失效, 再之后, 第二可编程逻辑器接收到控制板的 2个端口

( Τ Τ6 ) 发起的端口异常中断信号, 第二可编程逻辑器更新第二通信设备当前的异 常 端口总数为 8 ( 3+3+2=8 ) , 因此满足第二通信设备对应的失效确认条件, 第二可编程逻 辑器件向第二处理器发送中断信号, 以通知第二处理器第二通信设备整体失效。

在另一种可能应用场景下, 假设当第二通信设备当前的异常端口总数小于 5时不上 报第二通信设备失效, 当第二通信设备当前的异常端口总数大于或等 于 5且小于 8时, 可 上报第二通信设备部分失效, 当第二通信设备当前的异常端口总数等于 8时, 可上报第 二通信设备整体失效。

假设第一可编程逻辑器件在接收到第一业务板 的 3个端口 (ΤΓΤ2 )发起的端口异常 中断信号, 第一可编程逻辑器件可向第二可编程逻辑器件 发送第一中断信号, 其中, 第 一中断信号指示第二通信设备的异常端口数为 3。 第二可编程逻辑器件接收到来自第一 可编程逻辑器件的第一中断信号后,基于第一 中断信号所指示的第二通信设备的异常端 口数, 更新第二通信设备当前的异常端口总数为 3 ( 0+3=3 ) , 第二可编程逻辑器件判断 出更新后的第二通信设备当前的异常端口总数 小于 5或 8, 因此, 暂时不满足第二通信设 备对应的失效确认条件, 故第二可编程逻辑器件目前不通知第二处理器 第二通信设备部 分或整体失效。 之后, 假设第三可编程逻辑器接收到第三业务板的 3个端口 (Τ Τ6 )发 起的端口异常中断信号,第三可编程逻辑器件 可向第二可编程逻辑器件发送第二中断信 号, 第二中断信号指示第二通信设备的异常端口数 为 3。 第二可编程逻辑器件接收来自 第三可编程逻辑器件的第二中断信号后,基于 第二中断信号所指示的第二通信设备的异 常端口数, 更新第二通信设备当前的异常端口总数为 6 ( 3+3=6 ) , 第二可编程逻辑器件 判断出更新后的第二通信设备当前的异常端口 总数是等于 6的 (即大于 5且小于 8 ) , 因 此, 满足第二通信设备的部分失效确认条件, 第二可编程逻辑器件向第二处理器发送中 断信号, 以通知第二处理器第二通信设备部分失效。 再之后, 第二可编程逻辑器又接收 到控制板的 2个端口 (Τ Τ6 )发起的端口异常中断信号, 第二可编程逻辑器更新第二通 信设备当前的异常端口总数为 8 ( 3+3+2=8 ) , 因此满足第二通信设备对应的整体失效确 认条件, 第二可编程逻辑器件向第二处理器发送中断信 号, 以通知第二处理器第二通信 设备整体失效, 其中, 通知整体失效的中断信号可不同于通知部分失 效的中断信号。

可以看出, 上述两个举例中利用专用硬件(如第一可编程 逻辑器件、 第二可编程逻 辑器件和第三可编程逻辑器件)来进行端口故 障检测, 例如当第二可编程逻辑器件接收 来自第一器件的第一中断信号, 基于第一中断信号所指示的第二通信设备的异 常端口 数, 更新第二通信设备当前的异常端口总数, 若更新后的第二通信设备当前的异常端口 总数满足第二通信设备对应的失效确认条件, 则可通知第二处理器第二通信设备部分或 整体失效。 由于将故障检测和业务板正常业务处理工作分 离, 业务板上负责业务处理的 处理器(如第一处理器和第二处理器) 的性能得到释放, 且利用专用硬件来进行故障检 测, 有利于提高故障检测效率和可靠性。

可以理解, 上述场景仅为举例, 在实际应用中可根据场景不同和实际需要进行 适应 变化。

为便于更好的实施本发明实施例的上述方案, 下面还提供用于实施上述方案的相关 装置。 参见图 4-a, 本发明实施例提供的一种通信设备 400, 可包括: 第一业务板 410和第 二业务板 420, 其中, 第一业务板 410包括: 第一处理器 411和第一器件 412, 第二业务板 420包括第二处理器 421和第二器件 422, 其中, 第一处理器 411和第二处理器 421用于业 务处理, 第一器件 412包括处理器和 /或可编程逻辑器件, 第二器件 422包括处理器和 /或 可编程逻辑器件; 通信设备 400可通过 M个端口与第二通信设备互联。

其中, 第二器件 422, 用于接收来自第一器件 412的第一信号, 基于第一信号所指示 的第二通信设备的异常端口数, 更新第二通信设备当前的异常端口总数, 若更新后的第 二通信设备当前的异常端口总数满足第二通信 设备对应的失效确认条件, 则通知第二处 理器 424第二通信设备部分或整体失效, 其中, 第一信号由第一器件 412在接收到第一业 务板的 N1个端口发起的端口异常中断信号之后发送, 一信号指示出第二通信设备的 N1 个端口存在异常, 上述 N1个端口为上述 M个端口中的部分或者全部端口。

参见图 4-b, 在本发明的一些实施例中, 通信设备 400还可包括第三业务板 430, 第 三业务板 430包括第三处理器 431和第三器件 432, 其中, 第三处理器 430用于业务处理, 第三器件 432包括处理器和 /或可编程逻辑器件。

其中, 第二器件 422还用于, 接收来自第三器件 432的第二信号, 基于第二信号所指 示的第二通信设备的异常端口数, 更新第二通信设备当前的异常端口总数, 若更新后的 第二通信设备当前的异常端口总数满足第二通 信设备对应的失效确认条件, 则通知第二 处理器 421第二通信设备部分或整体失效,其中第二信 号由第三器件 432在接收到第三业 务板的 N2个端口发起的端口异常中断信号之后发送, 二信号指示出第二通信设备的 N2 个端口存在异常, 上述 N2个端口为上述 M个端口中的部分端口。

参见图 4-c, 在本发明的一些实施例中, 第二器件 422还用于, 接收第二业务板的 N3 个端口发起的端口异常中断信号, 其中, 上述 N3个端口为上述 M个端口中的部分端口, 基于上述 N3更新第二通信设备当前的异常端口总数,若 新后的第二通信设备当前的异 常端口总数满足第二通信设备对应的失效确认 条件, 则通知第二处理器 421第二通信设 备部分或整体失效。

参见图 4-d, 在本发明的一些实施例中, 通信设备 400还可与第三通信设备通过 Y个 端口互联;

第二器件 421还可用于, 接收来自第一器件 412的第四信号, 基于第四信号所指示的 第三通信设备的异常端口数, 更新第三通信设备当前的异常端口总数, 若更新后的第三 通信设备当前的异常端口总数满足第三通信设 备对应的失效确认条件, 则通知第二处理 器第三通信设备部分或整体失效, 其中, 第四信号由第一器件在接收到第一业务板的 W1 个端口发起的端口异常中断信号之后发送,第 一信号指示出第三通信设备的 W1个端口存 在异常, 上述 W1个端口为上述 Y个端口中的部分或者全部端口。

其中,本实施例的各通信设备例如可以是服务 器,路由器、交换机或其它网络设备。 可以理解的是, 本实施例的通信设备 400的各功能模块的功能可根据上述方法实施 例中的方法具体实现, 其具体实现过程可以参照上述方法实施例的相 关描述, 此处不再 赘述。

由上可见, 本实施例在通信设备 400中的业务板上增设用于故障检测的器件 (如第 一器件和第二器件) , 该器件可包括处理器和 /或可编程逻辑器件, 利用专用器件来进 行端口故障检测, 例如当第二器件接收来自第一器件的第一信号 , 基于第一信号所指示 的第二通信设备的异常端口数, 更新第二通信设备当前的异常端口总数, 若更新后的第 二通信设备当前的异常端口总数满足第二通信 设备对应的失效确认条件, 则可通知第二 处理器第二通信设备部分或整体失效。 由于将故障检测和业务板正常业务处理工作分 离, 业务板上负责业务处理的处理器 (如第一处理器和第二处理器) 的性能得到释放, 且利用专用器件来进行故障检测, 有利于提高故障检测效率和可靠性。

本发明实施例还提供一种堆叠系统, 其中, 互联的多个通信设备, 该多个通信设备 中的至少一个如通信设备 400。

本发明实施例还提供一种计算机存储介质,其 中,该计算机存储介质可存储有程序, 该程序执行时包括上述方法实施例中记载的故 障监测方法的部分或全部步骤。

需要说明的是, 对于前述的各方法实施例, 为了简单描述, 故将其都表述为一系列 的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描述的动作顺序的限制, 因为依据本发明, 某些步骤可以采用其他顺序或者同时进行。 其次, 本领域技术人员也 应该知悉, 说明书中所描述的实施例均属于优选实施例, 所涉及的动作和模块并不一定 是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有 侧重,某个实施例中没有详述的部分, 可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中, 应该理解到, 所揭露的装置, 可通过其它的方式 实现。 例如, 以上所描述的装置实施例仅仅是示意性的, 例如所述单元的划分, 仅仅为 一种逻辑功能划分, 实际实现时可以有另外的划分方式, 例如多个单元或组件可以结合 或者可以集成到另一个系统, 或一些特征可以忽略, 或不执行。 另一点, 所显示或讨论 的相互之间的耦合或直接耦合或通信连接可以 是通过一些接口,装置或单元的间接耦合 或通信连接, 可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可 以不是物理上分开的, 作为单元显示 的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的 目的。

另外, 在本发明各个实施例中的各功能单元可以集成 在一个处理单元中, 也可以是 各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中 。 上述集成的单 元既可以采用硬件的形式实现, 也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实 现并作为独立的产品销售或使用时, 可以存储在一个计算机可读取存储介质中。 基于这样的理解, 本发明的技术方案本质上 或者说对现有技术做出贡献的部分或者该技术 方案的全部或部分可以以软件产品的形 式体现出来, 该计算机软件产品存储在一个存储介质中, 包括若干指令用以使得一台计 算机设备 (可为个人计算机、 服务器或者网络设备等)执行本发明各个实施 例所述方法 的全部或部分步骤。而前述的存储介质包括: U盘、只读存储器(ROM, Read-Only Memory)、 随机存取存储器 (RAM, Random Access Memory) 、 移动硬盘、 磁碟或者光盘等各种可 以存储程序代码的介质。

以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限于此, 任何 熟悉本技术领域的技术人员在本发明揭露的技 术范围内, 可轻易想到变化或替换, 都应 涵盖在本发明的保护范围之内。因此,本发明 的保护范围应以权利要求的保护范围为准。