Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SERVER MONITORING METHOD AND SYSTEM
Document Type and Number:
WIPO Patent Application WO/2018/214009
Kind Code:
A1
Abstract:
The present invention provides a server monitoring method and system belonging to the technical field of machine room operation and maintenance. The method comprises: a master node server selecting from an operation and maintenance template a template parameter corresponding to a monitored host, and sending the template parameter to a slave node server corresponding to the monitored host; the slave node server comparing data generated by the monitored host with the template parameter, and the slave node server reporting data to the master node server when the data generated by the monitored host matches the template parameter; and the master node server reporting the data to an operation and maintenance platform. The server monitoring method and system provided by the present invention reduce complexities of operation and maintenance parameter acquisition for different types of servers in an operation and maintenance system, perform centralized management on operation and maintenance of a system by means of deploying master and slave node servers, perform unified processing on operation and maintenance of the same type of servers through use of templates, and flexibly handle differentiation of the same type of operation and maintenance parameters by means of template inheritance.

Inventors:
WANG YITING (CN)
NIU LIHUA (CN)
JIANG MIN (CN)
Application Number:
PCT/CN2017/085437
Publication Date:
November 29, 2018
Filing Date:
May 23, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SHENZHEN ZNV TECH CO LTD (CN)
International Classes:
H04L12/26
Foreign References:
CN104010028A2014-08-27
CN104935464A2015-09-23
CN105323111A2016-02-10
US20100156623A12010-06-24
Attorney, Agent or Firm:
GUANGDONG GUANGHE LAW FIRM (CN)
Download PDF:
Claims:
权利要求书

一种服务器监控方法, 所述方法包括:

主节点服务器在运维模板中选择与被监控主机对应的模板参数, 并将 所述模板参数发送至与所述被监控主机对应的从节点服务器; 所述从节点服务器根据所述被监控主机产生的数据与所述模板参数进 行比对, 当所述被监控主机产生的数据符合所述模板参数吋, 则所述 从节点服务器上报所述数据至所述主节点服务器;

所述主节点服务器将所述数据上报至运维平台。

根据权利要求 1所述的服务器监控方法, 其中, 所述方法还包括: 所述主节点服务器将在预定吋间段内多次接收从节点服务器上报的数 据生成告警参数值, 并判断所述告警参数值是否小于异常边界值, 若 是, 则所述主节点服务器上报所述运维平台进行告警。

根据权利要求 2所述的服务器监控方法, 其中, 所述方法还包括: 所述主节点服务器自动生成告警模板, 并下发到所述从节点服务器、 以及上报至所述运维平台;

所述运维平台将所述告警模板上报至用户端。

根据权利要求 1所述的服务器监控方法, 其中, 在所述主节点服务器 在运维模板中选择与被监控主机对应的模板参数之前, 所述方法还包 括:

所述运维平台接收用户端配置的运维模板;

所述运维平台将所述运维模板保存至所述主节点服务器。

根据权利要求 1-4任一项所述的服务器监控方法, 其中, 所述模板参 数包括中央处理器占用率, 内存使用、 网络输入 /输出、 硬盘输入 /输 出、 硬盘剩余空间、 网络连接数、 重要服务端口监听情况、 以及部署 的专用软件的自身各类参数使用情况。

一种服务器监控系统, 所述系统包括主节点服务器、 至少一个被监控 主机、 与所述监控主机对应的从节点服务器、 以及运维平台, 其中, 所述主节点服务器, 设置为在运维模板中选择与所述被监控主机对应 的模板参数, 并将所述模板参数发送至与所述被监控主机对应的所述 从节点服务器;

所述从节点服务器, 设置为根据所述被监控主机产生的数据与所述模 板参数进行比对, 当所述被监控主机产生的数据符合所述模板参数吋 , 则上报所述数据至所述主节点服务器;

所述主节点服务器, 还设置为将所述数据上报至运维平台。

[权利要求 7] 根据权利要求 6所述的服务器监控系统, 其中, 所述主节点服务器, 还设置为将在预定吋间段内多次接收从节点服务器上报的数据生成告 警参数值, 并判断所述告警参数值是否小于异常边界值, 若是, 则上 报所述运维平台进行告警。

[权利要求 8] 根据权利要求 7所述的服务器监控系统, 其中, 所述主节点服务器, 还设置为自动生成告警模板, 并下发到所述从节点服务器、 以及上报 至所述运维平台;

所述运维平台, 设置为将所述告警模板上报至用户端。

[权利要求 9] 根据权利要求 6所述的服务器监控系统, 其中, 所述运维平台, 还设 置为接收用户端配置的运维模板, 以及将所述运维模板保存至所述主 节点服务器。

[权利要求 10] 根据权利要求 6-9任一项所述的服务器监控系统, 其中, 所述模板参 数包括中央处理器占用率, 内存使用、 网络输入 /输出、 硬盘输入 /输 出、 硬盘剩余空间、 网络连接数、 重要服务端口监听情况、 以及部署 的专用软件的自身各类参数使用情况。

Description:
说明书 发明名称:服务器监控方法及系统

技术领域

[0001] 本发明涉及机房运维技术领域, 尤其涉及一种服务器监控方法及系统。

背景技术

[0002] 在机房运维中, 服务器的监控非常重要的一环, 通常需要监控服务器的很多数 据, 比如硬件的资源使用, 软件的事务数、 请求数等, 但是随着系统的不断扩 大, 服务器的种类也日益增多, 不同类型的服务器需要监控的参数也不一致, 比如一台存储服务器, 重点关注的就是系统的 IOPS和存储剩余空间, 而一台算 法服务器, 重点关注的就是 CPU的使用量, 而对于硬盘的使用则不敏感。 这样运 维中就要针对不同的设备设置单独的监控参数 , 如果设备数不多, 单独配置监 控参数还是比较容易的, 但是随着设备数量和种类的增多, 配置监控参数就很 麻烦了。 所以这里提出一种使用模板的监控方法, 并且支持手动配置和根据历 史数据自动判断。

技术问题

[0003] 本发明的主要目的在于提出一种服务器监控方 法及系统, 方便针对不同主机设 置和更新对应的监控参数。

问题的解决方案

技术解决方案

[0004] 为实现上述目的, 本发明提供一种服务器监控方法, 所述方法包括:

[0005] 主节点服务器在运维模板中选择与被监控主机 对应的模板参数, 并将所述模板 参数发送至与所述被监控主机对应的从节点服 务器;

[0006] 所述从节点服务器根据所述被监控主机产生的 数据与所述模板参数进行比对, 当所述被监控主机产生的数据符合所述模板参 数吋, 则所述从节点服务器上报 所述数据至所述主节点服务器;

[0007] 所述主节点服务器将所述数据上报至运维平台 。

[0008] 可选地, 所述方法还包括: [0009] 所述主节点服务器将在预定吋间段内多次接收 从节点服务器上报的数据生成告 警参数值, 并判断所述告警参数值是否小于异常边界值, 若是, 则所述主节点 服务器上报所述运维平台进行告警。

[0010] 可选地, 所述方法还包括:

[0011] 所述主节点服务器自动生成告警模板, 并下发到所述从节点服务器、 以及上报 至所述运维平台;

[0012] 所述运维平台将所述告警模板上报至用户端。

[0013] 可选地, 在所述主节点服务器在运维模板中选择与被监 控主机对应的模板参数 之前, 所述方法还包括:

[0014] 所述运维平台接收用户端配置的运维模板;

[0015] 所述运维平台将所述运维模板保存至所述主节 点服务器。

[0016] 可选地, 所述模板参数包括中央处理器占用率, 内存使用、 网络输入 /输出、 硬盘输入 /输出、 硬盘剩余空间、 网络连接数、 重要服务端口监听情况、 以及部 署的专用软件的自身各类参数使用情况。

[0017] 此外, 为实现上述目的, 本发明还提供一种服务器监控系统, 所述系统包括主 节点服务器、 至少一个被监控主机、 与所述监控主机对应的从节点服务器、 以 及运维平台, 其中,

[0018] 所述主节点服务器, 设置为在运维模板中选择与所述被监控主机对 应的模板参 数, 并将所述模板参数发送至与所述被监控主机对 应的所述从节点服务器; [0019] 所述从节点服务器, 设置为根据所述被监控主机产生的数据与所述 模板参数进 行比对, 当所述被监控主机产生的数据符合所述模板参 数吋, 则上报所述数据 至所述主节点服务器;

[0020] 所述主节点服务器, 还设置为将所述数据上报至运维平台。

[0021] 可选地, 所述主节点服务器, 还设置为将在预定吋间段内多次接收从节点服 务 器上报的数据生成告警参数值, 并判断所述告警参数值是否小于异常边界值, 若是, 则上报所述运维平台进行告警。

[0022] 可选地, 所述主节点服务器, 还设置为自动生成告警模板, 并下发到所述从节 点服务器、 以及上报至所述运维平台; [0023] 所述运维平台, 设置为将所述告警模板上报至用户端。

[0024] 可选地, 所述运维平台, 还设置为接收用户端配置的运维模板, 以及将所述运 维模板保存至所述主节点服务器。

[0025] 可选地, 所述模板参数包括中央处理器占用率, 内存使用、 网络输入 /输出、 硬盘输入 /输出、 硬盘剩余空间、 网络连接数、 重要服务端口监听情况、 以及部 署的专用软件的自身各类参数使用情况。

发明的有益效果

有益效果

[0026] 本发明提出的服务器监控方法及系统, 通过主节点服务器在运维模板中选择与 被监控主机对应的模板参数, 并将模板参数发送至与被监控主机对应的从节 点 服务器, 从节点服务器根据被监控主机产生的数据与模 板参数进行比对, 当被 监控主机产生的数据符合模板参数吋, 从节点服务器上报数据至主节点服务器 , 主节点服务器将数据上报至运维平台。 从而减少了不同类型的服务器在运维 系统中运维参数获取的复杂性, 通过主从节点服务器的部署方式, 来进行系统 的运维统一化管理, 通过模板的使用, 来进行同类服务器运维的一致性处理, 通过模板的继承, 灵活处理同类型运维参数的差异化。

对附图的简要说明

附图说明

[0027] 图 1为本发明第一实施例提供的服务器监控方法 流程示意图;

[0028] 图 2为本发明较佳实施例提供的服务器监控方法 示例示意图;

[0029] 图 3为本发明第二实施例提供的服务器监控方法 流程示意图;

[0030] 图 4为本发明第三实施例提供的服务器监控方法 流程示意图;

[0031] 图 5为本发明第四实施例提供的服务器监控系统 架构示意图。

[0032] 本发明目的的实现、 功能特点及优点将结合实施例, 参照附图做进一步说明。

本发明的实施方式

[0033] 下面详细描述本发明的实施例, 所述实施例的示例在附图中示出, 其中自始至 终相同或类似的标号表示相同或类似的元件或 具有相同或类似功能的元件。 下 面通过参考附图描述的实施例是示例性的, 旨在设置为解释本发明, 而不能理 解为对本发明的限制。

[0034] 请参照图 1, 为本发明较佳实施例提供的服务器监控方法的 流程示意图, 所述 方法包括步骤:

[0035] 步骤 110, 主节点服务器在运维模板中选择与被监控主机 对应的模板参数, 并 将所述模板参数发送至与所述被监控主机对应 的从节点服务器。

[0036] 具体地, 在运维平台中, 独立部署一个主节点服务器, 多台被监控主机, 每台 被监控主机作为被监控端, 并在每台被监控主机上独立部署从节点服务器 , 来 连接主节点服务器, 以即吋响应主节点服务器上下发的运维参数指 令, 并即吋 上报运维数据和告警。

[0037] 主节点服务器上配置有运维模板, 该运维模板中具有与每个被监控主机对应的 模板参数, 从而主节点服务器选择与被监控主机对应的模 板参数, 并将该模板 参数发送至监控被监控主机的从节点服务器。

[0038] 进一步地, 模板参数至少包括: 中央处理器 (Central Processing Unit, CPU) 占用率, 内存使用、 网络输入 /输出 (10) 、 硬盘输入 /输出 (10) 、 硬盘剩余空 间、 网络连接数、 重要服务端口监听情况、 以及部署的专用软件的自身各类参 数使用情况。

[0039] 进一步地, 由于目前服务器的多样性, 不同类型的从节点服务器需要监控的参 数不同, 例如: 流媒体转发服务器只需要关注 CPU占用率, 内存使用、 网络 10

、 网络连接数以及服务本身的业务参数, 而存储服务器可能会关注的不同, 重 点关注网络 10、 硬盘 10、 硬盘剩余空间和自身业务参数。

[0040] 进一步地, 主干节点的被监控主机和边缘节点的被监控主 机需要监控的参数不 同。

[0041] 进一步地, 通过从节点服务器获取对应被监控主机的数据 。

[0042] 进一步地, 从节点服务器和主节点服务器具有统一的接口 协议, 以保证通讯的 一致性。

[0043] 步骤 120, 所述从节点服务器根据所述被监控主机产生的 数据与所述模板参数 进行比对, 当所述被监控主机产生的数据符合所述模板参 数吋, 所述从节点服 务器上报所述数据至所述主节点服务器。

[0044] 具体地, 从节点服务器获取对应被监控主机的数据, 并将获取的数据与模板参 数进行比对, 当符合模板参数吋, 说明出现异常数据, 并将被监控主机的运维 数据上报至主节点服务器。

[0045] 示例性地, 如图 2所示, 机房模板参数包括 CPU占用率、 内存占用、 网络 10、 硬盘 10、 硬盘剩余空间、 网络连接数、 重要服务端口状态等, 每个运维参数设 置对应的告警阈值为: al-a6。

[0046] 机房中的被监控主机包括智能分析服务器、 存储服务器和流媒体转发服务器。

其中, 智能分析服务器的模板参数包括 CPU占用率和内存占用, 对应的告警阈值 为: bl-b2。 存储服务器的模板参数包括 CPU占用率、 内存占用、 网络 10、 硬盘 I 0、 硬盘剩余空间和网络连接参数, 对应的告警阈值为: cl-c6。 流媒体转发服务 器的模板参数包括 CPU占用率、 内存占用、 网络 10和网络连接数, 对应的告警 阈值为: dl-d4。 流媒体转发服务器还包括边缘节点的服务器: 核心网流媒体转 发服务器、 主干网流媒体转发服务器、 边缘流媒体转发服务器。 其中, 核心网 流媒体转发服务器的模板参数包括 CPU占用率、 内存占用、 网络 10和网络连接 数, 对应的告警阈值为: dl l-dl4。 主干网流媒体转发服务器的模板参数包括 CP U占用率、 内存占用、 网络 10和网络连接数, 对应的告警阈值为: d21-d24。 边 缘流媒体转发服务器的模板参数包括 CPU占用率、 内存占用、 网络 10和网络连 接数, 对应的告警阈值为: d31-d34。 在该示例中, 与边缘节点的服务器相比, 流媒体转发服务器为主干节点的服务器。

[0047] 若将主干节点的流媒体转发服务器的模板参数 dl设置为 40%, 则当从节点服务 器获取的主干节点的流媒体转发服务器的 CPU占用率大于 40%吋, 则产生告警并 上报数据至主节点服务器。 而边缘流媒体转发服务器的模板参数 d31可以设置为 30% , 则当从节点服务器获取的边缘流媒体转发服务 器的 CPU占用率大于 30%吋 , 则产生告警并上报数据至主节点服务器。 也就是说, 在主干节点服务器的基 础上配置边缘节点服务器吋, 只要选择将主干节点的大部门模板参数继承到 边 缘节点的模板参数即可, 而其他服务器的模板参数不需要改动, 最大程度上降 低了工作量。

[0048] 步骤 130, 所述主节点服务器将所述数据上报至运维平台 。

[0049] 具体地, 主节点服务器将接收的数据上报至运维平台, 运维平台再将数据上报 至用户端, 使操作者通过用户端处理数据。

[0050] 本实施例的服务器监控方法, 通过主节点服务器在运维模板中选择与被监控 主 机对应的模板参数, 并将模板参数发送至与被监控主机对应的从节 点服务器, 从节点服务器根据被监控主机产生的数据与模 板参数进行比对, 当被监控主机 产生的数据符合模板参数吋, 从节点服务器上报数据至主节点服务器, 主节点 服务器将数据上报至运维平台。 从而减少了不同类型的服务器在运维系统中运 维参数获取的复杂性, 通过主从节点服务器的部署方式, 来进行系统的运维统 一化管理, 通过模板的使用, 来进行同类服务器运维的一致性处理, 通过模板 的继承, 灵活处理同类型运维参数的差异化。

[0051] 请参照图 3, 本发明第二实施例进一步提供一种服务器监控 方法, 所述方法包 括:

[0052] 步骤 310, 主节点服务器在运维模板中选择与被监控主机 对应的模板参数, 并 将所述模板参数发送至与所述被监控主机对应 的从节点服务器。

[0053] 步骤 320, 所述从节点服务器根据所述被监控主机产生的 数据与所述模板参数 进行比对, 当所述被监控主机产生的数据符合所述模板参 数吋, 所述从节点服 务器上报所述数据至所述主节点服务器。

[0054] 步骤 330, 所述主节点服务器将所述数据上报至运维平台 。

[0055] 上述步骤 310-330的内容与第一实施例的步骤 110-13-的内容相同, 对于相同的 内容, 本实施例则不再赘述。

[0056] 步骤 340, 所述主节点服务器将在预定吋间段内多次接收 从节点服务器上报的 数据生成告警参数值, 并判断所述告警参数值是否小于异常边界值, 若是, 则 进入步骤 350。

[0057] 具体地, 从节点服务器获取的运维参数值 X可以抽象化看作近似符合高斯分布

(如果运维参数曲线非对称, 则可以使用 logX来代替 X进行处理, 使曲线尽量趋 于高斯分布) , 可以通过产生的历史运维数据来自动生成模板 , 来判断是否需 要上报告警。

[0058] 假如一段吋间 T内, 运维参数 xi产生 t条数据 {x(l), X (2),...,x(t)}条, 假设共有 j种运 维参数参与判断计算。

[0059] 运行过程中取平均值 uj:

[0060] 取标准差 oj:

[0061] 对告警参数值建立建立高斯函数:

】. ¾ ¾ ™ : -.„_ " Λ '

[0062] 根据从节点服务器上报至主节点服务器的历史 采样的 η条正常值 (剔除采样吋 间段内的所有异常值) , 判断异常边界值 s,

[0063] =腾 / ( .....

[0064] 判断所述告警参数值 f(x)是否小于异常边界值 s, 若是, 则进入步骤 350。

[0065] 步骤 350, 主节点服务器上报所述运维平台进行告警。

[0066] 具体地, 当 f(x)<s吋, 则主节点服务器可以判断运维机器产生异常, 并上报至 主节点服务器进行告警。

[0067] 步骤 360, 所述主节点服务器自动生成告警模板, 并下发到所述从节点服务器 、 以及上报至所述运维平台。

[0068] 具体地, 根据从节点服务器上报的告警数据自动生成告 警模板, 并下发到从节 点服务器上, 以及上报至运维平台。

[0069] 进一步地, 主节点服务器可通过 XML的数据承载方式以 TCP协议直接下发到从 节点服务器上即吋生效, 保障运维数据和告警获取的即吋性。

[0070] 进一步地, 自动告警模板的生成是周期性的, 每隔一段吋间 T才会通过更大的 采样数据来计算, 避免多次计算的压力。

[0071] 进一步地, 当主节点服务器将告警模板下发至从节点服务 器后, 则 T自动清零

[0072] 进一步地, 主节点服务器一般不主动连接从节点服务器, 只有运维参数需要改 变吋主节点服务器才会主动与从节点服务器下 发信令。

[0073] 步骤 370, 运维平台将所述告警模板上报至用户端。

[0074] 本实施例的服务器监控方法, 通过主节点服务器将在预定吋间段内多次接收 从 节点服务器上报的数据生成告警参数值, 并在告警参数值小于异常边界值吋, 主节点服务器上报运维平台进行告警, 主节点服务器自动生成告警模板, 并自 动更新模板参数, 从而达到简化操作的目的。

[0075] 请参照图 4, 本发明第三实施例进一步提供一种服务器监控 方法。 在第四实施 例中, 所述服务器监控方法是在第一实施例和第二实 施例的基础上做出的进一 步改进, 区别仅在于, 在步骤 110或者步骤 310之前, 还包括以下步骤:

[0076] 步骤 410, 运维平台接收用户端配置的运维模板。

[0077] 具体地, 操作者通过用户端配置运维模板, 用户端将运维模板上传至运维平台 , 使运维平台接收该运维模板。

[0078] 主节点服务器上可手动或者自动配置从节点服 务器的模板, 同类型的被监控主 机可使用一个监控模板, 模板包括该类型服务器所需要的监控参数。 对不同类 型的被监控主机主机设置不同的运维模板, 模板里规定了被监控主机里的运维 参数, 包括硬件性能参数、 和部署的软件服务参数。 通过模板参数的设置, 规 定了被监控主机的运维数据是否上报, 包括告警阈值、 以及历史运维数据是否 存储等。

[0079] 主节点服务器上配置的手动模板可以继承, 当需要增加不同的服务器吋, 如果 和已有模板只有少量改动, 则可以继承原来模板大部分参数, 只需要修改少量 参数即可生成新的子模板, 模板以树状结构继承。

[0080] 运维的模板参数除了手动配置外, 也可自动通过历史运维数据来产生新的模板 , 来达到运维参数的最优化配置。

[0081] 步骤 420, 运维平台将所述运维模板保存至所述主节点服 务器。

[0082] 具体地, 在用户端配置运维模板吋, 需要先判断是否使用与边缘节点服务器对 应的子模板, 若使用, 则继承主模板参数来配置子模板参数, 若不使用, 则直 接将运维模板的参数保存至主节点服务器。

[0083] 进一步地, 当运维策略参数需要修改优化吋, 直接在运维平台上修改运维模板

, 并在指令发送到主节点服务器后, 主节点服务器就能直接与从节点服务器通 信, 即吋修改运维模板参数并生效。

[0084] 本实施例的服务器监控方法, 运维平台通过配置运维模板并将运维模板保证 至 主节点服务器上, 通过使用运维模板, 来进行同类服务器运维的一致性处理, 通过模板的继承, 灵活处理同类型运维参数的差异化。

[0085] 请参照图 5, 本发明第四实施例提供一种服务器监控系统, 该系统包括: 运维 平台 510、 与运维平台 510连接的用户端 520和主节点服务器 530、 该主节点服务 器 530与至少一个从节点服务器 540通信连接。 每个从节点服务器 540均对应一个 被监控主机 (图未示) 。

[0086] 主节点服务器 530, 设置为在运维模板中选择与被监控主机对应的 模板参数, 并将所述模板参数发送至与所述被监控主机对 应的从节点服务器 540。

[0087] 具体地, 在运维平台 510中, 独立部署一个主节点服务器 530, 多台被监控主机

, 每台被监控主机作为被监控端, 并在每台被监控主机上独立部署从节点服务 器 540, 来连接主节点服务器 530, 以即吋响应主节点服务器 530上下发的运维参 数指令, 并即吋上报运维数据和告警。

[0088] 主节点服务器 530上配置有运维模板, 该运维模板中具有与每个被监控主机对 应的模板参数, 从而主节点服务器 530选择与被监控主机对应的模板参数, 并将 该模板参数发送至监控被监控主机的从节点服 务器 540。

[0089] 进一步地, 模板参数至少包括: 中央处理器 (Central Processing Unit, CPU) 占用率, 内存使用、 网络输入 /输出 (10) 、 硬盘输入 /输出 (10) 、 硬盘剩余空 间、 网络连接数、 重要服务端口监听情况、 以及部署的专用软件的自身各类参 数使用情况。 [0090] 进一步地, 由于目前服务器的多样性, 不同类型的从节点服务器 540需要监控 的参数不同, 例如: 流媒体转发服务器只需要关注 CPU占用率, 内存使用、 网络 10、 网络连接数以及服务本身的业务参数, 而存储服务器可能会关注的不同, 重点关注网络 10、 硬盘 10、 硬盘剩余空间和自身业务参数。

[0091] 进一步地, 主干节点的被监控主机和边缘节点的被监控主 机需要监控的参数不 同。

[0092] 进一步地, 通过从节点服务器 540获取对应被监控主机的数据。

[0093] 进一步地, 从节点服务器 540和主节点服务器 530具有统一的接口协议, 以保证 通讯的一致性。

[0094] 从节点服务器 540, 设置为根据所述被监控主机产生的数据与所述 模板参数进 行比对, 当所述被监控主机产生的数据符合所述模板参 数吋, 所述从节点服务 器 540上报所述数据至所述主节点服务器 530。

[0095] 具体地, 从节点服务器 540获取对应被监控主机的数据, 并将获取的数据与模 板参数进行比对, 当符合模板参数吋, 说明出现异常数据, 并将被监控主机的 运维数据上报至主节点服务器 530。

[0096] 示例性地, 如图 2所示, 机房模板参数包括 CPU占用率、 内存占用、 网络 10、 硬盘 10、 硬盘剩余空间、 网络连接数、 重要服务端口状态等, 每个运维参数设 置对应的告警阈值为: al-a6。

[0097] 机房中的被监控主机包括智能分析服务器、 存储服务器和流媒体转发服务器。

其中, 智能分析服务器的模板参数包括 CPU占用率和内存占用, 对应的告警阈值 为: bl-b2。 存储服务器的模板参数包括 CPU占用率、 内存占用、 网络 10、 硬盘 I 0、 硬盘剩余空间和网络连接参数, 对应的告警阈值为: cl-c6。 流媒体转发服务 器的模板参数包括 CPU占用率、 内存占用、 网络 10和网络连接数, 对应的告警 阈值为: dl-d4。 流媒体转发服务器还包括边缘节点的服务器: 核心网流媒体转 发服务器、 主干网流媒体转发服务器、 边缘流媒体转发服务器。 其中, 核心网 流媒体转发服务器的模板参数包括 CPU占用率、 内存占用、 网络 10和网络连接 数, 对应的告警阈值为: dl l-dl4。 主干网流媒体转发服务器的模板参数包括 CP U占用率、 内存占用、 网络 10和网络连接数, 对应的告警阈值为: d21-d24。 边 缘流媒体转发服务器的模板参数包括 CPU占用率、 内存占用、 网络 10和网络连 接数, 对应的告警阈值为: d31-d34。 在该示例中, 与边缘节点的服务器相比, 流媒体转发服务器为主干节点的服务器。

[0098] 若将主干节点的流媒体转发服务器的模板参数 dl设置为 40%, 则当从节点服务 器 540获取的主干节点的流媒体转发服务器的 CPU占用率大于 40%吋, 则产生告 警并上报数据至主节点服务器 530。 而边缘流媒体转发服务器的模板参数 d31可 以设置为 30%, 贝 1」当从节点服务器 540获取的边缘流媒体转发服务器的 CPU占用 率大于 30%吋, 则产生告警并上报数据至主节点服务器 530。 也就是说, 在主干 节点服务器的基础上配置边缘节点服务器吋, 只要选择将主干节点的大部门模 板参数继承到边缘节点的模板参数即可, 而其他服务器的模板参数不需要改动 , 最大程度上降低了工作量。

[0099] 主节点服务器 530, 还设置为将所述数据上报至运维平台 510。

[0100] 具体地, 主节点服务器 530将接收的数据上报至运维平台 510, 运维平台 510再 将数据上报至用户端 520, 使操作者通过用户端 520处理数据。

[0101] 主节点服务器 530, 还设置为将在预定吋间段内多次接收从节点服 务器 540上报 的数据生成告警参数值, 并判断所述告警参数值是否小于异常边界值, 若是, 则上报所述运维平台 510进行告警。

[0102] 具体地, 从节点服务器 540获取的运维参数值 X可以抽象化看作近似符合高斯分 布 (如果运维参数曲线非对称, 则可以使用 logX来代替 X进行处理, 使曲线尽量 趋于高斯分布) , 可以通过产生的历史运维数据来自动生成模板 , 来判断是否 需要上报告警。

[0103] 假如一段吋间 T内, 运维参数 xi产生 t条数据 {x(l), X (2),...,x(t)}条, 假设共有 j种运 维参数参与判断计算。

[0104] 运行过程中取平均值 uj:

[0105] 取标准差 oj:

[0106] 对告警参数值建立建立高斯函数:

[0107] 根据从节点服务器 540上报至主节点服务器 530的历史采样的 n条正常值 (剔除 采样吋间段内的所有异常值) , 判断异常边界值 s,

[0108]

^ =滅 /難

[0109] 判断所述告警参数值 f(x)是否小于异常边界值 s, 若是, 则上报所述运维平台 51 0进行告警。

[0110] 更具体地, 当 f(x)<s吋, 则主节点服务器 530可以判断运维机器产生异常, 并上 报至主节点服务器 530进行告警。

[0111] 主节点服务器 530, 还设置为自动生成告警模板, 并下发到所述从节点服务器 5 40、 以及上报至所述运维平台 510。

[0112] 具体地, 根据从节点服务器 540上报的告警数据自动生成告警模板, 并下发到 从节点服务器 540上, 以及上报至运维平台 510。

[0113] 进一步地, 主节点服务器 530可通过 XML的数据承载方式以 TCP协议直接下发 到从节点服务器 540上即吋生效, 保障运维数据和告警获取的即吋性。

[0114] 进一步地, 自动告警模板的生成是周期性的, 每隔一段吋间 T才会通过更大的 采样数据来计算, 避免多次计算的压力。

[0115] 进一步地, 当主节点服务器 530将告警模板下发至从节点服务器 540后, 则 T自

[0116] 进一步地, 主节点服务器 530—般不主动连接从节点服务器 540, 只有运维参数 需要改变吋主节点服务器 530才会主动与从节点服务器 540下发信令。 [0117] 运维平台 510, 设置为将所述告警模板上报至用户端 520。

[0118] 运维平台 510, 还设置为接收用户端 520配置的运维模板、 以及将所述运维模板 保存至所述主节点服务器 530。

[0119] 具体地, 操作者通过用户端 520配置运维模板, 用户端 520将运维模板上传至运 维平台 510, 使运维平台 510接收该运维模板。

[0120] 主节点服务器 530上可手动或者自动配置从节点服务器 540的模板, 同类型的被 监控主机可使用一个监控模板, 模板包括该类型服务器所需要的监控参数。 对 不同类型的被监控主机主机设置不同的运维模 板, 模板里规定了被监控主机里 的运维参数, 包括硬件性能参数、 和部署的软件服务参数。 通过模板参数的设 置, 规定了被监控主机的运维数据是否上报, 包括告警阈值、 以及历史运维数 据是否存储等。

[0121] 主节点服务器 530上配置的手动模板可以继承, 当需要增加不同的服务器吋, 如果和已有模板只有少量改动, 则可以继承原来模板大部分参数, 只需要修改 少量参数即可生成新的子模板, 模板以树状结构继承。

[0122] 运维的模板参数除了手动配置外, 也可自动通过历史运维数据来产生新的模板 , 来达到运维参数的最优化配置。

[0123] 在用户端 520配置运维模板吋, 需要先判断是否使用与边缘节点服务器对应的 子模板, 若使用, 则继承主模板参数来配置子模板参数, 若不使用, 则直接将 运维模板的参数保存至主节点服务器 530。

[0124] 进一步地, 当运维策略参数需要修改优化吋, 直接在运维平台 510上修改运维 模板, 并在指令发送到主节点服务器 530后, 主节点服务器 530就能直接与从节 点服务器 540通信, 即吋修改运维模板参数并生效。

[0125] 本实施例的服务器监控系统, 通过主节点服务器 530在运维模板中选择与被监 控主机对应的模板参数, 并将模板参数发送至与被监控主机对应的从节 点服务 器 540, 从节点服务器 540根据被监控主机产生的数据与模板参数进行 比对, 当 被监控主机产生的数据符合模板参数吋, 从节点服务器 540上报数据至主节点服 务器 530, 主节点服务器 530将数据上报至运维平台 510。 从而减少了不同类型的 服务器在运维系统中运维参数获取的复杂性, 通过主从节点服务器的部署方式 , 来进行系统的运维统一化管理, 通过模板的使用, 来进行同类服务器运维的 一致性处理, 通过模板的继承, 灵活处理同类型运维参数的差异化。

[0126] 需要说明的是, 在本文中, 术语"包括"或者其任何其他变体意在涵盖非排 性 的包含, 从而使得包括一系列要素的过程、 方法、 物品或者系统不仅包括那些 要素, 而且还包括没有明确列出的其他要素, 或者是还包括为这种过程、 方法 、 物品或者系统所固有的要素。 在没有更多限制的情况下, 由语句 "包括一个… …"限定的要素, 并不排除在包括该要素的过程、 方法、 物品或者系统中还存在 另外的相同要素。

[0127] 上述本发明实施例序号仅仅为了描述, 不代表实施例的优劣。

[0128] 通过以上的实施方式的描述, 本领域的技术人员可以清楚地了解到上述实施 例 方法可借助软件加必需的通用硬件平台的方式 来实现, 当然也可以通过硬件, 但很多情况下前者是更佳的实施方式。 基于这样的理解, 本发明的技术方案本 质上或者说对现有技术做出贡献的部分可以以 软件产品的形式体现出来, 该计 算机软件产品存储在一个存储介质 (如 ROM/RAM、 磁碟、 光盘) 中, 包括若干 指令用以使得一台终端设备 (可以是手机, 计算机, 服务器, 空调器, 或者网 络设备等) 执行本发明各个实施例所述的方法。

[0129] 以上仅为本发明的优选实施例, 并非因此限制本发明的专利范围, 凡是利用本 发明说明书及附图内容所作的等效结构或等效 流程变换, 或直接或间接运用在 其他相关的技术领域, 均同理包括在本发明的专利保护范围内。

工业实用性

[0130] 本发明提出的服务器监控方法及系统, 通过主节点服务器在运维模板中选择与 被监控主机对应的模板参数, 并将模板参数发送至与被监控主机对应的从节 点 服务器, 从节点服务器根据被监控主机产生的数据与模 板参数进行比对, 当被 监控主机产生的数据符合模板参数吋, 从节点服务器上报数据至主节点服务器 , 主节点服务器将数据上报至运维平台。 从而减少了不同类型的服务器在运维 系统中运维参数获取的复杂性, 通过主从节点服务器的部署方式, 来进行系统 的运维统一化管理, 通过模板的使用, 来进行同类服务器运维的一致性处理, 通过模板的继承, 灵活处理同类型运维参数的差异化。