Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DATA PROCESSING METHOD AND DEVICE
Document Type and Number:
WIPO Patent Application WO/2014/206227
Kind Code:
A1
Abstract:
A data processing method and device, which relate to the technical field of data processing and can avoid complex mode integration required after a log event library is divided according to the fixed duration to conduct mining. The method comprises: dividing a log event library according to the first duration to obtain at least one log sequence which is continuous in the time sequence; determining a log sequence which is ranked first in the time sequence in the log sequences as a homing sequence, and starting from the homing sequence, judging the number of events contained in the current log sequence in sequence; if the number of events in the current log sequence is less than the number of first preset events, determining sub-sequence libraries; and respectively analysing and processing each sub-sequence library to obtain an analysis result respectively corresponding to each sub-sequence library. The data processing method and device are mainly applied in a data processing process.

Inventors:
FU XIAOYU (CN)
REN RUI (CN)
ZHAN JIANFENG (CN)
Application Number:
PCT/CN2014/080158
Publication Date:
December 31, 2014
Filing Date:
June 18, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
HUAWEI TECH CO LTD (CN)
International Classes:
G06F11/34
Foreign References:
CN101888309A2010-11-17
CN1804844A2006-07-19
US20080301200A12008-12-04
Download PDF:
Claims:
权 利 要 求

1、 一种数据处理的方法, 其特征在于, 包括:

根据第一时长对日志事件库进行划分,得到在时序上连续的至少一个曰志 序列, 其中, 一个日志序列为一个第一时长内发生的日志事件的有序集合; 将所述日志序列中时序上排列第一的日志序列确定为起始序列,从所述起 始序列开始依次判断当前日志序列包含的事件数量;

如果当前日志序列中的事件数量小于第一预设事件数量,则将所述当前曰 志序列确定为终止序列;

将所述起始序列、所述终止序列以及所述起始序列与所述终止序列之间的 日志序列三者的有序集合确定为子序列库,将所述终止序列的下一个序列确定 为起始序列, 继续进行判断, 或者, 将所述起始序列以及所述起始序列与所述 终止序列之间的日志序列两者的有序集合确定为子序列库,将所述终止序列确 定为起始序列, 继续进行判断;

分别对每个子序列库进行分析处理,得到与每个子序列库分别对应的分析 结果,所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第 一频繁序列在所述子序列库中出现的次数,所述第一频繁序列为日志序列中至 少两次出现的有序集合。

2、 根据权利要求 1所述的数据处理的方法, 其特征在于, 所述方法还包 括:

根据第二时长分别对所述子序列库中每个日志序列进行分片,得到在时序 上连续的至少一个短日志序列, 其中, 一个短日志序列为一个第二时长内发生 的曰志事件的有序集合;

根据预设规则从每个短日志序列中确定重叠子序列,从所述至少一个短曰 志序列中的第一个短日志序列开始,将当前短日志序列的重叠子序列拼接到当 前短日志序列的下一个短日志序列中 ,将拼接后的下一个短日志序列确定为第 二子序列, 其中, 重叠子序列为以当前短日志序列时间截止点为截止点的至少 一个日志事件的有序集合;

所述分别对每个子序列库进行分析处理,得到与每个子序列库分别对应的 分析结果,所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每 个第一频繁序列在所述子序列库中出现的次数,所述第一频繁序列为日志序列 中至少两次出现的有序集合, 包括:

分别对每个子序列库中的全部第二子序列进行分析处理,得到与每个子序 列库分别对应的分析结果,所述分析结果用于表示一个子序列库中的全部第二 频繁序列以及每个第二频繁序列在所述子序列库中出现的次数,所述第二频繁 序列为短日志序列中至少两次出现的有序集合;

如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的 重叠子序列, 则将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。

3、 根据权利要求 2所述的数据处理的方法, 其特征在于, 所述根据预设 规则从每个短日志序列中确定重叠子序列,从所述至少一个短日志序列中的第 一个短日志序列开始,将当前短日志序列的重叠子序列拼接到当前短日志序列 的下一个短日志序列中,将拼接后的下一个短日志序列确定为第二子序列, 包 括:

从第一个短日志序列开始,依次在当前短日志序列中,从当前短日志序列 时间截止点向当前短日志序列时间起始点方向,选择预设时长内的有序集合或 第二预设事件数量的有序集合, 其中, 所述预设时长为第二时长的预设比例的 时长,所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比 例的事件数量;

将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所 述当前短日志序列对应的重叠子序列;

从第一个短日志序列开始,依次将当前短日志序列对应的重叠子序列拼接 到所述当前段日志序列的下一个短日志序列的起始位置,所述重叠子序列与所 述下一个短日志序列组成一个第二子序列。 4、 根据权利要求 2所述的数据处理的方法, 其特征在于, 所述如果所述 至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列,则 将所述两个第二频繁序列进行拼接, 包括:

从所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始, 依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中,从当前第 二频繁序列时间截止点向当前第二频繁序列时间起始点方向,选择预设时长内 的有序集合或第二预设事件数量的有序集合,将所述预设时长内的有序集合或 第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频 繁序列, 其中, 所述预设时长为第二时长的预设比例的时长, 所述第二预设数 量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量;

从所述至少一个第二频繁序列中查找出具有相同重叠频繁序列的至少两 个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

5、 根据权利要求 2所述的数据处理的方法, 其特征在于, 所述如果所述 至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列,则 将所述两个第二频繁序列进行拼接, 包括:

从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始, 依次在当前第二频繁序列到时序上排列最后的第二频繁序列中,从当前第二频 繁序列时间起始点向当前第二频繁序列时间截止点方向,选择所述预设时长内 的第三有序集合或所述第二预设事件数量的第四有序集合,将所述第三有序集 合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列; 从所述至少一个第二频繁序列中的查找出具有相同重叠频繁序列的至少 两个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

6、 一种数据处理的装置, 其特征在于, 包括:

划分单元, 用于根据第一时长对日志事件库进行划分,得到在时序上连续 的至少一个日志序列, 其中, 一个日志序列为一个第一时长内发生的日志事件 的有序集合; 第一确定单元,用于将所述划分单元划分的所述日志序列中时序上排列第 一的日志序列确定为起始序列;

判断单元,用于从所述第一确定单元确定的所述起始序列开始依次判断当 前曰志序列包含的事件数量;

第二确定单元,用于当所述判断单元判断出当前日志序列中的事件数量小 于第一预设事件数量时, 将所述当前日志序列确定为终止序列;

第三确定单元, 用于将所述第一确定单元确定的所述起始序列、所述第二 确定单元确定的所述终止序列以及所述起始序列与所述终止序列之间的日志 序列三者的有序集合确定为子序列库,所述第一确定单元还用于将所述终止序 列的下一个序列确定为起始序列, 所述判断单元还用于继续进行判断;

所述第三确定单元,还用于将所述第一确定单元确定的所述起始序列以及 所述第二确定单元确定的所述起始序列与所述终止序列之间的日志序列两者 的有序集合确定为子序列库,所述第一确定单元还用于将所述终止序列确定为 起始序列, 所述判断单元还用于继续进行判断;

分析单元,用于分别对所述第三确定单元确定的每个子序列库进行分析处 理,得到与每个子序列库分别对应的分析结果, 所述分析结果用于表示一个子 序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现 的次数, 所述第一频繁序列为日志序列中至少两次出现的有序集合。

7、 根据权利要求 6所述的数据处理的装置, 其特征在于, 所述装置还包 括:

分片单元 ,用于根据第二时长分别对所述第三单元确定的所述子序列库中 每个日志序列进行分片, 得到在时序上连续的至少一个短日志序列, 其中, 一 个短日志序列为一个第二时长内发生的日志事件的有序集合;

第四确定单元,用于根据预设规则从所述分片单元得到的每个短日志序列 中确定重叠子序列;

第一拼接单元,用于从所述至少一个短日志序列中的第一个短日志序列开 始,将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序 列中, 将拼接后的下一个短日志序列确定为第二子序列, 其中, 重叠子序列为 以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合; 所述分析单元还用于,分别对所述第一拼接单元得到的每个子序列库中的 全部第二子序列进行分析处理,得到与每个子序列库分别对应的分析结果, 所 述分析结果用于表示一个子序列库中的全部第二频繁序列以及每个第二频繁 序列在所述子序列库中出现的次数,所述第二频繁序列为短日志序列中至少两 次出现的有序集合;

第二拼接单元,用于当所述分析单元得到的所述至少一个第二频繁序列中 的至少两个第二频繁序列具有相同的重叠子序列时 ,将所述至少两个第二频繁 序列在所述重叠子序列处进行拼接。

8、 根据权利要求 7所述的数据处理的装置, 其特征在于, 所述第四确定 单元还包括:

第一选择子单元, 用于从所述分片单元得到的第一个短日志序列开始,依 次在当前短日志序列中,从当前短日志序列时间截止点向当前短日志序列时间 起始点方向,选择预设时长内的有序集合或第二预设事件数量的有序集合, 其 中, 所述预设时长为第二时长的预设比例的时长, 所述第二预设数量为所述当 前短日志序列包含的日志事件数量的预设比例的事件数量;

确定子单元,用于将所述第一选择子单元选择的所述预设时长内的有序集 合或第二预设事件数量的有序集合确定为所述当前短日志序列对应的重叠子 序列;

所述第一拼接单元还用于,从第一个短日志序列开始,依次将所述确定子 单元确定的当前短日志序列对应的重叠子序列拼接到所述当前段日志序列的 下一个短日志序列的起始位置,所述重叠子序列与所述下一个短日志序列组成 一个第二子序列。

9、 根据权利要求 7所述的数据处理的装置, 其特征在于, 所述第二拼接 单元, 包括:

第二子选择单元,用于从所述第四确定单元确定的所述至少一个第二频繁 序列中的时序上排列第一的第二频繁序列开始,依次在当前第二频繁序列至时 序上排列倒数第二的第二频繁序列中,从当前第二频繁序列时间截止点向当前 第二频繁序列时间起始点方向,选择预设时长内的有序集合或第二预设事件数 量的有序集合,将所述预设时长内的有序集合或第二预设事件数量的有序集合 确定为与所述当前第二频繁序列对应的重叠频繁序列, 其中, 所述预设时长为 第二时长的预设比例的时长,所述第二预设数量为所述当前短日志序列包含的 曰志事件数量的预设比例的事件数量;

第一拼接子单元,用于从所述至少一个第二频繁序列中查找出具有相同的 所述第二子选择单元选择的重叠频繁序列的至少两个第二频繁序列,将所述至 少两个第二频繁序列进行拼接。

10、 根据权利要求 7所述的数据处理的装置, 其特征在于, 所述第二拼接 单元还包括:

第三选择子单元,用于从所述至少一个第二频繁序列中的时序上排列第二 的第二频繁序列开始,依次在当前第二频繁序列到时序上排列最后的第二频繁 序列中, 从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方 向,选择所述预设时长内的第三有序集合或所述第二预设事件数量的第四有序 集合,将所述第三有序集合或所述第四有序集合确定为与所述当前第二频繁序 列对应的重叠频繁序列;

第二拼接子单元,用于从所述至少一个第二频繁序列中的查找出具有相同的所 述第二子选择单元选择的重叠频繁序列的至少两个第二频繁序列,将所述至少 两个第二频繁序列进行拼接。

Description:
数据处理的方法及装置 本申请要求于 2013 年 06 月 28 日提交中国专利局、 申请号为 201310270678.7、 发明名称为"数据处理的方法及装置,,的中 专利申请的优先 权, 其全部内容通过引用结合在本申请中。 技术领域

本发明涉及数据处理技术领域, 尤其涉及一种数据处理的方法及装置。 背景技术

随着集群系统、云计算数据中心等平台的规模 逐渐增长和计算任务日益复 杂, 系统故障造成的业务中断、 数据泄漏丟失带给用户的打击越来越沉重。 当 故障发生后,如何进行快速精确的故障诊断成 为当务之急。 系统的日志中记载 了系统运行过程中发生的事件, 包括操作系统、 内核、 网络、 硬件、 应用程序 或用户行为等, 是进行系统故障诊断的首选资源。 通过对日志进行数据处理, 能够从日志中找出导致失效事件的根原因事件 (Root caus e ), 以便及时解决 系统故障。

现有技术中提供了并行处理日志的技术方案如 下:根据固定大小对日志事 件库(日志文件)进行分割, 得到多个子序列库。 以并行方式分别对这些子序 列库进行数据处理, 得到频繁序列 (挖掘结果), 在对所有频繁序列 (挖掘结 果)进行复杂的全局模式整合, 得到针对上述多个子序列库的挖掘结果。

在实现上述数据处理的过程中, 发明人发现现有技术中至少存在如下问 题:现有的对日志事件库进行固定分割并对得 到的子序列库进行并行数据处理 以提高海量日志挖掘效率的方法中,在获取日 志整体挖掘结果时, 需要对各个 子序列库得到的局部频繁序列进行复杂的模式 整合才能得到全局的挖掘结果。 模式整合通常需要为每个频繁序列搜索整个日 志事件库,使得总体的挖掘效率 降低。 发明内容 本发明提供的一种数据处理的方法及装置,能 够解决由于不能保证子序列 库中事件的相互独立, 导致在对每个子序列库单独进行数据处理后, 需要通过 复杂的全局模式整合才能够得出数据处理结果 , 进而数据处理效率降低的问 题。

第一方面, 本发明提供了一种数据处理的方法, 包括:

根据第一时长对日志事件库进行划分,得到在 时序上连续的至少一个曰志 序列, 其中, 一个日志序列为一个第一时长内发生的日志事 件的有序集合; 将所述日志序列中时序上排列第一的日志序列 确定为起始序列,从所述起 始序列开始依次判断当前日志序列包含的事件 数量;

如果当前日志序列中的事件数量小于第一预设 事件数量,则将所述当前曰 志序列确定为终止序列;

将所述起始序列、所述终止序列以及所述起始 序列与所述终止序列之间的 日志序列三者的有序集合确定为子序列库,将 所述终止序列的下一个序列确定 为起始序列, 继续进行判断, 或者, 将所述起始序列以及所述起始序列与所述 终止序列之间的日志序列两者的有序集合确定 为子序列库,将所述终止序列确 定为起始序列, 继续进行判断;

分别对每个子序列库进行分析处理,得到与每 个子序列库分别对应的分析 结果,所述分析结果用于表示一个子序列库中 的全部第一频繁序列以及每个第 一频繁序列在所述子序列库中出现的次数,所 述第一频繁序列为日志序列中至 少两次出现的有序集合。

在所述第一方面的第一种可能的实现方式中, 所述方法还包括: 根据第二时长分别对所述子序列库中每个日志 序列进行分片,得到在时序 上连续的至少一个短日志序列, 其中, 一个短日志序列为一个第二时长内发生 的曰志事件的有序集合;

根据预设规则从每个短日志序列中确定重叠子 序列,从所述至少一个短曰 志序列中的第一个短日志序列开始,将当前短 日志序列的重叠子序列拼接到当 前短日志序列的下一个短日志序列中 ,将拼接后的下一个短日志序列确定为第 二子序列, 其中, 重叠子序列为以当前短日志序列时间截止点为 截止点的至少 一个日志事件的有序集合;

所述分别对每个子序列库进行分析处理,得到 与每个子序列库分别对应的 分析结果,所述分析结果用于表示一个子序列 库中的全部第一频繁序列以及每 个第一频繁序列在所述子序列库中出现的次数 ,所述第一频繁序列为日志序列 中至少两次出现的有序集合, 包括:

分别对每个子序列库中的全部第二子序列进行 分析处理,得到与每个子序 列库分别对应的分析结果,所述分析结果用于 表示一个子序列库中的全部第二 频繁序列以及每个第二频繁序列在所述子序列 库中出现的次数,所述第二频繁 序列为短日志序列中至少两次出现的有序集合 ;

如果所述至少一个第二频繁序列中的至少两个 第二频繁序列具有相同的 重叠子序列, 则将所述至少两个第二频繁序列在所述重叠子 序列处进行拼接。

在所述第一方面的第一种可能的实现方式中, 还提供了所述第一方面的第 二种可能的实现方式,在所述第一方面的第二 种可能的实现方式中, 所述根据 预设规则从每个短日志序列中确定重叠子序列 ,从所述至少一个短日志序列中 的第一个短日志序列开始,将当前短日志序列 的重叠子序列拼接到当前短曰志 序列的下一个短日志序列中, 将拼接后的下一个短日志序列确定为第二子序 列, 包括:

从第一个短日志序列开始,依次在当前短日志 序列中,从当前短日志序列 时间截止点向当前短日志序列时间起始点方向 ,选择预设时长内的有序集合或 第二预设事件数量的有序集合, 其中, 所述预设时长为第二时长的预设比例的 时长,所述第二预设数量为所述当前短日志序 列包含的日志事件数量的预设比 例的事件数量;

将所述预设时长内的有序集合或第二预设事件 数量的有序集合确定为所 述当前短日志序列对应的重叠子序列; 从第一个短日志序列开始,依次将当前短日志 序列对应的重叠子序列拼接 到所述当前段日志序列的下一个短日志序列的 起始位置,所述重叠子序列与所 述下一个短日志序列组成一个第二子序列。

在所述第一方面的第一种可能的实现方式中, 还提供了所述第一方面的第 三种可能的实现方式,在所述第一方面的第三 种可能的实现方式中, 所述如果 所述至少一个第二频繁序列中的至少两个第二 频繁序列具有相同的重叠子序 歹 |J , 则将所述两个第二频繁序列进行拼接, 包括:

从所述至少一个第二频繁序列中的时序上排列 第一的第二频繁序列开始, 依次在当前第二频繁序列至时序上排列倒数第 二的第二频繁序列中,从当前第 二频繁序列时间截止点向当前第二频繁序列时 间起始点方向 ,选择预设时长内 的有序集合或第二预设事件数量的有序集合, 将所述预设时长内的有序集合或 第二预设事件数量的有序集合确定为与所述当 前第二频繁序列对应的重叠频 繁序列, 其中, 所述预设时长为第二时长的预设比例的时长, 所述第二预设数 量为所述当前短日志序列包含的日志事件数量 的预设比例的事件数量;

从所述至少一个第二频繁序列中查找出具有相 同重叠频繁序列的至少两 个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

在所述第一方面的第一种可能的实现方式中, 还提供了所述第一方面的第 四种可能的实现方式,在所述第一方面的第四 种可能的实现方式中, 所述如果 所述至少一个第二频繁序列中的至少两个第二 频繁序列具有相同的重叠子序 歹J , 则将所述两个第二频繁序列进行拼接, 包括:

从所述至少一个第二频繁序列中的时序上排列 第二的第二频繁序列开始, 依次在当前第二频繁序列到时序上排列最后的 第二频繁序列中,从当前第二频 繁序列时间起始点向当前第二频繁序列时间截 止点方向,选择所述预设时长内 的第三有序集合或所述第二预设事件数量的第 四有序集合,将所述第三有序集 合或所述第四有序集合确定为与所述当前第二 频繁序列对应的重叠频繁序列; 从所述至少一个第二频繁序列中的查找出具有 相同重叠频繁序列的至少 两个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

第二方面, 本发明提供了一种数据处理的装置, 包括:

划分单元, 用于根据第一时长对日志事件库进行划分,得 到在时序上连续 的至少一个日志序列, 其中, 一个日志序列为一个第一时长内发生的日志事 件 的有序集合;

第一确定单元,用于将所述划分单元划分的所 述日志序列中时序上排列第 一的日志序列确定为起始序列;

判断单元,用于从所述第一确定单元确定的所 述起始序列开始依次判断当 前日志序列包含的事件数量;

第二确定单元,用于当所述判断单元判断出当 前日志序列中的事件数量小 于第一预设事件数量时, 将所述当前日志序列确定为终止序列;

第三确定单元, 用于将所述第一确定单元确定的所述起始序列 、所述第二 确定单元确定的所述终止序列以及所述起始序 列与所述终止序列之间的日志 序列三者的有序集合确定为子序列库,所述第 一确定单元还用于将所述终止序 列的下一个序列确定为起始序列, 所述判断单元还用于继续进行判断;

所述第三确定单元,还用于将所述第一确定单 元确定的所述起始序列以及 所述第二确定单元确定的所述起始序列与所述 终止序列之间的日志序列两者 的有序集合确定为子序列库,所述第一确定单 元还用于将所述终止序列确定为 起始序列, 所述判断单元还用于继续进行判断;

分析单元,用于分别对所述第三确定单元确定 的每个子序列库进行分析处 理,得到与每个子序列库分别对应的分析结果 , 所述分析结果用于表示一个子 序列库中的全部第一频繁序列以及每个第一频 繁序列在所述子序列库中出现 的次数, 所述第一频繁序列为日志序列中至少两次出现 的有序集合。

在所述第二反面的第一种可能的实现方式中, 所述装置还包括: 分片单元 ,用于根据第二时长分别对所述第三单元确定 所述子序列库中 每个日志序列进行分片, 得到在时序上连续的至少一个短日志序列, 其中, 一 个短日志序列为一个第二时长内发生的日志事 件的有序集合;

第四确定单元,用于根据预设规则从所述分片 单元得到的每个短日志序列 中确定重叠子序列;

第一拼接单元,用于从所述至少一个短日志序 列中的第一个短日志序列开 始,将当前短日志序列的重叠子序列拼接到当 前短日志序列的下一个短日志序 列中, 将拼接后的下一个短日志序列确定为第二子序 列, 其中, 重叠子序列为 以当前短日志序列时间截止点为截止点的至少 一个日志事件的有序集合; 所述分析单元还用于,分别对所述第一拼接单 元得到的每个子序列库中的 全部第二子序列进行分析处理,得到与每个子 序列库分别对应的分析结果, 所 述分析结果用于表示一个子序列库中的全部第 二频繁序列以及每个第二频繁 序列在所述子序列库中出现的次数,所述第二 频繁序列为短日志序列中至少两 次出现的有序集合;

第二拼接单元,用于当所述分析单元得到的所 述至少一个第二频繁序列中 的至少两个第二频繁序列具有相同的重叠子序 列时 ,将所述至少两个第二频繁 序列在所述重叠子序列处进行拼接。

在所述第二反面的第一种可能的实现方式中, 还提供了所述第二反面的第 二种可能的实现方式,在所述第二反面的第二 种可能的实现方式中, 所述第四 确定单元还包括:

第一选择子单元, 用于从所述分片单元得到的第一个短日志序列 开始,依 次在当前短日志序列中,从当前短日志序列时 间截止点向当前短日志序列时间 起始点方向,选择预设时长内的有序集合或第 二预设事件数量的有序集合, 其 中, 所述预设时长为第二时长的预设比例的时长, 所述第二预设数量为所述当 前短日志序列包含的日志事件数量的预设比例 的事件数量;

确定子单元,用于将所述第一选择子单元选择 的所述预设时长内的有序集 合或第二预设事件数量的有序集合确定为所述 当前短日志序列对应的重叠子 序列;

所述第一拼接单元还用于,从第一个短日志序 列开始,依次将所述确定子 单元确定的当前短日志序列对应的重叠子序列 拼接到所述当前段日志序列的 下一个短日志序列的起始位置,所述重叠子序 列与所述下一个短日志序列组成 一个第二子序列。

在所述第二反面的第一种可能的实现方式中, 还提供了所述第二反面的第 三种可能的实现方式, 在所述第二反面的第三种可能的实现方式中, 包括: 第二子选择单元,用于从所述第四确定单元确 定的所述至少一个第二频繁 序列中的时序上排列第一的第二频繁序列开始 ,依次在当前第二频繁序列至时 序上排列倒数第二的第二频繁序列中,从当前 第二频繁序列时间截止点向当前 第二频繁序列时间起始点方向,选择预设时长 内的有序集合或第二预设事件数 量的有序集合,将所述预设时长内的有序集合 或第二预设事件数量的有序集合 确定为与所述当前第二频繁序列对应的重叠频 繁序列, 其中, 所述预设时长为 第二时长的预设比例的时长,所述第二预设数 量为所述当前短日志序列包含的 日志事件数量的预设比例的事件数量;

第一拼接子单元,用于从所述至少一个第二频 繁序列中查找出具有相同的 所述第二子选择单元选择的重叠频繁序列的至 少两个第二频繁序列,将所述至 少两个第二频繁序列进行拼接。

在所述第二反面的第一种可能的实现方式中, 还提供了所述第二反面的第 四种可能的实现方式,在所述第二反面的第四 种可能的实现方式中, 所述第二 拼接单元还包括:

第三选择子单元,用于从所述至少一个第二频 繁序列中的时序上排列第二 的第二频繁序列开始,依次在当前第二频繁序 列到时序上排列最后的第二频繁 序列中, 从当前第二频繁序列时间起始点向当前第二频 繁序列时间截止点方 向,选择所述预设时长内的第三有序集合或所 述第二预设事件数量的第四有序 集合 ,将所述第三有序集合或所述第四有序集合确 为与所述当前第二频繁序 列对应的重叠频繁序列;

第二拼接子单元,用于从所述至少一个第二频 繁序列中的查找出具有相同 的所述第二子选择单元选择的重叠频繁序列的 至少两个第二频繁序列,将所述 至少两个第二频繁序列进行拼接。

本发明提供的数据处理的方法及装置,能够 根据第一时长对日志事件库进 行划分,得到在时序上连续的至少一个日志序 列,将所述日志序列中时序上排 列第一的日志序列确定为起始序列,从所述起 始序列开始依次判断,如果当前 曰志序列中的事件数量小于第一预设事件数量 ,则将所述当前日志序列确定为 终止序列; 然后才艮据所述起始序列、 所述终止序列确定为子序列库, 在重新确 定起始序列之后, 继续进行判断直至最后一个日志序列; 再分别对每个子序列 库进行分析处理,得到与每个子序列库分别对 应的分析结果, 所述分析结果用 于表示一个子序列库中的全部第一频繁序列以 及每个第一频繁序列在所述子 序列库中出现的次数,所述第一频繁序列为日 志序列中至少两次出现的有序集 合。现有技术中根据数据大小进行固定分割, 无法利用日志的分布特性进行动 态分割, 且分割后的子序列库不相互独立, 在获取日志整体挖掘结果时, 需要 对各个子序列库得到的局部频繁序列进行复杂 的模式整合才能得到全局的挖 掘结果。模式整合通常需要为每个频繁序列再 次搜索整个日志事件库,使得总 体的挖掘效率降低。 本发明中, 根据事件数量进行分割, 能够根据日志分布进 行动态分割, 分割出的子序列库相互独立,各子序列库上的 局部挖掘结果可以 作为全局的挖掘结果, 从而避免了复杂的模式整合, 进而提高数据处理效率。 发明人发现, 日志事件库中事件的分布呈间歇密集型 (bur s ty behavior )每 一个密集段的事件只集中在该段发生,独立于 其它密集段。根据每个日志序列 中的事件数量划分出子序列库, 能够得出对应每个密集段的子序列库。对这些 子序列库进行分析之后, 能够得到对应每个密集段的的分析结果, 进而减小对 挖掘结果进行模式整合时的复杂度。 附图说明

为了更清楚地说明本发明实施例或现有技术中 的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单 地介绍,显而易见地, 下面描述 中的附图仅仅是本发明的一些实施例,对于本 领域普通技术人员来讲,在不付 出创造性劳动的前提下, 还可以根据这些附图获得其他的附图。

图 1为本发明实施例中一个数据处理的方法的流 图;

图 2为本发明实施例中另一个数据处理的方法的 程图;

图 3为本发明实施例中再一个数据处理的方法的 程图;

图 4为本发明实施例中一个数据处理的装置的结 示意图;

图 5为本发明实施例中另一个数据处理的装置的 构示意图;

图 6为本发明实施例中再一个数据处理的装置的 构示意图。 具体实施方式

下面将结合本发明实施例中的附图,对本发明 实施例中的技术方案进行清 楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而不是 全部的实施例。基于本发明中的实施例, 本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其他实施例, 都属于本发明保护的范围。

本发明实施例提供了一种数据处理的方法,所 述方法应用于数据处理服务 器等电子设备中, 如图 1所示, 包括:

步骤 101、 根据第一时长对日志事件库进行划分, 得到在时序上连续的至 少一个日志序列, 其中, 一个日志序列为一个第一时长内发生的日志事 件的有 序集合。

所谓有序集合为顺序排列的有序集合,每个日 志序列内的日志事件的排列 顺序根据日志事件的发生时间升序排列。从日 志事件发生时间最早的日志事件 开始,将发生在第一时长之内的日志事件确定 为一个日志序列。从第一时长最 后时刻发生的日志事件的下一个日志事件开始 ,将发生在第一时长之内的曰志 事件确定为一个日志序列。 以此类推, 得到至少一个日志序列, 直到所述曰志 事件库中最后一个日志事件为止。 第一时长为单位时长, 例如 lmin、 10s等, 通常为 lmin。 如果第一时长为 lmin, 则生成的日志序列为第一分钟内发生的 曰志事件的有序集合, 第二分钟内发生的日志事件的有序集合, 第二分钟内发 生的日志事件的有序集合, 直至第 N分钟内发生的日志事件的有序集合。

步骤 102、 将日志序列中时序上排列第一的日志序列确定 为起始序列, 从 起始序列开始依次判断当前日志序列包含的事 件数量。

步骤 103、 如果当前日志序列中的事件数量小于第一预设 事件数量, 则将 当前日志序列确定为终止序列。

步骤 104、 将起始序列、 终止序列以及起始序列与终止序列之间的日志 序 列三者的有序集合确定为子序列库, 将终止序列的下一个序列确定为起始序 歹 |J , 继续进行判断, 或者, 将起始序列以及起始序列与终止序列之间的日 志序 列两者的有序集合确定为子序列库, 将终止序列确定为起始序列, 继续判断。

如果时序上排列第一的日志序列(为了方便说 明,后续对时序上排列第一 的曰志序列称为第一个日志序列)中的事件数 量不小于第一预设事件数量, 则 判断第二个日志序列中的事件数量是否小于第 一预设事件数量,直至判断出第 N个日志序列中的事件数量小于第一预设事件 量时, 将第一个日志序列至第 N个日志序列确定为第一个子序列库。 然后, 从第 N+1个日志序列开始, 判断 第 N+1 个日志序列中的事件数量是否小于第一预设事 件数量, 直至判断出第 N+M个日志序列中的事件数量小于第一预设事件 数量时, 将第 N+1个日志序列 至第 N+M个日志序列确定为第二个子序列库。 以此类推,得到至少一个子序列 库。

或者,如果第一个日志序列中的事件数量不小 于第一预设事件数量, 则判 断第二个日志序列中的事件数量是否小于第一 预设事件数量, 直至判断出第 N 个曰志序列中的事件数量小于第一预设事件数 量时, 将第一个日志序列至第 N-1个日志序列确定为第一个子序列库。 然后, 从第 N+1个日志序列开始, 判 断第 N+1个日志序列中的事件数量是否小于第一预设 事件数量,直至判断出第 N+M个日志序列中的事件数量小于第一预设事件 数量时, 将第 N个日志序列至 第 N+M-1个日志序列确定为第二个子序列库。 以此类推,得到至少一个子序列 库。

例如:日志事件库用于记录操作频繁的用户操 作,如键盘输入的点击事件, 第一时长为 1分钟, 用户在 1-10分钟每分钟依次键入的字符的个数依次为 150、 102、 90、 110、 120、 118、 125、 130、 98、 10。 曰志序列 xl-xl O分别对 应于第 1分钟到第 10分钟, 第一预设事件数量为 100。 将 xl确定为起始曰志 序列, 判断 xl 内的事件数量 150是否小于第一预设事件数量 100, 结果为不 小于, 则判断 x2 内的事件数量 102是否小于第一预设事件数量 100 , 结果为 不小于, 再判断 x3内的事件数量 90是否小于第一预设事件数量 100, 结果为 小于, 则将 x3 确定为终止序列, 将所含日志事件数量分别为 150、 102、 90 的 xl、 x2、 x3确定为第一个子序列库 XI。 随后, 将 x4确定为起始序列, 并 依次判断 x4内的事件数量 110、 x5内的事件数量 120、 x6内的事件数量 118、 x7内的事件数量 125、 x8内的事件数量 130、是否小于第一预设事件数量 100, 结果均为不小于, 当判断 x9内的事件数量 98是否小于 100时, 结果为小于, 将 x9确定为终止序列, 并将所含日志事件数量分别为 110、 120、 118、 125、 130、 98的 x4、 x5、 x6、 x7、 x8、 x9确定为第二个子序列库 X2。 再判断 xl O 内的事件数量 10是否小于 100, 结果为小于, 将所含事件数量为 10的 xl O作 为第三个子序列库 X3 , 由于 xl O为最后一个日志序列, 因此结束比较。 生成 的子序列库有三个, 分别为: Xl {xl、 x2、 x3}、 X2 {x4、 x5、 x6、 x7、 x8、 x9} 、 X3 {xl O}。

现有技术中,对日志事件库进行划分是根据固 定的事件数量进行的。在上 例中,按照现有技术中的分割方式, 分割出的每个子序列库由 100个输入事件 组成。 上述日志中一共有 1053个输入事件, 按照现有技术分割出的子序列库 为 10个事件数量为 100的子序列库和一个事件数量为 53的子数据库,共十一 个子数据库。 现有技术中还提供了一种基于固定时间窗口的 分割方式:通过固定的时间 窗口对日志事件库进行分割。即将一个第一时 长内的日志事件有序集合确定为 一个子序列库,用此种方式对上述日志进行分 割,将得到下述子序列库: {xl}、 {x2}、 {x3}、 {x4}、 {x5}、 {x6}、 {x7}、 {x8}、 {x9}、 {xl O} ,共十个。 此种分 割方式存在分割死板的缺陷, 在后续分析的过程中, 其分析对象为第一分钟、 第二分钟。。。第十分钟内的数据,而非连续 的一段数据。例如:用户花费 2. 5min 的时间输入一段文字。 用户输入时, 会存在 lmin内输入的文字不是一整句话 的问题, 此时如果按照固定时间窗口的分割方式进行划 分, 则会出现数据分析 的对象为不完整句子, 降低数据处理结果的准确性。本发明中通过判 断日志序 列中事件数量是否小于第一预设事件数量,能 够将集中产生日志事件的一段时 间内生成的日志事件有序集合作为一个子序列 库, 在上例中, 能够将 2. 5min 内的全部事件确定为一个子序列库进行挖掘, 进而提高数据处理结果的准确 性。

步骤 105、 分别对每个子序列库进行分析处理, 得到与每个子序列库分别 对应的分析结果,分析结果用于表示一个子序 列库中的全部第一频繁序列以及 每个第一频繁序列在子序列库中出现的次数, 第一频繁序列为日志序列中至少 两次出现的有序集合。

其中,所述志序列中至少两次出现的有序集合 为在日志事件中出现过的连 续的至少两个日志事件的集合。分析处理为现 有技术中的数据处理处理, 用于 从子序列库中统计出第一频繁序列以及第一频 繁序列出现的次数。具体的挖掘 的方式可以釆用现有技术中的并行化的类 Apr ior i 算法 (包括 GSP 算法和 spade算法等)、 并行化的模式增长算法(包括 pref ixSpan算法和 FreeSpan 算法等)、基于序列比较的算法(如 Di s c-a l l算法等)等序列模式挖掘方法进 行数据分析。

本发明提供的数据处理的方法, 能够根据第一时长对日志事件库进行划 分,得到在时序上连续的至少一个日志序列, 将所述日志序列中时序上排列第 一的日志序列确定为起始序列,从所述起始序 列开始依次判断,如果当前日志 序列中的事件数量小于第一预设事件数量,则 将所述当前日志序列确定为终止 序列; 然后根据所述起始序列、 所述终止序列确定为子序列库, 在重新确定起 始序列之后, 继续进行判断直至最后一个日志序列; 再分别对每个子序列库进 行分析处理,得到与每个子序列库分别对应的 分析结果, 所述分析结果用于表 示一个子序列库中的全部第一频繁序列以及每 个第一频繁序列在所述子序列 库中出现的次数, 所述第一频繁序列为日志序列中至少两次出现 的有序集合。 现有技术中根据数据大小进行固定分割,无法 利用日志的分布特性进行动态分 割, 且分割后的子序列库不相互独立, 在获取日志整体挖掘结果时, 需要对各 个子序列库得到的局部频繁序列进行复杂的模 式整合才能得到全局的挖掘结 果。模式整合通常需要为每个频繁序列再次搜 索整个日志事件库,使得总体的 挖掘效率降低。 本发明中, 根据事件数量进行分割, 能够根据日志分布进行动 态分割, 分割出的子序列库相互独立,各子序列库上的 局部挖掘结果可以作为 全局的挖掘结果, 从而避免了复杂的模式整合, 进而提高数据处理效率。 发明 人发现, 曰志事件库中事件的分布呈间歇密集型 (burs ty behavior )每一个 密集段的事件只集中在该段发生,独立于其它 密集段。根据每个日志序列中的 事件数量划分出子序列库, 能够得出对应每个密集段的子序列库。对这些 子序 列库进行分析之后, 能够得到对应每个密集段的的分析结果, 进而减小对挖掘 结果进行模式整合时的复杂度。

本发明实施例还提供了一种数据处理的方法, 作为对图 1所述方法的进一 步描述, 如图 2所示, 所述方法还包括:

步骤 201、 根据第二时长分别对子序列库中每个日志序列 进行分片, 得到 在时序上连续的至少一个短日志序列, 其中, 一个短日志序列为一个第二时长 内发生的日志事件的有序集合。

对子序列库中的第一个日志序列进行分片时: 从第一个日志序列的起始时 间点 t l开始, 将位于第二时长内的日志事件的有序集合确定 为第一个短日志 序列, 将 t l与第二时长相加, 得到 t2 , 从 t2开始, 将位于第二时长内的曰 志事件的有序集合确定为第二个短日志序列。 以此类推, 直至 tx大于子序列 库的终止时间点。由此能够得到的每个短日志 序列对应一个第二时长内的曰志 事件的有序集合,各短日志序列之间为连续的 。 第二时长为第一时长的预设比 例或者预设时长。

如: 第一时长为 lmin, 预设比例为 50%, 则第二时长为 30s。 再如: 第一 时长为 2min, 第二时长的时长为 30s , 此时一个第一时长为 4个第二时长, 因 此第一子序列被分片为四个短日志序列。

步骤 202、 根据预设规则从每个短日志序列中确定重叠子 序列, 从至少一 个短日志序列中的第一个短日志序列开始,将 当前短日志序列的重叠子序列拼 接到当前短日志序列的下一个短日志序列中, 将拼接后的下一个短日志序列确 定为第二子序列, 其中, 重叠子序列为以当前短日志序列时间截止点为 截止点 的至少一个日志事件的有序集合。

根据重叠子序列拼接得到的两个第二子序列之 间,前一个第二子序列的尾 部为重叠子序列,后一个第二子序列的头部为 重叠子序列。 由于分析处理是从 原始数据(第二子序列)中, 统计发生多次的日志事件的有序集合, 因此, 通 过重叠子序列能够使得两个由于原始数据独立 而互相独立的挖掘结果具有关 联性。

具体的, 如图 3所示, 在确定重叠子序列时可通过下述方式进行实施 。 步骤 301、 从第一个短日志序列开始, 依次在当前短日志序列中, 从当前 短日志序列时间截止点向当前短日志序列时间 起始点方向,选择预设时长内的 有序集合或第二预设事件数量的有序集合, 其中,预设时长为第二时长的预设 比例的时长,第二预设数量为当前短日志序列 包含的日志事件数量的预设比例 的事件数量。

步骤 302、 将预设时长内的有序集合或第二预设事件数量 的有序集合确定 为当前短日志序列对应的重叠子序列。 步骤 303、 从第一个短日志序列开始, 依次将当前短日志序列对应的重叠 子序列拼接到当前段日志序列的下一个短日志 序列的起始位置,重叠子序列与 下一个短日志序列组成一个第二子序列。

下面通过一个例子对图 3所示方法做具体说明:

第一时长的时长为 lmin ( 60s ), —个日志序列为 {dl , d2 , d3 , d4 , d5 , d6} , 其中 dl至 d6为第一时长内均匀分布的日志事件。 如果第二时长的时长 为 20s , 则根据第二时长对日志序列进行分片, 得到的短日志序列为 xl ( dl , d2 ), x2 ( d3、 d4 ), x3 ( d5 , d6 )。 如果此时预设时长为 10s , 则确定出在 xl 的重叠子序列为 d2 , x2的重叠子序列为 d4。 进行拼接: 将 xl的重叠子序列 d2拼接到 x2的起始位置, 拼接后的 x2,为 (d2、 d 3、 d4 ); 将 x2的重叠子序 列 d4拼接到 x3的起始位置, 拼接后的 χ3'为(d4、 d5、 d6 )。 得到的第二子序 列分别为: xl ( dl , d2 )、 χ2' ( d2、 d3、 d4 )、 x3, (d4、 d5、 d6 )。

此时, 步骤 105、 分别对每个子序列库进行分析处理, 得到与每个子序列 库分别对应的分析结果,分析结果用于表示一 个子序列库中的全部第一频繁序 列以及每个第一频繁序列在子序列库中出现的 次数,第一频繁序列为日志序列 中至少两次出现的有序集合, 包括:

步骤 203、 分别对每个子序列库中的全部第二子序列进行 分析处理, 得到 与每个子序列库分别对应的分析结果,分析结 果用于表示一个子序列库中的全 部第二频繁序列以及每个第二频繁序列在子序 列库中出现的次数,第二频繁序 列为短日志序列中至少两次出现的有序集合。

分析处理的方法与步骤 105中的一致,不同的时分析处理的对象由日志 序 列变为第二子序列。

步骤 204、 如果至少一个第二频繁序列中的至少两个第二 频繁序列具有相 同的重叠子序列, 则将至少两个第二频繁序列在重叠子序列处进 行拼接。

具体的, 可通过两种方式将至少两个第二频繁你序列进 行拼接:

1、 从每个第二频繁序列的尾部选择重叠频繁序列 , 根据该重叠频繁序列 进行拼接。

1 )从所述至少一个第二频繁序列中的时序上排 第一的第二频繁序列开 始,依次在当前第二频繁序列至时序上排列倒 数第二的第二频繁序列中,从当 前第二频繁序列时间截止点向当前第二频繁序 列时间起始点方向,选择预设时 长内的有序集合或第二预设事件数量的有序集 合,将所述预设时长内的有序集 合或第二预设事件数量的有序集合确定为与所 述当前第二频繁序列对应的重 叠频繁序列, 其中, 所述预设时长为第二时长的预设比例的时长, 所述第二预 设数量为所述当前短日志序列包含的日志事件 数量的预设比例的事件数量;

2 )从所述至少一个第二频繁序列中查找出具有 同重叠频繁序列的至少 两个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

1、 从每个第二频繁序列的尾部选择重叠频繁序列 , 根据该重叠频繁序列 进行拼接。

1 )从所述至少一个第二频繁序列中的时序上排 第二的第二频繁序列开 始,依次在当前第二频繁序列到时序上排列最 后的第二频繁序列中,从当前第 二频繁序列时间起始点向当前第二频繁序列时 间截止点方向 ,选择所述预设时 长内的第三有序集合或所述第二预设事件数量 的第四有序集合,将所述第三有 序集合或所述第四有序集合确定为与所述当前 第二频繁序列对应的重叠频繁 序列;

2 )从所述至少一个第二频繁序列中的查找出具 相同重叠频繁序列的至 少两个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

1、 根据第一时长确定日志序列:

日志事件库由 xl-xl2共 12条日志序列组成,每条日志序列由一组日志 件 ID构成,每个日志事件 ID由一个自然数表示。每条日志序列是按照第 时 长(假设 10分钟) 划分日志事件库所得。

{ xl (l、 23、 1945、 72、 98、 67、 32、 45、 14、 19、 1278、 567); x2(14、 19、 1278、 567、 1945、 23、 1);

x3(45、 14、 23、 1945、 72、 14、 19、 1278、 567);

x4(616、 67、 567、 1278、 23、 1945、 72、 19、 14);

x5 (1278, 67、 32、 45、 14、 19、 1278、 567、 98、 23、 1945、 72); x6 (333、 5);

x7 (1690, 744、 1690、 293、 7);

x8(7、 1644、 293、 744、 1690、 );

x9 (744、 1690、 77、 89);

xl0 (1555);

xll (40、 50、 99、 234、 798、 145、 176、 33、 985、 211、 202);

xl2 (1945、 33、 985、 145);

xl3(99、 50、 40、 145、 33、 145、 33、 985、 145) }

2.根据第一预设日志事件数量将至少一个日志 列的集合确定为第一子 序列库:

给定第一预设日志事件数量为 3个, 统计每条序列内日志事件的个数, 将 事件数量小于 3的序列 x6和 xlO以及最后个日志序列 xl3的确定为终止序列, 得到三个子序列库 XI {xl; x2; x3; x4; x5} 、 X2 {x6; x7; x8; x9}和 X3{xl0; xll; xl2; xl3}。 则后续工作可在每个第一子序列库上单独进行 。

3.根据第二时长对子序列库中每个日志序列进 分片:

如果第一时长为 10分钟, 假设预设比例为 50%, 第二时长为 5分钟。 若 第一时长内的日志事件数量最大为 12个, 则分片大小数量为 6个。 对 Xl {xl; x2; x3; x4; x5} 分片后得到由 10个短序列组成的子序列库 X_S1, 其中每个 短日志序列的事件数量不超过 6个。 分片后的子序列库为:

{x-sl (1、 23、 1945、 72、 98、 67);

x_s2(32、 45、 14、 19、 1278、 567);

x_s3(14、 19、 1278、 567、 1945、 23); x_s4 (1);

x_s5(45、 14、 23、 1945、 72、 14);

x_s6(19、 1278、 567);

x_s7(616、 67、 567、 1278、 23、 1945);

x_s8(72、 19、 14);

x_s9 (1278、 67、 32、 45、 14、 19);

x_sl0(1278、 567、 98、 23、 1945、 72、 14); }

类似方法可对其它两个子序列库 X2和 X3进行分片。

4.在每个短日志序列中确定重叠子序列,将该 叠子序列合并到每个短曰 志序列的下一个短日志序列中, 将下一个短日志序列确定为一个第二子序列

(重叠窗口机制 ):

第二时长内记录的日志事件数量最大为 6个, 取预设比例为 1/3, 则重叠 子序列的长度为 2。 以 X_S1为例, 将 x_sl(l、 23、 1945、 72、 98、 67)的最后 两个日志事件(98、 67)确定为 x-sl 的重叠子序列, 将 x_s2(32、 45、 14、 19、 1278、 567) 的最后两个日志事件 ( 1278、 567 )确定为 x_s2的重叠子序 歹' J, 以此类推得到 x-s3至 x_slO各自的重叠子序列。 从 x_sl开始, 将 x_sl 的重叠子序列( 98、 67 )拼接到 x_s2的起始位置, 将拼接后的 x-s2确定为一 个第二子序列。 将 x_s2的重叠子序列( 1278、 567 )拼接到 x_s3的起始位置, 将拼接后的 X- s 3确定为另一个第二子序列。以此类推得到 x_s3至 x_slO各自 拼接后对应的第二子序列。 得到子序列库 X_S1_S为:

{x-sl (1、 23、 1945、 72、 98、 67);

x_s2(98、 67、 32、 45、 14、 19、 1278、 567);

x_s3(1278、 567、 14、 19、 1278、 567、 1945、 23);

x_s4 (1945、 23、 1);

x_s5(l、 45、 14、 23、 1945、 72、 14);

x_s6(72、 14、 19、 1278、 567); x_ s 7 (1278、 567、 616、 67、 567、 1278、 23、 1945);

x_ s 8 (23、 1945、 72、 19、 14);

x_ s 9 (19、 14、 1278、 67、 32、 45、 14、 19);

x_ s l 0 (14、 19、 1278、 567、 98、 23、 1945、 72、 14); }

5.对子序列库进行分析处理:

釆用类 Apr ior i算法对子序列库挖掘,得到长度大于 3的第二频繁序列和 其出现次数为:

频繁序列(23、 1945、 72)出现 4次,

频繁序列(67、 32、 45、 14、 19)出现 2次,

频繁序列(14、 19、 1278、 567)出现 4次。

6.对挖掘结果进行拼接:

此处头部和尾部的长度与 4中重叠子序列的长度相等, 为 2个。

在 5中得到的三个频繁序列中,如果一个频繁序 的尾部与另一个频繁序 列的头部相一致, 则将这两个频繁序列进行根据相同的部分进行 拼接。 5中头 部和尾部相一致的两条第二频繁序列(67、 32、 45、 14、 19)和(14、 19、 1278、 567)进行拼接得到 {67、 32、 45、 14、 19、 1278、 567} , 出现次数选择两条第 二频繁序列的出现次数的较小者。则连接后得 到的一子序列库的挖掘结果, 即 长度大于 3的第一频繁序列集为:

频繁序列(23、 1945、 72)出现 4次,

频繁序列(14、 19、 1278、 567)出现 4次,

频繁序列(67、 32、 45、 14、 19、 1278、 567)出现 2次。

本方法通过 2中日志事件中的事件数量对日志事件库进行 分操作以及 3 中对子序列库中的日志序列进行分片的操作显 著提高了序列挖掘的效果。同时 4的重叠窗口机制和 6的拼接操作保证得到长度较长的频繁序列, 进而有助于 故障诊断。

本发明实施例提供的数据处理的方法,能够将 子序列库中的日志序列分片 并通过拼接操作形成具有重叠子序列的第二子 序列。根据挖掘算法的特点(挖 掘短序列数据集比长序列数据集具有更高的效 率)提出了具有重叠子序列的分 片方式, 进一步提高挖掘的效率。 由于第二子序列具有重叠性进而降低数据挖 掘后拼接过程中的复杂度, 提高数据挖掘的效率。 此外, 本发明实施例还提出 了对挖掘后得到的频繁序列进行拼接的操作, 以优化频繁序列的数据挖掘结 果, 用于提高故障诊断的准确性。

本发明实施例还提供了一种数据处理的装置, 如图 4所示, 包括: 划分单元 41 , 用于根据第一时长对日志事件库进行划分, 得到在时序上 连续的至少一个日志序列, 其中,一个日志序列为一个第一时长内发生的 曰志 事件的有序集合。

第一确定单元 42 , 用于将所述划分单元 41划分的所述日志序列中时序上 排列第一的日志序列确定为起始序列。

判断单元 43 , 用于从所述第一确定单元 42确定的所述起始序列开始依次 判断当前日志序列包含的事件数量。

第二确定单元 44 , 用于当所述判断单元 43判断出当前日志序列中的事件 数量小于第一预设事件数量时, 将所述当前日志序列确定为终止序列。

第三确定单元 45 , 用于将所述第一确定单元 42确定的所述起始序列、 所 述第二确定单元 44确定的所述终止序列以及所述起始序列与所 终止序列之 间的日志序列三者的有序集合确定为子序列库 , 所述第一确定单元 42还用于 将所述终止序列的下一个序列确定为起始序列 , 所述判断单元 43还用于继续 进行判断。

所述第三确定单元 45 , 还用于将所述第一确定单元 42确定的所述起始序 列以及所述第二确定单元 44确定的所述起始序列与所述终止序列之间的 志 序列两者的有序集合确定为子序列库, 所述第一确定单元 42还用于将所述终 止序列确定为起始序列, 所述判断单元 43还用于继续进行判断。

分析单元 46 , 用于分别对所述第三确定单元 45确定的每个子序列库进行 分析处理,得到与每个子序列库分别对应的分 析结果, 所述分析结果用于表示 一个子序列库中的全部第一频繁序列以及每个 第一频繁序列在所述子序列库 中出现的次数, 所述第一频繁序列为日志序列中至少两次出现 的有序集合。

本发明实施例还提供了一种数据处理的装置, 如图 5所示, 所述装置包括 分片单元 51、 第四确定单元 52、 第一拼接单元 53、 第二拼接单元 54。

所述分片单元 51 , 用于根据第二时长分别对所述第三确定单元 45确定的 所述子序列库中每个日志序列进行分片,得到 在时序上连续的至少一个短曰志 序列, 其中, 一个短日志序列为一个第二时长内发生的日志 事件的有序集合; 第四确定单元 52 , 用于根据预设规则从所述分片单元 51得到的每个短日 志序列中确定重叠子序列;

第一拼接单元 53 , 用于从所述至少一个短日志序列中的第一个短 日志序 列开始,将当前短日志序列的重叠子序列拼接 到当前短日志序列的下一个短曰 志序列中, 将拼接后的下一个短日志序列确定为第二子序 列, 其中, 重叠子序 列为以当前短日志序列时间截止点为截止点的 至少一个日志事件的有序集合; 所述分析单元 46还用于,分别对所述第一拼接单元 53得到的每个子序列 库中的全部第二子序列进行分析处理,得到与 每个子序列库分别对应的分析结 果 ,所述分析结果用于表示一个子序列库中的全 第二频繁序列以及每个第二 频繁序列在所述子序列库中出现的次数 ,所述第二频繁序列为短日志序列中至 少两次出现的有序集合;

第二拼接单元 54 , 用于当所述分析单元 46得到的所述至少一个第二频繁 序列中的至少两个第二频繁序列具有相同的重 叠子序列时,将所述至少两个第 二频繁序列在所述重叠子序列处进行拼接。

进一步的, 所述第四确定单元 52还包括:

第一选择子单元 521 , 用于从所述分片单元 51得到的第一个短日志序列 开始,依次在当前短日志序列中,从当前短日 志序列时间截止点向当前短日志 序列时间起始点方向,选择预设时长内的有序 集合或第二预设事件数量的有序 集合, 其中, 所述预设时长为第二时长的预设比例的时长, 所述第二预设数量 为所述当前短日志序列包含的日志事件数量的 预设比例的事件数量;

确定子单元 522 , 用于将所述第一选择子单元 521选择的所述预设时长内 的有序集合或第二预设事件数量的有序集合确 定为所述当前短日志序列对应 的重叠子序列;

所述第一拼接单元 53还用于, 从第一个短日志序列开始, 依次将所述确 定子单元 522 确定的当前短日志序列对应的重叠子序列拼接 到所述当前段日 志序列的下一个短日志序列的起始位置,所述 重叠子序列与所述下一个短曰志 序列组成一个第二子序列。

进一步的, 所述第二拼接单元 54 , 包括:

第二子选择单元 541 , 用于从所述第四确定单元 52确定的所述至少一个 第二频繁序列中的时序上排列第一的第二频繁 序列开始,依次在当前第二频繁 序列至时序上排列倒数第二的第二频繁序列中 ,从当前第二频繁序列时间截止 点向当前第二频繁序列时间起始点方向,选择 预设时长内的有序集合或第二预 设事件数量的有序集合,将所述预设时长内的 有序集合或第二预设事件数量的 有序集合确定为与所述当前第二频繁序列对应 的重叠频繁序列, 其中, 所述预 设时长为第二时长的预设比例的时长,所述第 二预设数量为所述当前短日志序 列包含的日志事件数量的预设比例的事件数量 ;

第一拼接子单元 542 , 用于从所述至少一个第二频繁序列中查找出具 有相 同的所述第二子选择单元 541选择的重叠频繁序列的至少两个第二频繁序 列, 将所述至少两个第二频繁序列进行拼接。

进一步的, 所述第二拼接单元 54还包括:

第三选择子单元 543 , 用于从所述至少一个第二频繁序列中的时序上 排列 第二的第二频繁序列开始,依次在当前第二频 繁序列到时序上排列最后的第二 频繁序列中,从当前第二频繁序列时间起始点 向当前第二频繁序列时间截止点 方向 ,选择所述预设时长内的第三有序集合或所述 二预设事件数量的第四有 序集合,将所述第三有序集合或所述第四有序 集合确定为与所述当前第二频繁 序列对应的重叠频繁序列;

第二拼接子单元 544 , 用于从所述至少一个第二频繁序列中的查找出 具有 相同的所述第二子选择单元 541 选择的重叠频繁序列的至少两个第二频繁序 歹J , 将所述至少两个第二频繁序列进行拼接。

本发明提供的数据处理的装置, 能够根据第一时长对日志事件库进行划 分,得到在时序上连续的至少一个日志序列, 将所述日志序列中时序上排列第 一的日志序列确定为起始序列,从所述起始序 列开始依次判断,如果当前日志 序列中的事件数量小于第一预设事件数量,则 将所述当前日志序列确定为终止 序列; 然后根据所述起始序列、 所述终止序列确定为子序列库, 在重新确定起 始序列之后, 继续进行判断直至最后一个日志序列; 再分别对每个子序列库进 行分析处理,得到与每个子序列库分别对应的 分析结果, 所述分析结果用于表 示一个子序列库中的全部第一频繁序列以及每 个第一频繁序列在所述子序列 库中出现的次数, 所述第一频繁序列为日志序列中至少两次出现 的有序集合。 现有技术中根据数据大小进行固定分割,无法 利用日志的分布特性进行动态分 割, 且分割后的子序列库不相互独立, 在获取日志整体挖掘结果时, 需要对各 个子序列库得到的局部频繁序列进行复杂的模 式整合才能得到全局的挖掘结 果。模式整合通常需要为每个频繁序列再次搜 索整个日志事件库,使得总体的 挖掘效率降低。 本发明中, 根据事件数量进行分割, 能够根据日志分布进行动 态分割, 分割出的子序列库相互独立,各子序列库上的 局部挖掘结果可以作为 全局的挖掘结果, 从而避免了复杂的模式整合, 进而提高数据处理效率。 发明 人发现, 曰志事件库中事件的分布呈间歇密集型 (burs ty behavior )每一个 密集段的事件只集中在该段发生,独立于其它 密集段。根据每个日志序列中的 事件数量划分出子序列库, 能够得出对应每个密集段的子序列库。对这些 子序 列库进行分析之后, 能够得到对应每个密集段的的分析结果, 进而减小对挖掘 结果进行模式整合时的复杂度。 此外, 本发明实施例提供的数据处理的装置, 能够将子序列库中的日志序列分片并通过拼接 操作形成具有重叠子序列的第 二子序列。根据挖掘算法的特点(挖掘短序列 数据集比长序列数据集具有更高 的效率)提出了具有重叠子序列的分片方式, 进一步提高挖掘的效率。 由于第 二子序列具有重叠性进而降低数据挖掘后拼接 过程中的复杂度,提高数据挖掘 的效率。此外, 本发明实施例还提出了对挖掘后得到的频繁序 列进行拼接的操 作, 以优化频繁序列的数据挖掘结果, 用于提高故障诊断的准确性。

本发明实施例还提供了一种数据处理的装置, 如图 6所示, 所述装置包括 处理器 61和存储器 62 , 所述存储器 62中存储有与图 1所示方法一致的程序 文件, 所述处理器 61从所述存储器 62中读取该程序文件进行处理。

所述处理器 61用于:

根据第一时长对日志事件库进行划分,得到在 时序上连续的至少一个曰志 序列, 其中, 一个日志序列为一个第一时长内发生的日志事 件的有序集合; 将所述日志序列中时序上排列第一的日志序列 确定为起始序列,从所述起 始序列开始依次判断当前日志序列包含的事件 数量;

如果当前日志序列中的事件数量小于第一预设 事件数量,则将所述当前曰 志序列确定为终止序列;

将所述起始序列、所述终止序列以及所述起始 序列与所述终止序列之间的 日志序列三者的有序集合确定为子序列库,将 所述终止序列的下一个序列确定 为起始序列, 继续进行判断, 或者, 将所述起始序列以及所述起始序列与所述 终止序列之间的日志序列两者的有序集合确定 为子序列库,将所述终止序列确 定为起始序列, 继续进行判断;

分别对每个子序列库进行分析处理,得到与每 个子序列库分别对应的分析 结果,所述分析结果用于表示一个子序列库中 的全部第一频繁序列以及每个第 一频繁序列在所述子序列库中出现的次数,所 述第一频繁序列为日志序列中至 少两次出现的有序集合。

进一步的, 所述处理器 61还用于: 根据第二时长分别对所述子序列库中每个日志 序列进行分片,得到在时序 上连续的至少一个短日志序列, 其中, 一个短日志序列为一个第二时长内发生 的曰志事件的有序集合;

根据预设规则从每个短日志序列中确定重叠子 序列,从所述至少一个短曰 志序列中的第一个短日志序列开始,将当前短 日志序列的重叠子序列拼接到当 前短日志序列的下一个短日志序列中 ,将拼接后的下一个短日志序列确定为第 二子序列, 其中, 重叠子序列为以当前短日志序列时间截止点为 截止点的至少 一个日志事件的有序集合;

分别对每个子序列库中的全部第二子序列进行 分析处理,得到与每个子序 列库分别对应的分析结果,所述分析结果用于 表示一个子序列库中的全部第二 频繁序列以及每个第二频繁序列在所述子序列 库中出现的次数,所述第二频繁 序列为短日志序列中至少两次出现的有序集合 ;

如果所述至少一个第二频繁序列中的至少两个 第二频繁序列具有相同的 重叠子序列, 则将所述至少两个第二频繁序列在所述重叠子 序列处进行拼接。

进一步的, 所述处理器 61还用于:

从第一个短日志序列开始,依次在当前短日志 序列中,从当前短日志序列 时间截止点向当前短日志序列时间起始点方向 ,选择预设时长内的有序集合或 第二预设事件数量的有序集合, 其中, 所述预设时长为第二时长的预设比例的 时长,所述第二预设数量为所述当前短日志序 列包含的日志事件数量的预设比 例的事件数量;

将所述预设时长内的有序集合或第二预设事件 数量的有序集合确定为所 述当前短日志序列对应的重叠子序列;

从第一个短日志序列开始,依次将当前短日志 序列对应的重叠子序列拼接 到所述当前段日志序列的下一个短日志序列的 起始位置,所述重叠子序列与所 述下一个短日志序列组成一个第二子序列。

进一步的, 所述处理器 61还用于: 从所述至少一个第二频繁序列中的时序上排列 第一的第二频繁序列开始, 依次在当前第二频繁序列至时序上排列倒数第 二的第二频繁序列中,从当前第 二频繁序列时间截止点向当前第二频繁序列时 间起始点方向,选择预设时长内 的有序集合或第二预设事件数量的有序集合, 将所述预设时长内的有序集合或 第二预设事件数量的有序集合确定为与所述当 前第二频繁序列对应的重叠频 繁序列, 其中, 所述预设时长为第二时长的预设比例的时长, 所述第二预设数 量为所述当前短日志序列包含的日志事件数量 的预设比例的事件数量;

从所述至少一个第二频繁序列中查找出具有相 同重叠频繁序列的至少两 个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

进一步的, 所述处理器 61还用于:

从所述至少一个第二频繁序列中的时序上排列 第二的第二频繁序列开始, 依次在当前第二频繁序列到时序上排列最后的 第二频繁序列中,从当前第二频 繁序列时间起始点向当前第二频繁序列时间截 止点方向,选择所述预设时长内 的第三有序集合或所述第二预设事件数量的第 四有序集合,将所述第三有序集 合或所述第四有序集合确定为与所述当前第二 频繁序列对应的重叠频繁序列; 从所述至少一个第二频繁序列中的查找出具有 相同重叠频繁序列的至少 两个第二频繁序列, 将所述至少两个第二频繁序列进行拼接。

本发明提供的数据处理的装置, 能够根据第一时长对日志事件库进行划 分,得到在时序上连续的至少一个日志序列, 将所述日志序列中时序上排列第 一的日志序列确定为起始序列,从所述起始序 列开始依次判断,如果当前曰志 序列中的事件数量小于第一预设事件数量,则 将所述当前日志序列确定为终止 序列; 然后才艮据所述起始序列、 所述终止序列确定为子序列库, 在重新确定起 始序列之后, 继续进行判断直至最后一个日志序列; 再分别对每个子序列库进 行分析处理,得到与每个子序列库分别对应的 分析结果, 所述分析结果用于表 示一个子序列库中的全部第一频繁序列以及每 个第一频繁序列在所述子序列 库中出现的次数, 所述第一频繁序列为日志序列中至少两次出现 的有序集合。 现有技术中根据数据大小进行固定分割,无法 利用日志的分布特性进行动态分 割, 且分割后的子序列库不相互独立, 在获取日志整体挖掘结果时, 需要对各 个子序列库得到的局部频繁序列进行复杂的模 式整合才能得到全局的挖掘结 果。模式整合通常需要为每个频繁序列再次搜 索整个日志事件库,使得总体的 挖掘效率降低。 本发明中, 根据事件数量进行分割, 能够根据日志分布进行动 态分割, 分割出的子序列库相互独立,各子序列库上的 局部挖掘结果可以作为 全局的挖掘结果, 从而避免了复杂的模式整合, 进而提高数据处理效率。 发明 人发现, 曰志事件库中事件的分布呈间歇密集型 (burs ty behavior )每一个 密集段的事件只集中在该段发生,独立于其它 密集段。根据每个日志序列中的 事件数量划分出子序列库, 能够得出对应每个密集段的子序列库。对这些 子序 列库进行分析之后, 能够得到对应每个密集段的的分析结果, 进而减小对挖掘 结果进行模式整合时的复杂度。 此外, 本发明实施例提供的数据处理的装置, 能够将子序列库中的日志序列分片并通过拼接 操作形成具有重叠子序列的第 二子序列。根据挖掘算法的特点(挖掘短序列 数据集比长序列数据集具有更高 的效率)提出了具有重叠子序列的分片方式, 进一步提高挖掘的效率。 由于第 二子序列具有重叠性进而降低数据挖掘后拼接 过程中的复杂度,提高数据挖掘 的效率。此外, 本发明实施例还提出了对挖掘后得到的频繁序 列进行拼接的操 作, 以优化频繁序列的数据挖掘结果, 用于提高故障诊断的准确性。

所属领域的技术人员可以清楚地了解到, 为描述的方便和简洁,仅以上述 各功能模块的划分进行举例说明, 实际应用中, 可以根据需要而将上述功能分 配由不同的功能模块完成, 即将装置的内部结构划分成不同的功能模块, 以完 成以上描述的全部或者部分功能。上述描述的 系统, 装置和单元的具体工作过 程, 可以参考前述方法实施例中的对应过程, 在此不再赘述。

以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露 的技术范围内,可轻易想到变化 或替换, 都应涵盖在本发明的保护范围之内。 因此, 本发明的保护范围应以所 述权利要求的保护范围为准。