DATA PROCESSING METHOD AND DEVICE

Title:

DATA PROCESSING METHOD AND DEVICE

Document Type and Number:

WIPO Patent Application WO/2014/206227

Kind Code:

A1

Abstract:

A data processing method and device, which relate to the technical field of data processing and can avoid complex mode integration required after a log event library is divided according to the fixed duration to conduct mining. The method comprises: dividing a log event library according to the first duration to obtain at least one log sequence which is continuous in the time sequence; determining a log sequence which is ranked first in the time sequence in the log sequences as a homing sequence, and starting from the homing sequence, judging the number of events contained in the current log sequence in sequence; if the number of events in the current log sequence is less than the number of first preset events, determining sub-sequence libraries; and respectively analysing and processing each sub-sequence library to obtain an analysis result respectively corresponding to each sub-sequence library. The data processing method and device are mainly applied in a data processing process.

Inventors:

FU XIAOYU (CN)
REN RUI (CN)
ZHAN JIANFENG (CN)

Application Number:

PCT/CN2014/080158

Publication Date:

December 31, 2014

Filing Date:

June 18, 2014

Export Citation:

Click for automatic bibliography generation Help

Assignee:

HUAWEI TECH CO LTD (CN)

International Classes:

G06F11/34

Foreign References:

CN101888309A	2010-11-17
CN1804844A	2006-07-19
US20080301200A1	2008-12-04

Download PDF:

View/Download PDF PDF Help

Claims:

权利要求

1、一种数据处理的方法，其特征在于，包括：

根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个曰志序列，其中，一个日志序列为一个第一时长内发生的日志事件的有序集合；将所述日志序列中时序上排列第一的日志序列确定为起始序列，从所述起始序列开始依次判断当前日志序列包含的事件数量；

如果当前日志序列中的事件数量小于第一预设事件数量，则将所述当前曰志序列确定为终止序列；

将所述起始序列、所述终止序列以及所述起始序列与所述终止序列之间的日志序列三者的有序集合确定为子序列库，将所述终止序列的下一个序列确定为起始序列，继续进行判断，或者，将所述起始序列以及所述起始序列与所述终止序列之间的日志序列两者的有序集合确定为子序列库，将所述终止序列确定为起始序列，继续进行判断；

分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。

2、根据权利要求 1所述的数据处理的方法，其特征在于，所述方法还包括：

根据第二时长分别对所述子序列库中每个日志序列进行分片，得到在时序上连续的至少一个短日志序列，其中，一个短日志序列为一个第二时长内发生的曰志事件的有序集合；

根据预设规则从每个短日志序列中确定重叠子序列，从所述至少一个短曰志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序列中 ,将拼接后的下一个短日志序列确定为第二子序列，其中，重叠子序列为以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合；

所述分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合，包括：

分别对每个子序列库中的全部第二子序列进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第二频繁序列以及每个第二频繁序列在所述子序列库中出现的次数，所述第二频繁序列为短日志序列中至少两次出现的有序集合；

如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列，则将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。

3、根据权利要求 2所述的数据处理的方法，其特征在于，所述根据预设规则从每个短日志序列中确定重叠子序列，从所述至少一个短日志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序列中，将拼接后的下一个短日志序列确定为第二子序列，包括：

从第一个短日志序列开始，依次在当前短日志序列中，从当前短日志序列时间截止点向当前短日志序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所述当前短日志序列对应的重叠子序列；

从第一个短日志序列开始，依次将当前短日志序列对应的重叠子序列拼接到所述当前段日志序列的下一个短日志序列的起始位置，所述重叠子序列与所述下一个短日志序列组成一个第二子序列。 4、根据权利要求 2所述的数据处理的方法，其特征在于，所述如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列，则将所述两个第二频繁序列进行拼接，包括：

从所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始，依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中，从当前第二频繁序列时间截止点向当前第二频繁序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

从所述至少一个第二频繁序列中查找出具有相同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

5、根据权利要求 2所述的数据处理的方法，其特征在于，所述如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列，则将所述两个第二频繁序列进行拼接，包括：

从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始，依次在当前第二频繁序列到时序上排列最后的第二频繁序列中，从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方向，选择所述预设时长内的第三有序集合或所述第二预设事件数量的第四有序集合，将所述第三有序集合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列；从所述至少一个第二频繁序列中的查找出具有相同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

6、一种数据处理的装置，其特征在于，包括：

划分单元，用于根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，其中，一个日志序列为一个第一时长内发生的日志事件的有序集合；第一确定单元，用于将所述划分单元划分的所述日志序列中时序上排列第一的日志序列确定为起始序列；

判断单元，用于从所述第一确定单元确定的所述起始序列开始依次判断当前曰志序列包含的事件数量；

第二确定单元，用于当所述判断单元判断出当前日志序列中的事件数量小于第一预设事件数量时，将所述当前日志序列确定为终止序列；

第三确定单元，用于将所述第一确定单元确定的所述起始序列、所述第二确定单元确定的所述终止序列以及所述起始序列与所述终止序列之间的日志序列三者的有序集合确定为子序列库，所述第一确定单元还用于将所述终止序列的下一个序列确定为起始序列，所述判断单元还用于继续进行判断；

所述第三确定单元，还用于将所述第一确定单元确定的所述起始序列以及所述第二确定单元确定的所述起始序列与所述终止序列之间的日志序列两者的有序集合确定为子序列库，所述第一确定单元还用于将所述终止序列确定为起始序列，所述判断单元还用于继续进行判断；

分析单元，用于分别对所述第三确定单元确定的每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。

7、根据权利要求 6所述的数据处理的装置，其特征在于，所述装置还包括：

分片单元 ,用于根据第二时长分别对所述第三单元确定的所述子序列库中每个日志序列进行分片，得到在时序上连续的至少一个短日志序列，其中，一个短日志序列为一个第二时长内发生的日志事件的有序集合；

第四确定单元，用于根据预设规则从所述分片单元得到的每个短日志序列中确定重叠子序列；

第一拼接单元，用于从所述至少一个短日志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序列中，将拼接后的下一个短日志序列确定为第二子序列，其中，重叠子序列为以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合；所述分析单元还用于，分别对所述第一拼接单元得到的每个子序列库中的全部第二子序列进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第二频繁序列以及每个第二频繁序列在所述子序列库中出现的次数，所述第二频繁序列为短日志序列中至少两次出现的有序集合；

第二拼接单元，用于当所述分析单元得到的所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列时 ,将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。

8、根据权利要求 7所述的数据处理的装置，其特征在于，所述第四确定单元还包括：

第一选择子单元，用于从所述分片单元得到的第一个短日志序列开始，依次在当前短日志序列中，从当前短日志序列时间截止点向当前短日志序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

确定子单元，用于将所述第一选择子单元选择的所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所述当前短日志序列对应的重叠子序列；

所述第一拼接单元还用于，从第一个短日志序列开始，依次将所述确定子单元确定的当前短日志序列对应的重叠子序列拼接到所述当前段日志序列的下一个短日志序列的起始位置，所述重叠子序列与所述下一个短日志序列组成一个第二子序列。

9、根据权利要求 7所述的数据处理的装置，其特征在于，所述第二拼接单元，包括：

第二子选择单元，用于从所述第四确定单元确定的所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始，依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中，从当前第二频繁序列时间截止点向当前第二频繁序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的曰志事件数量的预设比例的事件数量；

第一拼接子单元，用于从所述至少一个第二频繁序列中查找出具有相同的所述第二子选择单元选择的重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

10、根据权利要求 7所述的数据处理的装置，其特征在于，所述第二拼接单元还包括：

第三选择子单元，用于从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始，依次在当前第二频繁序列到时序上排列最后的第二频繁序列中，从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方向，选择所述预设时长内的第三有序集合或所述第二预设事件数量的第四有序集合，将所述第三有序集合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列；

第二拼接子单元，用于从所述至少一个第二频繁序列中的查找出具有相同的所述第二子选择单元选择的重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

Description:

数据处理的方法及装置本申请要求于 2013 年 06 月 28 日提交中国专利局、申请号为 201310270678.7、发明名称为"数据处理的方法及装置，，的中� �专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据处理的方法及装置。背景技术

随着集群系统、云计算数据中心等平台的规模逐渐增长和计算任务日益复杂，系统故障造成的业务中断、数据泄漏丟失带给用户的打击越来越沉重。当故障发生后，如何进行快速精确的故障诊断成为当务之急。系统的日志中记载了系统运行过程中发生的事件，包括操作系统、内核、网络、硬件、应用程序或用户行为等，是进行系统故障诊断的首选资源。通过对日志进行数据处理，能够从日志中找出导致失效事件的根原因事件（Root caus e ), 以便及时解决系统故障。

现有技术中提供了并行处理日志的技术方案如下：根据固定大小对日志事件库（日志文件）进行分割，得到多个子序列库。以并行方式分别对这些子序列库进行数据处理，得到频繁序列（挖掘结果），在对所有频繁序列（挖掘结果）进行复杂的全局模式整合，得到针对上述多个子序列库的挖掘结果。

在实现上述数据处理的过程中，发明人发现现有技术中至少存在如下问题：现有的对日志事件库进行固定分割并对得到的子序列库进行并行数据处理以提高海量日志挖掘效率的方法中，在获取日志整体挖掘结果时，需要对各个子序列库得到的局部频繁序列进行复杂的模式整合才能得到全局的挖掘结果。模式整合通常需要为每个频繁序列搜索整个日志事件库，使得总体的挖掘效率降低。发明内容本发明提供的一种数据处理的方法及装置，能够解决由于不能保证子序列库中事件的相互独立，导致在对每个子序列库单独进行数据处理后，需要通过复杂的全局模式整合才能够得出数据处理结果，进而数据处理效率降低的问题。

第一方面，本发明提供了一种数据处理的方法，包括：

根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个曰志序列，其中，一个日志序列为一个第一时长内发生的日志事件的有序集合；将所述日志序列中时序上排列第一的日志序列确定为起始序列，从所述起始序列开始依次判断当前日志序列包含的事件数量；

如果当前日志序列中的事件数量小于第一预设事件数量，则将所述当前曰志序列确定为终止序列；

将所述起始序列、所述终止序列以及所述起始序列与所述终止序列之间的日志序列三者的有序集合确定为子序列库，将所述终止序列的下一个序列确定为起始序列，继续进行判断，或者，将所述起始序列以及所述起始序列与所述终止序列之间的日志序列两者的有序集合确定为子序列库，将所述终止序列确定为起始序列，继续进行判断；

分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。

在所述第一方面的第一种可能的实现方式中，所述方法还包括：根据第二时长分别对所述子序列库中每个日志序列进行分片，得到在时序上连续的至少一个短日志序列，其中，一个短日志序列为一个第二时长内发生的曰志事件的有序集合；

根据预设规则从每个短日志序列中确定重叠子序列，从所述至少一个短曰志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序列中 ,将拼接后的下一个短日志序列确定为第二子序列，其中，重叠子序列为以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合；

所述分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合，包括：

分别对每个子序列库中的全部第二子序列进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第二频繁序列以及每个第二频繁序列在所述子序列库中出现的次数，所述第二频繁序列为短日志序列中至少两次出现的有序集合；

如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列，则将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。

在所述第一方面的第一种可能的实现方式中，还提供了所述第一方面的第二种可能的实现方式，在所述第一方面的第二种可能的实现方式中，所述根据预设规则从每个短日志序列中确定重叠子序列，从所述至少一个短日志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短曰志序列的下一个短日志序列中，将拼接后的下一个短日志序列确定为第二子序列，包括：

从第一个短日志序列开始，依次在当前短日志序列中，从当前短日志序列时间截止点向当前短日志序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所述当前短日志序列对应的重叠子序列；从第一个短日志序列开始，依次将当前短日志序列对应的重叠子序列拼接到所述当前段日志序列的下一个短日志序列的起始位置，所述重叠子序列与所述下一个短日志序列组成一个第二子序列。

在所述第一方面的第一种可能的实现方式中，还提供了所述第一方面的第三种可能的实现方式，在所述第一方面的第三种可能的实现方式中，所述如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序歹 |J , 则将所述两个第二频繁序列进行拼接，包括：

从所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始，依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中，从当前第二频繁序列时间截止点向当前第二频繁序列时间起始点方向 ,选择预设时长内的有序集合或第二预设事件数量的有序集合，将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

从所述至少一个第二频繁序列中查找出具有相同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

在所述第一方面的第一种可能的实现方式中，还提供了所述第一方面的第四种可能的实现方式，在所述第一方面的第四种可能的实现方式中，所述如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序歹J , 则将所述两个第二频繁序列进行拼接，包括：

从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始，依次在当前第二频繁序列到时序上排列最后的第二频繁序列中，从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方向，选择所述预设时长内的第三有序集合或所述第二预设事件数量的第四有序集合，将所述第三有序集合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列；从所述至少一个第二频繁序列中的查找出具有相同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

第二方面，本发明提供了一种数据处理的装置，包括：

划分单元，用于根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，其中，一个日志序列为一个第一时长内发生的日志事件的有序集合；

第一确定单元，用于将所述划分单元划分的所述日志序列中时序上排列第一的日志序列确定为起始序列；

判断单元，用于从所述第一确定单元确定的所述起始序列开始依次判断当前日志序列包含的事件数量；

第二确定单元，用于当所述判断单元判断出当前日志序列中的事件数量小于第一预设事件数量时，将所述当前日志序列确定为终止序列；

第三确定单元，用于将所述第一确定单元确定的所述起始序列、所述第二确定单元确定的所述终止序列以及所述起始序列与所述终止序列之间的日志序列三者的有序集合确定为子序列库，所述第一确定单元还用于将所述终止序列的下一个序列确定为起始序列，所述判断单元还用于继续进行判断；

所述第三确定单元，还用于将所述第一确定单元确定的所述起始序列以及所述第二确定单元确定的所述起始序列与所述终止序列之间的日志序列两者的有序集合确定为子序列库，所述第一确定单元还用于将所述终止序列确定为起始序列，所述判断单元还用于继续进行判断；

分析单元，用于分别对所述第三确定单元确定的每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。

在所述第二反面的第一种可能的实现方式中，所述装置还包括：分片单元 ,用于根据第二时长分别对所述第三单元确定� �所述子序列库中每个日志序列进行分片，得到在时序上连续的至少一个短日志序列，其中，一个短日志序列为一个第二时长内发生的日志事件的有序集合；

第四确定单元，用于根据预设规则从所述分片单元得到的每个短日志序列中确定重叠子序列；

第一拼接单元，用于从所述至少一个短日志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序列中，将拼接后的下一个短日志序列确定为第二子序列，其中，重叠子序列为以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合；所述分析单元还用于，分别对所述第一拼接单元得到的每个子序列库中的全部第二子序列进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第二频繁序列以及每个第二频繁序列在所述子序列库中出现的次数，所述第二频繁序列为短日志序列中至少两次出现的有序集合；

第二拼接单元，用于当所述分析单元得到的所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列时 ,将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。

在所述第二反面的第一种可能的实现方式中，还提供了所述第二反面的第二种可能的实现方式，在所述第二反面的第二种可能的实现方式中，所述第四确定单元还包括：

第一选择子单元，用于从所述分片单元得到的第一个短日志序列开始，依次在当前短日志序列中，从当前短日志序列时间截止点向当前短日志序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

确定子单元，用于将所述第一选择子单元选择的所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所述当前短日志序列对应的重叠子序列；

所述第一拼接单元还用于，从第一个短日志序列开始，依次将所述确定子单元确定的当前短日志序列对应的重叠子序列拼接到所述当前段日志序列的下一个短日志序列的起始位置，所述重叠子序列与所述下一个短日志序列组成一个第二子序列。

在所述第二反面的第一种可能的实现方式中，还提供了所述第二反面的第三种可能的实现方式，在所述第二反面的第三种可能的实现方式中，包括：第二子选择单元，用于从所述第四确定单元确定的所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始，依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中，从当前第二频繁序列时间截止点向当前第二频繁序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

第一拼接子单元，用于从所述至少一个第二频繁序列中查找出具有相同的所述第二子选择单元选择的重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

在所述第二反面的第一种可能的实现方式中，还提供了所述第二反面的第四种可能的实现方式，在所述第二反面的第四种可能的实现方式中，所述第二拼接单元还包括：

第三选择子单元，用于从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始，依次在当前第二频繁序列到时序上排列最后的第二频繁序列中，从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方向，选择所述预设时长内的第三有序集合或所述第二预设事件数量的第四有序集合 ,将所述第三有序集合或所述第四有序集合确� �为与所述当前第二频繁序列对应的重叠频繁序列；

第二拼接子单元，用于从所述至少一个第二频繁序列中的查找出具有相同的所述第二子选择单元选择的重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

本发明提供的数据处理的方法及装置，能够根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，将所述日志序列中时序上排列第一的日志序列确定为起始序列，从所述起始序列开始依次判断，如果当前曰志序列中的事件数量小于第一预设事件数量，则将所述当前日志序列确定为终止序列；然后才艮据所述起始序列、所述终止序列确定为子序列库，在重新确定起始序列之后，继续进行判断直至最后一个日志序列；再分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。现有技术中根据数据大小进行固定分割，无法利用日志的分布特性进行动态分割，且分割后的子序列库不相互独立，在获取日志整体挖掘结果时，需要对各个子序列库得到的局部频繁序列进行复杂的模式整合才能得到全局的挖掘结果。模式整合通常需要为每个频繁序列再次搜索整个日志事件库，使得总体的挖掘效率降低。本发明中，根据事件数量进行分割，能够根据日志分布进行动态分割，分割出的子序列库相互独立，各子序列库上的局部挖掘结果可以作为全局的挖掘结果，从而避免了复杂的模式整合，进而提高数据处理效率。发明人发现，日志事件库中事件的分布呈间歇密集型（bur s ty behavior )每一个密集段的事件只集中在该段发生，独立于其它密集段。根据每个日志序列中的事件数量划分出子序列库，能够得出对应每个密集段的子序列库。对这些子序列库进行分析之后，能够得到对应每个密集段的的分析结果，进而减小对挖掘结果进行模式整合时的复杂度。附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明实施例中一个数据处理的方法的流� �图；

图 2为本发明实施例中另一个数据处理的方法的� �程图；

图 3为本发明实施例中再一个数据处理的方法的� �程图；

图 4为本发明实施例中一个数据处理的装置的结� �示意图；

图 5为本发明实施例中另一个数据处理的装置的� �构示意图；

图 6为本发明实施例中再一个数据处理的装置的� �构示意图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种数据处理的方法，所述方法应用于数据处理服务器等电子设备中，如图 1所示，包括：

步骤 101、根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，其中，一个日志序列为一个第一时长内发生的日志事件的有序集合。

所谓有序集合为顺序排列的有序集合，每个日志序列内的日志事件的排列顺序根据日志事件的发生时间升序排列。从日志事件发生时间最早的日志事件开始，将发生在第一时长之内的日志事件确定为一个日志序列。从第一时长最后时刻发生的日志事件的下一个日志事件开始，将发生在第一时长之内的曰志事件确定为一个日志序列。以此类推，得到至少一个日志序列，直到所述曰志事件库中最后一个日志事件为止。第一时长为单位时长，例如 lmin、 10s等，通常为 lmin。如果第一时长为 lmin, 则生成的日志序列为第一分钟内发生的曰志事件的有序集合，第二分钟内发生的日志事件的有序集合，第二分钟内发生的日志事件的有序集合，直至第 N分钟内发生的日志事件的有序集合。

步骤 102、将日志序列中时序上排列第一的日志序列确定为起始序列，从起始序列开始依次判断当前日志序列包含的事件数量。

步骤 103、如果当前日志序列中的事件数量小于第一预设事件数量，则将当前日志序列确定为终止序列。

步骤 104、将起始序列、终止序列以及起始序列与终止序列之间的日志序列三者的有序集合确定为子序列库，将终止序列的下一个序列确定为起始序歹 |J , 继续进行判断，或者，将起始序列以及起始序列与终止序列之间的日志序列两者的有序集合确定为子序列库，将终止序列确定为起始序列，继续判断。

如果时序上排列第一的日志序列（为了方便说明，后续对时序上排列第一的曰志序列称为第一个日志序列）中的事件数量不小于第一预设事件数量，则判断第二个日志序列中的事件数量是否小于第一预设事件数量，直至判断出第 N个日志序列中的事件数量小于第一预设事件� �量时，将第一个日志序列至第 N个日志序列确定为第一个子序列库。然后，从第 N+1个日志序列开始，判断第 N+1 个日志序列中的事件数量是否小于第一预设事件数量，直至判断出第 N+M个日志序列中的事件数量小于第一预设事件数量时，将第 N+1个日志序列至第 N+M个日志序列确定为第二个子序列库。以此类推，得到至少一个子序列库。

或者，如果第一个日志序列中的事件数量不小于第一预设事件数量，则判断第二个日志序列中的事件数量是否小于第一预设事件数量，直至判断出第 N 个曰志序列中的事件数量小于第一预设事件数量时，将第一个日志序列至第 N-1个日志序列确定为第一个子序列库。然后，从第 N+1个日志序列开始，判断第 N+1个日志序列中的事件数量是否小于第一预设事件数量，直至判断出第 N+M个日志序列中的事件数量小于第一预设事件数量时，将第 N个日志序列至第 N+M-1个日志序列确定为第二个子序列库。以此类推，得到至少一个子序列库。

例如：日志事件库用于记录操作频繁的用户操作，如键盘输入的点击事件，第一时长为 1分钟，用户在 1-10分钟每分钟依次键入的字符的个数依次为� � 150、 102、 90、 110、 120、 118、 125、 130、 98、 10。曰志序列 xl-xl O分别对应于第 1分钟到第 10分钟，第一预设事件数量为 100。将 xl确定为起始曰志序列，判断 xl 内的事件数量 150是否小于第一预设事件数量 100, 结果为不小于，则判断 x2 内的事件数量 102是否小于第一预设事件数量 100 , 结果为不小于，再判断 x3内的事件数量 90是否小于第一预设事件数量 100, 结果为小于，则将 x3 确定为终止序列，将所含日志事件数量分别为 150、 102、 90 的 xl、 x2、 x3确定为第一个子序列库 XI。随后，将 x4确定为起始序列，并依次判断 x4内的事件数量 110、 x5内的事件数量 120、 x6内的事件数量 118、 x7内的事件数量 125、 x8内的事件数量 130、是否小于第一预设事件数量 100, 结果均为不小于，当判断 x9内的事件数量 98是否小于 100时，结果为小于，将 x9确定为终止序列，并将所含日志事件数量分别为 110、 120、 118、 125、 130、 98的 x4、 x5、 x6、 x7、 x8、 x9确定为第二个子序列库 X2。再判断 xl O 内的事件数量 10是否小于 100, 结果为小于，将所含事件数量为 10的 xl O作为第三个子序列库 X3 , 由于 xl O为最后一个日志序列，因此结束比较。生成的子序列库有三个，分别为： Xl {xl、 x2、 x3}、 X2 {x4、 x5、 x6、 x7、 x8、 x9} 、 X3 {xl O}。

现有技术中，对日志事件库进行划分是根据固定的事件数量进行的。在上例中，按照现有技术中的分割方式，分割出的每个子序列库由 100个输入事件组成。上述日志中一共有 1053个输入事件，按照现有技术分割出的子序列库为 10个事件数量为 100的子序列库和一个事件数量为 53的子数据库，共十一个子数据库。现有技术中还提供了一种基于固定时间窗口的分割方式：通过固定的时间窗口对日志事件库进行分割。即将一个第一时长内的日志事件有序集合确定为一个子序列库，用此种方式对上述日志进行分割，将得到下述子序列库： {xl}、 {x2}、 {x3}、 {x4}、 {x5}、 {x6}、 {x7}、 {x8}、 {x9}、 {xl O} ,共十个。此种分割方式存在分割死板的缺陷，在后续分析的过程中，其分析对象为第一分钟、第二分钟。。。第十分钟内的数据，而非连续的一段数据。例如：用户花费 2. 5min 的时间输入一段文字。用户输入时，会存在 lmin内输入的文字不是一整句话的问题，此时如果按照固定时间窗口的分割方式进行划分，则会出现数据分析的对象为不完整句子，降低数据处理结果的准确性。本发明中通过判断日志序列中事件数量是否小于第一预设事件数量，能够将集中产生日志事件的一段时间内生成的日志事件有序集合作为一个子序列库，在上例中，能够将 2. 5min 内的全部事件确定为一个子序列库进行挖掘，进而提高数据处理结果的准确性。

步骤 105、分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在子序列库中出现的次数，第一频繁序列为日志序列中至少两次出现的有序集合。

其中，所述志序列中至少两次出现的有序集合为在日志事件中出现过的连续的至少两个日志事件的集合。分析处理为现有技术中的数据处理处理，用于从子序列库中统计出第一频繁序列以及第一频繁序列出现的次数。具体的挖掘的方式可以釆用现有技术中的并行化的类 Apr ior i 算法（包括 GSP 算法和 spade算法等）、并行化的模式增长算法（包括 pref ixSpan算法和 FreeSpan 算法等）、基于序列比较的算法（如 Di s c-a l l算法等）等序列模式挖掘方法进行数据分析。

本发明提供的数据处理的方法，能够根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，将所述日志序列中时序上排列第一的日志序列确定为起始序列，从所述起始序列开始依次判断，如果当前日志序列中的事件数量小于第一预设事件数量，则将所述当前日志序列确定为终止序列；然后根据所述起始序列、所述终止序列确定为子序列库，在重新确定起始序列之后，继续进行判断直至最后一个日志序列；再分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。现有技术中根据数据大小进行固定分割，无法利用日志的分布特性进行动态分割，且分割后的子序列库不相互独立，在获取日志整体挖掘结果时，需要对各个子序列库得到的局部频繁序列进行复杂的模式整合才能得到全局的挖掘结果。模式整合通常需要为每个频繁序列再次搜索整个日志事件库，使得总体的挖掘效率降低。本发明中，根据事件数量进行分割，能够根据日志分布进行动态分割，分割出的子序列库相互独立，各子序列库上的局部挖掘结果可以作为全局的挖掘结果，从而避免了复杂的模式整合，进而提高数据处理效率。发明人发现，曰志事件库中事件的分布呈间歇密集型（burs ty behavior )每一个密集段的事件只集中在该段发生，独立于其它密集段。根据每个日志序列中的事件数量划分出子序列库，能够得出对应每个密集段的子序列库。对这些子序列库进行分析之后，能够得到对应每个密集段的的分析结果，进而减小对挖掘结果进行模式整合时的复杂度。

本发明实施例还提供了一种数据处理的方法，作为对图 1所述方法的进一步描述，如图 2所示，所述方法还包括：

步骤 201、根据第二时长分别对子序列库中每个日志序列进行分片，得到在时序上连续的至少一个短日志序列，其中，一个短日志序列为一个第二时长内发生的日志事件的有序集合。

对子序列库中的第一个日志序列进行分片时：从第一个日志序列的起始时间点 t l开始，将位于第二时长内的日志事件的有序集合确定为第一个短日志序列，将 t l与第二时长相加，得到 t2 , 从 t2开始，将位于第二时长内的曰志事件的有序集合确定为第二个短日志序列。以此类推，直至 tx大于子序列库的终止时间点。由此能够得到的每个短日志序列对应一个第二时长内的曰志事件的有序集合，各短日志序列之间为连续的。第二时长为第一时长的预设比例或者预设时长。

如：第一时长为 lmin, 预设比例为 50%, 则第二时长为 30s。再如：第一时长为 2min, 第二时长的时长为 30s , 此时一个第一时长为 4个第二时长，因此第一子序列被分片为四个短日志序列。

步骤 202、根据预设规则从每个短日志序列中确定重叠子序列，从至少一个短日志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序列中，将拼接后的下一个短日志序列确定为第二子序列，其中，重叠子序列为以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合。

根据重叠子序列拼接得到的两个第二子序列之间，前一个第二子序列的尾部为重叠子序列，后一个第二子序列的头部为重叠子序列。由于分析处理是从原始数据（第二子序列）中，统计发生多次的日志事件的有序集合，因此，通过重叠子序列能够使得两个由于原始数据独立而互相独立的挖掘结果具有关联性。

具体的，如图 3所示，在确定重叠子序列时可通过下述方式进行实施。步骤 301、从第一个短日志序列开始，依次在当前短日志序列中，从当前短日志序列时间截止点向当前短日志序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，其中，预设时长为第二时长的预设比例的时长，第二预设数量为当前短日志序列包含的日志事件数量的预设比例的事件数量。

步骤 302、将预设时长内的有序集合或第二预设事件数量的有序集合确定为当前短日志序列对应的重叠子序列。步骤 303、从第一个短日志序列开始，依次将当前短日志序列对应的重叠子序列拼接到当前段日志序列的下一个短日志序列的起始位置，重叠子序列与下一个短日志序列组成一个第二子序列。

下面通过一个例子对图 3所示方法做具体说明：

第一时长的时长为 lmin ( 60s ), —个日志序列为 {dl , d2 , d3 , d4 , d5 , d6} , 其中 dl至 d6为第一时长内均匀分布的日志事件。如果第二时长的时长为 20s , 则根据第二时长对日志序列进行分片，得到的短日志序列为 xl ( dl , d2 ), x2 ( d3、 d4 ), x3 ( d5 , d6 )。如果此时预设时长为 10s , 则确定出在 xl 的重叠子序列为 d2 , x2的重叠子序列为 d4。进行拼接：将 xl的重叠子序列 d2拼接到 x2的起始位置，拼接后的 x2，为（d2、 d 3、 d4 ); 将 x2的重叠子序列 d4拼接到 x3的起始位置，拼接后的 χ3'为（d4、 d5、 d6 )。得到的第二子序列分别为： xl ( dl , d2 )、 χ2' ( d2、 d3、 d4 )、 x3，（d4、 d5、 d6 )。

此时，步骤 105、分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在子序列库中出现的次数，第一频繁序列为日志序列中至少两次出现的有序集合，包括：

步骤 203、分别对每个子序列库中的全部第二子序列进行分析处理，得到与每个子序列库分别对应的分析结果，分析结果用于表示一个子序列库中的全部第二频繁序列以及每个第二频繁序列在子序列库中出现的次数，第二频繁序列为短日志序列中至少两次出现的有序集合。

分析处理的方法与步骤 105中的一致，不同的时分析处理的对象由日志序列变为第二子序列。

步骤 204、如果至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列，则将至少两个第二频繁序列在重叠子序列处进行拼接。

具体的，可通过两种方式将至少两个第二频繁你序列进行拼接：

1、从每个第二频繁序列的尾部选择重叠频繁序列，根据该重叠频繁序列进行拼接。

1 )从所述至少一个第二频繁序列中的时序上排� �第一的第二频繁序列开始，依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中，从当前第二频繁序列时间截止点向当前第二频繁序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

2 )从所述至少一个第二频繁序列中查找出具有� �同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

1、从每个第二频繁序列的尾部选择重叠频繁序列，根据该重叠频繁序列进行拼接。

1 )从所述至少一个第二频繁序列中的时序上排� �第二的第二频繁序列开始，依次在当前第二频繁序列到时序上排列最后的第二频繁序列中，从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方向 ,选择所述预设时长内的第三有序集合或所述第二预设事件数量的第四有序集合，将所述第三有序集合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列；

2 )从所述至少一个第二频繁序列中的查找出具� �相同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

1、根据第一时长确定日志序列：

日志事件库由 xl-xl2共 12条日志序列组成，每条日志序列由一组日志� �� 件 ID构成，每个日志事件 ID由一个自然数表示。每条日志序列是按照第� ��时长（假设 10分钟）划分日志事件库所得。

{ xl (l、 23、 1945、 72、 98、 67、 32、 45、 14、 19、 1278、 567)； x2(14、 19、 1278、 567、 1945、 23、 1)；

x3(45、 14、 23、 1945、 72、 14、 19、 1278、 567)；

x4(616、 67、 567、 1278、 23、 1945、 72、 19、 14)；

x5 (1278, 67、 32、 45、 14、 19、 1278、 567、 98、 23、 1945、 72)； x6 (333、 5)；

x7 (1690, 744、 1690、 293、 7)；

x8(7、 1644、 293、 744、 1690、 )；

x9 (744、 1690、 77、 89)；

xl0 (1555)；

xll (40、 50、 99、 234、 798、 145、 176、 33、 985、 211、 202)；

xl2 (1945、 33、 985、 145)；

xl3(99、 50、 40、 145、 33、 145、 33、 985、 145) }

2.根据第一预设日志事件数量将至少一个日志� ��列的集合确定为第一子序列库：

给定第一预设日志事件数量为 3个，统计每条序列内日志事件的个数，将事件数量小于 3的序列 x6和 xlO以及最后个日志序列 xl3的确定为终止序列，得到三个子序列库 XI {xl; x2; x3; x4; x5} 、 X2 {x6; x7; x8; x9}和 X3{xl0; xll; xl2; xl3}。则后续工作可在每个第一子序列库上单独进行。

3.根据第二时长对子序列库中每个日志序列进� ��分片：

如果第一时长为 10分钟，假设预设比例为 50%, 第二时长为 5分钟。若第一时长内的日志事件数量最大为 12个，则分片大小数量为 6个。对 Xl {xl; x2; x3; x4; x5} 分片后得到由 10个短序列组成的子序列库 X_S1, 其中每个短日志序列的事件数量不超过 6个。分片后的子序列库为：

{x-sl (1、 23、 1945、 72、 98、 67)；

x_s2(32、 45、 14、 19、 1278、 567)；

x_s3(14、 19、 1278、 567、 1945、 23)； x_s4 (1)；

x_s5(45、 14、 23、 1945、 72、 14)；

x_s6(19、 1278、 567)；

x_s7(616、 67、 567、 1278、 23、 1945)；

x_s8(72、 19、 14)；

x_s9 (1278、 67、 32、 45、 14、 19)；

x_sl0(1278、 567、 98、 23、 1945、 72、 14)； }

类似方法可对其它两个子序列库 X2和 X3进行分片。

4.在每个短日志序列中确定重叠子序列，将该� ��叠子序列合并到每个短曰志序列的下一个短日志序列中，将下一个短日志序列确定为一个第二子序列

(重叠窗口机制 ):

第二时长内记录的日志事件数量最大为 6个，取预设比例为 1/3, 则重叠子序列的长度为 2。以 X_S1为例，将 x_sl(l、 23、 1945、 72、 98、 67)的最后两个日志事件（98、 67)确定为 x-sl 的重叠子序列，将 x_s2(32、 45、 14、 19、 1278、 567) 的最后两个日志事件（ 1278、 567 )确定为 x_s2的重叠子序歹' J, 以此类推得到 x-s3至 x_slO各自的重叠子序列。从 x_sl开始，将 x_sl 的重叠子序列（ 98、 67 )拼接到 x_s2的起始位置，将拼接后的 x-s2确定为一个第二子序列。将 x_s2的重叠子序列（ 1278、 567 )拼接到 x_s3的起始位置，将拼接后的 X- s 3确定为另一个第二子序列。以此类推得到 x_s3至 x_slO各自拼接后对应的第二子序列。得到子序列库 X_S1_S为：

{x-sl (1、 23、 1945、 72、 98、 67)；

x_s2(98、 67、 32、 45、 14、 19、 1278、 567)；

x_s3(1278、 567、 14、 19、 1278、 567、 1945、 23)；

x_s4 (1945、 23、 1)；

x_s5(l、 45、 14、 23、 1945、 72、 14)；

x_s6(72、 14、 19、 1278、 567)； x_ s 7 (1278、 567、 616、 67、 567、 1278、 23、 1945)；

x_ s 8 (23、 1945、 72、 19、 14)；

x_ s 9 (19、 14、 1278、 67、 32、 45、 14、 19)；

x_ s l 0 (14、 19、 1278、 567、 98、 23、 1945、 72、 14)； }

5.对子序列库进行分析处理：

釆用类 Apr ior i算法对子序列库挖掘，得到长度大于 3的第二频繁序列和其出现次数为：

频繁序列（23、 1945、 72)出现 4次，

频繁序列（67、 32、 45、 14、 19)出现 2次,

频繁序列（14、 19、 1278、 567)出现 4次。

6.对挖掘结果进行拼接：

此处头部和尾部的长度与 4中重叠子序列的长度相等，为 2个。

在 5中得到的三个频繁序列中，如果一个频繁序� �的尾部与另一个频繁序列的头部相一致，则将这两个频繁序列进行根据相同的部分进行拼接。 5中头部和尾部相一致的两条第二频繁序列（67、 32、 45、 14、 19)和（14、 19、 1278、 567)进行拼接得到 {67、 32、 45、 14、 19、 1278、 567} , 出现次数选择两条第二频繁序列的出现次数的较小者。则连接后得到的一子序列库的挖掘结果，即长度大于 3的第一频繁序列集为：

频繁序列（23、 1945、 72)出现 4次，

频繁序列（14、 19、 1278、 567)出现 4次，

频繁序列（67、 32、 45、 14、 19、 1278、 567)出现 2次。

本方法通过 2中日志事件中的事件数量对日志事件库进行� �分操作以及 3 中对子序列库中的日志序列进行分片的操作显著提高了序列挖掘的效果。同时 4的重叠窗口机制和 6的拼接操作保证得到长度较长的频繁序列，进而有助于故障诊断。

本发明实施例提供的数据处理的方法，能够将子序列库中的日志序列分片并通过拼接操作形成具有重叠子序列的第二子序列。根据挖掘算法的特点（挖掘短序列数据集比长序列数据集具有更高的效率）提出了具有重叠子序列的分片方式，进一步提高挖掘的效率。由于第二子序列具有重叠性进而降低数据挖掘后拼接过程中的复杂度，提高数据挖掘的效率。此外，本发明实施例还提出了对挖掘后得到的频繁序列进行拼接的操作，以优化频繁序列的数据挖掘结果，用于提高故障诊断的准确性。

本发明实施例还提供了一种数据处理的装置，如图 4所示，包括：划分单元 41 , 用于根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，其中，一个日志序列为一个第一时长内发生的曰志事件的有序集合。

第一确定单元 42 , 用于将所述划分单元 41划分的所述日志序列中时序上排列第一的日志序列确定为起始序列。

判断单元 43 , 用于从所述第一确定单元 42确定的所述起始序列开始依次判断当前日志序列包含的事件数量。

第二确定单元 44 , 用于当所述判断单元 43判断出当前日志序列中的事件数量小于第一预设事件数量时，将所述当前日志序列确定为终止序列。

第三确定单元 45 , 用于将所述第一确定单元 42确定的所述起始序列、所述第二确定单元 44确定的所述终止序列以及所述起始序列与所� ��终止序列之间的日志序列三者的有序集合确定为子序列库，所述第一确定单元 42还用于将所述终止序列的下一个序列确定为起始序列，所述判断单元 43还用于继续进行判断。

所述第三确定单元 45 , 还用于将所述第一确定单元 42确定的所述起始序列以及所述第二确定单元 44确定的所述起始序列与所述终止序列之间的� ��志序列两者的有序集合确定为子序列库，所述第一确定单元 42还用于将所述终止序列确定为起始序列，所述判断单元 43还用于继续进行判断。

分析单元 46 , 用于分别对所述第三确定单元 45确定的每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。

本发明实施例还提供了一种数据处理的装置，如图 5所示，所述装置包括分片单元 51、第四确定单元 52、第一拼接单元 53、第二拼接单元 54。

所述分片单元 51 , 用于根据第二时长分别对所述第三确定单元 45确定的所述子序列库中每个日志序列进行分片，得到在时序上连续的至少一个短曰志序列，其中，一个短日志序列为一个第二时长内发生的日志事件的有序集合；第四确定单元 52 , 用于根据预设规则从所述分片单元 51得到的每个短日志序列中确定重叠子序列；

第一拼接单元 53 , 用于从所述至少一个短日志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短曰志序列中，将拼接后的下一个短日志序列确定为第二子序列，其中，重叠子序列为以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合；所述分析单元 46还用于，分别对所述第一拼接单元 53得到的每个子序列库中的全部第二子序列进行分析处理，得到与每个子序列库分别对应的分析结果 ,所述分析结果用于表示一个子序列库中的全� �第二频繁序列以及每个第二频繁序列在所述子序列库中出现的次数 ,所述第二频繁序列为短日志序列中至少两次出现的有序集合；

第二拼接单元 54 , 用于当所述分析单元 46得到的所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列时，将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。

进一步的，所述第四确定单元 52还包括：

第一选择子单元 521 , 用于从所述分片单元 51得到的第一个短日志序列开始，依次在当前短日志序列中，从当前短日志序列时间截止点向当前短日志序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

确定子单元 522 , 用于将所述第一选择子单元 521选择的所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所述当前短日志序列对应的重叠子序列；

所述第一拼接单元 53还用于，从第一个短日志序列开始，依次将所述确定子单元 522 确定的当前短日志序列对应的重叠子序列拼接到所述当前段日志序列的下一个短日志序列的起始位置，所述重叠子序列与所述下一个短曰志序列组成一个第二子序列。

进一步的，所述第二拼接单元 54 , 包括：

第二子选择单元 541 , 用于从所述第四确定单元 52确定的所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始，依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中，从当前第二频繁序列时间截止点向当前第二频繁序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

第一拼接子单元 542 , 用于从所述至少一个第二频繁序列中查找出具有相同的所述第二子选择单元 541选择的重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

进一步的，所述第二拼接单元 54还包括：

第三选择子单元 543 , 用于从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始，依次在当前第二频繁序列到时序上排列最后的第二频繁序列中，从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方向 ,选择所述预设时长内的第三有序集合或所述� �二预设事件数量的第四有序集合，将所述第三有序集合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列；

第二拼接子单元 544 , 用于从所述至少一个第二频繁序列中的查找出具有相同的所述第二子选择单元 541 选择的重叠频繁序列的至少两个第二频繁序歹J , 将所述至少两个第二频繁序列进行拼接。

本发明提供的数据处理的装置，能够根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，将所述日志序列中时序上排列第一的日志序列确定为起始序列，从所述起始序列开始依次判断，如果当前日志序列中的事件数量小于第一预设事件数量，则将所述当前日志序列确定为终止序列；然后根据所述起始序列、所述终止序列确定为子序列库，在重新确定起始序列之后，继续进行判断直至最后一个日志序列；再分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。现有技术中根据数据大小进行固定分割，无法利用日志的分布特性进行动态分割，且分割后的子序列库不相互独立，在获取日志整体挖掘结果时，需要对各个子序列库得到的局部频繁序列进行复杂的模式整合才能得到全局的挖掘结果。模式整合通常需要为每个频繁序列再次搜索整个日志事件库，使得总体的挖掘效率降低。本发明中，根据事件数量进行分割，能够根据日志分布进行动态分割，分割出的子序列库相互独立，各子序列库上的局部挖掘结果可以作为全局的挖掘结果，从而避免了复杂的模式整合，进而提高数据处理效率。发明人发现，曰志事件库中事件的分布呈间歇密集型（burs ty behavior )每一个密集段的事件只集中在该段发生，独立于其它密集段。根据每个日志序列中的事件数量划分出子序列库，能够得出对应每个密集段的子序列库。对这些子序列库进行分析之后，能够得到对应每个密集段的的分析结果，进而减小对挖掘结果进行模式整合时的复杂度。此外，本发明实施例提供的数据处理的装置，能够将子序列库中的日志序列分片并通过拼接操作形成具有重叠子序列的第二子序列。根据挖掘算法的特点（挖掘短序列数据集比长序列数据集具有更高的效率）提出了具有重叠子序列的分片方式，进一步提高挖掘的效率。由于第二子序列具有重叠性进而降低数据挖掘后拼接过程中的复杂度，提高数据挖掘的效率。此外，本发明实施例还提出了对挖掘后得到的频繁序列进行拼接的操作，以优化频繁序列的数据挖掘结果，用于提高故障诊断的准确性。

本发明实施例还提供了一种数据处理的装置，如图 6所示，所述装置包括处理器 61和存储器 62 , 所述存储器 62中存储有与图 1所示方法一致的程序文件，所述处理器 61从所述存储器 62中读取该程序文件进行处理。

所述处理器 61用于：

根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个曰志序列，其中，一个日志序列为一个第一时长内发生的日志事件的有序集合；将所述日志序列中时序上排列第一的日志序列确定为起始序列，从所述起始序列开始依次判断当前日志序列包含的事件数量；

如果当前日志序列中的事件数量小于第一预设事件数量，则将所述当前曰志序列确定为终止序列；

将所述起始序列、所述终止序列以及所述起始序列与所述终止序列之间的日志序列三者的有序集合确定为子序列库，将所述终止序列的下一个序列确定为起始序列，继续进行判断，或者，将所述起始序列以及所述起始序列与所述终止序列之间的日志序列两者的有序集合确定为子序列库，将所述终止序列确定为起始序列，继续进行判断；

分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。

进一步的，所述处理器 61还用于：根据第二时长分别对所述子序列库中每个日志序列进行分片，得到在时序上连续的至少一个短日志序列，其中，一个短日志序列为一个第二时长内发生的曰志事件的有序集合；

根据预设规则从每个短日志序列中确定重叠子序列，从所述至少一个短曰志序列中的第一个短日志序列开始，将当前短日志序列的重叠子序列拼接到当前短日志序列的下一个短日志序列中 ,将拼接后的下一个短日志序列确定为第二子序列，其中，重叠子序列为以当前短日志序列时间截止点为截止点的至少一个日志事件的有序集合；

分别对每个子序列库中的全部第二子序列进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第二频繁序列以及每个第二频繁序列在所述子序列库中出现的次数，所述第二频繁序列为短日志序列中至少两次出现的有序集合；

如果所述至少一个第二频繁序列中的至少两个第二频繁序列具有相同的重叠子序列，则将所述至少两个第二频繁序列在所述重叠子序列处进行拼接。

进一步的，所述处理器 61还用于：

从第一个短日志序列开始，依次在当前短日志序列中，从当前短日志序列时间截止点向当前短日志序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为所述当前短日志序列对应的重叠子序列；

从第一个短日志序列开始，依次将当前短日志序列对应的重叠子序列拼接到所述当前段日志序列的下一个短日志序列的起始位置，所述重叠子序列与所述下一个短日志序列组成一个第二子序列。

进一步的，所述处理器 61还用于：从所述至少一个第二频繁序列中的时序上排列第一的第二频繁序列开始，依次在当前第二频繁序列至时序上排列倒数第二的第二频繁序列中，从当前第二频繁序列时间截止点向当前第二频繁序列时间起始点方向，选择预设时长内的有序集合或第二预设事件数量的有序集合，将所述预设时长内的有序集合或第二预设事件数量的有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列，其中，所述预设时长为第二时长的预设比例的时长，所述第二预设数量为所述当前短日志序列包含的日志事件数量的预设比例的事件数量；

从所述至少一个第二频繁序列中查找出具有相同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

进一步的，所述处理器 61还用于：

从所述至少一个第二频繁序列中的时序上排列第二的第二频繁序列开始，依次在当前第二频繁序列到时序上排列最后的第二频繁序列中，从当前第二频繁序列时间起始点向当前第二频繁序列时间截止点方向，选择所述预设时长内的第三有序集合或所述第二预设事件数量的第四有序集合，将所述第三有序集合或所述第四有序集合确定为与所述当前第二频繁序列对应的重叠频繁序列；从所述至少一个第二频繁序列中的查找出具有相同重叠频繁序列的至少两个第二频繁序列，将所述至少两个第二频繁序列进行拼接。

本发明提供的数据处理的装置，能够根据第一时长对日志事件库进行划分，得到在时序上连续的至少一个日志序列，将所述日志序列中时序上排列第一的日志序列确定为起始序列，从所述起始序列开始依次判断，如果当前曰志序列中的事件数量小于第一预设事件数量，则将所述当前日志序列确定为终止序列；然后才艮据所述起始序列、所述终止序列确定为子序列库，在重新确定起始序列之后，继续进行判断直至最后一个日志序列；再分别对每个子序列库进行分析处理，得到与每个子序列库分别对应的分析结果，所述分析结果用于表示一个子序列库中的全部第一频繁序列以及每个第一频繁序列在所述子序列库中出现的次数，所述第一频繁序列为日志序列中至少两次出现的有序集合。现有技术中根据数据大小进行固定分割，无法利用日志的分布特性进行动态分割，且分割后的子序列库不相互独立，在获取日志整体挖掘结果时，需要对各个子序列库得到的局部频繁序列进行复杂的模式整合才能得到全局的挖掘结果。模式整合通常需要为每个频繁序列再次搜索整个日志事件库，使得总体的挖掘效率降低。本发明中，根据事件数量进行分割，能够根据日志分布进行动态分割，分割出的子序列库相互独立，各子序列库上的局部挖掘结果可以作为全局的挖掘结果，从而避免了复杂的模式整合，进而提高数据处理效率。发明人发现，曰志事件库中事件的分布呈间歇密集型（burs ty behavior )每一个密集段的事件只集中在该段发生，独立于其它密集段。根据每个日志序列中的事件数量划分出子序列库，能够得出对应每个密集段的子序列库。对这些子序列库进行分析之后，能够得到对应每个密集段的的分析结果，进而减小对挖掘结果进行模式整合时的复杂度。此外，本发明实施例提供的数据处理的装置，能够将子序列库中的日志序列分片并通过拼接操作形成具有重叠子序列的第二子序列。根据挖掘算法的特点（挖掘短序列数据集比长序列数据集具有更高的效率）提出了具有重叠子序列的分片方式，进一步提高挖掘的效率。由于第二子序列具有重叠性进而降低数据挖掘后拼接过程中的复杂度，提高数据挖掘的效率。此外，本发明实施例还提出了对挖掘后得到的频繁序列进行拼接的操作，以优化频繁序列的数据挖掘结果，用于提高故障诊断的准确性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Previous Patent: COIN ROLL DISTRIBUTION MODULE

Next Patent: INTESTINE-LIKE BIOGAS GENERATION SYSTEM