METHOD AND DEVICE FOR CLUSTERING FILE - TENCENT TECH SHENZHEN CO LTD

Title:

METHOD AND DEVICE FOR CLUSTERING FILE

Document Type and Number:

WIPO Patent Application WO/2014/127655

Kind Code:

A1

Abstract:

Disclosed are a method and device for clustering files, which are applied to the technical field of information processing. In the embodiments of the present invention, when clustering files to be processed, information fingerprints of the files to be processed are obtained by processing information fingerprints of features of a plurality of information blocks contained in the file to be processed and are compared, and files to be processed with the same information fingerprint are taken as one cluster, so as to realize the clustering of files. The features of the information blocks in the files to be processed are identified by means of information fingerprints in this way, and then clustering is performed according to identifiers. Compared to similarity comparisons in the prior art, the calculation amount and complexity of the method for calculating and clustering an identifier of a feature in the embodiments of the present invention is greatly reduced.

Inventors:

YANG YI (CN)
YU TAO (CN)
TAO BO (CN)

Application Number:

PCT/CN2013/087948

Publication Date:

August 28, 2014

Filing Date:

November 27, 2013

Export Citation:

Click for automatic bibliography generation Help

Assignee:

TENCENT TECH SHENZHEN CO LTD (CN)

International Classes:

G06F17/30

Foreign References:

CN102930206A	2013-02-13
CN101630325A	2010-01-20
CN102802090A	2012-11-28

Attorney, Agent or Firm:

SHENPAT INTELLECTUAL PROPERTY AGENCY (CN)
深圳市深佳知识产权代理事务所（普通合伙） (CN)

Download PDF:

View/Download PDF PDF Help

Claims:

权利要求

1、一种文件的聚类方法，其特征在于，包括：

分别对待处理文件中的多个信息块的进行特征提取；

计算提取的所述多个信息块中各个信息块的特征的信息指纹；根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

将信息指紋相同的待处理文件作为一个聚类输出。

2、如权利要求 1所述的方法，其特征在于，所述分别对待处理文件中的多个信息块的进行特征提取，具体包括：

分别提取所述待处理文件中的多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数。

3、如权利要求 1或 2所述的方法，其特征在于，所述计算提取的所述多个信息块中各个信息块的特征的信息指纹包括：

分别将提取的所述多个信息块中各个信息块的特征进行归一化处理；计算归一化处理后的所述各个信息块的特征的信息指纹。

4、如权利要求 3所述的方法，其特征在于，所述计算归一化处理后的所述各个信息块的特征的信息指纹，具体包括：

分别调整归一化处理后的所述各个信息块的特征的范围；

计算调整范围后的所述各个信息块的特征的信息指纹。

5、如权利要求 4所述的方法，其特征在于，所述分别调整归一化处理后的所述各个信息块的特征的范围，包括：

根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待处理文件中相同属性的信息块采用相同的映射函数；或，

分别对归一化处理后的所述各个信息块的特征进行加权运算。

6、一种文件的聚类设备，其特征在于，包括：

特征提取单元，用于分别对待处理文件中的多个信息块的进行特征提取；第一指纹计算单元，用于计算提取的所述多个信息块中各个信息块的特征的信息指纹；

第二指纹计算单元，用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

聚类输出单元，用于将信息指纹相同的待处理文件作为一个聚类输出。

7、如权利要求 6所述的设备，其特征在于，

所述特征提取单元所提取的特征为所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数。

8、如权利要求 6或 7所述的设备，其特征在于，所述第一指纹计算单元包括：

归一化单元，用于分别将提取的所述多个信息块中各个信息块的特征进行归一化处理；

第一计算单元，用于计算归一化处理后的所述各个信息块的特征的信息指纹。

9、如权利要求 8所述的设备，其特征在于，所述第一计算单元包括：范围调整单元，用于分别调整归一化处理后的所述各个信息块的特征的范围；

第二计算单元，用于计算调整范围后的所述各个信息块的特征的信息指纹。

10、如权利要求 9所述的设备，其特征在于，

所述范围调整单元调整整归一化处理后的所述各个信息块的特征的范围包括：

根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待处理文件中相同属性的信息块采用相同的映射函数；和 /或，

分别对归一化处理后的所述各个信息块的特征进行加权运算。

Description:

一种文件的聚类方法和设备

[0001] 本申请要求于 2013 年 2 月 21 日提交中国专利局、申请号为 201310055669.6、发明名称为"一种文件的聚类方法和设备 "的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

[0002] 本发明涉及信息处理技术领域。背景技术

[0003] 随着互联网的发展，信息爆炸式地增长，其中，计算机病毒、蠕虫、木马程序等计算机恶意程序的信息每日都危害用户设备的安全，而大部分恶意程序的文件都是可移植可执行（Portable Executable, PE )格式的文件。发明内容

[0004] 本发明实施例提供一种文件的聚类方法和设备，以筒化文件聚类的复杂度。

[0005] 本发明实施例提供一种文件的聚类方法，包括：

[0006] 分别对待处理文件中的多个信息块的进行特征提取；

[0007] 计算提取的所述多个信息块中各个信息块的特征的信息指纹；

[0008] 根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

[0009] 将信息指紋相同的待处理文件作为一个聚类输出。

[0010] 本发明实施例提供一种文件的聚类设备，包括： [0011] 特征提取单元，用于分别对待处理文件中的多个信息块的进行特征提取；

[0012] 第一指纹计算单元，用于计算提取的所述多个信息块中各个信息块的特征的信息指纹；

[0013] 第二指纹计算单元，用于根据所述各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

[0014] 聚类输出单元，用于将信息指纹相同的待处理文件作为一个聚类输出。

[0015] 本发明实施例中，在对待处理文件进行聚类时，可以通过对待处理文件中包含的多个信息块的特征的信息指纹进行处理得到待处理文件的信息指纹并进行比较，将信息指纹相同的待处理文件作为一个聚类，来实现文件的聚类。这样采用信息指纹的方式对待处理文件中信息块的特征进行标识，然后根据标识来进行聚类，相比现有技术中相似性的比较，本发明实施例中计算特征的标识并聚类的方法，其的运算量和复杂度会^艮大程度的降低。附图说明

对实施例或现有技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

[0017] 图 1是本发明实施例提供的一种文件的聚类方法� �程图；

[0018] 图 2是本发明实施例中 ΡΕ文件包含的. text节中数据的示意图；

[0019] 图 3是本发明实施例提供的另一种文件的聚类方� �流程图； [0020] 图 4是本发明实施例中一种 PE文件的聚类方法流程图；

[0021] 图 5是本发明实施例提供的一种文件的聚类设备� �示意图；

[0022] 图 6是本发明实施例提供的一种文件的聚类设备� �示意图；

[0023] 图 7是本发明实施例提供的一种文件的聚类设备� �示意图。具体实施方式

[0024] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

[0025] 本发明实施例提供一种文件的聚类方法，比如对 PE等文件的聚类方法，该方法主要是计算机所执行的方法，流程图如图 1所示，该方法包括： [0026] 步骤 101 , 分别对待处理文件中的多个信息块的进行特征提取。

[0027] 可以理解，每个文件都可以被划分为不同的信息块，对于 PE文件来说，该 PE文件可以被用于不同的操作系统和体系结构� ��，且可以被封装在操作系统加载可执行程序代码时所必需的信息中，所述信息包括动态链接库、导入和导出表、资源管理数据和线程局部存储数据等。大部分恶意程序都是 PE文件。 PE文件可以被划分为不同的信息块，称为节（sections ), 比如. text节， .data节， .rsrc节， .reloc节等，每节中包含具有共同属性的数据，具体可以是数据 0 ( 00 )到数据 255 ( FF )之间的数据。

[0028] 计算机可以对待处理文件中的全部或部分信息块进行特征提取，且在进行特征提取时，可以提取信息块的数据分布信息。该数据分布区信息可以指示各个数据在该信息块中分布的情况，如可以包括部分或全部数据的频率和 /或个数，比如数据 1C出现的频率和个数等。例如图 2所示， .text 节的数据中，数据 77出现的频率较大。

[0029] 步骤 102,计算步骤 101中提取的多个信息块中各个信息块的特征的信息指纹。其中一个信息块的信息指纹是通过对该信息块加工得到的一个随机数，该随机数被作为该信息块区别于其他信息块的标识。常用的信息指纹计算方法有局部敏感哈希计算等。本发明实施例中，得到的信息指纹可以标识一个信息块的特征。

[0030] 步骤 103 ,根据各个信息块的特征的信息指纹获取待处� �文件的信息指纹。可以将各个信息块的特征的信息指纹拼接得到一个待处理文件的信息指纹；或可以通过其它方式得到待处理文件的信息指纹。该信息指纹中包含了该待处理文件包含步骤 102中获得的各个信息块的特征的信息指纹。

[0031] 步骤 104,将步骤 103中获得的信息指紋相同的待处理文件作为一个聚类输出。

[0032] 本发明实施例中，在对待处理文件进行聚类时，可以通过对待处理文件中包含的多个信息块的特征的信息指纹进行处理得到待处理文件的信息指纹并进行比较，将信息指纹相同的待处理文件作为一个聚类，来实现文件的聚类。采用信息指纹的方式对待处理文件中信息块的特征进行标识，然后根据标识来进行聚类，相比现有技术中的相似性比较，本发明实施例中计算特征的标识并聚类的方法，其运算量和复杂度会艮大程度的降低。

[0033] 参考图 3所示，在一个具体的实施例中，计算机在执行上述步骤 102 时，可以通过如下的步骤来实现：

[0034] 步骤 201 ,分别将步骤 101中提取的多个信息块中各个信息块的特征进行归一化处理，这样可以将各个信息块的特征都统一成比较方便运算的数据。

[0035] 步骤 202, 计算归一化处理后的各个信息块的特征的信息指纹。

[0036] 计算机可以直接按照信息指纹的计算函数来计算，或可以通过如下步骤 A和 B来实现：

[0037] A: 分别调整归一化处理后的所述各个信息块的特征的范围。

[0038] 可以通过核空间映射或加权等方法进行调整，从而根据实际情况缩放各个信息块的特征之间的差异，比如两个信息块的特征之间的差别为 100, 则通过本步骤的范围调整，使得这两个信息块的特征之间的差别缩小为 20, 更进一步地缩小了计算复杂度。

[0039] 在通过核空间映射方法进行调整时，可以根据核空间的映射函数，将归一化处理后的各个信息块的特征分别映射到映射函数对应的核空间，且不同待处理文件中相同属性的信息块采用相同的映射函数。比如不同待处理的 PE文件中 .text节采用相同的映射函数，而一个待处理文� ��中不同信息块采用的映射函数可以相同，也可以不同。

[0040] 通过加权方法进行调整时，计算机可以分别对归一化处理后的各个信息块的特征进行加权运算，不同信息块对应的加权值可以不同，也可以相同。

[0041] B: 计算调整范围后的各个信息块的特征的信息指纹。

[0042] 可以按照一定的信息指紋运算函数来计算各个信息块的特征对应的信息指纹。

[0043] 下面以一个具体的实施例来说明本发明实施例中文件的聚类方法。本实施例中，主要是计算机对十六进制的 PE文件进行的聚类，参见图 4, 该方法包括：

[0044] 步骤 301 , 判断 PE文件是否被进行了加壳（Packer )处理，即是否是通过一系列的数学运算得到的编码改变后的 PE文件，如果是，执行步骤 302, 如果不是，则执行步骤 303。

[0045] 步骤 302, 对加壳后的 PE文件进行脱壳（Unpacker )处理，即除掉 PE文件的加壳保护，与步骤 301中的加壳处理互为逆运算，之后执行步骤 303。

[0046] 步骤 303, 分别提取 PE文件中指定的 m个节的数据分布信息。 [0047] 比如根据每个节中 0 (00)到 255 (FF)之间的数据的分布频率，得到 m个 256维的特征向量记为 Hi=[h0, hi, ···, h255], i=l, ···, m, 其中 hi可以表示各个数据的分布频率。其中，如果有些 PE文件中没有该指定的 m个节中的某些节，这这些节对应的特征向量为 0, 即 Hi=[0, 0, 0]。 [0048] 步骤 304, 对步骤 303中得到的 m个特征向量进行归一化处理，得到归一化后的 m个特征向量，记为 ,其中归一化处理所 h. = ¾——— ,0≤ ≤255

使用的函数为 ¹ ∑0≤≤255^- 。 [0049] 步骤 305, 调整归一化处理后的 m个特征向量的范围。

[0050] 可以通过但不限于如下两种方式对所述 m个特征向量的范围进行调

[0051] ( 1 )如果采用核空间映射方法，则将特征向量之间的距离度量方式转化为核空间的距离度量方式，包括：

[0052] 计算机可以先选择一种合适的核空间，比如多项式核，径向基核函

2

数 ( Radial Basis Function, RBF )核, 核, 或正交 ( Intersection )核等。然后采用所选择的核空间的映射函数，分别得到 m个特征向量在所选择的

^ 「 ~ ~ ~ 一

核空间中对应的核空间向量 ^Hi = L °' ^l **' ²⁵⁵」， i=l, m。其中，所选择的核空间的映射函数可以为：

[0053] 在该核空间的映射函数中， j为 1到 2n之间的整数，计算机可以指定一个阶数 n，其中阶数越高，则映射函数的项数也越多，精度越高；

^ = 2^/Λ, 该 Λ是选定周期；是对应于该核空间的核函数签名（kernel signature ) 的傅里叶反变换 ^ ）的窗函数截断， =^ (w*fc)( L) ,

(1 1；！ < - 1)/2

¹ ，这里 *代表卷积， W是所选窗函数的频域表示；上述映射函数中的由所选核空间的核函数本身决定，该可以满足 k(cx,cy) = c ^rK(x,y)，其中 _c为常数。

[0054] 这样通过该映射函数得到的 m个特征向量在核空间中对应的核空间向量为：

¾ - [¾ (¾ Φ 1 >' β I · d ) _S ' . (U

, 其中 i=l, m。

[0055] 上述核函数为满足 Mercer定理的函数。假设有 n维空间 R上的向量

X, y, 支设通过映射函数 ^φ(χ)将 χ， y映射到 m维的核空间 F上，得到 F 上的对应向量 ^φ( ), ^Φ( ，则核函数 K ( x, y)满足 K ( x， y ) =< ^Φ(λ) ,

^{Φ( 7}) > (符号 <， >表示内积）。如果将核函数 Κ (χ, y)表示为如下形式:

X 则就称为该核函数的核函数签名。 [0056] 例如，当计算机选择 Intersection核，则该核空间的核函数为 K ( x, y ) 选定阶段阶数 _η，比如 _η=1 等；计算近似周期 A=alog(n + b) + c _{( a}, _b， _c可以在保证周期 Λ大于 0的情况下任意选择，比：¾口 a=2.0 , b=0.99 , c=3.52 )；计算 Intersection 核的核函数为

2

r(l + 4 )；选择矩形窗对^ )进行截断，矩形窗的 w的具体形式为:

' 。这样可以根据计算的这些参数得到选择的

Intersection核的映射函数，并进行核空间的映射。

[0057] ( 2 )如果采用加权运算方法，则将特征向量之间的距离度量方式通过加权值进行缩小，包括：将归一化后的 m个特征向量与加权值"相乘，即 ¹ ^二 ⁰^ ，其中熵值越大， "越大。

[0058] 例如，是 ^Hi的熵值，即 , 而加权值 "可以为：

!½ -- ww 丁 Ij !ij■ 0.5

1 , 其它

[0059] 步骤 306 , 分别计算调整范围后的 m个特征向量的信息指纹 ' , i=l , …， m。

[0060] 计算机可以选择一种计算信息指纹的函数来计算所述 m个特征相关的指纹信息。本实施例中以某一种信息指纹计算函数为例来说明，包括：针对步骤 305 中采用核空间映射方法得到的调整范围后的 m 个特征向量 [0061] ( 1 ) 计算机选取 m 个阈值

σ.

[0062] (2)从期望为 0, 标准差为 i的 256 (2η+1 ) 维的高斯分布函数中抽样个点 ¹ Ρο^ ¹""^ ²⁵⁶^ )— ¹)；

[0063] (3)从 [0, 上的均匀分布函数中抽样个点

[0064] (4)从 [-1,1]上的均匀分布函数中抽样个点 ·；

[0065] (5)调整范围后的 m个特征向量的信息指纹为：

:s ™ [sgn(ces( _i - M _t + _t ) Γ-, - + B _fi )

, i=l , … ， _m , 其中符号 ·代表内积， sgn 是符号函数， :)

[0066] 需要说明的是，如果是采用加权方法得到调整范围后的 m个特征向量 ^Hi, 在计算信息指纹时，与上述计算信息指纹的方法类似，在此不进行赘述。

[0067] 步骤 307, 根据步骤 306中计算的调整范围后的 m个特征向量的信息指纹，得到待处理的 PE文件的信息指纹，具体地，可以将每个调整范围后的特征向量的信息指纹进行拼接，即 ^S

[0068] 步骤 308, 将信息指紋相同的 PE文件作为一个聚类输出。

[0069] 本发明实施例还提供一种文件的聚类设备，其结构示意图如图 5 所示，包括： [0070] 特征提取单元 10, 用于分别对待处理文件中的多个信息块的进行特征提取。可选地，特征提取单元 10可以分别提取所述多个信息块的数据分布信息，所述数据分布信息包括信息块中部分或全部数据的频率或个数等。

[0071] 第一指纹计算单元 11 ,用于计算特征提取单元 10提取的所述多个信息块中各个信息块的特征的信息指纹；

[0072] 第二指纹计算单元 12,用于根据所述第一指纹计算单元 11计算的各个信息块的特征的信息指纹获取所述待处理文件的信息指纹；

[0073] 聚类输出单元 13,用于将第二指纹计算单元 12计算的信息指紋相同的待处理文件作为一个聚类输出。

[0074] 可见，本发明实施例所提供的聚类设备中，在对待处理文件进行聚类时，可以通过聚类输出单元 13对待处理文件中包含的多个信息块的特征的信息指纹进行处理得到待处理文件的信息指纹并进行比较，将信息指纹相同的待处理文件作为一个聚类，来实现文件的聚类。采用信息指纹的方式对待处理文件中信息块的特征进行标识，然后根据标识来进行聚类，相比现有技术中相似性的比较，本发明实施例中计算特征的标识并聚类的方法，其运算量和复杂度会艮大程度的降低。

[0075] 参考图 6和 7, 在一实施例中，文件的聚类设备除了包括图 5所示的结构外，其中的第一指纹计算单元 11可以通过归一化单元 110和第一计算单元 111来实现，其中：

[0076] 归一化单元 110, 用于分别将特征提取单元 10提取的所述多个信息块中各个信息块的特征进行归一化处理。

[0077] 第一计算单元 111 ,用于计算归一化单元 110进行归一化处理后的所述各个信息块的特征的信息指纹。所述第一计算单元 111 可以直接根据计算信息指纹的函数来计算，然后第二指纹计算单元 12会根据第一计算单元 111 计算的各个信息块的特征对应的信息指纹来确定待处理文件的信息指纹。可选地，所述第一计算单元 111可以通过范围调整单元 112和第二计算单元 113来实现。

[0078] 所述范围调整单元 112,用于分别调整归一化单元 110进行归一化处理后的所述各个信息块的特征的范围。该范围调整单元 112可以根据核空间的映射函数，将归一化处理后的所述各个信息块的特征分别映射到所述映射函数对应的核空间，不同待处理文件中相同属性的信息块采用相同的映射函数；和 /或，该范围调整单元 112可以分别对归一化处理后的所述各个信息块的特征进行加权运算。

[0079] 所述第二计算单元 113,用于计算范围调整单元 112调整范围后的所述各个信息块的特征的信息指纹，然后第二指纹计算单元 12会根据第二计算单元 113计算的各个信息块的特征对应的信息指纹来确定待处理文件的信息指纹。

[0080] 上述文件的聚类设备中各个单元之间可以按照上述方法进行文件的聚类。

[0081] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器（ROM )、随机存取存储器（RAM )、磁盘或光盘等。

[0082] 以上对本发明实施例所提供的文件的聚类方法及设备进行了详细介实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Previous Patent: QUASI-RECIPROCAL REFLECTIVE OPTICAL VOLTAGE SENSING UNIT AND SENSING SYSTEM THEREOF

Next Patent: GLASS SURFACE CLEANING DEVICE