Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM AND METHOD FOR IDENTIFYING PHISHING WEBSITE
Document Type and Number:
WIPO Patent Application WO/2014/000536
Kind Code:
A1
Abstract:
The present invention relates to the field of network security. Disclosed are a system and method for identifying a phishing website. The system comprises: a domain name acquirer unit, a domain name counting unit, and a website identification unit. The domain name acquirer unit is applicable in collecting all links found in a to-be-identified website to acquire domain names corresponding to the links. The domain name counting unit is applicable in counting the number of times that the domain names occur in the to-be-identified website, and in marking the domain name having the most frequent occurrences as a target domain name. The network identification unit is applicable in determining whether or not the to-be-identified website is a phishing website on the basis of the target domain name and of the domain name of the to-be-identified website itself. The system and method identify the phishing website on the basis of the relations of the links in the website, allow for effective identification of novel types of phishing websites, while at the same time, facilitate the enrichment of the numbers and types of phishing websites in a phishing website library, facilitate further identification and finding of phishing websites, and have a broad application prospect in the field of network security.

Inventors:
CHEN YINGYING (CN)
Application Number:
PCT/CN2013/075949
Publication Date:
January 03, 2014
Filing Date:
May 21, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BEIJING QIHOO TECH CO LTD (CN)
QIZHI SOFTWARE BEIJING CO LTD (CN)
International Classes:
H04L29/06
Foreign References:
CN101667979A2010-03-10
CN102801709A2012-11-28
CN101145902A2008-03-19
US7958555B12011-06-07
Attorney, Agent or Firm:
BEIJING LONGAN LAW FIRM (CN)
北京市隆安律师事务所 (CN)
Download PDF:
Claims:
权 利 要 求

1、 一种钓鱼网站识别系统, 其包括: 域名获取单元、 域名统计单元和 网站识别单元;

所述域名获取单元, 适于收集待识别网站中出现的所有链接, 得到所述 链接对应的域名;

所述域名统计单元, 适于统计所述域名在所述待识别网站中出现的次 数, 找到出现次数最多的域名, 记作目标域名;

所述网站识别单元,适于根据所述目标域名与所述待识别网站的自身域 名判断所述待识别网站是否是钓鱼网站。

2、 如权利要求 1所述的系统, 其中, 所述网站识别单元包括: 比较子 单元和识别子单元;

所述比较子单元, 适于比较所述目标域名与所述自身域名, 并在比较结 果显示所述目标域名与所述自身域名相同时, 判定所述待识别网站不是钓鱼 网站;

所述识别子单元, 适于在所述目标域名与所述自身域名不同时, 计算所 述目标域名的出现次数与所述自身域名的出现次数之间的比例, 以及计算所 述目标域名与所述自身域名之间的相似度, 进而根据所述比例和所述相似度 判断所述待识别网站是否是钓鱼网站。

3、 如权利要求 2所述的系统, 其中, 所述识别子单元包括: 比例计算 模块、 相似度计算模块和判断模块;

所述比例计算模块,适于计算所述目标域名的出现次数与所述自身域名 的出现次数之间的比例;

所述相似度计算模块,适于计算所述目标域名与所述自身域名之间的相 似度;

所述判断模块, 适于判断所述比例和所述相似度是否满足条件: 所述比 例大于预定比例, 并且所述相似度大于预定阈值; 如果满足, 判定所述待识 别网站是钓鱼网站; 否则, 判定所述待识别网站不是钓鱼网站。

4、 如权利要求 3所述的系统, 其中, 所述相似度计算模块包括: 字符 串对比子模块、 初值计算子模块和终值计算子模块;

所述字符串对比子模块,适于构建所述目标域名的字符串与所述自身域 名的字符串的对比阵列,将所述目标域名的字符串设置在所述对比阵列的第 一行并保持位置固定,将所述自身域名的字符串设置在所述对比阵列的第二 行并自左向右移动, 对两行字符串中重叠的字符进行对比; 尾字符对齐时,计算所述目标域名与所述自身域名之间的第一相似度计算值

Qi ; 当所述目标域名的第二字符与所述自身域名的尾字符对齐时, 计算所述 目标域名与所述自身域名之间的第二相似度计算值 Q2;依次类推, 当所述目 标域名的尾字符与所述自身域名的首字符对齐时,计算所述目标域名与所述 自身域名之间的第 m相似度计算值 Qm; 其中, n^ + -l , 表示所述目标 域名的字符串长度, n2表示所述自身域名的字符串长度;

所述终值计算子模块,适于根据下述公式计算得到所述目标域名与所述 自身域名之间的相似度 Q

, Q2 , Q3 , . . . . . . Qm}。

5、 如权利要求 4所述的系统, 其中, 所述初值计算子模块中, 利用如 下公式计算第 i相似度计算值 Qi :

其中, 为自然数, 并且, l≤≤m; 并且,

M sjn

=

其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 《皿表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。

6、 如权利要求 4所述的系统, 其中, 所述初值计算子模块中, 利用如 下方式计算第 相似度计算值 β :

在第 次对比时, 计算所述目标域名的字符串与所述自身域名的字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。

7、 如权利要求 1所述的系统, 其中, 所述系统还包括: 补充识别单元; 所述补充识别单元,适于将判断结果显示为钓鱼网站的待识别网站记作 可疑网站, 并对所述可疑网站进行补充识别, 在识别结果显示所述可疑网站 仍为钓鱼网站的情况下, 将所述可疑网站送入钓鱼网站库。

8、 如权利要求 1所述的系统, 其中, 所述链接对应的域名为所述链接 的绝对地址。

9、 如权利要求 1所述的系统, 其中, 所述系统还包括: 网站获取单元; 所述网站获取单元, 适于查找新建网站以作为待识别网站。

10、 一种钓鱼网站识别方法, 其包括步骤:

收集待识别网站中出现的所有链接, 得到所述链接对应的域名; 统计所述域名在所述待识别网站中出现的次数,找到出现次数最多的域 名, 记作目标域名;

根据所述目标域名与所述待识别网站的自身域名判断所述待识别网站 是否是钓鱼网站。

11、 如权利要求 10所述的方法, 其中, 所述根据所述目标域名与所述 待识别网站的自身域名判断所述待识别网站是否是钓鱼网站, 进一步包括步 骤:

判断所述目标域名与所述自身域名是否相同, 如果是, 判定所述待识别 网站不是钓鱼网站, 结束流程; 否则, 执行下一步;

计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例, 以及所述目标域名与所述自身域名之间的相似度,根据所述比例和所述相似 度判断所述待识别网站是否是钓鱼网站。

12、 如权利要求 11所述的方法, 其中, 所述计算所述目标域名的出现 次数与所述自身域名的出现次数之间的比例, 以及所述目标域名与所述自身 域名之间的相似度,根据所述比例和所述相似度判断所述待识别网站是否是 钓鱼网站, 进一步包括步骤:

计算所述目标域名的出现次数与所述自身域名的出现次数之间的比例; 计算所述目标域名与所述自身域名之间的相似度;

判断是否满足以下条件: 所述比例大于预定比例, 并且所述相似度大于 预定阈值; 如果是, 判定所述待识别网站是钓鱼网站; 否则, 判定所述待识 别网站不是钓鱼网站。

13、 如权利要求 12所述的方法, 其中, 所述计算所述目标域名与所述 自身域名之间的相似度, 进一步包括步骤:

构建所述目标域名的字符串与所述自身域名的字符串的对比阵列,将所 述目标域名的字符串设置在所述对比阵列的第一行并保持位置固定,将所述 自身域名的字符串设置在所述对比阵列的第二行并自左向右移动,对两行字 符串中重叠的字符进行对比;

当所述目标域名的首字符与所述自身域名的尾字符对齐时,计算所述目 标域名与所述自身域名之间的第一相似度计算值 ;当所述目标域名的第二 字符与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之 间的第二相似度计算值 Q2;依次类推, 当所述目标域名的尾字符与所述自身 域名的首字符对齐时,计算所述目标域名与所述自身域名之间的第 m相似度 计算值 Qm; 其中, , 表示所述目标域名的字符串长度, n2表示 所述自身域名的字符串长度;

根据下述公式计算得到所述目标域名与所述自身域名之间的相似度 , Q2 , Q3 , . . . . . . Qm}。

14、 如权利要求 13所述的方法, 其中, 所述当所述目标域名的首字符 与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的 第一相似度计算值 Qi ;当所述目标域名的第二字符与所述自身域名的尾字符 对齐时, 计算所述目标域名与所述自身域名之间的第二相似度计算值 Q2;依 述目标域名与所述自身域名之间的第 m相似度计算值 Qm中, 第 相似度计 算值 β 的计算公式如下:

其中, 为自然数, 并且, l< <m; 并且,

M sjn 其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。

15、 如权利要求 13所述的方法, 其中, 所述当所述目标域名的首字符 与所述自身域名的尾字符对齐时,计算所述目标域名与所述自身域名之间的 第一相似度计算值 Qi;当所述目标域名的第二字符与所述自身域名的尾字符 对齐时, 计算所述目标域名与所述自身域名之间的第二相似度计算值 Q2;依 述目标域名与所述自身域名之间的第 m相似度计算值 Qm中, 利用如下方式 计算第 相似度计算值 β :

在第 次对比时, 计算所述目标域名的字符串与所述自身域名的字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。

16、 如权利要求 10所述的方法, 其中, 在所述根据所述目标域名与所 述待识别网站的自身域名判断所述待识别网站是否是钓鱼网站之后还包括 步骤: 将判断结果显示为钓鱼网站的待识别网站记作可疑网站, 并对所述可 疑网站进行补充识别, 在识别结果显示所述可疑网站仍为钓鱼网站的情况 下, 将所述可疑网站送入钓鱼网站库。

17、 如权利要求 10所述的方法, 其中, 所述链接对应的域名为所述链 接的绝对地址。

18、 如权利要求 10所述的方法, 其中, 在所述收集待识别网站中出现 的所有链接, 得到所述链接对应的域名之前还包括步骤: 查找新建网站以作 为待识别网站。

19、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代 码在服务器上运行时,导致所述服务器执行根据权利要求 10-18中任一个 所述的钓鱼网站识别方法。

20、 一种计算机可读介质, 其中存储了如权利要求 19所述的计算机 程序。

Description:
一种钓鱼网站识别系统及方法

技术领域

本发明涉及网络安全技术领域, 特别涉及一种钓鱼网站识别系统及 方法。 背景技术

随着互联网的发展, 网民数量逐年增加。 在上网时, 除了传统的木马、 病毒的威胁, 近两年钓鱼网站的数量大幅增加。

当前主要的钓鱼网站识别技术是通过收集常见 的钓鱼网站, 制作成知识 库, 再计算新发现的网页与知识库中的钓鱼网站的 相似度, 从而判断是否是 钓鱼网站。

上述通过钓鱼网站知识库识别钓鱼网站的方法 ,通常只能识别已知类别 的钓鱼网站, 对于新类型的钓鱼网站则无法识别, 比如钓鱼网站知识库内只 有中国银行相关的钓鱼网站时, 对于仿冒工商银行的钓鱼网站就无法识别。 发明内容

鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者 至少 部分地解决或者减緩上述问题的钓鱼网站识别 系统及方法。

根据本发明的一个方面, 提供了一种钓鱼网站识别系统, 其包括: 域 名获取单元、 域名统计单元和网站识别单元;

所述域名获取单元, 适于收集待识别网站中出现的所有链接, 得到所述 链接对应的域名; 所述域名统计单元, 适于统计所述域名在所述待识别网站 中出现的次数, 找到出现次数最多的域名, 记作目标域名; 所述网站识别单 元,适于根据所述目标域名与所述待识别网站 的自身域名判断所述待识别网 站是否是钓鱼网站。

根据本发明的另一个方面, 提供了一种钓鱼网站识别方法, 其包括步 骤: 收集待识别网站中出现的所有链接, 得到所述链接对应的域名; 统计所 述域名在所述待识别网站中出现的次数, 找到出现次数最多的域名, 记作目 标域名; 根据所述目标域名与所述待识别网站的自身域 名判断所述待识别网 站是否是钓鱼网站。 根据本发明的又一个方面, 提供了一种计算机程序, 其包括计算机可读 代码, 当所述计算机可读代码在服务器上运行时, 导致所述服务器执行根据 权利要求 10-18中的任一个所述的钓鱼网站识别方法。

根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储了如 权利要求 19所述的计算机程序。

本发明的有益效果为:

本发明的所述钓鱼网站识别系统及方法,基于 网站中的链接关系进行钓 鱼网站的识别, 可以有效识别新类型的钓鱼网站; 同时, 有利于丰富钓鱼网 站库中钓鱼网站的数量和类型, 便于进一步的钓鱼网站识别和查找, 在网络 安全领域具有广泛的应用前景。

上述说明仅是本发明技术方案的概述,为了能 够更清楚了解本发明的技 术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上述和其它 目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实施方式。 附图说明

通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对 于本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式 的目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的 参考符号表示相同的部件。 在附图中:

图 1是依据本发明实施例一的钓鱼网站识别系统 模块结构示意图; 图 2是所述网站识别单元的模块结构示意图;

图 3是所述识别子单元的模块结构示意图;

图 4是所述相似度计算模块的模块结构示意图;

图 5是依据本发明实施例二的钓鱼网站识别系统 模块结构示意图; 图 6是依据本发明实施例三的钓鱼网站识别方法 流程图;

图 7是依据本发明实施例四的钓鱼网站识别方法 流程图

图 8示意性地示出了用于执行根据本发明的方法 服务器的框图; 以及

图 9示意性地示出了用于保持或者携带实现根据 发明的方法的程 序代码的存储单元。 具体实施例 下面结合附图和具体的实施方式对本发明作进 一步的描述。 图 1是本发明实施例一所述钓鱼网站识别系统的 块结构示意图,如图 1 所示, 所述系统包括: 域名获取单元 100、 域名统计单元 200和网站识别单元 300。

所述域名获取单元 100, 适于收集待识别网站中出现的所有链接, 得到 所述链接对应的域名。 这里所述链接对应的域名为所述链接的绝对地 址,如 果所述待识别网站中出现的链接采用相对地址 , 需要将其转换为绝对地址。

所述域名统计单元 200, 适于统计所述域名在所述待识别网站中出现的 次数, 找到出现次数最多的域名, 记作目标域名。 所述域名统计单元 200会 以域名为 key, 以出现次数为 value, 生成一个 key- value表格, 然后根据表格 中 value的数值, 对域名进行排序, 得到出现次数最多的域名。

所述网站识别单元 300, 适于根据所述目标域名与所述待识别网站的自 身域名判断所述待识别网站是否是钓鱼网站。

图 2是所述网站识别单元的模块结构示意图, 如图 2所示, 所述网站识 别单元 300进一步包括: 比较子单元 310和识别子单元 320。

所述比较子单元 310, 适于比较所述目标域名与所述自身域名, 并在比 钓鱼网站。

所述识别子单元 320, 适于在所述目标域名与所述自身域名不同时, 计 算所述目标域名的出现次数与所述自身域名的 出现次数之间的比例, 以及计 算所述目标域名与所述自身域名之间的相似度 , 进而根据所述比例和所述相 似度判断所述待识别网站是否是钓鱼网站。

图 3是所述识别子单元的模块结构示意图, 如图 3所示, 所述识别子单元 320进一步包括: 比例计算模块 321、 相似度计算模块 322和判断模块 323。

所述比例计算模块 321 , 适于计算所述目标域名的出现次数与所述自身 域名的出现次数之间的比例。

所述相似度计算模块 322, 适于计算所述目标域名与所述自身域名之间 的相似度。

图 4是所述相似度计算模块的模块结构示意图, 如图 4所示, 所述相似 度计算模块 322进一步包括:字符串对比子模块 322a、初值计算子模块 322b 和终值计算子模块 322c。

所述字符串对比子模块 322a,适于构建所述目标域名的字符串与所述自 身域名的字符串的对比阵列,将所述目标域名 的字符串设置在所述对比阵列 的第一行并保持位置固定,将所述自身域名的 字符串设置在所述对比阵列的 第二行并自左向右移动, 对两行字符串中重叠的字符进行对比。

所述初值计算子模块 322b,适于当所述目标域名的首字符与所述自身 名的尾字符对齐时,计算所述目标域名与所述 自身域名之间的第一相似度计 算值 Qi ; 当所述目标域名的第二字符与所述自身域名的 尾字符对齐时,计算 所述目标域名与所述自身域名之间的第二相似 度计算值 Q 2 ;依次类推, 当所 述目标域名的尾字符与所述自身域名的首字符 对齐时,计算所述目标域名与 所述自身域名之间的第 m相似度计算值 Q m ; 其中, m=ni+n 2 -l , m表示所述 目标域名的字符串长度, n 2 表示所述自身域名的字符串长度。

其中,所述初值计算子模块 322b中,利用如下公式计算第 相似度计算 值 β :

其中, 为自然数, 并且, l≤≤m; 并且,

其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠 率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。

举例来讲, 假设自身域名为 boc.cn自左向右移动, 目标域名为 cocc.cn 保持位置固定。 在第 1次对比时, 只有字符 n与字符 c重叠, 相应地 r 7 =l , ^=0; 在第 2次对比时, 字符 n与字符 0重叠, 字符 c与字符 c重叠, 相应 地 r 2 =2, =1。

另外, 所述初值计算子模块中, 还可以利用如下方式计算第 相似度计 算值 β :

在第 次对比时, 计算所述目标域名的字符串与所述自身域名的 字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。 对于第 相似度计算值 β;的计算方式, 还可以采用一些公知现有方法, 由于其非本发明重点, 在此不再贅述。

所述终值计算子模块 322c,适于根据下述公式计算得到所述目标域名 所述自身域名之间的相似度 Q

e m « , Q 2 , Q 3 , . . . . . . Q m }。

所述判断模块 323 , 适于判断所述比例和所述相似度是否满足条件 : 所 述比例大于预定比例, 并且所述相似度大于预定阈值; 如果满足, 判定所述 待识别网站是钓鱼网站; 否则, 判定所述待识别网站不是钓鱼网站。 所述预 定比例和所述预定阈值可以根据实际使用情况 进行设置和调整, 本实施例, 所述预定比例优选为 1.0, 所述预定阈值优选为 80%。

图 5是本发明实施例二所述钓鱼网站识别系统的 块结构示意图,如图 5所示, 本实施例所述系统与实施例一所述系统基本相 同, 其不同之处仅在 于, 本实施例所述系统还包括: 网站获取单元 000和补充识别单元 400。

所述网站获取单元 000, 适于查找新建网站以作为待识别网站。 一般情 况下, 钓鱼网站多是新建网站, 因此, 通过设置所述网站获取单元 000, 只 将新建网站作为待识别网站, 可以缩小钓鱼网站的识别范围, 提高识别的准 确度和速度。 对于新建网站的查找可以采用如下方法: 通过特定关键词监控 搜索引擎结果页; 或者, 通过客户端发现网民访问量极少的网站。

所述补充识别单元 000, 适于将判断结果显示为钓鱼网站的待识别网站 记作可疑网站, 并对所述可疑网站进行补充识别, 在识别结果显示所述可疑 网站仍为钓鱼网站的情况下, 将所述可疑网站送入钓鱼网站库。 所述补充识 别可以采用人工审查的方式。 通过设置所述补充识别单元 000, 可以进一步 提高钓鱼网站识别的准确度。

图 6是本发明实施例三所述钓鱼网站识别方法的 程图, 如图 6所示, 所 述方法包括步骤:

A: 收集待识别网站中出现的所有链接, 得到所述链接对应的域名。 所 述链接对应的域名为所述链接的绝对地址。

B: 统计所述域名在所述待识别网站中出现的次数 , 找到出现次数最多 的域名, 记作目标域名。

C: 根据所述目标域名与所述待识别网站的自身域 名判断所述待识别网 站是否是钓鱼网站。

所述步骤 C进一步包括步骤: CI : 判断所述目标域名与所述自身域名是否相同, 如果是, 判定所述待 识别网站不是钓鱼网站, 结束流程; 否则, 执行步骤 C2;

C2:计算所述目标域名的出现次数与所述自身域 名的出现次数之间的比 例, 以及所述目标域名与所述自身域名之间的相似 度, 根据所述比例和所述 相似度判断所述待识别网站是否是钓鱼网站。

所述步骤 C2进一步包括步骤:

C21 : 计算所述目标域名的出现次数与所述自身域名 的出现次数之间的 比例。

C22: 计算所述目标域名与所述自身域名之间的相似 度。

所述步骤 C22进一步包括步骤:

C221 : 构建所述目标域名的字符串与所述自身域名的 字符串的对比阵 列, 将所述目标域名的字符串设置在所述对比阵列 的第一行并保持位置固 定, 将所述自身域名的字符串设置在所述对比阵列 的第二行并自左向右移 动, 对两行字符串中重叠的字符进行对比。

C222: 当所述目标域名的首字符与所述自身域名的尾 字符对齐时, 计算 所述目标域名与所述自身域名之间的第一相似 度计算值 Qi;当所述目标域名 的第二字符与所述自身域名的尾字符对齐时, 计算所述目标域名与所述自身 域名之间的第二相似度计算值 Q 2 ;依次类推, 当所述目标域名的尾字符与所 述自身域名的首字符对齐时,计算所述目标域 名与所述自身域名之间的第 m 相似度计算值 Q m ; 其中, n^ + -l , 表示所述目标域名的字符串长度, n 2 表示所述自身域名的字符串长度。

所述步骤 C222中, 第 相似度计算值 Qi的计算公式如下:

其中, 为自然数, 并且, l≤≤m; 并且,

M sjn 其中, 表示在第 次对比时, 所述自身域名的字符串与所述目标域名 的字符串中, 重叠的字符个数; 表示所述自身域名的字符串与所述目标 域名的字符串中较长字符串的字符个数; 表示在第 次对比时, 所述自身 域名的字符串与所述目标域名的字符串的重叠 率; 表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串中, 重叠并且相同的字符个 数; M,表示在第 次对比时, 所述自身域名的字符串与所述目标域名的字符 串的匹配率。

另外, 所述步骤 C222中, 也可以利用如下方式计算第 相似度计算值

Q :

在第 次对比时, 计算所述目标域名的字符串与所述自身域名的 字符串 中重叠并且相同的字符个数, 将所述重叠并且相同的字符个数作为第 相似 度计算值 Qi。

C223:根据下述公式计算得到所述目标域名与所 自身域名之间的相似 度 β

Q 2 , Q 3 , . . . . . . Q m }。

C23: 判断是否满足以下条件: 所述比例大于预定比例, 并且所述相似 度大于预定阈值; 如果是, 判定所述待识别网站是钓鱼网站; 否则, 判定所 述待识别网站不是钓鱼网站。

图 7是本发明实施例四所述钓鱼网站识别方法的 程图, 如图 7所示, 本 实施例所述方法与实施例三所述方法基本相同 , 其不同之处仅在于:

在所述步骤 A之前还包括步骤 A,: 查找新建网站以作为待识别网站。 对 于新建网站的查找可以采用如下方法: 通过特定关键词监控搜索引擎结果 页; 或者, 通过客户端发现网民访问量极少的网站。

在所述步骤 C之后还包括步骤 D: 将判断结果显示为钓鱼网站的待识别 网站记作可疑网站, 并对所述可疑网站进行补充识别, 在识别结果显示所述 可疑网站仍为钓鱼网站的情况下, 将所述可疑网站送入钓鱼网站库。 所述补 充识别可以采用人工审查的方式。

本发明实施例所述钓鱼网站识别系统及方法, 基于网站中的链接关系进 行钓鱼网站的识别, 可以有效识别新类型的钓鱼网站; 同时, 有利于丰富钓 鱼网站库中钓鱼网站的数量和类型, 便于进一步的钓鱼网站识别和查找,在 网络安全领域具有广泛的应用前景。

本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个 处理器上运行的软件模块实现, 或者以它们的组合实现。 本领域的技术 人员应当理解, 可以在实践中使用微处理器或者数字信号处理 器 (DSP ) 来实现根据本发明实施例的钓鱼网站识别系统 中的一些或者全部部件的 一些或者全部功能。 本发明还可以实现为用于执行这里所描述的方 法的 一部分或者全部的设备或者装置程序 (例如, 计算机程序和计算机程序 产品) 。 这样的实现本发明的程序可以存储在计算机可 读介质上, 或者 可以具有一个或者多个信号的形式。 这样的信号可以从因特网网站上下 载得到, 或者在载体信号上提供, 或者以任何其他形式提供。

例如, 图 8示出了可以实现根据本发明的钓鱼网站识别 法的服务 器, 例如应用服务器。 该服务器传统上包括处理器 810和以存储器 820 形式的计算机程序产品或者计算机可读介质。 存储器 820可以是诸如闪 存、 EEPROM (电可擦除可编程只读存储器) 、 EPROM、 硬盘或者 ROM 之类的电子存储器。 存储器 820具有用于执行上述方法中的任何方法步 骤的程序代码 831的存储空间 830。 例如, 用于程序代码的存储空间 830 可以包括分别用于实现上面的方法中的各种步 骤的各个程序代码 831。这 些程序代码可以从一个或者多个计算机程序产 品中读出或者写入到这一 个或者多个计算机程序产品中。 这些计算机程序产品包括诸如硬盘, 紧 致盘 (CD ) 、 存储卡或者软盘之类的程序代码载体。 这样的计算机程序 产品通常为如参考图 9所述的便携式或者固定存储单元。 该存储单元可 以具有与图 8的服务器中的存储器 820类似布置的存储段、 存储空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存储单元包括计算机可 读代码 83 Γ , 即可以由例如诸如 810之类的处理器读取的代码, 这些代 码当由服务器运行时, 导致该服务器执行上面所描述的方法中的各个 步 骤。

本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意 味着, 结合实施例描述的特定特征、 结构或者特性包括在本发明的至少 一个实施例中。 此外, 请注意, 这里"在一个实施例中"的词语例子不一定 全指同一个实施例。

在此处所提供的说明书中, 说明了大量具体细节。 然而, 能够理解, 中, 并未详细示出公知的方法、 结构和技术, 以便不模糊对本说明书的 理解。

应该注意的是上述实施例对本发明进行说明而 不是对本发明进行限 制, 并且本领域技术人员在不脱离所附权利要求的 范围的情况下可设计 出替换实施例。 在权利要求中, 不应将位于括号之间的任何参考符号构 造成对权利要求的限制。单词"包含"不排除存 未列在权利要求中的元件 或步骤。 位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。 本发明可以借助于包括有若干不同元件的硬件 以及借助于适当编程的计 算机来实现。 在列举了若干装置的单元权利要求中, 这些装置中的若干 个可以是通过同一个硬件项来具体体现。 单词第一、 第二、 以及第三等 的使用不表示任何顺序。 可将这些单词解释为名称。

此外, 还应当注意, 本说明书中使用的语言主要是为了可读性和教 导的目的而选择的, 而不是为了解释或者限定本发明的主题而选择 的。 因此, 在不偏离所附权利要求书的范围和精神的情况 下, 对于本技术领 域的普通技术人员来说许多修改和变更都是显 而易见的。 对于本发明的 范围, 对本发明所做的公开是说明性的, 而非限制性的, 本发明的范围 由所附权利要求书限定。