Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM AND METHOD FOR FINDING PHISHING WEBSITE
Document Type and Number:
WIPO Patent Application WO/2014/000537
Kind Code:
A1
Abstract:
The present invention relates to the field of network security. Disclosed are a system and method for finding a phishing website. The system comprises: a seed library establishing unit, applicable in placing the original link of a target webpage having a number of hits on known phishing websites that is greater than a predetermined threshold value into a seed library as a seed link; a seed extractor, applicable in extracting the seed link in the seed library; a seed webpage analyzer, applicable in finding a corresponding seed webpage on the basis of the extracted seed link, and in analyzing the seed webpage to acquire a suspicious link found in the seed webpage; a determination unit, applicable in finding a suspicious webpage corresponding to the suspicious link, and in determining whether or not the suspicious webpage is a phishing website; and an output interface, applicable in outputting the corresponding phishing website when the suspicious webpage is a phishing website. The system and method greatly increase the speed in finding the phishing website, and reduce for netizens the security risks of using the Internet.

Inventors:
CHEN YINGYING (CN)
Application Number:
PCT/CN2013/075950
Publication Date:
January 03, 2014
Filing Date:
May 21, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BEIJING QIHOO TECH CO LTD (CN)
QIZHI SOFTWARE BEIJING CO LTD (CN)
International Classes:
G06F21/00
Foreign References:
CN102799814A2012-11-28
CN101820366A2010-09-01
CN102523210A2012-06-27
US20080244715A12008-10-02
Attorney, Agent or Firm:
BEIJING LONGAN LAW FIRM (CN)
北京市隆安律师事务所 (CN)
Download PDF:
Claims:
权 利 要 求

1、 一种钓鱼网站查找系统, 其包括:

种子库建立单元,适于将命中已知钓鱼网站的个数大于预定阈值的目标 网页的原始链接作为种子链接放入种子库;

种子提取器, 适于提取出所述种子库中的种子链接;

种子网页分析器, 适于根据所述提取出的种子链接查找对应的种子网 页, 对所述种子网页进行分析, 得到所述种子网页中存在的可疑链接; 判断单元, 适于查找所述可疑链接对应的可疑网页, 判断所述可疑网页 是否是钓鱼网站;

输出接口, 适于在所述可疑网页是钓鱼网站时, 输出相应的钓鱼网站。

2、 如权利要求 1所述的系统, 其中, 所述系统还包括: 网页抓取器; 所述网页抓取器, 适于抓取所述目标网页。

3、 如权利要求 1或 2所述的系统, 其中, 所述种子库建立单元包括: 黑名单模块, 适于根据已知钓鱼网站建立黑名单库;

选择模块,适于在所述目标网页命中所述黑名单库中已知钓鱼网站的个 数大于预定阈值时, 将所述目标网页的原始链接作为种子链接放入种子库。

4、 如权利要求 3所述的系统, 其中, 所述输出接口还适于在输出相应 的钓鱼网站后更新所述黑名单库。

5、 如权利要求 3所述的系统, 其中, 所述目标网页命中所述黑名单库中 已知钓鱼网站的个数的计算公式如下:

M = W C\ D ;

其中, 表示所述目标网页中所包含的链接的集合; )表示所述黑名单 库中已知钓鱼网站的域名的集合; M表示 和!)的交集; |M|表示 M中元素 的数量; N表示所述目标网页命中所述黑名单库中已知钓鱼网站的个数。

6、 一种钓鱼网站查找方法, 其包括步骤:

A: 将命中已知钓鱼网站的个数大于预定阈值的目标网页的原始链接作 为种子链接放入种子库;

B: 提取出所述种子库中的种子链接, 收集所述种子链接对应的种子网 页中出现的可疑链接;

C: 当所述可疑链接对应的可疑网页是钓鱼网站时, 输出相应的钓鱼网 站。

7、 如权利要求 6所述的方法, 其中, 所述将命中已知钓鱼网站的个数大 于预定阈值的目标网页的原始链接作为种子链接放入种子库的步骤, 进一步 包括:

A2: 抓取目标网页,判断所述目标网页命中已知钓鱼网站的个数是否大 于预定阈值,如果是,将所述目标网页的原始链接作为种子链接放入种子库, 然后执行步骤 A3; 否则, 直接执行步骤 A3;

A3:判断所述种子库中的种子链接的数量是否大于预定种子数,如果是, 执行步骤 B; 否则, 返回步骤 A2。

8、 如权利要求 7所述的方法, 其中, 在所述步骤 A2之前还包括步骤 A1 : 根据已知钓鱼网站建立黑名单库;

并且, 在所述步骤 A2中, 判断所述目标网页命中已知钓鱼网站的个数 是否大于预定阈值的步骤进一步为, 判断所述目标网页命中所述黑名单库中 已知钓鱼网站的个数是否大于预定阈值。

9、 如权利要求 8所述的方法, 其中, 所述目标网页命中所述黑名单库中 已知钓鱼网站的个数的计算公式如下:

M =W (I D ;

其中, 表示所述目标网页中所包含的链接的集合; D表示所述黑名单 库中已知钓鱼网站的域名的集合; M表示 和!)的交集; |M|表示 M中元素 的数量; N表示所述目标网页命中所述黑名单库中已知钓鱼网站的个数。

10、 如权利要求 8所述的方法, 其中, 所述当所述可疑链接对应的可疑 网页是钓鱼网站时输出相应的钓鱼网站, 进一步包括步骤:

C1 :判断所述可疑网页是否是钓鱼网站,如果是,输出相应的钓鱼网站, 更新所述黑名单库, 然后执行步骤 C2; 否则, 直接执行步骤 C2;

C2: 判断所述种子库中的种子链接是否已经都被提取出, 如果是, 结束 流程; 否则, 返回所述步骤 B。

11、 如权利要求 6所述的方法, 其中, 所述提取出所述种子库中的种子 链接, 收集所述种子链接对应的种子网页中出现的可疑链接, 进一步包括步 骤:

B1 : 提取出所述种子库中的种子链接, 下载所述种子链接对应的种子网 页; B2: 对所述种子网页进行分析, 得到所述种子网页中出现的可疑链接。

12、 一种计算机程序, 包括计算机可读代码, 当所述计算机可读代 码在服务器上运行时, 导致所述服务器执行根据权利要求 6-1 1中的任一 个所述的钓鱼网站查找方法。

13、 一种计算机可读介质, 其中存储了如权利要求 12所述的计算机 程序。

Description:
一种钓鱼网站查找系统及方法

技术领域

本发明涉及网络安全技术领域, 特别涉及一种钓鱼网站查找系统及 方法。 背景技术

随着互联网的发展, 网民数量逐年增加。 在上网时, 除了传统的木马、 病毒的威胁, 近两年钓鱼网站的数量大幅增加。 互联网上每天新产生十多万 的站点, 数十亿的新 URL, 数量庞大。 因此, 除了能准确识别钓鱼网站外, 钓鱼网站的发现速度也显得越来越重要。许多 互联网公司都在致力于解决这 样一个难题:如何在钓鱼网站未大量传播之前 ,甚至在未开始传播前发现它。

现有的钓鱼网站发现技术多采用以下两种方法 : 通过特定关键词对搜索 引擎结果页进行监控; 通过与客户端结合, 对网民访问较少的网址进行监控 识别。

无论是通过特定关键词对搜索引擎结果页进行 监控,还是通过与客户端 结合,对网民访问较少的网址进行监控,都具 有滞后情。特别是第二种方法, 更是需要有网民访问以后, 才有可能发现这些网址, 而这过程中, 最先访问 这个钓鱼网站的网民可能已经上当受骗。 发明内容

鉴于上述问题, 提出了本发明以便提供一种克服上述问题或者 至少 部分地解决或者减緩上述问题的钓鱼网站查找 系统及方法。

根据本发明的一个方面, 提供了一种钓鱼网站查找系统, 其包括: 种 子库建立单元,适于将命中已知钓鱼网站的个 数大于预定阈值的目标网页的 原始链接作为种子链接放入种子库; 种子提取器, 适于提取出所述种子库中 的种子链接; 种子网页分析器, 适于根据所述提取出的种子链接查找对应的 种子网页,对所述种子网页进行分析,得到所 述种子网页中存在的可疑链接; 判断单元, 适于查找所述可疑链接对应的可疑网页, 判断所述可疑网页是否 是钓鱼网站; 输出接口, 适于在所述可疑网页是钓鱼网站时, 输出相应的钓 鱼网站。 根据本发明的另一个方面, 提供了一种钓鱼网站查找方法, 其包括步 骤: A: 将命中已知钓鱼网站的个数大于预定阈值的目 标网页的原始链接作 为种子链接放入种子库; B: 提取出所述种子库中的种子链接, 收集所述种 子链接对应的种子网页中出现的可疑链接; C: 当所述可疑链接对应的可疑 网页是钓鱼网站时, 输出相应的钓鱼网站。

根据本发明的又一个方面, 提供了一种计算机程序, 其包括计算机 可读代码, 当所述计算机可读代码在服务器上运行时, 导致所述服务器 执行根据权利要求 6-1 1 中的任一个所述的钓鱼网站查找方法。

根据本发明的再一个方面, 提供了一种计算机可读介质, 其中存储 了如权利要求 12所述的计算机程序。

本发明的有益效果为:

本发明的所述钓鱼网站查找系统及方法, 根据钓鱼网站常采用广告、 暗 链 SEO传播的特点, 利用已知钓鱼网站的黑名单库得到种子网页, 通过定 期检测种子网页查找发现新的钓鱼网站, 大幅提高了钓鱼网站的查找速度, 降低了网民使用互联网的安全风险。

上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明 的技术手段, 而可依照说明书的内容予以实施, 并且为了让本发明的上 述和其它目的、 特征和优点能够更明显易懂, 以下特举本发明的具体实 施方式。 附图说明

通过阅读下文优选实施方式的详细描述, 各种其他的优点和益处对 于本领域普通技术人员将变得清楚明了。 附图仅用于示出优选实施方式 的目的, 而并不认为是对本发明的限制。 而且在整个附图中, 用相同的 参考符号表示相同的部件。 在附图中:

图 1是依据本发明实施例一的钓鱼网站查找系统 模块结构示意图; 图 2是所述种子库建立单元的模块结构示意图;

图 3是依据本发明实施例二的钓鱼网站查找系统 模块结构示意图; 图 4是依据本发明实施例三的钓鱼网站查找方法 流程图;

图 5是所述步骤 A的流程图;

图 6是所述步骤 B的流程图;

图 Ί是所述步骤 C的流程图; 图 8示意性地示出了用于执行根据本发明的方法 服务器的框图; 以及

图 9示意性地示出了用于保持或者携带实现根据 发明的方法的程 序代码的存储单元。 具体实施例

下面结合附图和具体的实施方式对本发明作进 一步的描述。

图 1是本发明实施例一所述钓鱼网站查找系统的 块结构示意图,如图 1 所示, 所述系统包括: 种子库建立单元 100、 种子库 200、 种子提取器 300、 种子网页分析器 400、 判断单元 500和输出接口 600。

所述种子库建立单元 100, 适于将命中已知钓鱼网站的个数大于预定阈 值的目标网页的原始链接作为种子链接放入种 子库

图 2是所述种子库建立单元的模块结构示意图, 如图 2所示, 所述种子库 建立单元 100进一步包括: 黑名单模块 110和选择模块 120。

所述黑名单模块 110, 适于根据已知钓鱼网站建立黑名单库。 为保证钓 鱼网站查找的准确度, 所述黑名单库中应该尽可能包含所有已知钓鱼 网站, 并且在实际使用中不断更新所述黑名单库, 增加其中的钓鱼网站。

所述选择模块 120, 适于在所述目标网页命中所述黑名单库中已知 钓鱼 网站的个数大于预定阈值时,将所述目标网页 的原始链接作为种子链接放入 种子库。 也就是说, 将所述目标网页中的所有链接作为第一集合, 将所述黑 名单库中的已知钓鱼网站的域名作为第二集合 ,计算第一集合和第二集合的 交集, 并将交集中元素的数量作为所述目标网页命中 所述黑名单库中已知钓 鱼网站的个数, 然后将所述个数与预定阈值进行比较, 如果大于预定阈值, 则将所述目标网页的原始链接作为种子链接放 入种子库; 否则, 弃置所述目 标网页。

其中, 所述目标网页命中所述黑名单库中已知钓鱼网 站的个数的计算公 式如下:

M = W C\ D ;

其中, ^表示所述目标网页中所包含的链接的集合; )表示所述黑名单 库中已知钓鱼网站的域名的集合; M表示 ^和!)的交集; |M|表示 M中元素 的数量; N表示所述目标网页命中所述黑名单库中已知 鱼网站的个数。 其中, 所述预定阈值可以根据实际使用情况进行设置 和调整, 一般可以 设置为 3、 4或者 5 , 本实施例中优选设置为 3。

所述种子库 200, 适于存储所述种子链接。 所述种子库 200中种子链接的 数量至少为 1 , 并且在实际使用中应该不断增加所述种子库 200中种子链接的 数量, 以提高钓鱼网站的查找效率。

所述种子提取器 300, 适于提取出所述种子库 200中的种子链接。

所述种子网页分析器 400, 适于根据所述提取出的种子链接查找对应的 种子网页,对所述种子网页进行分析,得到所 述种子网页中存在的可疑链接。 所述可疑链接一般是所述种子网页上出现的新 的未知链接。

所述判断单元 500, 适于查找所述可疑链接对应的可疑网页, 判断所述 的公知判别技术, 其非本发明重点, 在此不再贅述。

输出接口 600, 适于在所述可疑网页是钓鱼网站时, 输出相应的钓鱼网 站。 所述输出接口 600还适于在输出相应的钓鱼网站后更新所述黑 名单库, 即将新查找到的钓鱼网站放入所述黑名单库。

图 3是本发明实施例二所述钓鱼网站查找系统的 块结构示意图,如图 3 所示,本实施例所述系统与实施例一所述系统 基本相同,其不同之处仅在于, 本实施例所述系统还包括: 网页抓取器 000。 所述网页抓取器 000, 适于抓取 所述目标网页, 以供所述种子库建立单元 100使用。 所述网页抓取器 000—般 可以采用网络蜘蛛、 网页爬虫、 搜索机器人或网络抓取脚本程序等。

图 4是本发明实施例三所述钓鱼网站查找方法的 程图, 如图 4所示, 所 述方法包括步骤:

A: 将命中已知钓鱼网站的个数大于预定阈值的目 标网页的原始链接作 为种子链接放入种子库。

图 5是所述步骤 A的流程图, 如图 4所示, 所述步骤 A进一步包括步骤: A1 : 根据已知钓鱼网站建立黑名单库。

A2: 抓取目标网页,根据所述黑名单库判断所述目 标网页命中已知钓鱼 网站的个数是否大于预定阈值, 如果是, 将所述目标网页的原始链接作为种 子链接放入种子库, 然后执行步骤 A3; 否则, 直接执行步骤 A3。

A3 :判断所述种子库中的种子链接的数量是否大 预定种子数,如果是, 执行步骤 B; 否则, 返回步骤 A2。

B: 提取出所述种子库中的种子链接, 收集所述种子链接对应的种子网 页中出现的可疑链接。

图 6是所述步骤 B的流程图, 如图 5所示, 所述步骤 B进一步包括步骤: B1 : 提取出所述种子库中的种子链接, 下载所述种子链接对应的种子网 页;

B2: 对所述种子网页进行分析, 得到所述种子网页中出现的可疑链接。 C: 当所述可疑链接对应的可疑网页是钓鱼网站时 , 输出相应的钓鱼网 站。

图 7是所述步骤 C的流程图, 如图 7所示, 所述步骤 C进一步包括步骤:

C1 :判断所述可疑网页是否是钓鱼网站,如果是 输出相应的钓鱼网站, 更新所述黑名单库, 然后执行步骤 C2; 否则, 直接执行步骤 C2。

C2: 判断所述种子库中的种子链接是否已经都被提 取出, 如果是, 结束 流程; 否则, 返回所述步骤 B。

本发明实施例所述钓鱼网站查找系统及方法, 根据钓鱼网站常采用广 告、 暗链 SEO ( Search Engine Optimization, 搜索引擎优化 )传播的特点, 利用已知钓鱼网站的黑名单库得到种子网页, 通过定期检测种子网页查找发 现新的钓鱼网站, 大幅提高了钓鱼网站的查找速度, 降低了网民使用互联网 的安全风险。

本发明的各个部件实施例可以以硬件实现, 或者以在一个或者多个 处理器上运行的软件模块实现, 或者以它们的组合实现。 本领域的技术 人员应当理解, 可以在实践中使用微处理器或者数字信号处理 器 (DSP ) 来实现根据本发明实施例的钓鱼网站查找系统 中的一些或者全部部件的 一些或者全部功能。 本发明还可以实现为用于执行这里所描述的方 法的 一部分或者全部的设备或者装置程序 (例如, 计算机程序和计算机程序 产品) 。 这样的实现本发明的程序可以存储在计算机可 读介质上, 或者 可以具有一个或者多个信号的形式。 这样的信号可以从因特网网站上下 载得到, 或者在载体信号上提供, 或者以任何其他形式提供。

例如, 图 8示出了可以实现根据本发明的钓鱼网站查找 法的服务 器, 例如应用服务器。 该服务器传统上包括处理器 810和以存储器 820 形式的计算机程序产品或者计算机可读介质。 存储器 820可以是诸如闪 存、 EEPROM (电可擦除可编程只读存储器) 、 EPROM、 硬盘或者 ROM 之类的电子存储器。 存储器 820具有用于执行上述方法中的任何方法步 骤的程序代码 831的存储空间 830。 例如, 用于程序代码的存储空间 830 可以包括分别用于实现上面的方法中的各种步 骤的各个程序代码 831。这 些程序代码可以从一个或者多个计算机程序产 品中读出或者写入到这一 个或者多个计算机程序产品中。 这些计算机程序产品包括诸如硬盘, 紧 致盘 (CD ) 、 存储卡或者软盘之类的程序代码载体。 这样的计算机程序 产品通常为如参考图 9所述的便携式或者固定存储单元。 该存储单元可 以具有与图 8的服务器中的存储器 820类似布置的存储段、 存储空间等。 程序代码可以例如以适当形式进行压缩。 通常, 存储单元包括计算机可 读代码 83 Γ , 即可以由例如诸如 810之类的处理器读取的代码, 这些代 码当由服务器运行时, 导致该服务器执行上面所描述的方法中的各个 步 骤。

本文中所称的 "一个实施例"、 "实施例"或者"一个或者多个实施例 "意 味着, 结合实施例描述的特定特征、 结构或者特性包括在本发明的至少 一个实施例中。 此外, 请注意, 这里"在一个实施例中"的词语例子不一定 全指同一个实施例。

在此处所提供的说明书中, 说明了大量具体细节。 然而, 能够理解, 中, 并未详细示出公知的方法、 结构和技术, 以便不模糊对本说明书的 理解。

应该注意的是上述实施例对本发明进行说明而 不是对本发明进行限 制, 并且本领域技术人员在不脱离所附权利要求的 范围的情况下可设计 出替换实施例。 在权利要求中, 不应将位于括号之间的任何参考符号构 造成对权利要求的限制。单词"包含"不排除存 未列在权利要求中的元件 或步骤。 位于元件之前的单词 "一"或"一个"不排除存在多个这样的元件。 本发明可以借助于包括有若干不同元件的硬件 以及借助于适当编程的计 算机来实现。 在列举了若干装置的单元权利要求中, 这些装置中的若干 个可以是通过同一个硬件项来具体体现。 单词第一、 第二、 以及第三等 的使用不表示任何顺序。 可将这些单词解释为名称。

此外, 还应当注意, 本说明书中使用的语言主要是为了可读性和教 导的目的而选择的, 而不是为了解释或者限定本发明的主题而选择 的。 因此, 在不偏离所附权利要求书的范围和精神的情况 下, 对于本技术领 域的普通技术人员来说许多修改和变更都是显 而易见的。 对于本发明的 范围, 对本发明所做的公开是说明性的, 而非限制性的, 本发明的范围 由所附权利要求书限定。