Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND SYSTEM FOR IMPLEMENTING TASK ALLOCATION IN DISTRIBUTED SYSTEM
Document Type and Number:
WIPO Patent Application WO/2019/090650
Kind Code:
A1
Abstract:
Disclosed is a method for implementing task allocation in a distributed system, and the method comprises the following steps: a distributed device receives or initiates a task message, and the task message is used to allocate a webpage collection task in the distributed system; the distributed device sequentially sends N data packets to other M devices of the distributed system; the distributed device counts M sets of N delays of the N data packets returned by the M devices; and the distributed device allocates a webpage task on the basis of the average delay in each set of N delays. The technical solution provided by the present invention has the advantage of high efficiency.

Inventors:
MA YAN (CN)
Application Number:
PCT/CN2017/110320
Publication Date:
May 16, 2019
Filing Date:
November 10, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
MAXTRON TECH SHENZHEN CO LTD (CN)
International Classes:
H04L29/00
Foreign References:
CN103559219A2014-02-05
CN102223385A2011-10-19
CN106096056A2016-11-09
US20090083390A12009-03-26
Other References:
LIU, SHUANG: "Research on Wan-Based Task Scheduling in Distributed Search Engines", CHINESE MASTER'S THESES FULL-TEXT DATABASE (ELECTRONIC JOURNAL) (INFORMATION SCIENCE AND TECHNOLOGY, 15 December 2011 (2011-12-15), pages 1138 - 2017
Attorney, Agent or Firm:
SHENZHEN KEGUAN INTELLECTUAL PROPERTY AGENCY CO., LTD (CN)
Download PDF:
Claims:
权利要求书

[权利要求 1] 一种任务分配在分布式系统的实现方法, 其特征在于, 所述方法包括 如下步骤:

分布式设备接收或发起任务消息, 所述任务消息用于在分布式系统中 分配网页采集任务;

分布式设备将 N个数据包依次发送给分布式系统的其他 M个设备; 分 布式设备统计 M个设备返回的 N个数据包的 M组 N个吋延; 分布式设 备依据每组 N个吋延中的平均吋延分配网页任务给执行设备; 执行设备对该分配网页任务的类型, 依据所述类型调配与该类型的执 行方式执行该网页任务。

[权利要求 2] 根据权利要求 1所述的方法, 其特征在于, 所述分布式设备依据该 M 个吋延和分配网页采集任务, 具体包括:

分布式设备对平均吋延在第一区间的 X个设备分配第一组网页采集任 务, 将平均吋延在第二区间的 Y个设备分给第二组网页采集任务, 其 中第一区间的 X个设备的平均吋延低于第二区间的 Y个设备的平均吋 延, 第一组网页采集任务大于第二组网页采集任务。

[权利要求 3] 根据权利要求 1所述的方法, 其特征在于, 所述依据所述类型调配与 该类型的执行方式执行该网页任务包括:

执行设备调配单线程或多线程执行该网页任务。

[权利要求 4] 一种任务分配在分布式系统的应用系统, 其特征在于, 所述系统包括

: 分布式设备以及 M个执行设备, 所述分布式设备与 M个执行设备连 接;

分布式设备, 用于接收或发起任务消息, 所述任务消息用于在分布式 系统中分配网页采集任务; 将 N个数据包依次发送给分布式系统的其 他 M个设备; 统计 M个设备返回的 N个数据包的 M组 N个吋延; 依据 每组 N个吋延中的平均吋延分配网页任务给 M个执行设备; 所述 M个设备, 用于接收分配网页采集任务。 对该分配网页任务的类 型, 依据所述类型调配与该类型的执行方式执行该网页任务。 [权利要求 5] 根据权利要求 4所述的系统, 其特征在于,

所述分布式设备, 还用于对平均吋延在第一区间的 X个设备分配第一 组网页采集任务, 将平均吋延在第二区间的 Y个设备分给第二组网页 采集任务, 其中第一区间的 X个设备的平均吋延低于第二区间的 Y个 设备的平均吋延, 第一组网页采集任务大于第二组网页采集任务。

[权利要求 6] 根据权利要求 4所述的方法, 其特征在于,

所述执行设备, 还用于调配单线程或多线程执行该网页任务。

[权利要求 7] —种分布式设备, 包括: 处理器、 无线收发器、 存储器和总线, 所述 处理器、 无线收发器、 存储器通过总线连接, 其特征在于, 所述无线收发器, 用于接收或发起任务消息, 所述任务消息用于在分 布式系统中分配网页采集任务;

所述处理器, 用于将 N个数据包依次发送给分布式系统的其他 M个设 备; 统计 M个设备返回的 N个数据包的 M组 N个吋延; 依据每组 N个吋 延中的平均吋延分配网页任务。

[权利要求 8] 根据权利要求 7所述的服务器, 其特征在于, 所述处理器, 用于对平 均吋延在第一区间的 X个设备分配第一组网页采集任务, 将平均吋延 在第二区间的 Y个设备分给第二组网页采集任务, 其中第一区间的 X 个设备的平均吋延低于第二区间的 Y个设备的平均吋延, 第一组网页 采集任务大于第二组网页采集任务。

[权利要求 9] 根据权利要求 7所述的服务器, 其特征在于, 所述处理器, 用于在配 置完第一网页采集任务吋, 将第一网页采集任务群发给分布式系统的 其他设备, 接收其他设备返回的确认消息。

[权利要求 10] —种计算机可读存储介质, 其特征在于, 其存储用于电子数据交换的 计算机程序, 其中, 所述计算机程序使得计算机执行如权利要求 1-3 任一项所述的方法。

Description:
说明书 发明名称:任务分配在分布式系统的实现方法 及系统 技术领域

[0001] 本发明涉及数据处理领域, 尤其涉及一种任务分配在分布式系统的实现方 法及 系统。

背景技术

[0002] 网页采集是一种对特定网页进行采集的简称, 对于网页采集而言, 现有的网页 采集一般在分布式系统内实现, 但是现有的网页采集无法依据实际情况对网页 采集的任务进行分配, 无法依据具体的类型选择合适的执行方式, 导致网页采 集效率低。

技术问题

[0003] 本申请提供一种任务分配在分布式系统的实现 方法。 其解决现有技术的技术方 案效率低的缺点。 问题的解决方案

技术解决方案

[0004] 一方面, 提供一种任务分配在分布式系统的实现方法, 所述方法包括如下步骤

[0005] 分布式设备接收或发起任务消息, 所述任务消息用于在分布式系统中分配网页 采集任务;

[0006] 分布式设备将 N个数据包依次发送给分布式系统的其他 M个设备; 分布式设备 统计 M个设备返回的 N个数据包的 M组 N个吋延; 分布式设备依据每组 N个吋延中 的平均吋延分配网页任务给执行设备;

[0007] 执行设备对该分配网页任务的类型, 依据所述类型调配与该类型的执行方式执 行该网页任务。

[0008] 可选的, 所述分布式设备依据该 M个吋延和分配网页采集任务, 具体包括: [0009] 分布式设备对平均吋延在第一区间的 X个设备分配第一组网页采集任务, 将平 均吋延在第二区间的 Y个设备分给第二组网页采集任务, 其中第一区间的 X个设 备的平均吋延低于第二区间的 Y个设备的平均吋延, 第一组网页采集任务大于第 二组网页采集任务。

[0010] 可选的, 所述依据所述类型调配与该类型的执行方式执 行该网页任务包括: [0011] 执行设备调配单线程或多线程执行该网页任务 。

[0012] 第二方面, 提供一种任务分配在分布式系统的应用系统, 所述系统包括: 分布 式设备以及 M个执行设备, 所述分布式设备与 M个执行设备连接;

[0013] 分布式设备, 用于接收或发起任务消息, 所述任务消息用于在分布式系统中分 配网页采集任务; 将 N个数据包依次发送给分布式系统的其他 M个设备; 统计 M 个设备返回的 N个数据包的 M组 N个吋延; 依据每组 N个吋延中的平均吋延分配 网页任务给 M个执行设备;

[0014] 所述 M个设备, 用于接收分配网页采集任务。 对该分配网页任务的类型, 依据 所述类型调配与该类型的执行方式执行该网页 任务。

[0015] 可选的, 所述分布式设备, 还用于对平均吋延在第一区间的 X个设备分配第一 组网页采集任务, 将平均吋延在第二区间的 Y个设备分给第二组网页采集任务, 其中第一区间的 X个设备的平均吋延低于第二区间的 Y个设备的平均吋延, 第一 组网页采集任务大于第二组网页采集任务。

[0016] 可选的, 所述执行设备, 还用于调配单线程或多线程执行该网页任务。

[0017] 第三方面, 提供一种分布式设备, 包括: 处理器、 无线收发器、 存储器和总线

, 所述处理器、 无线收发器、 存储器通过总线连接,

[0018] 所述无线收发器, 用于接收或发起任务消息, 所述任务消息用于在分布式系统 中分配网页采集任务;

[0019] 所述处理器, 用于将 N个数据包依次发送给分布式系统的其他 M个设备; 统计 M个设备返回的 N个数据包的 M组 N个吋延; 依据每组 N个吋延中的平均吋延分配 网页任务。

[0020] 可选的, 所述处理器, 用于对平均吋延在第一区间的 X个设备分配第一组网页 采集任务, 将平均吋延在第二区间的 Y个设备分给第二组网页采集任务, 其中第 一区间的 X个设备的平均吋延低于第二区间的 Y个设备的平均吋延, 第一组网页 采集任务大于第二组网页采集任务。 [0021] 可选的, 所述处理器, 用于在配置完第一网页采集任务吋, 将第一网页采集任 务群发给分布式系统的其他设备, 接收其他设备返回的确认消息。

[0022] 第四方面, 提供一种计算机可读存储介质, 其存储用于电子数据交换的计算机 程序, 其中, 所述计算机程序使得计算机执行第一方面提供 的方法。

发明的有益效果

有益效果

[0023] 本发明提供的技术方案通过平均吋延来分配网 页采集的任务, 即平均吋延较小 的设备分配较多的网页采集任务, 平均吋延较大的设备分配较少的网页采集任 务, 并且通过类型选择与该类型匹配的方案执行, 从而提高了效率的优点。 对附图的简要说明

附图说明

[0024] 为了更清楚地说明本发明实施例的技术方案, 下面将对实施例描述中所需要使 用的附图作简单地介绍, 显而易见地, 下面描述中的附图是本发明的一些实施 例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下, 还可以根 据这些附图获得其他的附图。

[0025] 图 1为本发明第一较佳实施方式提供的一种任务 配在分布式系统的实现方法 的流程图;

[0026] 图 2为本发明第二较佳实施方式提供的一种任务 配在分布式系统的应用系统 的结构图。

[0027] 图 3为本发明第二较佳实施方式提供的一种分布 设备的硬件结构图。

本发明的实施方式

[0028] 下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实 施例。 基于本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前 提下所获得的所有其他实施例, 都属于本发明保护的范围。

[0029] 请参考图 1, 图 1是本发明第一较佳实施方式提出的一种任务 配在分布式系统 的实现方法, 该方法如图 1所示, 包括如下步骤:

[0030] 步骤 S101、 分布式设备接收或发起任务消息, 所述任务消息用于在分布式系统 中分配网页采集任务。

[0031] 步骤 S102、 分布式设备将 N个数据包依次发送给分布式设备的其他 M个设备, 统计 M个设备返回的 N个数据包的 M组 N个吋延, 每组包含 N个数据包的吋延。

[0032] 上述步骤 S 102的实现方法可以为:

[0033] 分布式设备获取历史分享的数据包的大小 (即容量, 多少个 MB或多个 KB); 提 取历史数据包的大小区间, 将该大小区间划分成 N个子区间, 分布式设备虚拟 N 个数据包, 其中 N个数据包中的第 M个数据包的大小为 N个区间中第 M个子区间 的中值, 分布式设备将 N个数据包依次发送给 M个其他分布式设备, UE统计其他 M个分布式设备中每个接入点的 N个数据包的吋延, 得到 M组 N个吋延。

[0034] 下面以一个实际的例子来说明反馈参数为吋间 和的计算方式;

[0035] 这里的数据包的大小具体可以包括: 6MB、 5MB、 4MB、 3MB、 2MB、 1MB , 这里划分的 N个区间以 2个区间为例, 具体的 2个区间的范围可以为, 区间 1 【6 MB , 4MB】 ; 区间 2 【3MB, 1MB】 , 那么分布式设备虚拟出 2个数据包, 为了 方便说明, 这里以数据包 A表示第一区间虚拟数据包, 数据包 B表示第二区间虚 拟数据包, 数据包 A的大小为 5MB, 数据包 B的大小为 2MB, 将数据包 A以及数 据包 B依次发送给 M个其他设备, (这里以三个 AP为例, 分别为 API , AP2以及 AP3) , API接收到数据包 A以后会返回 ACK (la) , 接收吋间为 t ACK ( la) ,数据 包 A的发送吋间为 t la , API接收到数据包 B以后会返回 ACK (lb) , 接收吋间可 以为 t ACK ( lb) ,数据包 B的发送吋间为 t lb ; 那么 API的 N个吋延即为: t ACK (la) - 1 la

- 1 ^。 同理可以计算出 AP2和 AP3的 N个吋延, 平均吋延= 【 (t ACK (la

[0036] 步骤 S103、 依据每组 N个吋延中的平均吋延分配网页任务给执行设 。

[0037] 本发明提供的技术方案通过平均吋延来分配网 页采集的任务, 即平均吋延较小 的设备分配较多的网页采集任务, 平均吋延较大的设备分配较少的网页采集任 务, 从而提高了效率的优点。

[0038] 可选的, 上述步骤 S103的实现方法具体可以为: [0039] 分布式设备对平均吋延在第一区间的 X个设备分配第一组网页采集任务, 将平 均吋延在第二区间的 Y个设备分给第二组网页采集任务, 其中第一区间的 X个设 备的平均吋延低于第二区间的 Y个设备的平均吋延, 第一组网页采集任务大于第 二组网页采集任务。

[0040] 步骤 S104、 执行设备对该分配网页任务的类型, 依据所述类型调配与该类型的 执行方式执行该网页任务。

[0041] 可选的, 上述方法在步骤 S103之后还可以包括:

[0042] 分布式设备在配置完第一网页采集任务吋, 将第一网页采集任务群发给分布式 系统的其他设备, 接收其他设备返回的确认消息。

[0043] 请参考图 2, 图 2是本发明第二较佳实施方式提出的一种分布 爬虫实现系统, 该系统如图 2所示, 包括: 分布式设备 201以及 M个设备 202, 所述分布式设备与 设备连接;

[0044] 分布式设备, 用于接收或发起任务消息, 所述任务消息用于在分布式系统中分 配网页采集任务; 将 N个数据包依次发送给分布式系统的其他 M个设备; 统计 M 个设备返回的 N个数据包的 M组 N个吋延; 依据每组 N个吋延中的平均吋延分配 网页任务;

[0045] 该 M个设备 202, 用于接收分配网页采集任务执行网页采集。

[0046] 可选的, 所述分布式设备, 还用于对平均吋延在第一区间的 X个设备分配第一 组网页采集任务, 将平均吋延在第二区间的 Y个设备分给第二组网页采集任务, 其中第一区间的 X个设备的平均吋延低于第二区间的 Y个设备的平均吋延, 第一 组网页采集任务大于第二组网页采集任务。

[0047] 可选的, 所述分布式设备, 还用于在配置完第一网页采集任务吋, 将第一网页 采集任务群发给分布式系统的其他设备, 接收其他设备返回的确认消息。

[0048] 参阅图 3, 图 3为一种分布式设备 30, 包括: 处理器 301、 无线收发器 302、 存储 器 303和总线 304, 无线收发器 302用于与外部设备之间收发数据。 处理器 301的 数量可以是一个或多个。 本申请的一些实施例中, 处理器 301、 存储器 302和收 发器 303可通过总线 304或其他方式连接。 服务器 30可以用于执行图 1的步骤。 关 于本实施例涉及的术语的含义以及举例, 可以参考图 1对应的实施例。 此处不再 赘述。

[0049] 无线收发器 302, 用于接收或发起任务消息, 所述任务消息用于在分布式系统 中分配网页采集任务;

[0050] 处理器 301, 用于将 N个数据包依次发送给分布式系统的其他 M个设备; 统计 M 个设备返回的 N个数据包的 M组 N个吋延; 依据每组 N个吋延中的平均吋延分配 网页任务。

[0051] 其中, 存储器 303中存储程序代码。 处理器 901用于调用存储器 903中存储的程 序代码, 用于执行以下操作:

[0052] 处理器 301, 用于对平均吋延在第一区间的 X个设备分配第一组网页采集任务, 将平均吋延在第二区间的 Y个设备分给第二组网页采集任务, 其中第一区间的 X 个设备的平均吋延低于第二区间的 Y个设备的平均吋延, 第一组网页采集任务大 于第二组网页采集任务。

[0053] 需要说明的是, 这里的处理器 301可以是一个处理元件, 也可以是多个处理元 件的统称。 例如, 该处理元件可以是中央处理器 (Central Processing Unit, CPU ) , 也可以是特定集成电路 (Application Specific Integrated Circuit, ASIC) , 或 者是被配置成实施本申请实施例的一个或多个 集成电路, 例如: 一个或多个微 处理器 (digital singnal processor, DSP) , 或, 一个或者多个现场可编程门阵列 (Field Programmable Gate Array, FPGA) 。

[0054] 存储器 303可以是一个存储装置, 也可以是多个存储元件的统称, 且用于存储 可执行程序代码或应用程序运行装置运行所需 要参数、 数据等。 且存储器 303可 以包括随机存储器 (RAM) , 也可以包括非易失性存储器 (non- volatile memory ) , 例如磁盘存储器, 闪存 (Flash) 等。

[0055] 总线 304可以是工业标准体系结构 (Industry Standard Architecture, ISA) 总线 、 外部设备互连 (Peripheral

Component, PCI) 总线或扩展工业标准体系结构 (Extended Industry Standard Architecture, EISA) 总线等。 该总线可以分为地址总线、 数据总线、 控制总线 等。 为便于表示, 图 3中仅用一条粗线表示, 但并不表示仅有一根总线或一种类 型的总线。 [0056] 该终端还可以包括输入输出装置, 连接于总线 304, 以通过总线与处理器 301等 其它部分连接。 该输入输出装置可以为操作人员提供一输入界 面, 以便操作人 员通过该输入界面选择布控项, 还可以是其它接口, 可通过该接口外接其它设 备。

[0057] 需要说明的是, 对于前述的各个方法实施例, 为了简单描述, 故将其都表述为 一系列的动作组合, 但是本领域技术人员应该知悉, 本发明并不受所描述的动 作顺序的限制, 因为依据本发明, 某一些步骤可以采用其他顺序或者同吋进行 。 其次, 本领域技术人员也应该知悉, 说明书中所描述的实施例均属于优选实 施例, 所涉及的动作和模块并不一定是本发明所必须 的。

[0058] 在上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没有详细描 述的部分, 可以参见其他实施例的相关描述。

[0059] 本领域普通技术人员可以理解上述实施例的各 种方法中的全部或部分步骤是可 以通过程序来指令相关的硬件来完成, 该程序可以存储于一计算机可读存储介 质中, 存储介质可以包括: 闪存盘、 只读存储器 (英文: Read-Only Memory, 简称: ROM) 、 随机存取器 (英文: Random Access Memory , 简称: RAM) 、 磁盘或光盘等。

[0060] 以上对本发明实施例所提供的内容下载方法及 相关设备、 系统进行了详细介绍 , 本文中应用了具体个例对本发明的原理及实施 方式进行了阐述, 以上实施例 的说明只是用于帮助理解本发明的方法及其核 心思想; 同吋, 对于本领域的一 般技术人员, 依据本发明的思想, 在具体实施方式及应用范围上均会有改变之 处, 综上所述, 本说明书内容不应理解为对本发明的限制。