Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR GENERATING ENTRY INFORMATION
Document Type and Number:
WIPO Patent Application WO/2014/206186
Kind Code:
A1
Abstract:
Provided are a method and device for generating entry information. The method comprises: acquiring a candidate word; searching, based on the candidate word, to acquire characteristic information about the candidate word; according to the characteristic information about the candidate word, determining a classification index corresponding to the candidate word in multilevel classification index information, wherein the classification index corresponds to at least one classification-relevant webpage; and according to at least one classification-relevant webpage corresponding to the classification index information, generating entry information corresponding to the candidate word. The present invention has the advantages that contents related to the entry can be fully excavated from a professional website related to the entry and the entry information can be automatically generated, so that the efficiency of generating the entry information is improved, and more comprehensive and complete entry information can be acquired.

Inventors:
ZHANG WEI (CN)
LI HAIBO (CN)
XU HUI (CN)
LU JIA (CN)
Application Number:
PCT/CN2014/079220
Publication Date:
December 31, 2014
Filing Date:
June 05, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BAIDU ONLINE NETWORK TECHNOLOGY BEIJING CO LTD (CN)
International Classes:
G06F17/30
Domestic Patent References:
WO2012000335A12012-01-05
Foreign References:
CN101986310A2011-03-16
CN101957831A2011-01-26
CN101566995A2009-10-28
CN101251854A2008-08-27
US20090094020A12009-04-09
Attorney, Agent or Firm:
HANHOW INTELLECTUAL PROPERTY (CN)
北京汉昊知识产权代理事务所(普通合伙) (CN)
Download PDF:
Claims:
权 利 要 求 书

1. 一种用于生成词条信息的方法, 其中, 所述方法包括以下步 骤:

a获取候选词 ^

b基于所述候选词进行搜索, 以获取所述候选词的特征信息; c才艮据所述候选词的特征信息, 在多级分类索引信息中确定与所述 候选词对应的分类索引; 其中, 所述分类索引对应至少一个分类相关 网页;

d才艮据与所述分类索引信息对应的至少一个分类相关网页, 来确定 与所述候选词对应的词条信息。

2. 根据权利要求 1所述的方法, 其中, 所述步骤 b包括以下步骤: bl 通过第一预定搜索引擎, 基于所述候选词执行搜索, 以获取与 所述候选词对应的一个或多个搜索结果网页;

b2根据所述一个或多个搜索结果网页, 来确定与所述候选词对应 的特征信息。

3. 根据权利要求 2 所述的方法, 其中, 所述步骤 b2 包括以下步 骤:

- 获取所述一个或多个搜索结果网页中所包含的至少一个关键词; - 获取所述至少一个关键词中的各个关键词的权重信息;

-基于所获得的各个关键词及其相应的权重信息, 来确定与所述候 选词对应的特征信息。

4. 根据权利要求 2 所述的方法, 其中, 所述步骤 b2 包括以下步 骤:

- 通过预定主题确定模型, 根据所述一个或多个搜索结果网页中的 各个网页的网页内容, 来确定与所述一个或多个搜索结果网页对应的 主题相关信息;

-基于所确定主题相关信息来确定与所述候选词对应的特征信息。

5. 根据权利要求 1至 3中任一项所述的方法, 其中, 所述方法还包 括以下步骤:

X获取与所述候选词对应的一项或多项网络发布信息;

y根据所获得的一项或多项网络发布信息来确定所述候选词的重要 度信息;

其中, 所述方法还包括以下步骤:

判断所述候选词的重要度信息是否满足预定重要度条件;

其中, 所述步骤 b包括以下步骤:

- 当所述候选词的重要度信息满足预定重要度条件时, 获取所述候 选词的特征信息。

6. 根据权利要求 5所述的方法, 其中, 所述步骤 X包括以下步骤: -对所述候选词进行切词以获取多个子候选词;

- 通过第二预定搜索引擎, 基于各个子候选词执行搜索以获取与各 个子候选词对应的网络发布信息;

其中, 所述步骤 y包括以下步骤:

-基于各个子候选词对应的网络发布信息确定该子候选词的子重要 度信息;

- 基于各个子候选词的子重要度信息确定所述候选词的重要度信 息。

7. 根据权利要求 1至 6中任一项所述的方法, 其中, 所述方法还包 括以下步骤:

- 获取一个或多个网站的网页导航信息;

-根据所获得的一个或多个网页导航信息, 来生成多级分类索引信 息, 其中, 所述多级分类索引中的各个分类索引按照预定拓朴结构相 互关联。

8. 根据权利要求 7所述的方法, 其中, 所述方法包括以下步骤:

-基于与所述多级分类索引信息对应的所述一个或多个网站的网页 导航信息, 获取与该多级分类索引信息中的各个分类索 S I分别对应的 网页;

-基于与所述各个分类索引相对应的网页来确定与该各个分类索 S I 分别对应的分类特征信息;

其中, 所述步骤 C包括以下步骤:

-基于所述候选词的特征信息以及各个分类索引的分类特征信息, 确定与所述候选词对应的分类索引。

9. 根据权利要求 8所述的方法, 其中, 所述预定拓朴结构包括多级 的拓朴结构, 其中相邻两级的分类索引之间为隶属关系, 其中, 所述 步骤 c包括以下步骤:

- 将所述候选词的特征信息与所述各个分类索引的分类特征信息相 比较, 以获取其分类特征信息与所述候选词的特征信息相似的分类索 引;

- 当所获得的分类索引包含底层分类索引时, 将该底层分类索引作 为所述候选词对应的分类索引。

10. 根据权利要求 9所述的方法, 其中, 所述步骤 c还包括以下步 骤:

- 当所获得的分类索引不包含底层索引节点时, 基于其中最低级别 的分类索引所对应的一个或多个分类相关网页以及所述候选词, 来生 成位于该最低级别的分类索引的下级分类索引;

-将所生成的底层分类索引作为与所述候选词对应的分类索引。

11. 根据权利要求 1至 9中任一项所述的方法, 其中, 所述方法还 包括以下步骤:

- 获取候选网站的一个或多个网页;

-根据所述候选网站的一个或多个网页, 确定该候选网站的站点特 征信息;

- 将所述候选网站的站点特征信息与各个分类索引的分类特征信息 进行比较, 以确定与该候选网站对应的一个或多个分类索引;

- 向该候选网站对应的候选用户提供该一个或多个分类索弓 I分别对 应的一个或多个^ ί类选词。

12. 根据权利要求 11 所述的方法, 其中, 所述方法还包括以下步 骤: -根据与所述候选网站对应的一个或多个分类索引, 获取所述候选 网站中与该一个或多个分类索弓 I分别对应的一个或多个候选网页;

-基于与各个分类索引对应的、 所述候选网站中的一个或多个候选 网页, 确定或更新与该各个分类索引对应的分类相关网页;

-基于所述更新后的与各个分类索引对应的分类相关网页, 更新各 个分类索引所对应的候选词的词条信息。

13. 一种用于生成词条信息的词条生成装置, 其中, 所述词条生成 装置包括:

第一获取装置, 用于获取候选词;

第二获取装置, 用于基于所述候选词进行搜索, 以获取所述候选词 的特征信息;

第一确定装置, 用于才艮据所述候选词的特征信息, 在多级分类索引 信息中确定与所述候选词对应的分类索引; 其中, 所述分类索引对应 至少一个分类相关网页;

第一生成装置, 用于才艮据与所述分类索引信息对应的至少一个分类 相关网页, 来确定与所述候选词对应的词条信息。

14. 根据权利要求 13所述的词条生成装置, 其中, 所述第二获取装 置包括:

第一搜索装置, 用于通过第一预定搜索引擎, 基于所述候选词执行 搜索, 以获取与所述候选词对应的一个或多个搜索结果网页;

第二确定装置, 用于才艮据所述一个或多个搜索结果网页, 来确定与 所述候选词对应的特征信息。

15. 根据权利要求 14所述的词条生成装置, 其中, 所述第二确定装 置包括:

关键词获取装置, 用于获取所述一个或多个搜索结果网页中所包含 的至少一个关键词;

权重获取装置, 用于获取所述至少一个关键词中的各个关键词的权 重信息;

第一子确定装置, 用于基于所获得的各个关键词及其相应的权重信 息, 来确定与所述候选词对应的特征信息。

16. 根据权利要求 14所述的词条生成装置, 其中, 所述第二确定装 置包括以下步骤:

模型确定装置, 用于通过预定主题确定模型, 根据所述一个或多个 搜索结果网页中的各个网页的网页内容, 来确定与所述一个或多个搜 索结果网页对应的主题相关信息;

第二子确定装置, 用于基于所确定的主题相关信息来确定与所述候 选词对应的特征信息。

17. 根据权利要求 13至 16中任一项所述的词条生成装置, 其中, 所述词条生成装置还包括:

第三获取装置, 用于获取与所述候选词对应的一项或多项网络发布 第三确定装置, 用于根据所获得的一项或多项网络发布信息来确定 所述候选词的重要度信息;

判断装置, 用于判断所述候选词的重要度信息是否满足预定重要度 条件;

其中, 所述第二获取装置用于:

- 当所述候选词的重要度信息满足预定重要度条件时, 获取所述候 选词的特征信息。

18. 根据权利要求 17所述的词条生成装置, 其中, 所述第三获取装 置包括:

第一子获取装置, 用于对所述候选词进行切词以获取多个子候选 词;

第二搜索装置, 用于通过第二预定搜索引擎, 基于各个子候选词执 行搜索以获取与各个子候选词对应的网络发布信息;

其中, 所述第三确定装置包括:

第三子确定装置, 用于基于各个子候选词对应的网络发布信息确定 该子候选词的子重要度信息;

第四子确定装置, 用于基于各个子候选词的子重要度信息确定所述 候选词的重要度信息。

19. 根据权利要求 13至 18中任一项所述的词条生成装置, 其中, 所述词条生成装置还包括:

导航获取装置, 用于获取一个或多个网站的网页导航信息; 第二生成装置, 用于根据所获得的一个或多个网页导航信息, 来生 成多级分类索引信息, 其中, 所述多级分类索引中的各个分类索引按 照预定拓朴结构相互关联。

20. 根据权利要求 19所述的词条生成装置, 其中, 所述词条生成装 置包括以下步骤:

第四获取装置, 用于基于与所述多级分类索弓 I信息对应的所述一个 或多个网站的网页导航信息, 获取与该多级分类索引信息中的各个分 类索引分别对应的网页;

第一特征确定装置, 用于基于与所述各个分类索引相对应的网页来 确定与该各个分类索 ^ I分别对应的分类特征信息;

其中, 所述第一确定装置用于:

-基于所述候选词的特征信息以及各个分类索引的分类特征信息, 确定与所述候选词对应的分类索引。

21. 根据权利要求 20所述的词条生成装置, 其中, 所述预定拓朴结 构包括多级的拓朴结构, 其中相邻两级的分类索引之间为隶属关系, 其中, 所述第一确定装置包括:

比较获取装置, 用于将所述候选词的特征信息与所述各个分类索弓 I 的分类特征信息相比较, 以获取其分类特征信息与所述候选词的特征 信息相似的分类索引;

第一分类确定装置, 用于当所获得的分类索引包含底层分类索引 时, 将该底层分类索引作为所述候选词对应的分类索引。

22. 根据权利要求 21所述的词条生成装置, 其中, 所述第一确定装 置还包括:

第三生成装置, 用于当所获得的分类索引不包含底层索引节点时, 基于其中最低级别的分类索引所对应的一个或多个分类相关网页以及 所述候选词, 来生成位于该最低级别的分类索引的下级分类索引; 第二分类确定装置, 用于将所生成的底层分类索引作为与所述候选 词对应的分类索引。

23. 根据权利要求 13至权利要求 21所述的词条生成装置, 其中, 所述词条生成装置还包括:

第一网页获取装置, 用于获取候选网站的一个或多个网页; 第二特征确定装置, 用于才艮据所述候选网站的一个或多个网页, 确 定该候选网站的站点特征信息;

第三分类确定装置, 用于将所述候选网站的站点特征信息与各个分 类索引的分类特征信息进行比较, 以确定与该候选网站对应的一个或 多个分类索引;

提供装置, 用于向该候选网站对应的候选用户提供该一个或多个分 类索引分别对应的一个或多个候选词。

24. 根据权利要求 23所述的词条生成装置, 其中, 所述词条生成装 置还包括:

第二网页获取装置, 用于根据与所述候选网站对应的一个或多个分 类索引, 获取所述候选网站中与该一个或多个分类索引分别对应的一 个或多个候选网页;

第一更新装置, 用于基于与各个分类索引对应的、 所述候选网站中 的一个或多个候选网页, 确定与该各个分类索引对应的分类相关网 页;

第一更新装置, 用于基于所述更新后的与各个分类索引对应的分类 相关网页, 更新各个分类索弓 I所对应的候选词的词条信息。

Description:
一种用于生成词条信息的方法和装置

技术领域

本发明涉及计算机技术领域, 尤其涉及一种用于生成词条信息的 方法和装置。 背景技术

在现有技术中, 仅能依靠用户手动填写内容来生成百科词条的 词 条信息, 然而, 这种方式的效率较低, 并且不能及时地对其进行更新; 此外, 还有一种方式是依据搜索相关词条所得到的网 页内容来自动生 成词条信息, 但是, 这种方式所获得的网页类型较为繁杂, 且其内容 不成系统, 所生成的词条信息不够完善, 并且, 往往无法有效地利用 与词条相关的专业类网站中的网页内容。 发明内容

本发明的目的是提供一种用于生成词条信息的 方法和装置。

根据本发明的一个方面, 提供一种用于生成词条信息的方法, 其 中, 所述方法包括以下步骤:

a获取候选词 ^

b基于所述候选词进行搜索, 以获取所述候选词的特征信息; c才艮据所述候选词的特征信息, 在多级分类索引信息中确定与所述 候选词对应的分类索引; 其中, 所述分类索引对应至少一个分类相关 网页;

d才艮据与所述分类索引信息对应的至少一个 类相关网页, 来生成 与所述候选词对应的词条信息。

根据本发明的一个方面, 提供一种用于生成词条信息的词条生成 装置, 其中, 所述词条生成装置包括:

第一获取装置, 用于获取候选词;

第二获取装置, 用于基于所述候选词进行搜索, 以获取所述候选词 的特征信息;

第一确定装置, 用于才艮据所述候选词的特征信息, 在多级分类索引 信息中确定与所述候选词对应的分类索引; 其中, 所述分类索引对应 至少一个分类相关网页;

第一生成装置, 用于才艮据与所述分类索引信息对应的至少一 个分类 相关网页, 来生成与所述候选词对应的词条信息。

本发明的优点在于, 能够从与词条相关的专业网站中, 挖掘与 词条相关的内容并自动生成词条信息, 从而提高了词条信息的生成 效率, 并且能够获得更加全面、 完整的词条信息。 附图说明

通过阅读参照以下附图所作的对非限制性实施 例所作的详细描述, 本发明的其它特征、 目的和优点将会变得更明显:

图 1为根据本发明的一个方面的一种用于生成词 信息的方法流 程图;

图 2为根据本发明的一个优选实施例的用于生成 条信息的方法 流程图;

图 3为根据本发明的又一个优选实施例的用于生 词条信息的方 法流程图;

图 4为根据本发明的又一个优选实施例的用于生 词条信息的方 法流程图;

图 5为根据本发明的一个方面用于生成词条信息 词条生成装置 的结构示意图;

图 6为根据本发明的一个优选实施例的用于生成 条信息的词条 生成装置的结构示意图;

图 7为根据本发明的又一个优选实施例的用于生 词条信息的词 条生成装置的结构示意图;

图 8为根据本发明的又一个优选实施例的用于生 词条信息的词 条生成装置的结构示意图; 附图中相同或相似的附图标记代表相同或相似 的部件。 具体实施方式

下面结合附图对本发明作进一步详细描述。

图 1示意出了根据本发明的一个方面的一种用于 成词条信息的 方法流程图。 根据本发明的方法包括步骤 Sl、 步骤 S2、 步骤 S3和步 骤 S4。

其中, 根据本发明的方法通过计算机设备实现。 所述计算机设备 包括一种能够按照事先设定或存储的指令,自 动进行数值计算和 /或信 息处理的电子设备, 其硬件包括但不限于微处理器、 专用集成电路 (ASIC), 可编程门阵列 (FPGA )、 数字处理器 (DSP )、 嵌入式设备 等。 所述计算机设备包括网络设备和 /或用户设备。 其中, 所述用户设 备包括但不限于任何一种可与用户通过键盘、 鼠标、遥控器、触摸板、 或声控设备等方式进行人机交互的电子产品, 例如, 个人计算机、 平 板电脑、 智能手机、 PDA, 游戏机、 或 IPTV等。 其中, 所述用户设 备所处的网络包括但不限于互联网、 广域网、 城域网、 局域网、 VPN 网络等。

需要说明的是, 所述用户设备以及网络仅为举例, 其他现有的或 今后可能出现的用户设备以及网络如可适用于 本发明, 也应包含在本 发明保护范围以内, 并以引用方式包含于此。

参照图 1 , 在步骤 S1中, 计算机设备获取候选词。

具体地, 所述获取候选词的方式包括但不限于以下任一 种方式:

1 ) 实时获取用户输入的查询序列, 并将其作为候选词;

2 ) 由预获取的多个查询序列中选择一个作为候选 词。

接着, 在步骤 S 2中, 计算机设备基于所述候选词进行搜索, 以获 取所述候选词的特征信息。

其中, 所述特征信息包括一项或多项文本信息。 其中, 所述文本 信息包括但不限于以下任一项:

a )词语信息; b )段落语言信息。

优选地, 所述特征信息包括一项或多项文本信息以及各 项文本信 息的权重信息。

具体地, 所述计算机设备基于所述候选词进行搜索, 以获取所述 候选词的特征信息的方式包括但不限于以下任 一项:

1 ) 计算机设备在包含多个候选词及其对应的特征 信息的词库中 搜索, 以获得与步骤 S1中所获得的候选词对应的特征信息。

2 ) 计算机设备通过第一预定搜索引擎, 基于所述候选词执行搜 索, 以获取与所述候选词对应的一个或多个搜索结 果网页; 接着, 计 算机设备根据所述一个或多个搜索结果网页, 来确定与所述候选词对 应的特征信息。

其中, 所述第一预定搜索引擎包括但不限于可基于候 选词执行搜 索并获取一个或多个搜索结果网页的搜索引擎 。

其中, 所述计算机设备根据所述一个或多个搜索结果 网页, 来确 定与所述候选词对应的特征信息的方式包括但 不限于以下任一项: a ) 获取所述一个或多个搜索结果网页中所包含的 至少一个关 键词; 获取所述至少一个关键词中的各个关键词的权 重信息; 基 于所获得的各个关键词及其相应的权重信息, 来确定与所述候选 词对应的特征信息。

其中, 所述权重信息根据以下至少任一项信息来确定 : 1 ) 关键词在所述一个或多个搜索结果网页中的出 现频率;

II ) 关键词在所述一个或多个搜索结果网页中的出 现次数;

III ) 关键词在所述一个或多个搜索结果网页中出现 的区域信 息, 例如, 出现在网页标题部分, 或者, 出现在网页内容部分等。

优选地, 所述权重信息基于各个关键词在所述一个或多 个搜 索结果网页中的词频反文档频率(TF-IDF, term frequency-inverse document frequency) 值来确定。

具体地, 计算机设备对一个或多个搜索结果网页的网页 内容 进行切词处理, 以获得至少一个关键词, 并统计该至少一个关键 词中的各个关键词的权重信息, 接着, 根据所获得的各个关键词 及其权重信息, 由该至少一个关键词中选择一个或多个关键词 作 为与候选词对应的特征信息。

优选地, 计算机设备由与所述候选词对应的所有搜索结 果网 页中选择一个或多个搜索结果网页, 并基于该所选择的搜索结果 网页来确定与该候选词对应的特征信息。

根据本发明的第一示例, 计算机设备在步骤 S1中获得的候选 词包括 "马尔代夫" , 并且, 计算机设备通过预定搜索引擎, 如 百度搜索引擎对 "马尔代夫" 进行搜索, 并获得多个搜索结果网 页。 计算机设备选择在搜索结果中排名前十位的搜 索结果网页 webl至 weblO作为与该候选词对应的一个或多个搜索结 网页。 接着, 计算机设备对所选择的十个搜索结果网页的网 页内容进行 切词以获得多个关键词, 并统计每个关键词相对于该十个搜索结 果网页的 TF-IDF值, 且将所获得的 TF-IDF值作为各个关键词的 权重信息; 并且, 计算机设备根据 TF-IDF值对各个关键词进行排 序后选择排名前二十位的关键词, 并将该排名前二十位的关键词 及其各自对应的 TF-IDF值作为候选词 "马尔代夫" 的特征信息。

b )通过预定主题确定模型, 根据所述一个或多个搜索结果网页 中的各个网页的网页内容, 来确定与所述一个或多个搜索结果网页 对应的主题相关信息; 接着, 基于所确定的主题相关信息来确定与 所述候选词对应的特征信息。

其中, 所述预定主题确定模型用于对给定的文本信息 通过预定 模型来执行数据挖掘等操作, 以获得与所述文本信息对应的主题相 关信息。 例如, 潜在狄利克雷分配模型 (LDA, Latent Dirichlet Allocation ) 、 概率潜在语义分析模型(PLSA , Probabilistic Latent Semantic Analysis ) 、 带标签的潜在狄利克雷分配模型 (Labeled LDA , Labeled Latent Dirichlet Allocation)模型等。

其中, 所述主题相关信息包括用于表征所述文本信息 的一个或 多个主题的信息, 例如, 用于表征所述文本信息的主题的多个关键 词等。

优选地, 所述主题相关信息还包括用于表征该一个或多 个主题 在所述文本中的权重的信息, 例如, 与用于表征所述文本信息的主 题的多个关键词相对应的关键词权重等。

其中, 本领域技术人员应可根据实际情况和需求确定 所采用的 主题模型, 以及通过主题模型获得一个或多个主题相关信 息的方 ^, 匕 ϋ。

接着, 在步骤 S3 中, 计算机设备根据所述候选词的特征信息, 在多级分类索引信息中确定与所述候选词对应 的分类索引。

其中, 所述多级分类索引信息包括多个基于预定拓朴 结构相互关 联的分类索引,其中,各个分类索引分别对应 至少一个分类相关网页。

其中, 确定多级分类索引信息的方式将在后续参照图 3所示的实 施例中予以详述, 并以引用的方式包含于此, 在此不再赞述。

具体地, 计算机设备获取所述候选词的特征信息与多级 分类索引 信息中的各个分类索引的至少一个分类相关网 页之间的相似度, 并基 于相似度来确定与所述候选词对应的分类索引 。

接着, 在步骤 S4 中, 计算机设备根据与所述分类索引信息对应 的至少一个分类相关网页, 来确定与所述候选词对应的词条信息。

具体地, 计算机设备由与所述分类索引相对应的至少一 个分类相 关网页中, 获取与所述候选词相关的网页内容, 以生成属于所述分类 索引的、 与所述候选词对应的词条信息。

其中, 计算机设备由至少一个分类相关网页中获取与 候选词相关 的内容信息的方式包括:

计算机设备根据所述候选词及其特征信息, 由所述至少一个分类 相关网页中挖掘与所述候选词及其特征信息相 对应的网页内容, 作为 与该候选词对应的词条信息的内容信息。

继续对前述第一示例进行说明, 多级分类索引信息包括如下表 1 所示的基于预定的树状拓朴结构相关联的分类 索引: 表 1

并且, 每个分类索引均对应多个分类相关网页, 计算机设备在步 骤 S3 中确定与候选词 "马尔代夫" 对应的分类索引为 "境内游" , 则计算机设备从与分类索引 "境内游"对应的多个分类相关网页中获 取与候选词 "马尔代夫" 及其特征信息相关的网页内容, 并将其作为 与 "马尔代夫" 这一候选词对应的词条信息的内容, 以生成属于分类 索引 "出境游" 的、 与候选词 "马尔代夫" 对应的词条信息。

优选地, 当已存在属于所述分类索引的、 且与所述候选词对应的 词条信息时, 计算机设备由与所述分类索弓 I相对应的至少一个分类相 关网页中, 获取与所述候选词相关的内容信息, 以更新该候选词对应 的词条信息。

根据本发明的方法, 可自动由与候选词具有较高相似度的分类相 关中获取词条信息的内容, 从而极大的提高了词条信息的生成与更新 的效。 并且, 能够更加充分地挖掘并利用分类相关网页的内 容。

图 2示意出了根据本发明的一个优选实施例的用 生成词条信息 的方法流程图。根据本实施例的方法包括步骤 S1至步骤 S4、步骤 S5、 步骤 S6以及步骤 S7。

其中,步骤 SI至步骤 S4已在参照图 1所示的实施例中予以详述, 并以引用的方式包含于此, 不再赘述。

在步骤 S5 中, 计算机设备获取与所述候选词对应的一项或多 项 网络发布信息。

其中, 所述网络发布信息包括用于在互联网中发布的 、 具有一定 的各类信息。 优选地, 所述网络发布信息包括广告。

其中, 所述计算机设备获取与所述候选词对应的一项 或多项网络 发布信息的方式包括但不限于以下任一项:

1 ) 计算机设备通过在第二预定搜索引擎中查询所 述候选词, 以 获取与所述候选词对应的一项或多项网络发布 信息。

其中, 所述第二预定搜索引擎包括但不限于可基于候 选词执行搜 索并获取一个或多个网络发布信息的搜索引擎 。

优选地, 所述第二预定搜索引擎与前述参照图 1的实施例中所述 的第一预定搜索引擎为同一搜索引擎。

2 ) 计算机设备通过预定的各个候选词与网络发布 信息的对应关 系, 来获取与该候选词对应的一项或多项网络发布 信息。

接着, 在步骤 S6 中, 计算机设备根据所获得的一项或多项网络发 布信息来确定所述候选词的重要度信息。

具体地, 所述计算机设备根据所获得的一项或多项网络 发布信息来 确定所述候选词的重要度信息的方式包括但不 限于以下任一项:

1 )计算机设备统计所述候选词相对于所述一项 多项网络发布信息 的权重信息。

例如, 计算机设备统计所述候选词相对于其所对应的 多项广告中的 TF-IDF值并将其作为候选词的重要度信息。

2 )计算机设备统计所述一项或多项网络发布信 数量, 并将其作为 所述候选词的重要度信息;

3 )计算机设备获取所述一项或多项网络发布信 的被使用信息, 并 根据所获得的被使用信息来确定所述候选词的 重要度信息。 其中, 所 述网络发布信息的被使用信息包括但不限于以 下至少任一项:

a ) 所述网络发布信息的 现次数;

b ) 所述网络发布信息的被点击次数等。

例如, 计算机设备统计候选词所对应的所有广告的被 点击次数, 并 将其作为候选词的重要度信息; 又例如, 计算机设备统计候选词所对 应的广告的平均被点击次数, 以将其作为候选词的重要度信息等。

接着, 在步骤 S7 中, 计算机设备判断所述候选词的重要度信息是 否满足预定重要度条件。 其中, 所述预定重要度条件包括预定重要度阈值;

具体地, 计算机设备判断所述候选词的重要度信息是否 满足预定阈 值。

接着, 根据本实施例的方法, 在步骤 S2 中, 当所述候选词的重要 度信息满足预定重要度条件时, 计算机设备获取所述候选词的特征信 息。

作为本实施例的优选方案之一, 所述步骤 S5 进一步包括步骤 S501 (图未示) 和步骤 S502 (图未示) , 所述步骤 S6进一步包括步 骤 S60 (图未示) 1和步骤 S602 (图未示) 。

在步骤 S501 中, 计算机设备对所述候选词进行切词以获取多个 子 候选词。

在步骤 S502 中, 计算机设备通过第二预定搜索引擎, 基于各个子 候选词执行搜索以获取与各个子候选词对应的 网络发布信息。

其中, 所述计算机设备通过第二预定搜索引擎, 基于各个子候选词 执行搜索以获取与各个子候选词对应的网络发 布信息的方式与前述计 算机设备通过在第二预定搜索引擎中查询所述 候选词, 以获取与所述 候选词对应的一项或多项网络发布信息的方式 相同或相似, 故不再赘 述。

接着, 在步骤 S601 中, 计算机设备基于各个子候选词对应的网络 发布信息确定该子候选词的子重要度信息。

其中, 计算机设备基于各个子候选词对应的网络发布 信息确定该子 候选词的子重要度信息的方式与前述计算机设 备根据所获得的一项或 多项网络发布信息来确定所述候选词的重要度 信息的方式相同或相 似, 故不再赘述。

在步骤 S602 中, 计算机设备基于各个子候选词的子重要度信息 确 定所述候选词的重要度信息。

具体地, 所述计算机设备基于预定的统计规则, 确定各个子候 选词的子重要度信息。

优选地, 计算机设备基于预定的统计规则, 确定各个子候选词 的子重要度信息的方式包括但不限于以下任一 种:

1 ) 计算机设备根据各个子候选词的子重要度信息 , 确定平均重 要度信息, 并将其作为候选词的重要度信息。

2 ) 计算机设备获取各个子候选词相对于其所属的 候选词的权重 值, 并基于各个子候选词的子重要度信息以及各个 子候选词的权重 值, 来确定候选词的重要度信息。

例如, 基于各个子候选词在其所属的候选词中出现的 次数来确 定各个子候选词的权重值, 并基于各个子候选词的子重要度信息以 及各个子候选词的权重值, 来确定候选词的重要度信息。

根据本实施例的方法, 仅对满足预定重要度条件的候选词来生 成词条, 提高了词条生成效率。

图 3示意出了根据本发明的又一个优选实施例的 于生成词条信 息的方法流程图。 根据本实施例的方法包括步骤 S1至步骤 S4、 步骤 S8以及步骤 S9。

其中,步骤 SI至步骤 S4已在参照图 1所示的实施例中予以详述, 并以引用的方式包含于此, 不再赘述。

在步骤 S8中, 计算机设备获取一个或多个网站的网页导航信 息。 其中, 所述一个或多个网站可以为人工指定的具有一 定相似度的 一个或多个网站, 也可以为通过对大量网站的网页内容执行聚类 分析 后所确定的, 具有一定相似度的一个或多个网站。

其中, 所述网页导航信息包括但不限于基于网站中的 网页栏目结 构, 为用户浏览网页提供提示的信息。

在步骤 S9 中, 计算机设备根据所获得的一个或多个网页导航 信 息, 来生成多级分类索引信息, 其中, 所述多级分类索引中的各个分 类索引按照预定拓朴结构相互关联。

具体地, 计算机设备根据所获得的一个或多个网页导航 信息, 来 生成多级分类索引信息的方式包括但不限于以 下任一项:

1 ) 直接将所获得的网页导航信息转换为多级分类 索引。

例如, 将网站的导航栏中的各个栏目作为分类索引, 并依次保存 各个栏目之间的所属关系, 以作为各个分类索引之间的所属关系, 以 生成多级分类索引。

2 ) 对多个网站的网页导航信息进行选择与合并, 并基于选择合 并后的结果来生成词条索引信息。

例如, 将该多个网站的导航栏中共同包含的一个或多 个栏目作为 分类索引, 并选择其中一个网站导航栏中的各个栏目之间 的所属关 系, 作为所获得的各个分类索引之间的所属关系的 参考, 以生成多级 分类索引。

作为本实施例的优选方案之一, 根据本方案的方法还包括步骤 S10 (图未示) 、 步骤 S11 (图未示) , 所述步骤 S3进一步包括步骤 S301 (图未示 ) 。

在步骤 S10中,计算机设备基于与所述多级分类索引信 息对应的 所述一个或多个网站的网页导航信息, 获取与该多级分类索引信息中 的各个分类索引分别对应的分类相关网页。

具体地, 计算机设备基于与所述多级分类索引信息对应 的所述一 个或多个网站的网页导航信息, 确定分别与各个分类索引相对应的、 所述一个或多个网站的网页导航信息中的部分 导航信息, 并获取所述 一个或多个网站中与该部分导航信息对应的至 少一个站点网页, 作为 与所述分类索引相对应的分类相关网页。

接着, 在步骤 S1 1中, 计算机设备基于与所述各个分类索引相对 应的分类相关网页来确定与该各个分类索引分 别对应的分类特征信 息。

其中, 计算机设备基于与所述各个分类索引相对应的 分类相关网 页来确定与该各个分类索引分别对应的分类特 征信息的方式与前述 参照图 1所示实施例的步骤 S2中, 计算机设备根据所述一个或多个 搜索结果网页, 来确定与所述候选词对应的特征信息的方式相 同或相 似, 此处不再赘述。

接着, 在步骤 S301 中, 计算机设备基于所述候选词的特征信息 以及各个分类索引的分类特征信息, 确定与所述候选词对应的分类索 引。

具体地, 计算机设备将所述候选词的特征信息与各个分 类索引的 分类特征信息进行比较, 并选择分类特征信息与候选词的特征信息的 相似度满足预定相似度条件的分类索引, 作为与所候选词对应的分类 索引。

其中, 所述预定相似度条件包括相似度满足预定相似 度阈值。 作为本实施例的优选方案之一, , 所述预定拓朴结构包括多级的 拓朴结构, 其中相邻两级的分类索引之间为隶属关系, 其中, 所述步 骤 S3进一步包括步骤 S302 (图未示) 和步骤 S303 (图未示) 。

优选地, 所述预定拓朴结构包括多级的树状结构, 相邻的两级的 分类索引之间为隶属关系。

在步骤 S302 中, 计算机设备将所述候选词的特征信息与所述各 个分类索引的分类特征信息相比较, 以获取其分类特征信息与所述候 选词的特征信息相似的分类索引。

具体地,计算机设备根据所述预定拓朴结构, 按照预定遍历顺序, 将所述候选词的特征信息逐个与所述各个分类 索引的分类特征信息 相比较, 以获取其分类特征信息与所述候选词的特征信 息相似的分类 索引。

例如, 当预定拓朴结构为树状结构, 并且预定遍历顺序为随机遍 历时, 随机获取尚未被遍历的分类索引, 并将该分类索引的分类特征 信息与候选词的特征信息相比较, 以获取其分类特征信息与所述候选 词的特征信息相似的分类索引。

又例如, 当预定拓朴结构为树状结构, 并且预定遍历顺序为从叶 结点逐层向上遍历时, 先获取作为各个叶结点的分类索引, 将该层的 分类索引的分类特征信息与候选词的特征信息 相比较, 当未能在叶结 点中获得与所述候选词的特征信息相似的分类 索引时,再获取各个叶 结点上一层的结点的分类索引, 并将该层的分类索引的分类特征信息 与候选词的特征信息相比较, 依次逐层往上, 直至获得与所述候选词 的特征信息相似的分类索引。 在步骤 S303 中, 当所获得的分类索引包含底层分类索引时, 计 算机设备将该底层分类索引作为所述候选词对 应的分类索引。

具体地, 计算机设备判断所获得的分类索引是否为底层 分类索 引, 并当所获得的分类索引包含底层分类索引时, 计算机设备将该底 层分类索引作为所述候选词对应的分类索引。

优选地, 根据本方案的方法, 所述步骤 S3还包括步骤 S304 (图 未示) 和步骤 S305 (图未示) 。

在步骤 S304 中, 当所获得的分类索引不包含底层索引节点时, 计算机设备基于其中最低级别的分类索引所对 应的一个或多个分类 相关网页以及所述候选词, 来生成位于该最低级别的分类索引的下级 分类索引。

具体地, 计算机设备基于其中最低级别的分类索引所对 应的一个 或多个分类相关网页以及所述候选词, 来生成位于该最低级别的分类 索引的下级分类索引的方式包括但不限于以下 任一种:

1 )计算机设备基于候选词生成属于前述步骤 S302中获得的分类 索引的下级分类索引的名称, 并基于候选词所对应的搜索结果页面以 及所获得的分类索引所对应的分类相关页面, 确定与该下级分类索 ^ I 相对应的分类相关网页。

2 )计算机设备基于前述步骤 S302中获得的分类索引对应的一个 或多个站点网页, 在该一个或多个站点网页中查询并获取与候选 词相 关的至少一个网页, 并确定与所该网页对应的中心词, 以将其作为前 述步骤 S302 中获得的分类索引的下级分类索引的名称, 并将该至少 一个网页作为与该下级分类索引对应的分类相 关网页。

接着, 在步骤 S305 中, 计算机设备将所生成的底层分类索引作 为与所述候选词对应的分类索引。

根据本实施例的方法, 通过获取一个或多个网站的网站导航信息来 建立多级分类索引, 从而使得词条的分类索引体系与实际使用中的 体 系相近, 有利于更加全面的挖掘专业网站的内容信息, 并且由于同时 还可利用这些网站的网页内容作为分类索引的 分类相关网页, 故能够 为候选词生成能够有更加系统、 完整的词条信 , 。

图 4示意出了根据本发明的又一优选实施例的用 生成词条信息 的方法流程图。根据本实施例的方法包括步骤 S 1至步骤 S4、步骤 S 12、 步骤 S13、 步骤 S14以及步骤 S15。

其中,步骤 SI至步骤 S4已在参照图 1所示的实施例中予以详述, 并以引用的方式包含于此, 不再赘述。

在步骤 S12中, 计算机设备获取候选网站的一个或多个网页。

其中, 计算机设备确定候选网站的方式包括但不限于 以下任一种:

1 )获取人工置顶的网站作为候选网站;

2 )将抓取到的网站页面与多级分类索引信息中 各个分类索引所对 应的网页进行比较, 以获得站点网页与所述各个分类索引所对应的 网 页相似的网站。

接着, 在步骤 S13中, 计算机设备根据所述候选网站的一个或多个 网页, 确定该候选网站的站点特征信息。

其中, 计算机设备根据所述候选网站的一个或多个网 页, 确定该候 选网站的站点特征信息的方式与前述参照图 1 所示实施例中的步骤 S2 中计算机设备根据所述一个或多个搜索结果网 页, 来确定与所述候选 词对应的特征信息的方式相同或相似, 在此不再赘述。

接着, 在步骤 S14中, 计算机设备将所述候选网站的站点特征信息 与各个分类索引的分类特征信息进行比较, 以确定与该候选网站对应 的一个或多个分类索引。

其中, 计算机设备将所述候选网站的站点特征信息与 各个分类索引 的分类特征信息进行比较, 以确定与该候选网站对应的一个或多个分 类索引的方式与前述参照图 3所示实施例的步骤 S302中, 计算机设备 将所述候选词的特征信息与所述各个分类索引 的分类特征信息相比 较, 以获取其分类特征信息与所述候选词的特征信 息相似的分类索引 的方式相同或相似, 在此不再赘述。

接着, 在步骤 S15中, 计算机设备向该候选网站对应的候选用户提 供该一个或多个分类索弓 I分别对应的一个或多个候选词。 作为本实施力的优选方案, 根据本实施例的方法还包括步骤 S16 (图未示) 、 步骤 S17 (图未示) 以及步骤 S18 (图未示) 。

在步骤 S16中, 计算机设备根据与所述候选网站对应的一个或 多个 分类索引, 获取所述候选网站中与该一个或多个分类索引 分别对应的 一个或多个候选网页。

其中, 所述计算机设备根据与所述候选网站对应的一 个或多个分类 索引, 获取所述候选网站中与该一个或多个分类索引 分别对应的一个 或多个候选网页的方式包括但不限于以下任一 种:

1 )计算机设备获取该一个或多个分类索引的分 相关网页, 将所获 得的分类相关网页与所述候选网站的站点网页 进行比较, 以获得与所 述分类相关网页相似的一个或多个站点网页, 并将其作为与该分类相 关网页所对应的分类索引的候选网页。

2 )计算机设备才艮据该一个或多个分类索引的 类特征信息, 由候选 网站中获取分别与该一个或多个分类索引的分 类特征信息相似的一个 或多个候选网页。

接着, 在步骤 S17中, 计算机设备基于与各个分类索引对应的、 所 述候选网站中的一个或多个候选网页, 确定或更新与该各个分类索 ^ I 对应的分类相关网页。

具体地, 计算机设备将所确定的候选网页作为与分类索 引对应的分 类相关网页添加至与各个分类索引对应的分类 相关网页库中。

在步骤 S18中, 计算机设备基于所述更新后的与各个分类索引 对应 的分类相关网页, 更新各个分类索 ^ I所对应的候选词的词条信息。

具体地, 对属于个各个分类索引的一个或多个候选词, 分别采 用更新后的该分类索引的分类相关网页来更新 各个候选词的词条内 容。 其中, 采用更新后的该分类索引的分类相关网页来更 新各个候 选词的词条内容的方式与前述参照图 1所示实施例中的步骤 S4 中计 算机设备根据与所述分类索引信息对应的至少 一个分类相关网页, 来 确定与所述候选词对应的词条信息的方式相同 或相似, 此处不再赞 述。 根据本实施例的方法, 通过采用候选网站的内容来自动更新词条信 息, 使得词条内容能够尽快得到更新, 并且提高了更新效率。

图 5示意出了根据本发明的一个方面用于生成词 信息的词条生 成装置的结构示意图。 根据本发明的词条生成装置包括第一获取装 置 1、 第二获取装置 2、 第一确定装置 3和第一生成装置 4。

参照图 5 , 第一获取装置 1获取候选词。

具体地, 所述获取候选词的方式包括但不限于以下任一 种方式:

1 ) 实时获取用户输入的查询序列, 并将其作为候选词;

2 ) 由预获取的多个查询序列中选择一个作为候选 词。

接着, 第二获取装置 2 基于所述候选词进行搜索, 以获取所述候 选词的特征信息。

其中, 所述特征信息包括一项或多项文本信息。 其中, 所述文本 信息包括但不限于以下任一项:

a )词语信息;

b )段落语言信息。

优选地, 所述特征信息包括一项或多项文本信息以及各 项文本信 息的权重信息。

具体地, 所述第二获取装置 2基于所述候选词进行搜索, 以获取 所述候选词的特征信息的方式包括但不限于以 下任一项:

1 ) 第二获取装置 2在包含多个候选词及其对应的特征信息的词 库中搜索, 以获得与步骤 S1中所获得的候选词对应的特征信息。

2 ) 第二获取装置 2 中的第一搜索装置 (图未示) 的通过第一预定 搜索引擎, 基于所述候选词执行搜索, 以获取与所述候选词对应的一 个或多个搜索结果网页; 接着, 第二获取装置 2中的第二确定装置(图 未示)才艮据所述一个或多个搜索结果网页, 来确定与所述候选词对应的 特征信息。

其中, 所述第一预定搜索引擎包括但不限于可基于候 选词执行搜 索并获取一个或多个搜索结果网页的搜索引擎 。

其中, 所述第二确定装置根据所述一个或多个搜索结 果网页, 来 确定与所述候选词对应的特征信息的方式包括 但不限于以下任一项: a ) 第二确定装置中的关键词获取装置 (图未示) 获取所述一 个或多个搜索结果网页中所包含的至少一个关 键词; 接着, 第二 确定装置中的权重获取装置 (图未示) 获取所述至少一个关键词 中的各个关键词的权重信息; 接着, 第二确定装置中的第一子确 定装置 (图未示)基于所获得的各个关键词及其相应 的权重信息, 来确定与所述候选词对应的特征信息。

其中, 所述权重信息根据以下至少任一项信息来确定 : 1 ) 关键词在所述一个或多个搜索结果网页中的出 现频率;

II ) 关键词在所述一个或多个搜索结果网页中的出 现次数;

III ) 关键词在所述一个或多个搜索结果网页中出现 的区域信 息, 例如, 出现在网页标题部分, 或者, 出现在网页内容部分等。

优选地, 所述权重信息基于各个关键词在所述一个或多 个搜 索结果网页中的词频反文档频率(TF-IDF, term frequency-inverse document frequency) 值来确定。

具体地, 关键词获取装置对一个或多个搜索结果网页的 网页 内容进行切词处理, 以获得至少一个关键词, 接着, 权重获取装 置统计并确定该至少一个关键词中的各个关键 词的权重信息, 接 着, 第一子确定装置根据所获得的各个关键词及其 权重信息, 由 该至少一个关键词中选择一个或多个关键词作 为与候选词对应的 特征信息。

优选地, 计算机设备由与所述候选词对应的所有搜索结 果网 页中选择一个或多个搜索结果网页, 并基于该所选择的搜索结果 网页来确定与该候选词对应的特征信息。

根据本发明的第一示例, 第一获取装置 1 获得的候选词包括 "马尔代夫" , 并且, 第一搜索装置通过预定搜索引擎, 如百度 搜索引擎对 "马尔代夫" 进行搜索以获得多个搜索结果网页, 并 选择在搜索结果中排名前十位的搜索结果网页 webl至 webl 0作为 与该候选词对应的一个或多个搜索结果网页。 接着, 关键词获取 装置权重获取装置对所选择的十个搜索结果网 页的网页内容进行 切词以获得多个关键词, 由权重获取装置统计每个关键词相对于 该十个搜索结果网页的 TF-IDF值, 将所获得的 TF-IDF值作为各 个关键词的权重信息; 然后, 第一子确定装置根据 TF-IDF值对各 个关键词进行排序后选择排名前二十位的关键 词, 并将该排名前 二十位的关键词及其各自对应的 TF-IDF值作为候选词 "马尔代夫" 的特征信息。

b ) 第二确定装置中的模型确定装置 (图未示)通过预定主题确 定模型, 根据所述一个或多个搜索结果网页中的各个网 页的网页内 容, 来确定与所述一个或多个搜索结果网页对应的 主题相关信息; 接着, 第二确定装置中的第二子确定装置(图未示) 基于所确定的主 题相关信息来确定与所述候选词对应的特征信 息。

其中, 所述预定主题确定模型用于对给定的文本信息 通过预定 模型来执行数据挖掘等操作, 以获得与所述文本信息对应的主题相 关信息。 例如, 潜在狄利克雷分配模型 (LDA, Latent Dirichlet Allocation ) 、 概率潜在语义分析模型(PLSA , Probabilistic Latent Semantic Analysis ) 、 带标签的潜在狄利克雷分配模型 (Labeled LDA , Labeled Latent Dirichlet Allocation)模型等。

其中, 所述主题相关信息包括用于表征所述文本信息 的一个或 多个主题的信息, 例如, 用于表征所述文本信息的主题的多个关键 词等。

优选地, 所述主题相关信息还包括用于表征该一个或多 个主题 在所述文本中的权重的信息, 例如, 与用于表征所述文本信息的主 题的多个关键词相对应的关键词权重等。

其中, 本领域技术人员应可根据实际情况和需求确定 所采用的 主题模型, 以及通过主题模型获得一个或多个主题相关信 息的方 ^, 匕 f ϋ。

接着, 第一确定装置 3根据所述候选词的特征信息, 在多级分类 索引信息中确定与所述候选词对应的分类索引 。 其中, 所述多级分类索引信息包括多个基于预定拓朴 结构相互关 联的分类索引,其中,各个分类索引分别对应 至少一个分类相关网页。

其中, 确定多级分类索引信息的方式将在后续参照图 3所示的实 施例中予以详述, 并以引用的方式包含于此, 在此不再赞述。

具体地, 第一确定装置 3获取所述候选词的特征信息与多级分类 索引信息中的各个分类索引的至少一个分类相 关网页之间的相似度, 并基于相似度来确定与所述候选词对应的分类 索引。

接着, 第一生成装置 4根据与所述分类索引信息对应的至少一个 分类相关网页, 来确定与所述候选词对应的词条信息。

具体地, 第一生成装置 4由与所述分类索引相对应的至少一个分 类相关网页中, 获取与所述候选词相关的网页内容, 以生成属于所述 分类索引的、 与所述候选词对应的词条信息。

其中, 第一生成装置 4由至少一个分类相关网页中获取与候选词 相关的内容信息的方式包括:

第一生成装置 4根据所述候选词及其特征信息, 由所述至少一个 分类相关网页中挖掘与所述候选词及其特征信 息相对应的网页内容, 作为与该候选词对应的词条信息的内容信息。

继续对前述第一示例进行说明, 多级分类索引信息包括如下表 2 所示的基于预定的树状拓朴结构相关联的分类 索引:

表 2

并且, 每个分类索引均对应多个分类相关网页, 第一确定装置 3 确定与候选词 "马尔代夫" 对应的分类索引为 "境内游" , 则第一生 成装置 4从与分类索引 "境内游"对应的多个分类相关网页中获取与 候选词 "马尔代夫"及其特征信息相关的网页内容,并 其作为与 "马 尔代夫 "这一候选词对应的词条信息的内容,以生成 于分类索引 "出 境游" 的、 与候选词 "马尔代夫" 对应的词条信息。

优选地, 当已存在属于所述分类索引的、 且与所述候选词对应的 词条信息时, 计算机设备由与所述分类索弓 I相对应的至少一个分类相 关网页中, 获取与所述候选词相关的内容信息, 以更新该候选词对应 的词条信息。

根据本发明的方案, 可自动由与候选词具有较高相似度的分类相 关中获取词条信息的内容, 从而极大的提高了词条信息的生成与更新 的效。 并且, 能够更加充分地挖掘并利用分类相关网页的内 容。

图 6示意出了根据本发明的一个优选实施例的用 生成词条信息 的词条生成装置的结构示意图。根据本实施例 的词条生成装置包括第 一获取装置 1、 第二获取装置 2、 第一确定装置 3、 第一生成装置 4、 第三获取装置 5、 第三确定装置 6以及判断装置 7。

其中, 第一获取装置 1、 第二获取装置 2、 第一确定装置 3 以及 第一生成装置 4已在参照图 5所示的实施例中予以详述, 并以引用的 方式包含于此, 不再赘述。

第三获取装置 5获取与所述候选词对应的一项或多项网络发 信 自、

其中, 所述网络发布信息包括用于在互联网中发布的 、 具有一定 的各类信息。 优选地, 所述网络发布信息包括广告。

其中, 所述第三获取装置 5获取与所述候选词对应的一项或多项 网络发布信息的方式包括但不限于以下任一项 :

1 )第三获取装置 5通过在第二预定搜索引擎中查询所述候选词 以获取与所述候选词对应的一项或多项网络发 布信息。

其中, 所述第二预定搜索引擎包括但不限于可基于候 选词执行搜 索并获取一个或多个网络发布信息的搜索引擎 。

优选地, 所述第二预定搜索引擎与前述参照图 5的实施例中所述 的第一预定搜索引擎为同一搜索引擎。

2 ) 第三获取装置 5通过预定的各个候选词与网络发布信息的对 应关系, 来获取与该候选词对应的一项或多项网络发布 信息。

接着, 第三确定装置 6根据所获得的一项或多项网络发布信息来确 定所述候选词的重要度信息。

具体地, 所述第三确定装置 6根据所获得的一项或多项网络发布信 息来确定所述候选词的重要度信息的方式包括 但不限于以下任一项:

1 ) 第三确定装置 6统计所述候选词相对于所述一项或多项网络 布信息的权重信息。

例如, 第三确定装置 6统计所述候选词相对于其所对应的多项广告 中的 TF-IDF值并将其作为候选词的重要度信息。

2 ) 第三确定装置 6统计所述一项或多项网络发布信息数量, 并将 其作为所述候选词的重要度信息;

3 ) 第三确定装置 6获取所述一项或多项网络发布信息的被使用 息, 并根据所获得的被使用信息来确定所述候选词 的重要度信息。 其 中, 所述网络发布信息的被使用信息包括但不限于 以下至少任一项: a ) 所述网络发布信息的 现次数;

b ) 所述网络发布信息的被点击次数等。

例如, 第三确定装置 6 统计候选词所对应的所有广告的被点击次 数, 并将其作为候选词的重要度信息; 又例如, 第三确定装置 6 统计 候选词所对应的广告的平均被点击次数, 以将其作为候选词的重要度 信息等。

接着, 判断装置 Ί判断所述候选词的重要度信息是否满足预定 要 度条件。

其中, 所述预定重要度条件包括预定重要度阈值;

具体地, 判断装置 7判断所述候选词的重要度信息是否满足预定 值。

接着, 根据本实施例的方案, 当所述候选词的重要度信息满足预定 重要度条件时, 第二获取装置 2获取所述候选词的特征信息。

作为本实施例的优选方案之一, 所述第三获取装置 5进一步包括第 一子获取装置 (图未示)和第二搜索装置 (图未示) , 所述第三确定装 置进一步包括第三子确定装置(图未示)和第 四子确定装置(图未示)。 第一子获取装置对所述候选词进行切词以获取 多个子候选词。

第二搜索装置通过第二预定搜索引擎, 基于各个子候选词执行搜索 以获取与各个子候选词对应的网络发布信息。

其中, 所述第二搜索装置通过第二预定搜索引擎, 基于各个子候选 词执行搜索以获取与各个子候选词对应的网络 发布信息的方式与前述 第三获取装置 5 通过在第二预定搜索引擎中查询所述候选词, 以获取 与所述候选词对应的一项或多项网络发布信息 的方式相同或相似, 故 不再赘述。

接着, 第三子确定装置基于各个子候选词对应的网络 发布信息确定 该子候选词的子重要度信息。

其中, 第三子确定装置基于各个子候选词对应的网络 发布信息确定 该子候选词的子重要度信息的方式与前述计算 机设备根据所获得的一 项或多项网络发布信息来确定所述候选词的重 要度信息的方式相同或 相似, 故不再赘述。

第四子确定装置基于各个子候选词的子重要度 信息确定所述候选词 的重要度信息。

具体地, 所述第四子确定装置基于预定的统计规则, 确定各个子 候选词的子重要度信息。

优选地, 第四子确定装置基于预定的统计规则, 确定各个子候选 词的子重要度信息的方式包括但不限于以下任 一种:

1 )第四子确定装置根据各个子候选词的子重要 信息, 确定平均 重要度信息, 并将其作为候选词的重要度信息。

2 )第四子确定装置获取各个子候选词相对于其 属的候选词的权 重值, 并基于各个子候选词的子重要度信息以及各个 子候选词的权 重值, 来确定候选词的重要度信息。

例如, 第四子确定装置基于各个子候选词在其所属的 候选词中出 现的次数来确定各个子候选词的权重值, 并基于各个子候选词的子 重要度信息以及各个子候选词的权重值, 来确定候选词的重要度信 根据本实施例的方案, 仅对满足预定重要度条件的候选词来生 成词条, 提高了词条生成效率。

图 7示意出了根据本发明的又一个优选实施例的 于生成词条信 息的词条生成装置的结构示意图。根据本实施 例的词条生成装置包括 第一获取装置 1、第二获取装置 2、第一确定装置 3、第一生成装置 4、 导航获取装置 8以及第二生成装置 9。

其中, 第一获取装置 1、 第二获取装置 2、 第一确定装置 3 以及 第一生成装置 4已在参照图 5所示的实施例中予以详述, 并以引用的 方式包含于此, 不再赘述。

导航获取装置 8获取一个或多个网站的网页导航信息。

其中, 所述一个或多个网站可以为人工指定的具有一 定相似度的 一个或多个网站, 也可以为通过对大量网站的网页内容执行聚类 分析 后所确定的, 具有一定相似度的一个或多个网站。

其中, 所述网页导航信息包括但不限于基于网站中的 网页栏目结 构, 为用户浏览网页提供提示的信息。

第二生成装置 9根据所获得的一个或多个网页导航信息, 来生成 多级分类索引信息, 其中, 所述多级分类索引中的各个分类索引按照 预定拓朴结构相互关联。

具体地,第二生成装置 9根据所获得的一个或多个网页导航信息, 来生成多级分类索引信息的方式包括但不限于 以下任一项:

1 ) 第二生成装置 9直接将所获得的网页导航信息转换为多级分 类索引。

例如, 第二生成装置 9将网站的导航栏中的各个栏目作为分类索 引, 并依次保存各个栏目之间的所属关系, 以作为各个分类索引之间 的所属关系, 以生成多级分类索引。

2 )第二生成装置 9对多个网站的网页导航信息进行选择与合并 并基于选择合并后的结果来生成词条索引信息 。

例如, 第二生成装置 9将该多个网站的导航栏中共同包含的一个 或多个栏目作为分类索引, 并选择其中一个网站导航栏中的各个栏目 之间的所属关系, 作为所获得的各个分类索引之间的所属关系的 参 考, 以生成多级分类索引。

作为本实施例的优选方案之一,根据本方案的 词条生成装置还包 括第四获取装置 (图未示) 、 第一特征确定装置 (图未示) 。

第四获取装置基于与所述多级分类索引信息对 应的所述一个或 多个网站的网页导航信息, 获取与该多级分类索引信息中的各个分类 索引分别对应的分类相关网页。

具体地, 第四获取装置基于与所述多级分类索引信息对 应的所述 一个或多个网站的网页导航信息, 确定分别与各个分类索引相对应 的、 所述一个或多个网站的网页导航信息中的部分 导航信息, 并获取 所述一个或多个网站中与该部分导航信息对应 的至少一个站点网页, 作为与所述分类索引相对应的分类相关网页。

接着, 第一特征确定装置基于与所述各个分类索引相 对应的分类 相关网页来确定与该各个分类索 ^ I分别对应的分类特征信息。

其中, 第一特征确定装置基于与所述各个分类索引相 对应的分类 相关网页来确定与该各个分类索引分别对应的 分类特征信息的方式 与前述参照图 5所示实施例中第二确定装置根据所述一个或 个搜索 结果网页, 来确定与所述候选词对应的特征信息的方式相 同或相似, 此处不再赞述。

接着,根据本实施例的第一确定装置 3基于所述候选词的特征信 息以及各个分类索引的分类特征信息, 确定与所述候选词对应的分类 索引。

具体地, 第一确定装置 3将所述候选词的特征信息与各个分类索 引的分类特征信息进行比较, 并选择分类特征信息与候选词的特征信 息的相似度满足预定相似度条件的分类索引, 作为与所候选词对应的 分类索引。

其中, 所述预定相似度条件包括相似度满足预定相似 度阈值。 作为本实施例的优选方案之一, , 所述预定拓朴结构包括多级的 拓朴结构, 其中相邻两级的分类索引之间为隶属关系, 其中, 所述第 一确定装置 3进一步包括比较获取装置(图未示)和第一 类确定装 置 (图未示) 。

优选地, 所述预定拓朴结构包括多级的树状结构, 相邻的两级的 分类索引之间为隶属关系。

比较获取装置将所述候选词的特征信息与所述 各个分类索引的 分类特征信息相比较, 以获取其分类特征信息与所述候选词的特征信 息相似的分类索引。

具体地, 比较获取装置根据所述预定拓朴结构, 按照预定遍历顺 序, 将所述候选词的特征信息逐个与所述各个分类 索引的分类特征信 息相比较, 以获取其分类特征信息与所述候选词的特征信 息相似的分 类索引。

例如, 当预定拓朴结构为树状结构, 并且预定遍历顺序为随机遍 历时, 随机获取尚未被遍历的分类索引, 并将该分类索引的分类特征 信息与候选词的特征信息相比较, 以获取其分类特征信息与所述候选 词的特征信息相似的分类索引。

又例如, 当预定拓朴结构为树状结构, 并且预定遍历顺序为从叶 结点逐层向上遍历时, 先获取作为各个叶结点的分类索引, 将该层的 分类索引的分类特征信息与候选词的特征信息 相比较, 当未能在叶结 点中获得与所述候选词的特征信息相似的分类 索引时,再获取各个叶 结点上一层的结点的分类索引, 并将该层的分类索引的分类特征信息 与候选词的特征信息相比较, 依次逐层往上, 直至获得与所述候选词 的特征信息相似的分类索引。

当所获得的分类索引包含底层分类索引时, 第一分类确定装置将 该底层分类索引作为所述候选词对应的分类索 引。

具体地, 第一分类确定装置判断所获得的分类索引是否 为底层分 类索引, 并当所获得的分类索引包含底层分类索引时, 第一分类确定 装置将该底层分类索引作为所述候选词对应的 分类索引。

优选地, 根据本方案的词条生成装置中, 所述第一确定装置 3还 包括第三生成装置 (图未示) 和第二分类确定装置 (图未示) 。

当所获得的分类索引不包含底层索引节点时, 第三生成装置基于 其中最低级别的分类索引所对应的一个或多个 分类相关网页以及所 述候选词, 来生成位于该最低级别的分类索引的下级分类 索引。

具体地, 第三生成装置基于其中最低级别的分类索引所 对应的一 个或多个分类相关网页以及所述候选词, 来生成位于该最低级别的分 类索引的下级分类索引的方式包括但不限于以 下任一种:

1 ) 第三生成装置基于候选词生成属于由前述第一 分类确定装置 所获得的分类索引的下级分类索引的名称, 并基于候选词所对应的搜 索结果页面以及所获得的分类索引所对应的分 类相关页面, 确定与该 下级分类索引相对应的分类相关网页。

2 ) 第三生成装置基于前述第一分类确定装置所获 得的分类索引 对应的一个或多个站点网页, 在该一个或多个站点网页中查询并获取 与候选词相关的至少一个网页, 并确定与所该网页对应的中心词, 以 将其作为前述第一分类确定装置获得的分类索 引的下级分类索引的 名称, 并将该至少一个网页作为与该下级分类索引对 应的分类相关网 页。

接着, 第二分类确定装置将所生成的底层分类索引作 为与所述候 选词对应的分类索引。

根据本实施例的方案, 通过获取一个或多个网站的网站导航信息 来建立多级分类索引, 从而使得词条的分类索引体系与实际使用中的 体系相近, 有利于更加全面的挖掘专业网站的内容信息, 并且由于同 时还可利用这些网站的网页内容作为分类索引 的分类相关网页,故能 够为候选词生成能够有更加系统、 完整的词条信息。

图 8示意出了根据本发明的又一优选实施例的用 生成词条信息 的词条生成装置的结构示意图。根据本实施例 的词条生成装置包括第 一获取装置 1、 第二获取装置 2、 第一确定装置 3、 第一生成装置 4、 第一网页获取装置 10、 第二特征确定装置 11、 第三分类确定装置 12 以及提供装置 13。 其中, 第一获取装置 1、 第二获取装置 2、 第一确定装置 3 以及 第一生成装置 4已在参照图 5所示的实施例中予以详述, 并以引用的 方式包含于此, 不再赘述。

第一网页获取装置 10获取候选网站的一个或多个网页。

其中, 第一网页获取装置 10确定候选网站的方式包括但不限于以 下任一种:

1 ) 第一网页获取装置 10获取人工指定的网站作为候选网站;

2 )第一网页获取装置 10将抓取到的网站页面与多级分类索引信息 中的各个分类索引所对应的网页进行比较, 以获得站点网页与所述各 个分类索弓 I所对应的网页相似的网站。

接着, 第二特征确定装置 11 根据所述候选网站的一个或多个网 页, 确定该候选网站的站点特征信息。

其中, 第二特征确定装置 11 根据所述候选网站的一个或多个网 页, 确定该候选网站的站点特征信息的方式与前述 参照图 5所示实施例 中第二确定装置根据所述一个或多个搜索结果 网页, 来确定与所述候 选词对应的特征信息的方式相同或相似, 在此不再赞述。

接着, 第三分类确定装置 12将所述候选网站的站点特征信息与各 个分类索引的分类特征信息进行比较, 以确定与该候选网站对应的一 个或多个分类索引。

其中, 第三分类确定装置 12将所述候选网站的站点特征信息与各 个分类索引的分类特征信息进行比较, 以确定与该候选网站对应的一 个或多个分类索引的方式与前述参照图 7所示实施例中比较确定装置将 所述候选词的特征信息与所述各个分类索引的 分类特征信息相比较, 以获取其分类特征信息与所述候选词的特征信 息相似的分类索引的方 式相同或相似, 在此不再赘述。

接着, 提供装置 13 向该候选网站对应的候选用户提供该一个或多 个分类索弓 I分别对应的一个或多个候选词。

作为本实施力的优选方案, 才艮据本实施例的词条生成装置还包括第 二网页获取装置 (图未示) 、 第一更新装置 (图未示) 以及第一更新装 置 (图未示) 。

第二网页获取装置根据与所述候选网站对应的 一个或多个分类索 引, 获取所述候选网站中与该一个或多个分类索引 分别对应的一个或 多个候选网页。

其中, 所述第二网页获取装置根据与所述候选网站对 应的一个或多 个分类索引, 获取所述候选网站中与该一个或多个分类索引 分别对应 的一个或多个候选网页的方式包括但不限于以 下任一种:

1 )第二网页获取装置获取该一个或多个分类索 的分类相关网页, 将所获得的分类相关网页与所述候选网站的站 点网页进行比较, 以获 得与所述分类相关网页相似的一个或多个站点 网页, 并将其作为与该 分类相关网页所对应的分类索引的候选网页。

2 )第二网页获取装置根据该一个或多个分类索 的分类特征信息, 由候选网站中获取分别与该一个或多个分类索 引的分类特征信息相似 的一个或多个候选网页。

接着, 第一更新装置基于与各个分类索引对应的、 所述候选网站中 的一个或多个候选网页, 确定或更新与该各个分类索弓 I对应的分类相 关网页。

具体地, 第一更新装置将所确定的候选网页作为与分类 索引对应的 分类相关网页添加至与各个分类索引对应的分 类相关网页库中。

第一更新装置基于所述更新后的与各个分类索 引对应的分类相关网 页, 更新各个分类索引所对应的候选词的词条信息 。

具体地, 第一更新装置对属于个各个分类索引的一个或 多个候选 词, 分别采用更新后的该分类索引的分类相关网页 来更新各个候选 词的词条内容。

其中, 第一更新装置采用更新后的该分类索引的分类 相关网页来 更新各个候选词的词条内容的方式与前述参照 图 5所示实施例中第一 生成装置根据与所述分类索引信息对应的至少 一个分类相关网页, 来 确定与所述候选词对应的词条信息的方式相同 或相似, 此处不再赞 述。 才艮据本实施例的方案, 通过采用候选网站的内容来自动更新词条信 息, 使得词条内容能够尽快得到更新, 并且提高了更新效率。

本发明的软件程序可以通过处理器执行以实现 上文所述步骤或 功能。 同样地, 本发明的软件程序 (包括相关的数据结构)可以被存 储到计算机可读记录介质中, 例如, RAM存储器, 磁或光驱动器或 软磁盘及类似设备。 另外, 本发明的一些步骤或功能可采用硬件来实 现, 例如, 作为与处理器配合从而执行各个功能或步骤的 电路。

另外, 本发明的一部分可被应用为计算机程序产品, 例如计算机 程序指令, 当其被计算机执行时, 通过该计算机的操作, 可以调用或 提供根据本发明的方法和 /或技术方案。而调用本发明的方法的程序指 令,可能被存储在固定的或可移动的记录介质 中,和 /或通过广播或其 他信号承载媒体中的数据流而被传输,和 /或被存储在根据所述程序指 令运行的计算机设备的工作存储器中。 在此, 根据本发明的一个实施 例包括一个装置, 该装置包括用于存储计算机程序指令的存储器 和用 于执行程序指令的处理器, 其中, 当该计算机程序指令被该处理器执 行时, 触发该装置运行基于前述根据本发明的多个实 施例的方法和 / 或技术方案。

对于本领域技术人员而言, 显然本发明不限于上述示范性实施例 的细节, 而且在不背离本发明的精神或基本特征的情况 下, 能够以其 他的具体形式实现本发明。 因此, 无论从哪一点来看, 均应将实施例 看作是示范性的, 而且是非限制性的, 本发明的范围由所附权利要求 而不是上述说明限定, 因此旨在将落在权利要求的等同要件的含义和 范围内的所有变化涵括在本发明内。 不应将权利要求中的任何附图标 记视为限制所涉及的权利要求。 此外, 显然"包括"一词不排除其他单 元或步骤, 单数不排除复数。 系统权利要求中陈述的多个单元或装置 也可以由一个单元或装置通过软件或者硬件来 实现。 第一, 第二等词 语用来表示名称, 而并不表示任何特定的顺序。