Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SEARCH METHOD, SEARCH DEVICE AND STORAGE MEDIUM
Document Type and Number:
WIPO Patent Application WO/2013/120373
Kind Code:
A1
Abstract:
Disclosed are a search method, a search device and a storage medium. The method comprises: obtaining all relevant documents of information to be sought; calculating a relevancy between each relevant document and the information to be sought based on a word matching algorithm and a semantics matching algorithm; performing sequencing processing on all the relevant documents according to the relevancy obtained through calculation, and displaying a sequencing result. Further disclosed is a search device. The present invention comprehensively considers matching between words, and matching of a semantics relationship between words, obtains an accurate relevancy calculation result, provides an ideal search result to a user, and improves satisfaction of the user.

Inventors:
LU YANXIONG (CN)
YANG YUEKUI (CN)
WANG LIANG (CN)
JIAO FENG (CN)
Application Number:
PCT/CN2012/086025
Publication Date:
August 22, 2013
Filing Date:
December 06, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TENCENT TECH SHENZHEN CO LTD (CN)
International Classes:
G06F17/30
Foreign References:
CN1741012A2006-03-01
US20110087701A12011-04-14
Other References:
PABLO CASTELLS ET AL.: "An Adaptation of the Vector-Space Model for Ontology-Based information Retrieval.", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING., vol. 19, no. 2, February 2007 (2007-02-01), pages 261 - 272, XP011152473
Attorney, Agent or Firm:
PSHIP FIRM, LLC (CN)
上海波拓知识产权代理有限公司 (CN)
Download PDF:
Claims:
权 利 要 求 书

1、 一种搜索方法, 其特征在于, 包括:

获取待搜索信息的关联文档;

基于词匹配算法及语义匹配算法, 计算获取到的每一个关联文档与所述 待搜索信息的相关度;

根据计算得到的相关度对获取到的关联文档进行排序, 并显示排序结 果。

2、 如权利要求 1 所述的方法, 其特征在于, 所述基于词匹配算法及语 义匹配算法, 计算获取到的每一个关联文档与所述待搜索信息的相关度, 包 括:

对所述待搜索信息进行向量化处理, 获得 m个向量 ί,., 其中, m和 均 为正整数, J- 1 < < m;

对获取到的每一个关联文档进行向量化处理, 获得每一个关联文档所对 应的 n个向量 , 其中, !!和^'均为正整数, 且 K n;

基于词匹配算法, 计算得到每一个关联文档与所述待搜索信息的关联评 分 ,基于语义匹配算法, 计算得到每一个关联文档与所述待搜索信息的关 联评分 S2 ;

根据公式 S =o xSf (l- ο)χ ,计算得到每一个关联文档与所述待搜索信 息的相关度 S, 其中, β为预设的权重, 且 0 < < 1。

3、 如权利要求 2所述的方法, 其特征在于: 所述词匹配算法的公式为 )

其中, 、 k3、 k、 为常数; 为第 个向量 ί,·在所述待搜索信息 中的词频; ?;为向量 ,.在相应的关联文档中的词频; /为该相应关联文档的 长度, w /为获取到的所有关联文档的平均长度; w为向量 ί的权重。

4、 如权利要求 3所述的方法, 其特征在于, 向量^的权重的计算公式如 下:

, Η - htf. - 0.5

w- = log ■

htft + 0.5 其中, ^为获取到的所有关联文档的个数, 为向量 ,.在所有关联文 档中的词频。

5、 如权利要求 2所述的方法, 其特征在于: 所述语义匹配算法的公式 为:

其中, 、 k3 , k、 为常数; /为相应关联文档的长度, w /为获取 到的所有关联文档的平均长度; miiJi, )为向量 ί,.与向量 的互信息。

6、 如权利要求 5所述的方法, 其特征在于, 向量 ί,.与向量 的互信息 的计算公式如下:

其中, 在网络中, 向量^与向量 同时出现在同一篇文档中的次数; ( 、 c(t. )

c( ' C( 表示在网给中, 向量 ^出现的次数; c(d . )

P(d 二∑ c(d ) , ^^^表示在网给中, 向量 出现的次数。

7、 如权利要求 1-6任一项所述的方法, 其特征在于, 所述根据计算得到 的相关度对获取到的关联文档进行排序, 并显示排序结果, 包括:

根据每一个关联文档与所述待搜索信息的相关度, 按照相关度从高至低 的顺序对所有关联文档进行排序;

显示排序后的所有关联文档。

8、 一种搜索装置, 其特征在于, 包括:

搜索模块, 用于获取待搜索信息的关联文档;

计算模块, 用于基于词匹配算法及语义匹配算法, 计算所述搜索模块获 得的每一个关联文档与所述待搜索信息的相关度;

排序模块, 用于根据所述计算模块计算得到的相关度对所述搜索模块获 得的关联文档进行排序;

显示模块, 用于显示所述排序模块获得的排序结果。

9、 如权利要求 8所述的装置, 其特征在于, 所述计算模块包括: 第一向量化处理单元, 用于对所述待搜索信息进行向量化处理, 获得 m 个向量 ,·, 其中, m和 均为正整数, J- 1 < < m;

第二向量化处理单元, 用于对所述搜索模块获得的每一个关联文档进行 向量化处理, 获得每一个关联文档所对应的 n个向量 , 其中, 11和_ /均为 正整数, 且 1 _/ n;

词匹配计算单元, 用于基于词匹配算法, 计算得到所述第二向量化处理 单元处理后的关联文档与所述待搜索信息的关联评分 ;

语义匹配计算单元, 用于基于语义匹配算法, 计算得到所述第二向量化 处理单元处理后的关联文档与所述待搜索信息的关联评分 S2

相关度计算单元, 用于根据公式 5 = 0 X^ (1- o)x , 计算得到所述关联 文档与所述待搜索信息的相关度 S, 其中, 为预设的权重, 且 0 < < 1 (

10、如权利要求 9所述的装置, 其特征在于, 所述词匹配算法的公式为 )

所述语义匹配算法的公式为:

其中, 、 k、 为常数; 为第 个向量 ί,.在所述待搜索信息 中的词频; ?;为向量 ^在相应的关联文档中的词频; /为该相应关联文档的 长度, w /为所述搜索模块获得的所有关联文档的平均长度; w为向量 ί,.的 权重; mifjp d )为向量 tt与向量 d、的互信息 ,

11、 如权利要求 8-10任一项所述的装置, 其特征在于,

所述排序模块根据每个关联文档与所述待搜索信息的相关度, 按照相关 度从高至低的顺序对所述搜索模块获得的所有关联文档进行排序;

所述显示模块显示所述排序模块排序后的所有关联文档。

12、 一个或多个包含计算机可执行指令的存储介质, 所述计算机可执行 指令用于执行一种搜索方法, 其特征在于, 所述方法包括以下步骤:

获取待搜索信息的关联文档;

基于词匹配算法及语义匹配算法, 计算获取到的每一个关联文档与所述 待搜索信息的相关度;

根据计算得到的相关度对获取到的关联文档进行排序, 并显示排序结

Description:
搜索方法、 装置及存储介质

技术领域

本发明涉及计算机网络搜索技术领域, 尤其涉及一种搜索方法、 装置及 存储介质。

背景技术

目前, 传统的搜索方案主要为: 根据用户输入待搜索信息在网络中查找 所有的关联文档, 依据一定的算法规则计算每个关联文档与待搜 索信息的关 联程度, 基于关联程度的高低对所有关联文档进行排序 处理, 将排序结果作 为搜索结果返回给用户。 上述可知, 关联程度的高低直接影响关联文档的排 序结果, 直接影响用户的搜索结果, 而关联程度的高低一般采用相关度评分 直观反映。

传统的搜索方案中, 通常采用词匹配算法进行相关度计算, 例如采用 BM25 ( Best Match, 最佳匹配)算法、 proximity (Term proximity scoring , 词 近邻得分)算法等等进行相关度评分, 相关度评分越高, 表明关联程度越强。 以基于 ΒΜ25算法的搜索方案进行说明, 如下: 假设用户输入的待搜索信息 为 "中国的首都" , 根据 ΒΜ25算法的相关度评分原则, 关联文档中必须出 现 "中国" 、 "首都" , 才能够获得相应的相关度评分, 否则该关联文档的 相关度评分则为 0;例如:其中一个关联文档为: "北京,它是一座有着 3000 多年的建城史, 850多年的建者史的历史文化名城; 是全国政治、 文化中心, 也是全国最大的陆空产通枢纽" , 根据上述传统的搜索方案, 该关联文档的 相关度评分为 0, 表明与待搜索信息不相关, 然而, 从语义关系来看, 该关 联文档与待搜索信息的相关性实际上是十分好 的。 经过排序处理后, 该关联 文档可能排列于较后的搜索结果页面中,不利 于用户的查看。上述例子可知, 传统的搜索方案仅仅基于词进行相关度的匹配 , 并未考虑词与词之间的语义 关系, 可能造成相关度计算结果的不准确, 影响搜索结果的排列顺序, 降低 用户对搜索结果的满意度, 降低用户的搜索体验。 发明内容

本发明实施例所要解决的技术问题在于, 提供一种搜索方法、 装置及存 储介质, 能够获得更准确的搜索结果。

一方面, 本发明实施例提供了一种搜索方法, 包括:

获取待搜索信息的关联文档;

基于词匹配算法及语义匹配算法, 计算获取到的每一个关联文档与所述 待搜索信息的相关度;

根据计算得到的相关度对获取到的关联文档进 行排序, 并显示排序结 果。

另一方面, 本发明实施例还提供了一种搜索装置, 包括:

搜索模块, 用于获取待搜索信息的关联文档;

计算模块, 用于基于词匹配算法及语义匹配算法, 计算所述搜索模块获 得的每一个关联文档与所述待搜索信息的相关 度;

排序模块, 用于根据所述计算模块计算得到的相关度对所 述搜索模块获 得的所有关联文档进行排序处理;

显示模块, 用于显示所述排序模块获得的排序结果。

另一方面, 本发明实施例还提供了一种包含计算机可执行 指令的存储介 质,所述计算机可执行指令用于执行一种搜索 方法,所述方法包括以下步骤: 获取待搜索信息的关联文档;

基于词匹配算法及语义匹配算法, 计算获取到的每一个关联文档与所述 待搜索信息的相关度;

根据计算得到的相关度对获取到的关联文档进 行排序, 并显示排序结 果。

实施本发明实施例, 具有如下有益效果:

本发明实施例结合词匹配算法及语义匹配算法 , 综合考虑词与词的匹 配, 以及词与词之间的语义关系的匹配, 获得每一个关联文档与待搜索信息 之间较为准确的相关度, 基于该相关度进行排序并显示排序结果, 可以为用 户提供理想的搜索结果, 使得用户可以从显示的搜索结果中快速获得相 关度 较高的关联文档, 满足自己实际的搜索需求, 提高了搜索效率, 从而提高了 用户的满意度。 附图概述

为了更清楚地说明本发明实施例或现有技术中 的技术方案, 下面将对实 施例或现有技术描述中所需要使用的附图作筒 单地介绍, 显而易见地, 下面 描述中的附图仅仅是本发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下, 还可以根据这些附图获得其他的附图。

图 1为本发明提供的搜索方法的一个实施例的流 图;

图 2为图 1所示步骤 S102的具体流程图;

图 3为本发明提供的 IDF表的示意图;

图 4为本发明提供的 Ml表的示意图;

图 5为图 1所示步骤 S103的具体流程图;

图 6为本发明提供的搜索装置的一个实施例的结 示意图;

图 7为图 6所示的计算模块的实施例的结构示意图。 本发明的较佳实施方式

下面将结合本发明实施例中的附图, 对本发明实施例中的技术方案进行 清楚、 完整地描述, 显然, 所描述的实施例仅仅是本发明一部分实施例, 而 不是全部的实施例。 基于本发明中的实施例, 本领域普通技术人员在没有作 出创造性劳动前提下所获得的所有其他实施例 , 都属于本发明保护的范围。

本发明实施例提供的方案中, 搜索装置可以基于词匹配以及词与词之间 的语义匹配算法, 计算待搜索信息的所有关联文档的相关度, 并根据该相关 度进行排序和显示, 使得用户可以从显示的搜索结果中快速获得相 关度较高 的关联文档, 满足自己的搜索需求, 提高搜索效率。

其中,所述待搜索信息可以为用户输入的搜索 关键词句,其可以用 query

(查询)表示。 所述关联文档可以为: 基于用户输入的搜索关键词句, 利用 现有的网络搜索技术获得的搜索结果中包含的 文档, 其可以用 document (文 档)表示。 所述词匹配算法是指搜索过程基于词进行匹配 , 其可以为: BM25算法、 proximity等算法,除特别说明外,本发明实施例 以 BM25算法为例进行说明。 所述语义匹配算法是指搜索过程基于词与词之 间的语义关系进行匹配, 也 即, 搜索过程基于词与词之间的互信息进行匹配。 所谓 MI ( Mutual Information, 互信息) , 是对两个随机变量的关联程度的描述, 在文本处理 中, Ml用来衡量两个词的相关度, 两个词的 Ml越大, 表示该两个词的关联 程度越强。 下面将结合附图 1-附图 5 , 对本发明实施例提供的搜索方法进行详细介 绍。

请参见图 1 , 为本发明提供的搜索方法的一个实施例的流程 图; 该方法 包括:

S101 , 获取待搜索信息的关联文档。 本步骤可以参照现有技术, 在此不 赘述。

S102, 基于词匹配算法及语义匹配算法, 计算获取到的每一个关联文档 与所述待搜索信息的相关度。

本步骤中, 每一个关联文档与待搜索信息的相关度的评分 可以由两部分 组成, 一部分是基于词匹配算法获得的关联评分, 另一部分是基于语义匹配 算法获得的关联评分。 实际应用中, 可以根据具体情况, 预先设置两部分关 联评分的权重, 使得加权后的两部分关联评分所组成的相关度 评分更能准确 体现关联文档与待搜索信息的关联程度。

S103 , 根据计算得到的相关度对获取到的关联文档进 行排序处理, 并显 示排序结果。

本步骤中, 可以按照每个关联文档与待搜索信息的相关度 评分由高至低 的顺序, 对搜索得到的所有关联文档进行排序和显示, 使得显示在前的始终 为与待搜索信息较相关的关联文档, 从而使得用户可以从显示的搜索结果中 快速获得相关度较高的关联文档, 满足自己的搜索需求, 提高搜索效率。 可 以理解的是, 本步骤也可以采用其他顺序进行排序处理, 例如按照相关度评 分由低至高的顺序, 或者设置一部分按照相关度评分由低至高的顺 序, 一部 分按照相关度评分由高至低的顺序, 等等。

请参见图 2, 为图 1所示步骤 S102的具体流程图; 该步骤 S102包括:

5211 , 对所述待搜索信息进行向量化处理, 获得 m个向量 ί,·。

本步骤中, 对待搜索信息进行向量化处理, 即是利用分词技术, 对待搜 索信息进行分词处理,将待搜索信息分割成 m个词组成,可以表示为 ^至 , 其中, m和 均为正整数, 且 l m。

5212, 对获取到的每一个关联文档进行向量化处理, 获得每一个关联文 档所对应的 n个向量 。

本步骤中, 对获取到的所有关联文档中的每一个文档进行 向量化处理, 即是利用分词技术, 对每一个关联文档进行分词处理, 将该关联文档分割成 n个词组成, 可以表示为 ^至^ , 其中, n和 _/均为正整数, 且 1 _/ n。

需要说明的是, 步骤 S211与步骤 S212在时序上不分先后, 例如也可以 先执行步骤 S212, 再执行步骤 S211。 步骤 S211-步骤 S212中的向量化处理 过程可以参照现有技术, 在此不赘述。

5213, 基于词匹配算法, 计算得到每一个关联文档与所述待搜索信息的 关联评分 。

本步骤中, 词匹配算法的公式可以为: )

avdl )

其中, 参数 、 、 k、 为调节因子, 可以起到平滑数据的作用; 具 体实现中, 参数 、 、 k、 为常数, 其具体取值可以根据实际情况或经 验值由用户进行设定;

qtfi为第 个向量 ί,.在所述待搜索信息中的词频, 即向量 t t 在所述待搜 索信息中出现的次数;

tfi为向量 ,.在所述关联文档中的词频,即向量 ί,.在相应的关联文档中出 现的次数;

/为所述关联文档的长度,根据步骤 S212中的向量化处理结果, /的值 为 n;

avdl为所有关联文档的平均长度;

为向量^的权重, 一般为 IDF ( Inverse document frequency, 逆文 档频率)值, 其可以通过以下公式计算得到, 该计算公式如下:

1 htf ^ + 0.5 其中, ^为所有关联文档的个数, 为向量 ί,.在获取到的所有关联文 档中的词频。

本发明实施例中, 在搜索过程执行之前, 可以将网络中各个向量(词) 的权重(IDF值)预先计算出来并进行存储, 例如可以采用表的形式存储各 向量的权重。 请一并参见图 3 , 为本发明提供的 IDF表的示意图, 图 3所示 例子中的 IDF表中存储了各向量的权重,可以理解的是, 图 3所示例子的 IDF 表以及表中各项均为举例。

步骤 S213中, 可直接从预设的 IDF表中读取到待搜索信息中的各向量 的权重, 并根据步骤 S211和步骤 S212所得到的数据, 计算获得词匹配算法 所需的各参数, 代入上述词匹配算法的计算公式中计算, 得到所述关联文档 与所述待搜索信息的关联评分 。

S214, 基于语义匹配算法, 计算得到每一个关联文档与所述待搜索信息 的关联评分 。

本步骤中, 所述语义匹配算法的公式可以为:

其中, 参数 、 、 k、 为调节因子, 可以起到平滑数据的作用; 具 体实现中, 参数 、 、 k、 为常数, 其具体取值可以根据实际情况或经 验值由用户进行设定;

/为相应关联文档的长度,根据步骤 S212中的向量化处理结果, /的值 为 n; avdl为获取到的所有关联文档的平均长度;

服 为向量 ί,.与向量 的互信息,实际应用中,向量 ί,.与向量 的 互信息的计算公式可以为: miit^ d■) = log

其中, p(t i , d j ) = ^ c(t d ) , 表示在网络中, 向量 ί与向量 同时出现在同一篇文档中的次数; , 、 c(t- )

∑ cit ) ' c( ¾)表示在网络中, 向量 ^出现的次数;

^ ), 表示在网给中, 向量 出现的次数。 本发明实施例中, 在搜索过程执行之前, 可以将网络中各个向量(词) 与各个向量之间的互信息预先计算出来并进行 存储, 例如可以采用表的形式 存储各向量之间的互信息。 请一并参见图 4, 为本发明提供的 Ml表的示意 图; 图 4所示例子中的 Ml表中存储了各向量之间的互信息, 可以理解的是, 图 4所示例子的 Ml表以及表中各项均为举例。

步骤 S214中,可直接从预设的 Ml表中读取到所述待搜索信息中的各向 量与所述关联文档的各向量的互信息, 并根据步骤 S211和步骤 S212所得到 的数据, 计算获得语义匹配算法所需的各参数, 代入上述语义匹配算法的计 算公式中计算, 得到所述关联文档与所述待搜索信息的关联评 分 S 2

需要说明的是, 步骤 S213与步骤 S214在时序上不分先后, 例如也可以 先执行步骤 S214, 再执行步骤 S213。

S215 ,根据公式 = β Χ^ (1- Q)xS 2 ,计算得到每一个关联文档与所述待 搜索信息的相关度 S。

其中, 为预设的权重, 且 0 < < 1。 实际应用中, 可以根据具体情 况设置 的值, 使得加权后的 和 s 2 所组成的相关度评分 S更能准确体现 该关联文档与待搜索信息的关联程度。 需要说明的是, S的值越大, 表明该 关联文档与所述待搜索信息的关联程度越强。 请参见图 5 , 为图 1所示步骤 S103的具体流程图; 该步骤 S103包括: S311 , 根据每一个关联文档与所述待搜索信息的相关 度, 按照相关度从 高至低的顺序对所有关联文档进行排序。

S312, 显示排序后的所有关联文档。

经步骤 S311排序处理之后, 各关联文档按照相关度由高至低的顺序进 行排列, 步骤 S312则显示按照相关度由高至低的顺序排列的 联文档, 使 得用户可以从显示的搜索结果中快速获得相关 度较高的关联文档, 满足自己 的搜索需求, 提高搜索效率。

下面将结合一个具体示例, 详细阐述上述图 1-图 5所示例子中的搜索方 法。

假设用户想要查询关于 XX牌手机的一些资讯介绍, 可以在搜索引擎中 输入的待搜索信息为: "XX牌手机性价比" ; 经步骤 S101搜索后, 总共获 得三个关联文档, 包括:

关联文档 1 : XX牌的手机性价比都很不错的,而且 XX牌手机很耐用的; 关联文档 2: 我是 XX牌手机的忠实玩友, 喜欢玩 XX牌手机, 刷机呀, 下载程序呀, 游戏呀各方面, 觉得 XX牌手机的各种软件都比较多比较全, 所以一直玩到现在;

关联文档 3: 符合你要求的机型非常多, 给你几个参考: 1、 直板商务新 机 A, 2.4寸全键盘, 金属机身, 500万像素, 带 WIFI, 全面支持导航系统; 2、 全触摸娱乐街机 B , 3.2的 1600万色屏, 支持 WIFI, 320万像素, 支持 导航系统且带车载架; 3、 传统直板机 C, 功能同 B , 但更薄、 轻, 2.2寸屏, 500万像素。

步骤 S211对待搜索信息进行向量化处理, 得到获得 m个向量 ,. , 具体 如下: 牌\手机\性价比。 其中, m=3 , ^为 "XX牌" , ί 2 为 "手机" , t 3 为 "性价比" 。

步骤 S212对任一个关联文档进行向量化处理, 以关联文档 1为例, 经 步骤 S212的向量化处理后, 获得 n个向量 , 具体如下: XX牌 \的\手机 \ 性价比 \都\很\不错 \的\, \而且 \XX牌 \手机\很\耐用 \的。其中, n=15 , ^为 "XX 牌" , < 2 为 "的" , 4为 "手机" , 为 "性价比" , 为 "都" , 为 "艮" , ά Ί 为 "不错" , <¾为 "的" , < 9 为 ", " , 4。为 "而且" , d 为 "XX牌" , d 12 为 "手机" , d 13 为 艮" , d 14 为 "耐用" , d l5 为 "的" 。

步骤 S213中,可分别统计出向量 ,.在所述待搜索信息中的词频 分别 为: ^为 1 , ί 2 为 1 , 3 为 1。 向量 ,.在所述关联文档中的词频?;分别为: ^ 为 2 , ί 2 为 2, ί 3 为 1。 /为关联文档 1的长度 15。 flw//为三个关联文档的 平均长度。 可以从图 3所示的预设的 IDF表中读取待搜索信息中的各向量的 权重分别为: ^为 8.435292, w 2 为 5.256969, w 3 为 8.952069。 基于词匹配 算法的计算公式, 计算得到所述关联文档与所述待搜索信息的关 联评分 。

步骤 S214中,可以从图 4所示的预设的 Ml表中读取到所述待搜索信息 中的各向量与所述关联文档的各向量的互信息 。 基于语义匹配算法的计算公 式, 计算得到所述关联文档与所述待搜索信息的关 联评分 。

步骤 S215中, 可以根据实际需要设定 为, 例如 为 0.4, 从而利用 β 对 和 加权求和, 计算得到关联文档 1与所述待搜索信息的相关度 S为 1.759。

重复上述步骤 S211-步骤 S215 , 分别获得关联文档 2与所述待搜索信息 的相关度 S为 4.509; 关联文档 3与所述待搜索信息的相关度 S为 10.403。

步骤 S311按照相关度由高至低的顺序对关联文档 1-3进行排序,形成"关 联文档 3-关联文档 2-关联文档 的排列。 步骤 S312向用户显示步骤 S311 所获得的排列。

经过上述各步骤的处理, 用户可以从显示的搜索结果中最首位获得最相 关的关联文档 3 , 无需再进行查找即可满足自己的实际的搜索需 求, 提高了 搜索效率。

本发明实施例结合词匹配算法及语义匹配算法 , 综合考虑词与词的匹 配, 以及词与词之间的语义关系的匹配, 获得每一个关联文档与待搜索信息 之间较为准确的相关度, 基于该相关度进行排序并显示排序结果, 可以为用 户提供理想的搜索结果, 使得用户可以从显示的搜索结果中快速获得相 关度 较高的关联文档, 满足自己实际的搜索需求, 提高了搜索效率, 从而提高了 用户的满意度。 对应于上述附图 1-附图 5任一实施例所述的搜索方法, 下面将结合附图 6-附图 7, 对本发明实施例提供的搜索装置进行详细介绍 , 下述实施例的装 置可以应用于上述方法实施例中。

请参见图 6, 为本发明提供的搜索装置的一个实施例的结构 示意图; 该 装置包括:

搜索模块 101 , 用于获取待搜索信息的关联文档。 搜索模块 101的具体 搜索过程可以参照现有技术, 在此不赘述。

计算模块 102, 用于基于词匹配算法及语义匹配算法, 计算所述搜索模 块 101获得的每一个关联文档与所述待搜索信息的 相关度。

本实施例中, 每一个关联文档与待搜索信息的相关度的评分 可以由两部 分组成, 一部分是基于词匹配算法获得的关联评分, 另一部分是基于语义匹 配算法获得的关联评分。 实际应用中, 可以根据具体情况, 预先设置两部分 关联评分的权重, 使得加权后的两部分关联评分所组成的相关度 评分更能准 确体现关联文档与待搜索信息的关联程度。

排序模块 103, 用于根据所述计算模块 102计算得到的相关度对所述搜 索模块获得的关联文档进行排序。

排序模块 103可以按照计算模块 102计算获得的每个关联文档与待搜索 信息的相关度评分由高至低的顺序, 对搜索得到的所有关联文档进行排序, 也可以采用其他顺序进行排序处理, 例如按照相关度评分由低至高的顺序, 或者设置一部分按照相关度评分由低至高的顺 序, 一部分按照相关度评分由 高至低的顺序, 等等。

显示模块 104, 用于显示所述排序模块 103获得的排序结果。

显示模块 104按照排序模块 103获得的排序结果进行显示, 使得显示在 前的始终为与待搜索信息较相关的关联文档, 从而使得用户可以从显示的搜 索结果中快速获得相关度较高的关联文档, 满足自己的搜索需求, 提高搜索 效率。 请参见图 7, 为图 6所示的计算模块的实施例的结构示意图, 该计算模 块 102包括:

第一向量化处理单元 211 , 用于对所述待搜索信息进行向量化处理, 获 得 m个向量 ί,·。

第一向量化处理单元 211对待搜索信息进行向量化处理, 即是利用分词 技术, 对待搜索信息进行分词处理, 将待搜索信息分割成 m个词组成, 可以 表示为 至 , 其中, m和 均为正整数, 且 l m。 第一向量化处理单 元 211的具体处理过程可以参照现有技术, 在此不赘述。

第二向量化处理单元 212, 用于对所述搜索模块获得的每一个关联文档 进行向量化处理, 获得每一个关联文档所对应的 n个向量 。

第二向量化处理单元 212对关联文档进行向量化处理, 即是利用分词技 术, 对关联文档进行分词处理, 将该关联文档分割成 n个词组成, 可以表示 为 4至 , 其中, !!和^'均为正整数, 且 1 第二向量化处理单元

212的具体处理过程可以参照现有技术, 在此不赘述。

词匹配计算单元 213, 用于基于词匹配算法, 计算得到所述第二向量化 处理单元 212处理后的关联文档与所述待搜索信息的关联 评分 。

词匹配计算单元 213可直接从图 3所示例子中的预设的 IDF表中读取到 待搜索信息中的各向量的权重, 并根据第一向量化处理单元 211和第二向量 化处理单元 212所得到的数据, 计算获得词匹配算法所需的各参数, 基于词 匹配算法的计算公式, 计算得到所述关联文档与所述待搜索信息的关 联评分 。

语义匹配计算单元 214, 用于基于语义匹配算法, 计算得到所述第二向 量化处理单元 212处理后的关联文档与所述待搜索信息的关联 评分 S 2

语义匹配计算单元 214可直接从图 4所示例子中的预设的 Ml表中读取 到所述待搜索信息中的各向量与所述关联文档 的各向量的互信息, 并根据第 一向量化处理单元 211和第二向量化处理单元 212所得到的数据, 计算获得 语义匹配算法所需的各参数, 基于语义匹配算法的计算公式, 计算得到所述 关联文档与所述待搜索信息的关联评分 S 2

相关度计算单元 215, 用于根据公式 S = o xS f (l- o)x , 计算得到所述 关联文档与所述待搜索信息的相关度 S,其中, 为预设的权重,且 0 < < 1。

其中, 为预设的权重, 且 0 < < 1。 实际应用中, 可以根据具体情 况设置 的值, 使得加权后的 和 s 2 所组成的相关度评分 S更能准确体现 该关联文档与待搜索信息的关联程度。 需要说明的是, S的值越大, 表明该 关联文档与所述待搜索信息的关联程度越强。

可以理解的是, 第二向量化处理单元 212、 词匹配计算单元 213、 语义 匹配计算单元 214以及相关度计算单元 215可能需要重复工作, 直至获得所 有关联文档与待搜索信息的相关度为止。 之后, 所述排序模块 103可以根据 每个关联文档与所述待搜索信息的相关度, 按照相关度从高至低的顺序对所 述搜索模块获得的所有关联文档进行排序; 所述显示模块 104则显示所述排 序模块 103排序处理后的所有关联文档。

需要说明的是, 本发明实施例所述的搜索装置可以为: 搜索引擎、 浏览 器以及具备搜索功能的终端。

通过上述实施例的描述, 本发明实施例结合词匹配算法及语义匹配算 法, 综合考虑词与词的匹配, 以及词与词之间的语义关系的匹配, 获得每一 个关联文档与待搜索信息之间较为准确的相关 度, 基于该相关度进行排序并 显示排序结果, 可以为用户提供理想的搜索结果, 使得用户可以从显示的搜 索结果中快速获得相关度较高的关联文档, 满足自己实际的搜索需求, 提高 了搜索效率, 从而提高了用户的满意度。

本领域普通技术人员可以理解实现上述实施例 方法中的全部或部分流 程, 是可以通过计算机程序来指令相关的硬件来完 成, 所述的程序可存储于 一计算机可读取存储介质中, 该程序在执行时, 可包括如上述各方法的实施 例的流程。其中,所述的存储介质可为磁碟、 光盘、只读存储记忆体( Read-Only Memory, ROM )或随机存储记忆体 ( Random Access Memory, RAM )等。

以上所揭露的仅为本发明一种较佳实施例而已 , 当然不能以此来限定本 发明之权利范围, 本领域普通技术人员可以理解实现上述实施例 的全部或部 分流程, 并依本发明权利要求所作的等同变化, 仍属于发明所涵盖的范围。