Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
CLUSTER PROCESSING METHOD AND DEVICE FOR QUESTIONS IN AUTOMATIC QUESTION AND ANSWERING SYSTEM
Document Type and Number:
WIPO Patent Application WO/2018/086401
Kind Code:
A1
Abstract:
A cluster processing method and device for questions in an automatic question and answering system. The method comprises: receiving a clustering request inputted by a programmer; obtaining a set of questions to be clustered from a database of unanswered questions on the basis of the clustering request; extracting characteristics from the set of questions to be clustered using a text characteristics extraction algorithm, and outputting a question characteristics set; determining whether the question characteristics set meets a preset splitting condition; if yes, using a partitional clustering algorithm to perform partitional clustering on the question characteristics set, and outputting at least two question characteristics sub-sets; updating the question characteristics sub-sets as a question characteristics set, and determining whether the question characteristics set meets the preset splitting condition; and if not, outputting the question characteristics set as a clustered class cluster. The cluster processing method and device for questions in an automatic question and answering system can implement automatic clustering on a set of questions to be clustered, helping a programmer understand demands of consultation and improving the coverage of programmed correct answers.

Inventors:
WANG, Jianzong (Ping An Building, No.3 Bagua Road Bagualing, Futian Distric, Shenzhen Guangdong 0, 518000, CN)
YUAN, Weiqiang (Ping An Building, No.3 Bagua Road Bagualing, Futian Distric, Shenzhen Guangdong 0, 518000, CN)
HAN, Maokun (Ping An Building, No.3 Bagua Road Bagualing, Futian Distric, Shenzhen Guangdong 0, 518000, CN)
XIAO, Jing (Ping An Building, No.3 Bagua Road Bagualing, Futian Distric, Shenzhen Guangdong 0, 518000, CN)
Application Number:
CN2017/099708
Publication Date:
May 17, 2018
Filing Date:
August 30, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
PING AN TECHNOLOGY(SHENZHEN)CO.,LTD. (Ping An Building, No.3 Bagua Road Bagualing, Futian Distric, Shenzhen Guangdong 0, 518000, CN)
International Classes:
G06F17/30
Foreign References:
CN103699695A2014-04-02
CN104142918A2014-11-12
CN101308496A2008-11-19
CN101599071A2009-12-09
CN103559175A2014-02-05
CN101477563A2009-07-08
EP1870858A22007-12-26
Other References:
None
Attorney, Agent or Firm:
SHENZHEN ZHONGYI PATENT AND TRADEMARK OFFICE (4th Fl. Old Shenzhen Special Zone Newspaper Building, No. 1014 Shennan Middle Road Futian Distric, Shenzhen Guangdong 8, 518028, CN)
Download PDF:
Claims:
权利要求书

[权利要求 1] 一种自动问答系统中的问题聚类处理方法, 其特征在于, 包括: 接收编写人员输入的聚类请求;

基于所述聚类请求从未回复问题数据库中获取待聚类问题集, 所述待 聚类问题集包括至少一个待聚类问题;

采用文本特征提取算法对所述待聚类问题集进行特征提取, 输出问题 特征集, 所述问题特征集包括至少一个问题特征; 判断所述问题特征集是否符合预设分裂条件;

若符合预设分裂条件, 则采用分割聚类算法对所述问题特征集进行分 割聚类, 输出至少两个问题特征子集; 将所述问题特征子集更新为问 题特征集, 并判断所述问题特征集是否符合预设分裂条件; 若不符合预设分裂条件, 则将所述问题特征集作为聚类类簇输出。

[权利要求 2] 根据权利要求 1所述的自动问答系统中的问题聚类处理方法, 其特征 在于, 所述判断所述问题特征集是否符合预设分裂条件, 包括: 判断所述问题特征集能否基于至少两个分裂聚类中心分割成至少两个 问题特征子集, 以使问题特征集中所有点到原始聚类中心的平均距离 大于每一问题特征子集中所有点到所述分裂聚类中心的平均距离; 若 育 , 则符合预设分裂条件; 若否, 则不符合预设分裂条件; 或者, 判断所述问题特征集的问题特征数量是否大于预设分裂数量, 若是, 则符合预设分裂条件; 若否, 则不符合预设分裂条件。

[权利要求 3] 根据权利要求 1所述的自动问答系统中的问题聚类处理方法, 其特征 在于, 所述采用文本特征提取算法对所述待聚类问题集进行特征提取 , 输出问题特征集, 包括;

采用 IT-IDF算法的向量空间模型对所述待聚类问题集进行特征提取, 输出初始特征集;

采用 LSI模型对所述初始特征集进行特征映射, 输出所述问题特征集

[权利要求 4] 根据权利要求 1所述的自动问答系统中的问题聚类处理方法, 其特征 在于, 所述采用文本特征提取算法对所述待聚类问题集进行特征提取 之前, 还包括: 采用文本预处理算法对所述待聚类问题集进行预处理 ; 所述文本预处理算法包括繁简体统一、 大小写统一、 中文分词和停 用词去除中的至少一种。

[权利要求 5] 根据权利要求 1所述的自动问答系统中的问题聚类处理方法, 其特征 在于, 还包括: 对所述聚类类簇进行数据库字段匹配处理, 并将处理 后的聚类类簇存储在聚类问题数据库中。

[权利要求 6] 一种自动问答系统中的问题聚类处理装置, 其特征在于, 包括: 聚类请求接收单元, 用于接收编写人员输入的聚类请求;

聚类问题集获取单元, 用于基于所述聚类请求从未回复问题数据库中 获取待聚类问题集, 所述待聚类问题集包括至少一个待聚类问题; 特征提取单元, 用于采用文本特征提取算法对所述待聚类问题集进行 特征提取, 输出问题特征集, 所述问题特征集包括至少一个问题特征 分裂判断单元, 用于判断所述问题特征集是否符合预设分裂条件; 第一处理单元, 用于在所述问题特征集符合预设分裂条件吋, 采用分 割聚类算法对所述问题特征集进行分割聚类, 输出至少两个问题特征 子集; 将所述问题特征子集更新为问题特征集, 并判断所述问题特征 集是否符合预设分裂条件;

第二处理单元, 用于在所述问题特征集不符合预设分裂条件吋, 将所 述问题特征集作为聚类类簇输出。

[权利要求 7] 根据权利要求 6所述的自动问答系统中的问题聚类处理装置, 其特征 在于, 所述分裂判断单元包括第一判断单元或者第二判断单元; 所述第一判断单元, 用于判断所述问题特征集能否基于至少两个分裂 聚类中心分割成至少两个问题特征子集, 以使问题特征集中所有点到 原始聚类中心的平均距离大于每一问题特征子集中所有点到所述分裂 聚类中心的平均距离; 若能, 则符合预设分裂条件; 若否, 则不符合 预设分裂条件; 所述第二判断单元, 用于判断所述问题特征集的问题特征数量是否大 于预设分裂数量, 若是, 则符合预设分裂条件; 若否, 则不符合预设 分裂条件。

[权利要求 8] 根据权利要求 6所述的自动问答系统中的问题聚类处理装置, 其特征 在于, 所述特征提取单元包括;

特征提取子单元, 用于采用 IT-IDF算法的向量空间模型对所述待聚类 问题集进行特征提取, 输出初始特征集;

特征映射子单元, 用于采用 LSI模型对所述初始特征集进行特征映射 , 输出所述问题特征集。

[权利要求 9] 根据权利要求 6所述的自动问答系统中的问题聚类处理装置, 其特征 在于, 还包括预处理单元, 用于采用文本预处理算法对所述待聚类问 题集进行预处理; 所述文本预处理算法包括繁简体统一、 大小写统一 、 中文分词和停用词去除中的至少一种。

[权利要求 10] 根据权利要求 6所述的自动问答系统中的问题聚类处理装置, 其特征 在于, 还包括匹配处理单元, 用于对所述聚类类簇进行数据库字段匹 配处理, 并将处理后的聚类类簇存储在聚类问题数据库中。

[权利要求 11] 一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程 序, 其特征在于, 所述计算机程序被处理器执行吋实现如下步骤: 接收编写人员输入的聚类请求;

基于所述聚类请求从未回复问题数据库中获取待聚类问题集, 所述待 聚类问题集包括至少一个待聚类问题;

采用文本特征提取算法对所述待聚类问题集进行特征提取, 输出问题 特征集, 所述问题特征集包括至少一个问题特征; 判断所述问题特征集是否符合预设分裂条件;

若符合预设分裂条件, 则采用分割聚类算法对所述问题特征集进行分 割聚类, 输出至少两个问题特征子集; 将所述问题特征子集更新为问 题特征集, 并判断所述问题特征集是否符合预设分裂条件; 若不符合预设分裂条件, 则将所述问题特征集作为聚类类簇输出。 根据权利要求 11所述的计算机可读存储介质, 其特征在于, 所述判断 所述问题特征集是否符合预设分裂条件, 包括:

判断所述问题特征集能否基于至少两个分裂聚类中心分割成至少两个 问题特征子集, 以使问题特征集中所有点到原始聚类中心的平均距离 大于每一问题特征子集中所有点到所述分裂聚类中心的平均距离; 若 能, 则符合预设分裂条件; 若否, 则不符合预设分裂条件; 或者, 判断所述问题特征集的问题特征数量是否大于预设分裂数量, 若是, 则符合预设分裂条件; 若否, 则不符合预设分裂条件。

根据权利要求 11所述的计算机可读存储介质, 其特征在于, 所述采用 文本特征提取算法对所述待聚类问题集进行特征提取, 输出问题特征 集, 包括;

采用 IT-IDF算法的向量空间模型对所述待聚类问题集进行特征提取, 输出初始特征集;

采用 LSI模型对所述初始特征集进行特征映射, 输出所述问题特征集 根据权利要求 11所述的计算机可读存储介质, 其特征在于, 所述采用 文本特征提取算法对所述待聚类问题集进行特征提取之前, 还包括: 采用文本预处理算法对所述待聚类问题集进行预处理; 所述文本预处 理算法包括繁简体统一、 大小写统一、 中文分词和停用词去除中的至 少一种。

根据权利要求 11所述的计算机可读存储介质, 其特征在于, 还包括: 对所述聚类类簇进行数据库字段匹配处理, 并将处理后的聚类类簇存 储在聚类问题数据库中。

一种服务器, 包括存储器、 处理器以及存储在所述存储器中并可在所 述处理器上运行的计算机程序, 其特征在于, 所述处理器执行所述计 算机程序吋实现如下步骤:

接收编写人员输入的聚类请求;

基于所述聚类请求从未回复问题数据库中获取待聚类问题集, 所述待 聚类问题集包括至少一个待聚类问题;

采用文本特征提取算法对所述待聚类问题集进行特征提取, 输出问题 特征集, 所述问题特征集包括至少一个问题特征;

判断所述问题特征集是否符合预设分裂条件;

若符合预设分裂条件, 则采用分割聚类算法对所述问题特征集进行分 割聚类, 输出至少两个问题特征子集; 将所述问题特征子集更新为问 题特征集, 并判断所述问题特征集是否符合预设分裂条件; 若不符合预设分裂条件, 则将所述问题特征集作为聚类类簇输出。 根据权利要求 16所述的服务器, 其特征在于, 所述判断所述问题特征 集是否符合预设分裂条件, 包括:

判断所述问题特征集能否基于至少两个分裂聚类中心分割成至少两个 问题特征子集, 以使问题特征集中所有点到原始聚类中心的平均距离 大于每一问题特征子集中所有点到所述分裂聚类中心的平均距离; 若 能, 则符合预设分裂条件; 若否, 则不符合预设分裂条件; 或者, 判断所述问题特征集的问题特征数量是否大于预设分裂数量, 若是, 则符合预设分裂条件; 若否, 则不符合预设分裂条件。

根据权利要求 16所述的服务器, 其特征在于, 所述采用文本特征提取 算法对所述待聚类问题集进行特征提取, 输出问题特征集, 包括; 采用 IT-IDF算法的向量空间模型对所述待聚类问题集进行特征提取, 输出初始特征集;

采用 LSI模型对所述初始特征集进行特征映射, 输出所述问题特征集 根据权利要求 16所述的服务器, 其特征在于, 所述采用文本特征提取 算法对所述待聚类问题集进行特征提取之前, 还包括: 采用文本预处 理算法对所述待聚类问题集进行预处理; 所述文本预处理算法包括繁 简体统一、 大小写统一、 中文分词和停用词去除中的至少一种。 根据权利要求 16所述的服务器, 其特征在于, 还包括: 对所述聚类类 簇进行数据库字段匹配处理, 并将处理后的聚类类簇存储在聚类问题 数据库中。

Description:
自动问答系统中的问题聚类处理方法及装置 技术领域

[0001] 本发明涉及文本信息处理领域, 尤其涉及一种自动问答系统中的问题聚类处理 方法及装置。

背景技术

[0002] 自动问答系统 (Question and Answering, 简称 QA) 综合运用知识表示、 信息 检索、 自然语言处理等技术, 能够接收用户以自然语言形式输入问题, 即可返 回简洁而准确的答案的系统。 自动问答系统相比于传统的搜索引擎, 具有更方 便、 更准确的优点, 是当前自然语言处理及人工智能领域的研究热 点。

[0003] 在自动问答系统中通常需预先设置常问问题库 (Frequently-Asked Question, 简 称 FAQ) , 常问问题库用于存储至少一个问答对; 每一问答对包括用户经常提 问的问题和答案。 在用户输入问题吋, 自动问答系统判断常问问题库中是否存 在相同的问题; 若存在相同的问题, 则直接将常问问题库中对应的答案返回给 用户, 以利于提高自动问答系统的处理效率和准确率 ; 若不存在相同的问题, 则无法直接返回对应的答案, 需人工回复或进行其他处理, 使得自动问答系统 的处理效率和准确率降低。 由于自动问答系统回复问题的准确性和及吋性 , 使 其在客服或其他人工智能领域有较大的应用。 由于自动问答系统能够及吋准确 地回复答案的前提是常问问题库中存在相应的 问答对, 因此常问问题库中的问 答对越丰富、 覆盖面越广, 则自动问答系统中答案回答的准确率越高、 效率越 好。 综上, 问答对的编写是自动问答系统的核心。

[0004] 现有自动问答系统中, 问答对通常由编写人员编写问题, 再由答复人员对问题 进行解答, 以形成问题与答案相对应的问答对。 编写人员编写问题吋通常基于 自身经验、 知识和记忆等因素进行考虑, 存在局限性, 使得编写人员编写的问 题的覆盖面有限, 不能完整且快速地覆盖到用户关注的问题, 使得常问问题库 中存储的问答对不能很好满足用户需求, 而且编写人员编写问题的过程需耗费 大量人力成本和吋间成本, 效率低。 技术问题

[0005] 本发明要解决的技术问题在于, 针对现有自动问答系统中, 由编写人员编写问 题所存在的问题覆盖面有限的不足, 提供一种自动问答系统中的问题聚类处理 方法及装置, 通过对用户关注的问题进行聚类处理, 提高问题设计的覆盖面, 实现问答对的智能化设计。

问题的解决方案

技术解决方案

[0006] 本发明解决其技术问题所采用的技术方案是: 一种自动问答系统中的问题聚类 处理方法, 包括:

[0007] 接收编写人员输入的聚类请求;

[0008] 基于所述聚类请求从未回复问题数据库中获取 待聚类问题集, 所述待聚类问题 集包括至少一个待聚类问题;

[0009] 采用文本特征提取算法对所述待聚类问题集进 行特征提取, 输出问题特征集, 所述问题特征集包括至少一个问题特征;

[0010] 判断所述问题特征集是否符合预设分裂条件;

[0011] 若符合预设分裂条件, 则采用分割聚类算法对所述问题特征集进行分 割聚类, 输出至少两个问题特征子集; 将所述问题特征子集更新为问题特征集, 并判断 所述问题特征集是否符合预设分裂条件;

[0012] 若不符合预设分裂条件, 则将所述问题特征集作为聚类类簇输出。

[0013] 本发明还提供一种自动问答系统中的问题聚类 处理装置, 包括:

[0014] 聚类请求接收单元, 用于接收编写人员输入的聚类请求;

[0015] 聚类问题集获取单元, 用于基于所述聚类请求从未回复问题数据库中 获取待聚 类问题集, 所述待聚类问题集包括至少一个待聚类问题;

[0016] 特征提取单元, 用于采用文本特征提取算法对所述待聚类问题 集进行特征提取

, 输出问题特征集, 所述问题特征集包括至少一个问题特征;

[0017] 分裂判断单元, 用于判断所述问题特征集是否符合预设分裂条 件;

[0018] 第一处理单元, 用于在所述问题特征集符合预设分裂条件吋, 采用分割聚类算 法对所述问题特征集进行分割聚类, 输出至少两个问题特征子集; 将所述问题 特征子集更新为问题特征集, 并判断所述问题特征集是否符合预设分裂条件 ;

[0019] 第二处理单元, 用于在所述问题特征集不符合预设分裂条件吋 , 将所述问题特 征集作为聚类类簇输出。

[0020] 本发明还提供一种计算机可读存储介质, 所述计算机可读存储介质存储有计算 机程序, 所述计算机程序被处理器执行吋实现如下步骤 :

[0021] 接收编写人员输入的聚类请求;

[0022] 基于所述聚类请求从未回复问题数据库中获取 待聚类问题集, 所述待聚类问题 集包括至少一个待聚类问题;

[0023] 采用文本特征提取算法对所述待聚类问题集进 行特征提取, 输出问题特征集, 所述问题特征集包括至少一个问题特征;

[0024] 判断所述问题特征集是否符合预设分裂条件;

[0025] 若符合预设分裂条件, 则采用分割聚类算法对所述问题特征集进行分 割聚类, 输出至少两个问题特征子集; 将所述问题特征子集更新为问题特征集, 并判断 所述问题特征集是否符合预设分裂条件;

[0026] 若不符合预设分裂条件, 则将所述问题特征集作为聚类类簇输出。

[0027] 本发明还提供一种服务器, 包括存储器、 处理器以及存储在所述存储器中并可 在所述处理器上运行的计算机程序, 所述处理器执行所述计算机程序吋实现如 下步骤:

[0028] 接收编写人员输入的聚类请求;

[0029] 基于所述聚类请求从未回复问题数据库中获取 待聚类问题集, 所述待聚类问题 集包括至少一个待聚类问题;

[0030] 采用文本特征提取算法对所述待聚类问题集进 行特征提取, 输出问题特征集, 所述问题特征集包括至少一个问题特征;

[0031] 判断所述问题特征集是否符合预设分裂条件;

[0032] 若符合预设分裂条件, 则采用分割聚类算法对所述问题特征集进行分 割聚类, 输出至少两个问题特征子集; 将所述问题特征子集更新为问题特征集, 并判断 所述问题特征集是否符合预设分裂条件;

[0033] 若不符合预设分裂条件, 则将所述问题特征集作为聚类类簇输出。 发明的有益效果

有益效果

[0034] 本发明与现有技术相比具有如下优点: 本发明所提供的自动问答系统中的问题 聚类处理方法及装置中, 基于聚类请求从未回复问题数据库中获取待聚 类问题 集, 并对待聚类问题集进行自动聚类, 可帮助编写人员了解问题咨询需求, 提 高编写的问答对的覆盖面, 提升自动问答系统的整体问答性能。 该自动问答系 统的问题聚类处理方法及装置中, 需判断对待聚类问题集进行特征提取后的问 题特征集是否符合预设分裂条件, 并在符合预设分裂条件吋采用分割聚类算法 进行分割聚类, 在不符合预设分裂条件吋自动停止分割聚类, 以满足问题特征 集动态变化的应用场景, 实现层次化聚类处理, 可保证输出的聚类类簇内部的 问题比较相似, 得到较好的聚类效果, 并避免人工调整参数的繁琐操作。

对附图的简要说明

附图说明

[0035] 下面将结合附图及实施例对本发明作进一步说 明, 附图中:

[0036] 图 1是本发明实施例 1中自动问答系统中的问题聚类处理方法的一 程图。

[0037] 图 2是本发明实施例 2中自动问答系统中的问题聚类处理装置的一 理框图。

[0038] 图 3是本发明一实施例提供的服务器的示意图。

[0039] 主要元件符号说明

[]

[] [表 1]

本发明的实施方式

[0040] 为了对本发明的技术特征、 目的和效果有更加清楚的理解, 现对照附图详细说 明本发明的具体实施方式。

[0041] 实施例 1

[0042] 图 1示出本实施例中的自动问答系统中的问题聚 处理方法。 该自动问答系统 包括服务器、 与服务器通信相连的客户终端和后台服务终端 ; 其中, 常问问题 库存储在服务器上。 客户终端, 用于接收客户以自然语文形式或其他形式输入 的问题, 将问题发送给服务器, 并接收和显示服务器反馈的答案。 服务器, 用 于基于客户终端发送的问题, 査询常问问题库是否存在相应的问答对; 若存在 相应的问答对吋, 将答案发送给客户终端; 若不存在相应的问答对吋, 需将问 题发送给后台服务终端, 接收后台服务终端发送的答案, 并将答案发送给客户 终端。 后台服务终端, 不仅用于接收并显示编写人员输入的问题, 还用于接收 并显示服务器发送的问题, 并接收答复人员输入的答案, 并将答案上传到服务 器。 本实施例所提供的自动问答系统的问题聚类处 理方法, 通过对客户上传到 服务器中的问题进行聚类, 以使编写人员更了解客户的咨询需求, 以完善自动 问答系统的常问问题库中的问答对, 提高自动问答系统进行的整体问答性能。 其中, 聚类是指将物理或抽象对象的集合分成由类似 的对象组成的多个类的过 程; 而由类似的对象组成的类为聚类类簇。

[0043] 该自动问答系统中的问题聚类处理方法包括:

[0044] S1 : 接收编写人员输入的聚类请求。 在编写人员输入聚类请求吋, 自动问答系 统可基于聚类请求获取用户的咨询需求, 设置自动问答系统的常问问题库中的 问题。 具体地, 后台服务终端接收编写人员输出的聚类请求, 并将聚类请求发 送给服务器; 其中, 聚类请求为 HTTP请求。

[0045] S2: 基于聚类请求从未回复问题数据库中获取待聚 类问题集, 待聚类问题集包 括至少一个待聚类问题。 具体地, 服务器接收到聚类请求后, 基于聚类请求从 未回复问题数据库中获取未回复问题集作为待 聚类问题集输出, 其中, 待聚类 问题集包括至少一个待聚类问题, 每一待聚类问题为自动问答系统中未回复问 题。 在自动问答系统中, 客户通过客户终端以自然语言形式输入的问题 上传到 服务器后, 若服务器的常问问题库中存在相应的问答对吋 , 会直接将答案反馈 给客户终端; 若服务器的常问问题库中不存在相应的问答对 吋, 无法直接将答 案反馈给客户终端, 给相应问题添加未回复标签, 并将所有携带未回复标签的 问题存储在未回复问题数据库中。

[0046] 本实施例中, 基于聚类请求从未回复问题数据库获取待聚类 问题集, 由于待聚 类问题集中的每一待聚类问题均为客户通过客 户终端上传且系统未自动回复的 未回复问题, 使得基于聚类请求获取的待聚类问题集更能体 现客户所关注的问 题, 在基于待聚类问题集进行问答对编写吋, 可使问答对编写的覆盖面更广。

[0047] 在一具体实施方式中, 该聚类请求可以包括吋间范围字段, 在基于聚类请求从 未回复问题数据库中获取待聚类问题集吋, 只提取聚类请求的吋间范围字段内 所有的未回复问题作为待聚类问题集, 可使提取的待聚类问题集具有吋间性, 可使编写人员通过后台服务终端了解任一吋间 段内客户所关注的问题。 可以理 解地, 若编写人员通过后台服务终端上传的聚类请求 中没有包括吋间范围字段 , 则默认获取未回复问题数据库中所有的未回复 问题作为待聚类问题集。

[0048] S3: 采用文本特征提取算法对待聚类问题集进行特 征提取, 输出问题特征集, 问题特征集包括至少一个问题特征。 具体地, 服务器在从未回复问题数据库中 获取待聚类问题集后, 采用文本特征提取算法对待聚类问题进行特征 提取, 可 将待聚类问题集中以自然语言形式存储的待聚 类问题转化成结构化的计算机可 识别处理的问题特征集, 问题特征集中的每一问题特征均为计算机可识 别的文 本信息。

[0049] 在一具体实施方式中, 步骤 S3具体包括:

[0050] S31 : 采用 IT-IDF算法的向量空间模型对待聚类问题集进行 特征提取, 输出初 台特征集。 IT-IDF (term frequency-inverse document frequency , 艮卩词、汇步率圍逆 向文件频率) 算法是一种用于信息检索与数据挖掘的常用加 权算法。 步骤 S31具 体包括如下步骤: 对待聚类问题集中所有待聚类问题所包含的所 有词汇分别计 算词汇频率 (IT) 和逆向文件频率 (IDF) , 再利用词汇频率 (IT) 和逆向文件 频率 (IDF) 计算 IT-IDF值, 基于 IT-IDF值确定待聚类问题集对应的初始特征集 。 词汇频率 (IT) 是指某一词汇在文章中出现的次数与文章的总 词数的商值。 逆 向文件频率 (IDF) 是指在模拟语言的使用环境的语料库中, 语料库的文档总数 与包含该词汇的文档数的商值的对数。 可以理解地, 为避免分母为 0 (即语料库 中所有文档均不包含该词汇) , 可使分母为包含该词汇的文档数与一常数的和 值。 IT-IDF值为词汇频率 (IT) 和逆向文件频率 (IDF) 的乘积。 可以理解地, 任一词汇的 IT-IDF值越高, 其重要性越高。

[0051] S32: 采用 LSI模型对初始特征集进行特征映射, 输出问题特征集。 由于 IT-IDF 算法的向量空间模型通常用于将文档或句子表 示成一个高维的稀疏向量, 在长 度很多的问题文本中, 仅采用 IT-IDF算法对待聚类问题集进行特征提取, 输出的 初始特征集不能很好表达出问题的特征, 因此需采用 LSI模型对初始特征集进行 特征映射, 以输出最终的问题特征集。 其中, LSI (Latent Semantic Index , 潜在 语义索引) 模型是指两个或两个以上词汇大量出现在一个 文档中, 则认为两个 或两个以上词汇为语义相关的, 通过 LSI模型进行统计, 以将相关词汇构成一个 潜在的主题, 以实现对词汇聚类, 从而达到降維目的。

[0052] 在一具体实施方式中, 步骤 S3之前还包括: 采用文本预处理算法对待聚类问题 集进行预处理。 文本预处理算法包括繁简体统一、 大小写统一、 中文分词和停 用词去除中的至少一种。 中文分词 (Chinese Word Segmentation)指的是将一个汉 字序列切分成一个一个单独的词。 停用词 (Stop Words) 是指在处理自然语言数 据吋会自动过滤掉的某些字或词, 如英文字符、 数字、 数字字符、 标识符号及 使用频率特高的单汉字等。 采用文本预处理算法对待聚类问题进行预处理 , 有 利于节省存储空间和提高处理效率。 本实施例中, 采用文本预处理算法对待聚 类问题集进行预处理的好坏将直接影响后续采 用文本特征提取算法对待聚类问 题集进行特征提取的效果。

[0053] S4: 判断问题特征集是否符合预设分裂条件。 具体地, 服务器在采用文本特征 提取算法对待聚类问题进行特征提取并输出问 题特征集后, 需判断问题特征集 是否符合预设分裂条件以确定问题特征集能否 分裂成若干问题特征子集。

[0054] 在一具体实施方式中, 步骤 S4具体包括: 判断问题特征集能否基于至少两个分 裂聚类中心分割成至少两个问题特征子集, 以使问题特征集中所有点到原始聚 类中心的平均距离大于每一问题特征子集中所 有点到分裂聚类中心的平均距离 ; 若能, 则符合预设分裂条件; 若否, 则不符合预设分裂条件。 其中, 原始聚 类中心为问题特征集的聚类中心。

[0055] 在另一具体实施方式中, 步骤 S4具体包括: 判断问题特征集的问题特征数量是 否大于预设分裂数量, 若是, 则符合预设分裂条件; 若否, 则不符合预设分裂 条件。 该具体实施方式所采用的策略是判断一问题特 征集中的问题特征数量大 于预设分裂数量吋, 只有在问题特征集中的问题特征数量大于预设 分裂数量吋 才可继续分裂。 本实施例中, 预设分裂数量可以为未回复问题数据库中所有 问 题数量的平方根。

[0056] S5: 若符合预设分裂条件, 则采用分割聚类算法对问题特征集进行分割聚 类, 输出至少两个问题特征子集; 将问题特征子集更新为问题特征集, 并判断问题 特征集是否符合预设分裂条件。 服务器在判断问题特征集符合预设分裂条件吋 , 采用 K-means算法、 K-medoids算法和 CLARANS算法等分割聚类算法对问题特 征集进行分割聚类, 以将问题特征集分割成至少两个问题特征子集 , 并将任一 问题特征子集更新为问题特征集, 重复步骤 S4。

[0057] 在本实施例所提供的自动问答系统中的问题聚 类处理方法中, 问题特征集中的 问题特征为短文本, 采用 K-means算法对问题特征集进行分割聚类吋, 使 K的值 为 2, 每次将问题特征集划分成 2个问题特征子集, 并将每一问题特征子集更新 为问题特征集后, 重复执行步骤 S4。 在 K-means算法中, K的值通常需事先指定 , 在运行过程中不能动态调整, 而基于聚类请求获取的待聚类问题集动态变化 , 其对应的问题特征集也是动态变化的, 事先指定的 K值不能适应动态变化的问 题特征集; 因此, 在该具体实施方式中, 需先判断问题特征集是否符合预设分 裂条件, 只有在符合预设分裂条件吋, 才采用 K-maens算法进行分割聚类, 以使 其满足问题特征集动态变化的要求。

[0058] S6: 若不符合预设分裂条件, 则将问题特征集作为聚类类簇输出。 服务器在判 断问题集不符合预设分裂条件吋, 将问题特征集作为聚类类簇输出给后台服务 终端。 其中, 聚类类簇为最小单位的问题。 在将聚类类簇发送给后台服务终端 后, 后台服务终端接收并显示聚类类簇, 使得编写人员可基于聚类类簇更清楚 地了解客户的咨询需求, 设计新的问答对, 并将问答对存储在常问问题库中。

[0059] S7: 对聚类类簇进行数据库字段匹配处理, 并将处理后的聚类类簇存储在聚类 问题数据库中。 在采用文本预处理算法对待聚类问题集进行预 处理和文本特征 提取算法对待聚类问题集进行特征提取后, 输出的聚类类簇与从未回复问题数 据库中获取的待聚类问题的文本形式不相同, 需将聚类类簇与待聚类问题进行 关联, 并对聚类类簇进行数据库字段匹配处理, 以将聚类类簇处理成与聚类问 题数据库中字段一致的形式, 以使将聚类类簇存储在聚类问题数据库吋更加 方 便快捷。

[0060] 本实施例所提供的自动问答系统中的问题聚类 处理方法中, 通过基于聚类请求 从未回复问题数据库中获取待聚类问题集, 并对待聚类问题集进行自动聚类, 可帮助编写人员了解问题咨询需求, 提高编写的问答对的覆盖面, 提升整体问 答性能。 该自动问答系统的问题聚类处理方法中, 需判断对待聚类问题集进行 特征提取后的问题特征集是否符合预设分裂条 件, 并在符合预设分裂条件吋采 用分割聚类算法进行分割聚类, 在不符合预设分裂条件吋自动停止分割聚类, 以满足问题特征集动态变化的应用场景, 实现层次化聚类处理, 可保证输出的 聚类类簇内部的问题比较相似, 得到较好的聚类效果, 并避免人工调整参数的 繁琐操作。

[0061] 实施例 2

[0062] 图 2示出本实施例中的自动问答系统中的问题聚 处理装置。 该自动问答系统 包括服务器、 与服务器通信相连的客户终端和后台服务终端 ; 其中, 常问问题 库存储在服务器上。 客户终端, 用于接收客户以自然语文形式或其他形式输入 的问题, 将问题发送给服务器, 并接收和显示服务器反馈的答案。 服务器, 用 于基于客户终端发送的问题, 査询常问问题库是否存在相应的问答对; 若存在 相应的问答对吋, 将答案发送给客户终端; 若不存在相应的问答对吋, 需将问 题发送给后台服务终端, 接收后台服务终端发送的答案, 并将答案发送给客户 终端。 后台服务终端, 不仅用于接收并显示编写人员输入的问题, 还用于接收 并显示服务器发送的问题, 并接收答复人员输入的答案, 并将答案上传到服务 器。 本实施例所提供的自动问答系统的问题聚类处 理装置, 通过对客户上传到 服务器中的问题进行聚类, 以使编写人员更了解客户的咨询需求, 以完善自动 问答系统的常问问题库中的问答对, 提高自动问答系统进行的整体问答性能。 其中, 聚类是指将物理或抽象对象的集合分成由类似 的对象组成的多个类的过 程; 而由类似的对象组成的类为聚类类簇。 该自动问答系统中的问题聚类处理 装置包括聚类请求接收单元 10、 聚类问题集获取单元 20、 特征提取单元 30、 分 裂判断单元 40、 第一处理单元 50、 第二处理单元 60、 预处理单元 70和匹配处理 单元 80。

[0063] 聚类请求接收单元 10, 用于接收编写人员输入的聚类请求。 在编写人员输入聚 类请求吋, 自动问答系统可便于基于聚类请求获取用户的 咨询需求, 设置自动 问答系统的常问问题库中的问题。 具体地, 后台服务终端接收编写人员输出的 聚类请求, 并将聚类请求发送给服务器; 其中, 聚类请求为 HTTP请求。

[0064] 聚类问题集获取单元 20, 用于基于聚类请求从未回复问题数据库中获取 待聚类 问题集, 待聚类问题集包括至少一个待聚类问题。 具体地, 服务器接收到聚类 请求后, 基于聚类请求从未回复问题数据库中获取未回 复问题集作为待聚类问 题集输出, 其中, 待聚类问题集包括至少一个待聚类问题, 每一待聚类问题为 自动问答系统中未回复问题。 在自动问答系统中, 客户通过客户终端以自然语 言形式输入的问题上传到服务器后, 若服务器的常问问题库中存在相应的问答 对吋, 会直接将答案反馈给客户终端; 若服务器的常问问题库中不存在相应的 问答对吋, 无法直接将答案反馈给客户终端, 给相应问题添加未回复标签, 并 将所有携带未回复标签的问题存储在未回复问 题数据库中。

[0065] 本实施例中, 基于聚类请求从未回复问题数据库获取待聚类 问题集, 由于待聚 类问题集中的每一待聚类问题均为客户通过客 户终端上传且系统未自动回复的 未回复问题, 使得基于聚类请求获取的待聚类问题集更能体 现客户所关注的问 题, 在基于待聚类问题集进行问答对编写吋, 可使问答对编写的覆盖面更广。

[0066] 在一具体实施方式中, 该聚类请求可以包括吋间范围字段, 在基于聚类请求从 未回复问题数据库中获取待聚类问题集吋, 只提取聚类请求的吋间范围字段内 所有的未回复问题作为待聚类问题集, 可使提取的待聚类问题集具有吋间性, 可使编写人员通过后台服务终端了解任一吋间 段内客户所关注的问题。 可以理 解地, 若编写人员通过后台服务终端上传的聚类请求 中没有包括吋间范围字段 , 则默认获取未回复问题数据库中所有的未回复 问题作为待聚类问题集。

[0067] 特征提取单元 30, 用于采用文本特征提取算法对待聚类问题集进 行特征提取, 输出问题特征集, 问题特征集包括至少一个问题特征。 具体地, 服务器在从未 回复问题数据库中获取待聚类问题集后, 采用文本特征提取算法对待聚类问题 进行特征提取, 可将待聚类问题集中以自然语言形式存储的待 聚类问题转化成 结构化的计算机可识别处理的问题特征集, 问题特征集中的每一问题特征均为 计算机可识别的文本信息。

[0068] 在一具体实施方式中, 特征提取单元 30包括特征提取子单元 31和特征映射子单 元 32。

[0069] 特征提取子单元 31, 用于采用 IT-IDF算法的向量空间模型对待聚类问题集进行 特征提取, 输出初始特征集。 IT-IDF (tenn frequency-inverse document frequency

, 即词汇频率-逆向文件频率) 算法是一种用于信息检索与数据挖掘的常用加 权 算法。 特征提取子单元 31具体用于对待聚类问题集中所有待聚类问题 包含的 所有词汇分别计算词汇频率 (IT) 和逆向文件频率 (IDF) , 再利用词汇频率 (I T) 和逆向文件频率 (IDF) 计算 IT-IDF值, 基于 IT-IDF值确定待聚类问题集对 应的初始特征集。 词汇频率 (IT) 是指某一词汇在文章中出现的次数与文章的总 词数的商值。 逆向文件频率 (IDF) 是指在模拟语言的使用环境的语料库中, 语 料库的文档总数与包含该词汇的文档数的商值 的对数, 可以理解地, 为避免分 母为 0 (即语料库中所有文档均不包含该词汇) , 可使分母为包含该词汇的文档 数与一常数的和值。 IT-IDF值为词汇频率 (IT) 和逆向文件频率 (IDF) 的乘积 。 可以理解地, 任一词汇的 IT-IDF值越高, 其重要性越高。

[0070] 特征映射子单元 32, 用于采用 LSI模型对初始特征集进行特征映射, 输出问题 特征集。 由于 IT-IDF算法的向量空间模型通常用于将文档或句 子表示成一个高维 的稀疏向量, 在长度很多的问题文本中, 仅采用 IT-IDF算法对待聚类问题集进行 特征提取, 输出的初始特征集不能很好表达出问题的特征 , 因此需采用 LSI模型 对初始特征集进行特征映射, 以输出最终的问题特征集。 其中, LSI (Latent Semantic Index, 潜在语义索引) 模型是指两个或两个以上词汇大量出现在一个 文档中, 则认为两个或两个以上词汇为语义相关的, 通过 LSI模型进行统计, 以 将相关词汇构成一个潜在的主题, 以实现对词汇聚类, 从而达到降維目的。

[0071] 在一具体实施方式中, 该自动问答系统中的问题聚类处理装置还包括 预处理单 元 70, 用于采用文本预处理算法对待聚类问题集进行 预处理。 文本预处理算法 包括繁简体统一、 大小写统一、 中文分词和停用词去除中的至少一种。 中文分 词 (Chinese Word Segmentation)指的是将一个汉字序列切分成一个 个单独的词 。 停用词 (Stop Words) 是指在处理自然语言数据吋会自动过滤掉的某 些字或词 , 如英文字符、 数字、 数字字符、 标识符号及使用频率特高的单汉字等。 采用 文本预处理算法对待聚类问题进行预处理, 有利于节省存储空间和提高处理效 率。 本实施例中, 采用文本预处理算法对待聚类问题集进行预处 理的好坏将直 接影响后续采用文本特征提取算法对待聚类问 题集进行特征提取的效果。

[0072] 分裂判断单元 40, 用于判断问题特征集是否符合预设分裂条件。 具体地, 服务 器在采用文本特征提取算法对待聚类问题进行 特征提取并输出问题特征集后, 需判断问题特征集是否符合预设分裂条件以确 定问题特征集能否分裂成若干问 题特征子集。

[0073] 在一具体实施方式中, 分裂判断单元 40可以为第一判断单元 41, 用于判断问题 特征集能否基于至少两个分裂聚类中心分割成 至少两个问题特征子集, 以使问 题特征集中所有点到原始聚类中心的平均距离 大于每一问题特征子集中所有点 到分裂聚类中心的平均距离; 若能, 则符合预设分裂条件; 若否, 则不符合预 设分裂条件。 其中, 原始聚类中心为问题特征集的聚类中心。

[0074] 在另一具体实施方式中, 分裂判断单元 40可以为第二判断单元 42, 用于判断问 题特征集的问题特征数量是否大于预设分裂数 量, 若是, 则符合预设分裂条件 ; 若否, 则不符合预设分裂条件。 该具体实施方式所采用的策略是判断一问题 特征集中的问题特征数量大于预设分裂数量吋 , 只有在问题特征集中的问题特 征数量大于预设分裂数量吋才可继续分裂。 本实施例中, 预设分裂数量可以为 未回复问题数据库中所有问题数量的平方根。

[0075] 第一处理单元 50, 用于在问题特征集符合预设分裂条件吋, 采用分割聚类算法 对问题特征集进行分割聚类, 输出至少两个问题特征子集; 将问题特征子集更 新为问题特征集, 并判断问题特征集是否符合预设分裂条件。 服务器在判断问 题特征集符合预设分裂条件吋, 采用 K-means算法、 K-medoids算法和 CLARANS 算法等分割聚类算法对问题特征集进行分割聚 类, 以将问题特征集分割成至少 两个问题特征子集, 并将任一问题特征子集更新为问题特征集, 跳转到分裂判 断单元 40。

[0076] 在本实施例所提供的自动问答系统中的问题聚 类处理装置中, 问题特征集中的 问题特征为短文本, 采用 K-means算法对问题特征集进行分割聚类吋, 使 K的值 为 2, 每次将问题特征集划分成 2个问题特征子集, 并将每一问题特征子集更新 为问题特征集后, 跳转到分裂判断单元 40。 在 K-means算法中, K的值通常需事 先指定, 在运行过程中不能动态调整, 而基于聚类请求获取的待聚类问题集动 态变化, 其对应的问题特征集也是动态变化的, 事先指定的 K值不能适应动态变 化的问题特征集; 因此, 在该具体实施方式中, 需先判断问题特征集是否符合 预设分裂条件, 只有在符合预设分裂条件吋, 才采用 K-maens算法进行分割聚类 , 以使其满足问题特征集动态变化的要求。

[0077] 第二处理单元 60, 用于在问题特征集不符合预设分裂条件吋, 将问题特征集作 为聚类类簇输出。 服务器在判断问题集不符合预设分裂条件吋, 将问题特征集 作为聚类类簇输出给后台服务终端。 其中, 聚类类簇为最小单位的问题。 在将 聚类类簇发送给后台服务终端后, 后台服务终端接收并显示聚类类簇, 只有在 问题特征集中的问题特征数量大于预设分裂数 量吋才可继续分裂。 本实施例中 , 预设分裂数量可以为未回复问题数据库中所有 问题数量的平方根。

[0078] 匹配处理单元 80, 用于对聚类类簇进行数据库字段匹配处理, 并将处理后的聚 类类簇存储在聚类问题数据库中。 在采用文本预处理算法对待聚类问题集进行 预处理和文本特征提取算法对待聚类问题集进 行特征提取后, 输出的聚类类簇 与从未回复问题数据库中获取的待聚类问题的 文本形式不相同, 需将聚类类簇 与待聚类问题进行关联, 并对聚类类簇进行数据库字段匹配处理, 以将聚类类 簇处理成与聚类问题数据库中字段一致的形式 , 以使将聚类类簇存储在聚类问 题数据库吋更加方便快捷。

[0079] 本实施例所提供的自动问答系统中的问题聚类 处理装置中, 通过基于聚类请求 从未回复问题数据库中获取待聚类问题集, 并对待聚类问题集进行自动聚类, 可帮助编写人员了解问题咨询需求, 提高编写的问答对的覆盖面, 提升整体问 答性能。 该自动问答系统的问题聚类处理装置中, 需判断对待聚类问题集进行 特征提取后的问题特征集是否符合预设分裂条 件, 并在符合预设分裂条件吋采 用分割聚类算法进行分割聚类, 在不符合预设分裂条件吋自动停止分割聚类, 以满足问题特征集动态变化的应用场景, 实现层次化聚类处理, 可保证输出的 聚类类簇内部的问题比较相似, 得到较好的聚类效果, 并避免人工调整参数的 繁琐操作。

[0080] 图 3是本发明一实施例提供的服务器的示意图。 如图 3所示, 该实施例的服务器 3包括: 处理器 30、 存储器 31以及存储在所述存储器 31中并可在所述处理器 30上 运行的计算机程序 32, 例如执行上述的自动问答系统中的问题聚类处 理方法的 程序。 所述处理器 30执行所述计算机程序 32吋实现上述各个自动问答系统中的 问题聚类处理方法实施例中的步骤, 例如图 1所示的步骤 S1至 S7。 或者, 所述处 理器 30执行所述计算机程序 32吋实现上述各装置实施例中各模块 /单元的功能, 例如图 2所示单元 10至 80的功能。

[0081] 示例性的, 所述计算机程序 32可以被分割成一个或多个模块 /单元, 所述一个 或者多个模块 /单元被存储在所述存储器 31中, 并由所述处理器 30执行, 以完成 本发明。 所述一个或多个模块 /单元可以是能够完成特定功能的一系列计算 程 序指令段, 该指令段用于描述所述计算机程序 32在所述服务器 3中的执行过程。

[0082] 所述服务器 3可以是本地服务器、 云端服务器等计算设备。 所述服务器可包括 , 但不仅限于, 处理器 30、 存储器 31。 本领域技术人员可以理解, 图 3仅仅是服 务器 3的示例, 并不构成对服务器 3的限定, 可以包括比图示更多或更少的部件 , 或者组合某些部件, 或者不同的部件, 例如所述服务器还可以包括输入输出 设备、 网络接入设备、 总线等。

[0083] 所述处理器 30可以是中央处理单元 (Central Processing Unit, CPU) , 还可以是其 他通用处理器、 数字信号处理器(Digital Signal Processor, DSP)、 专用集成电路 (Application Specific Integrated Circuit, ASIC)、 现成可编程门阵列

(Field-Programmable Gate Array , FPGA)或者其他可编程逻辑器件、 分立门或者 晶体管逻辑器件、 分立硬件组件等。 通用处理器可以是微处理器或者该处理器 也可以是任何常规的处理器等。

[0084] 所述存储器 31可以是所述服务器 3的内部存储单元, 例如服务器 3的硬盘或内存 。 所述存储器 31也可以是所述服务器 3的外部存储设备, 例如所述服务器 3上配 备的插接式硬盘, 智能存储卡 (Smart Media Card, SMC) , 安全数字 (Secure Digital, SD) 卡, 闪存卡 (Flash Card) 等。 进一步地, 所述存储器 31还可以既包 括所述服务器 3的内部存储单元也包括外部存储设备。 所述存储器 31用于存储所 述计算机程序以及所述服务器所需的其他程序 和数据。 所述存储器 31还可以用 于暂吋地存储已经输出或者将要输出的数据。

[0085] 所属领域的技术人员可以清楚地了解到, 为描述的方便和简洁, 上述描述的系 统, 装置和单元的具体工作过程, 可以参考前述方法实施例中的对应过程, 在 此不再赘述。

[0086] 以上所述, 以上实施例仅用以说明本发明的技术方案, 而非对其限制; 尽管参 照前述实施例对本发明进行了详细的说明, 本领域的普通技术人员应当理解: 其依然可以对前述各实施例所记载的技术方案 进行修改, 或者对其中部分技术 特征进行等同替换; 而这些修改或者替换, 并不使相应技术方案的本质脱离本 发明各实施例技术方案的精神和范围。