Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND SYSTEM FOR MATCHING DRUG NAME DATA
Document Type and Number:
WIPO Patent Application WO/2015/014156
Kind Code:
A1
Abstract:
A method for matching drug name data, comprising: acquiring drug name data; conducting word segmentation on the drug name data according to a pre-set dictionary to generate drug name tagging data, wherein the pre-set dictionary at least comprises: a prefix word stock, a component word stock, a pharmacodynamic action word stock and a dosage form word stock; and generating a data group of the same drug name by performing a comparison algorithm on the drug name tagging data. Further provided is a corresponding device. By way of conducting word segmentation on drug name data through a pre-set dictionary, a comparison algorithm is performed on obtained drug name tagging data after the word segmentation to acquire a data group of the same name, so that the success rate of acquiring the same drug name data is increased, and the calculation amount is reduced.

Inventors:
JIA XIBEI (CN)
BIAN XU (CN)
Application Number:
PCT/CN2014/079159
Publication Date:
February 05, 2015
Filing Date:
June 04, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
AUDAQUE DATA TECHNOLOGY CO LTD (CN)
International Classes:
G06F17/30
Foreign References:
CN103177087A2013-06-26
CN101388023A2009-03-18
CN101221632A2008-07-16
CN101071420A2007-11-14
Attorney, Agent or Firm:
DHC IP ATTORNEYS (CN)
深圳鼎合诚知识产权代理有限公司 (CN)
Download PDF:
Claims:
1、 一种药品名称数据匹配方法,其特征在于,包括: 获取药品名称数据;

根据预置字典对所述药品名称数据进行分词生成药品名称标注 数据;所述预置字典至少包括:前缀词字库、 成分词字库、 药效词字 库和剂型词字库;

对所述药品名称标注数据通过比较算法生成相同药品名称数据 组。

2、 根据权利要求 1所述的方法,其特征在于,所述根据预置字 典对所述药品名称数据进行分词生成药品名称标注数据包括:

根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,形成的药品名称标注数据包括 前缀词、 成分词、 药效词和剂型词。

3、 根据权利要求 2所述的方法,其特征在于,所述对药品名称 标注数据通过比较算法生成相同药品名称数据组包括:

根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。

4、 根据权利要求 3所述的方法,其特征在于,所述根据预置固 定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和 剂型词进行比较计算包括:

计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模 糊相同。

5、 根据权利要求 3所述的方法,其特征在于,所述根据预置固 定比较算法对所述药品名称标注数据中的前缀词、成分词、药效词和 剂型词进行比较计算包括:

计算两个药品名称标注数据的成分词和药效词相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称 数据为相同名称数据组。

6、 一种药品名称数据匹配装置,其特征在于,包括:

获取模块,用于获取药品名称数据;

分词模块 42 ,用于根据预置字典对所述药品名称数据进行分词 生成药品名称标注数据;所述预置字典至少包括:前缀词字库、 成分 词字库、 药效词字库和剂型词字库;

比较模块,用于对所述药品名称标注数据通过比较算法生成相同 药品名称数据组。

7、 根据权利要求 6所述的装置,其特征在于,所述分词模块 42 用于:

根据预置字典中包含的前缀词字库、成分词字库、药效词字库和 剂型词字库对药品名称数据进行分词,所述药品名称标注数据至少包 括前缀词、 成分词、 药效词和剂型词。

8、 根据权利要求 7所述的装置,其特征在于,所述比较模块用 于:

根据预置固定比较算法对所述药品名称标注数据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名称数据组。

9、 根据权利要求 8所述的装置,其特征在于,所述比较模块用 于:

计算两个药品名称标注数据的前缀词、剂型词和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个药品名称标注数据是模 糊相同。

10、根据权利要求 8所述的装置,其特征在于,所比较模块用于: 计算两个药品名称标注数据的成分词和药效词相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标注数据对应的药品名称 数据为相同名称数据组。

Description:
一种药品名称数据匹配方法和系统

技术领域

本申请涉及数据匹配技术领域,特别是涉及一 种药品名称数据 匹配方法和系统。 背景技术

在医药行业中 ,存在大量的医药名称,可能同一类型的药因 为剂 量、药名等细微的差异会产生大量数据,事实 上企业很难确保其所积 累数据的质量,其原因是多种多样的,如:录 入错误、 完整性约束缺 失、 信息的多种描述方式等。在一些医药批发等类 似行业中 ,需要对 药品的名称进行确切识别,以方便用户获知同 类型药品。

为了解决上述应用中的问题,现有技术提出一 种记录匹配方法, 主要包括:首先对药品名称数据进行分词获取 名称词;然后将相近名 称词的药品名称数据经过比较算法获得相同名 称数据组展示给操作 员。现有技术中利用开源的分词工具对药品名 称进行分词,对于常见 的如"小儿复方赖氨酸颗粒 "确实可以分为"小儿 I复方 I赖氨酸 I颗粒",可 是对于 "注射用阿莫西林钠 "这种不常见的药品名称,其分词结果为"注 射用 I阿莫西林 I钠"将原本是一种化学物质(阿莫西林钠)分 了两种 化学物质的组合(阿莫西林 I钠)b 这种情况将导致"阿莫西林"与"阿莫 西林钠"这两种化学物质混淆,影响最终的比 结果。

在现有的技术方案中 ,由于在分词过程中多半采用固定分词方式 难以获取针对药品名称数据精确的特征词,以 至于无法精确比较,无 法完成对药品名称数据的相同类型确定。 发明内容

本申请所要解决的技术问题是提供一种药品名 称数据匹配方法 和装置,能够针对药品名称更快的提供相同药 品名称数据组。

为了解决上述问题,本申请公开了一种药品名 称数据匹配方法 , 包括:

获取药品名称数据;

根据预置字典对所述药品名称数据进行分词生 成药品名称标注 数据;所述预置字典至少包括:前缀词字库、 成分词字库、 药效词字 库和剂型词字库;

对所述药品名称标注数据通过比较算法生成相 同药品名称数据 组。

进一步,所述根据预置字典对所述药品名称数 据进行分词生成药 品名称标注数据包括:

根据预置字典中包含的前缀词字库、成分词字 库、药效词字库和 剂型词字库对药品名称数据进行分词,形成的 药品名称标注数据包括 前缀词、 成分词、 药效词和剂型词。

进一步,所述对药品名称标注数据通过比较算 法生成相同药品名 称数据组包括:

根据预置固定比较算法对所述药品名称标注数 据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相 似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名 称数据组。

进一步,所述根据预置固定比较算法对所述药 品名称标注数据中 的前缀词、 成分词、 药效词和剂型词进行比较计算包括:

计算两个药品名称标注数据的前缀词、剂型词 和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判 断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分 词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个 药品名称标注数据是模 糊相同。

进一步,所述根据预置固定比较算法对所述药 品名称标注数据中 的前缀词、 成分词、 药效词和剂型词进行比较计算包括:

计算两个药品名称标注数据的成分词和药效词 相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标 注数据对应的药品名称 数据为相同名称数据组。 本申请还提供了一种药品名称数据匹配装置, 包括:

获取模块,用于获取药品名称数据;

分词模块,用于根据预置字典对所述药品名称 数据进行分词生成 药品名称标注数据;所述预置字典至少包括: 前缀词字库、 成分词字 库、 药效词字库和剂型词字库;

比较模块,用于对所述药品名称标注数据通过 比较算法生成相同 药品名称数据组。

进一步,所述分词模块用于:

根据预置字典中包含的前缀词字库、成分词字 库、药效词字库和 剂型词字库对药品名称数据进行分词,所述药 品名称标注数据至少包 括前缀词、 成分词、 药效词和剂型词。

进一步,所述比较模块用于:

根据预置固定比较算法对所述药品名称标注数 据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相 似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名 称数据组。

进一步,所述比较模块用于:

计算两个药品名称标注数据的前缀词、剂型词 和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判 断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分 词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个 药品名称标注数据是模 糊相同。

进一步,所比较模块用于:

计算两个药品名称标注数据的成分词和药效词 相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标 注数据对应的药品名称 数据为相同名称数据组。

与现有技术相比,本申请包括以下优点:通过 预置字典对药品名 称数据进行分词,将分词获得的药品名称标注 数据进行比较计算,以 获取相同名称数据组,提高了相同药品名称数 据获取的成功率,减少 了计算量。 附图说明

图 1是本发明一种药品名称数据匹配方法一实施 的流程图 ; 图 2 是本发明一种药品名称数据匹配方法一实施例 中字典完善 流程;

图 3 是本发明一种药品名称数据匹配方法一实施例 中分词示意 图 ;

图 4 是本发明一种药品名称数据匹配装置一实施例 的结构示意 图。 具体实施方式

为使本申请的上述目的、特征和优点能够更加 明显易懂,下面结 合附图和具体实施方式对本申请作进一步详细 的说明。

参照图 1 ,示出了本申请一种药品名称数据匹配方法。

现有的药品名称数据的匹配方法中 ,针对分词步骤主要利用开源 的分词工具对药品名称数据进行分词,由于药 品名称数据的特殊性和 开源的分词工具并不具备完整字典(相对于药 品名称来说), 因此通 过常见开源的分词工具进行分词获取的药品名 称标注数据并不精确, 因此,一个相对于药品名称来说完整的字典对 于药品名称的识别是至 关重要的。在本发明实施例中将公开一种药品 名称数据匹配方法。包 括:

步骤 S101、 获取药品名称数据;

本发明实施例可以直接从现有保存药品名称数 据的数据库中获 取药品名称数据。

步骤 S102、 根据预置字典对所述药品名称数据进行分词生 成药 品名称标注数据;所述预置字典至少包括:前 缀词字库、成分词字库、 药效词字库和剂型词字库。

在本发明实施例中预置的字典中针对药品名称 数据提供了至少 四个字库,包括前缀词字库、成分词字库、药 效词字库和剂型词字库; 四个字库中分别保存了尽量多的同类型的词 ,其中对四个类型的词区 别如下:

前缀词 :在药品名称数据中存在特殊的前缀信息,如 "复方甘草 片"这个药品名称中的"复方"就是体现规格的前 缀、"小儿清热宁颗粒" 中的"小儿"就是体现适用对象的前缀,这些前 词在药品名称中确实 担任重要作用 ,但在识别不同药品名称的时候容易造成混淆 ,如"小 儿复方赖氨酸颗粒 Γ小儿复方金银花颗粒 "两个名称相同的前缀词与 剂型词很容易造成机器识别时候的混淆,因此 在本发明实施例中将类 似的前缀信息词提取出来做特殊处理。

成分词 :在药品名称数据中 ,存在标识药品的成分词 ,这些词往 往具有较强的辨识度,如"小儿复方赖氨酸颗 Γ小儿复方金银花颗 粒"两个名称中虽然相同的字很多,可是真正 有标识药品作用的成 分词"赖氨酸 Γ金银花 "却是不同的, 因此使用成分词是为了更好的识 别药品名称,通用化的记录匹配算法并不具备 这种能力。

药效词 :有的药品名称命名时并不是使用药品的成分 ,而是利用 药品的功效来命名的 ,如"感冒清热颗粒 "中的 "感冒清热"就是用来表 征该药物的药效,而且药物名称数据中的药效 词具有较强的辨识度

(如同成分词),可以用来识别药品名称。

剂型词 :在药品名称数据中存在体现剂型特征的词 ,称之为剂型 词,这些词具有特殊的识别作用 : 1.利用该词可以获知药品的剂型信 息; 2. 能够辅助识别药品名称中的成分,如"阿莫西 胶囊 "中"胶囊" 是药品名称的剂型词 ,前面的 "阿莫西林"则是药品名称中的成分词。

参照图 2 ,利用字典对药品名称数据进行分词时,可以 字典导 入到分词工具中获得所有不存在于字典中的字 串(连续未识别字的片 段),产生未识别词的文档,将该文档提交给 操作员对未识别词进行 分词标注;其标注信息包括:剂型词、其他后 缀词、前缀词、药效词、 成分词、 其他识别词。 可以在处理一定量的数据(建议初识时为 200 后续迭代逐步增多)后,将新标注的词加入到 字典中 ,利用新的字典 重新对药品名称数据进行分词,重复该过程即 可得到最终的字典。 由于药品名称词中往往存在错误的拼写(即使 药监局的数据中同 样存在), 因此有必要将常见的错误拼写组成别名表如: 药监局网站 上可以同时查到"呋噻米片"和"呋塞米片",即 业务系统中同时使用 "呋噻米"和"呋塞米 "指代同一种化学物质。 该别名表可以随着对未识 别词人工分词标注的过程相应获得,不再详细 描述该过程。

步骤 S103、 对所述药品名称标注数据通过比较算法生成相 同药 品名称数据组。

进一步,所述根据预置字典对所述药品名称数 据进行分词生成药 品名称标注数据包括:

根据预置字典中包含的前缀词字库、成分词字 库、药效词字库和 剂型词字库对药品名称数据进行分词,形成的 药品名称标注数据包括 前缀词、 成分词、 药效词和剂型词。

进一步,所述对药品名称标注数据通过比较算 法生成相同药品名 称数据组包括:

根据预置固定比较算法对所述药品名称标注数 据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相 似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名 称数据组。

将待比较的两个药品名称数据利用上述字典对 其分词,参照图 3 , 获得药品名称的药品名称标注数据,所述药品 名称标注数据可以标注 "前缀词 '; "成分词 '; "药效词 "、 "其他识别词 "、 "剂型词 "、 "其他后缀词 "这样 的信息,然后将两个药品名称标注数据分别在 对应标注信息上进行比 较,只有在各标注信息上都达成一致才能算作 是名称相同,若两个药 品名称的相似度为 0-1的相似。 在"前缀词 "对应的两组词上,完全相 同则一致,否则不一致。 在"成分词 "对应的两组词上,要利用别名表 作为参照,如果完全相同或属于别名关系则成 分词一致,否则不一致。 在"剂型词 "上判断一致的方式与成分词类似,需要参考 型词与剂型 信息的对应关系。"药效词 Γ其他识别词 Γ其他后缀词"的内容识别方 式与"前缀词 "识别方式一致。 进一步,所述根据预置固定比较算法对所述药 品名称标注数据中 的前缀词、成分词、药效词和剂型词进行比较 计算可以采用如下方法:

A、 计算两个药品名称标注数据的前缀词、 剂型词和其他后缀词 相似度,当所述相似度达到或超过预定阈值, 且判断其中一个药品标 注数据中的其他识别词与另一个药品名称中的 成分词或药效词或其 他识别词通过拼音模糊匹配合格,则判定所述 两个药品名称标注数据 是模糊相同。

B、 计算两个药品名称标注数据的成分词和药效词 相似度, 当所 述相似度为完全相同时,判定所述两个药瓶名 称标注数据对应的药品 名称数据为相同名称数据组。

C、 药品名称标注数据比较若同时比较计算成分词 、 药效词、 剂 型词 ,则可以忽略前缀词、 其他后缀词。

值得注意的是在 B和 C的比较过程中都可以利用 A中的模糊比 较方法。

本发明实施例中通过预置字典对药品名称数据 进行分词 ,将分词 获得的药品名称标注数据进行比较计算,以获 取相同名称数据组,提 高了相同药品名称数据获取的成功率,减少了 计算量。

对于装置实施例而言,由于其与方法实施例基 本相似,所以描述 的比较简单,相关之处参见方法实施例的部分 说明即可。

如图 4所述为本发明提供的一种药品名称数据匹配 置,包括: 获取模块 41 ,用于获取药品名称数据;

分词模块 42 ,用于根据预置字典对所述药品名称数据进行 词 生成药品名称标注数据;所述预置字典至少包 括:前缀词字库、 成分 词字库、 药效词字库和剂型词字库;

比较模块 43 ,用于对所述药品名称标注数据通过比较算法 成 相同药品名称数据组。

进一步,所述分词模块 42用于:

根据预置字典中包含的前缀词字库、成分词字 库、药效词字库和 剂型词字库对药品名称数据进行分词,所述药 品名称标注数据至少包 括前缀词、 成分词、 药效词和剂型词。

所述分词模块 42将待比较的两个药品名称数据利用上述字典 其分词,获得药品名称的药品名称标注数据, 所述药品名称标注数据 可以标注"前缀词 "成分词'; "药效词 "其他识别词 "剂型词 "其他后缀 词"这样的信息,然后比较模块 43将两个药品名称标注数据分别在对 应标注信息上进行比较,只有在各标注信息上 都达成一致才能算作是 名称相同 ,若两个药品名称的相似度为 0-1的相似。 在"前缀词 "对应 的两组词上,完全相同则一致,否则不一致。 在"成分词 "对应的两组 词上,要利用别名表作为参照,如果完全相同 或属于别名关系则成分 词一致,否则不一致。 在"剂型词 "上判断一致的方式与成分词类似, 需要参考剂型词与剂型信息的对应关系。"药 词 Γ其他识别词 Γ其他 后缀词 "的内容识别方式与 "前缀词"识别方式一致。

进一步,所述比较模块 43还用于:

根据预置固定比较算法对所述药品名称标注数 据中的前缀词、成 分词、药效词和剂型词计算相似度,当所述相 似度超过阈值的药品名 称标注数据对应的药品名称数据判定为相同名 称数据组。

进一步,所述比较模块 43还用于:

计算两个药品名称标注数据的前缀词、剂型词 和其他后缀词相似 度,当所述相似度达到或超过预定阈值,且判 断其中一个药品标注数 据中的其他识别词与另一个药品名称中的成分 词或药效词或其他识 别词通过拼音模糊匹配合格,则判定所述两个 药品名称标注数据是模 糊相同。

进一步,所比较模块 43还用于:

计算两个药品名称标注数据的成分词和药效词 相似度,当所述相 似度为完全相同时,判定所述两个药瓶名称标 注数据对应的药品名称 数据为相同名称数据组。

比较模块 43在进行药品名称标注数据比较计算时,若同 比较 计算成分词、 药效词、 剂型词,则可以忽略前缀词、 其他后缀词。

本说明书中的各个实施例均采用递进的方式描 述,每个实施例重 点说明的都是与其他实施例的不同之处,各个 实施例之间相同相似的 部分互相参见即可。

以上对本申请所提供的一种药品名称数据匹配 方法和装置,进行 了详细介绍,本文中应用了具体个例对本申请 的原理及实施方式进行 了阐述,以上实施例的说明只是用于帮助理解 本申请的方法及其核心 思想;同时,对于本领域的一般技术人员 ,依据本申请的思想,在具 体实施方式及应用范围上均会有改变之处,综 上所述,本说明书内容 不应理解为对本申请的限制。