Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR RECOGNIZING SPACE IN PDF FILE
Document Type and Number:
WIPO Patent Application WO/2014/075386
Kind Code:
A1
Abstract:
The present invention relates to a method for recognizing a space in a PDF file, the method comprising: step 1, traversing a PDF file, and recording the distance between each pair of adjacent characters; step 2, determining the minimum value h of the distance between each pair of adjacent characters; step 3, subtracting h from the distance between each pair of adjacent characters to obtain a relative distance between each pair of adjacent characters; and step 4, sequentially determining whether the relative distance between each pair of adjacent characters is less than a preset space width, and if yes, then the gap between the pair of adjacent characters is not a space, otherwise the gap between the pair of adjacent characters contains a space. The present invention improves the accuracy of determining whether a space exists between adjacent characters.

Inventors:
ZHOU MEILING (CN)
Application Number:
PCT/CN2013/001365
Publication Date:
May 22, 2014
Filing Date:
November 11, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BEIJING BRANCH OFFICE OF FOXIT CORP (CN)
International Classes:
G06F17/30
Foreign References:
CN101901333A2010-12-01
CN101097600A2008-01-02
Other References:
ZHANG, BO: "RESEARCH ON TABLE RECOGNITION TECHNIQUE BASED ON PDF TEXT STREAM", CHINA MASTER`S THESES, 23 July 2010 (2010-07-23)
Attorney, Agent or Firm:
KELONG INTERNATIONAL INTELLECTUAL PROPERTY AGENT LTD. (CN)
北京科龙寰宇知识产权代理有限责任公司 (CN)
Download PDF:
Claims:
权利 要求

1. 一种识别 PDF文件中的空格的方法, 其特征在于, 该方法包括: 步骤 1 : 遍历所述 PDF文件, 记录各对相邻字符之间的距离;

步骤 2: 确定各对相邻字符之间的距离中的最小值 h;

步骤 3 : 用各对相邻字符之间的距离减去 h, 得到各对相邻字符之间的相对距 步骤 4:依次判断各对相邻字符之间的相对距离是否小于预知的空格宽度,是 则该对相邻字符之间的空隙不是空格, 否则, 该对相邻字符之间的空隙包括空格。

2. 根据权利要求 1所述的方法, 其特征在于, 在所述步骤 4之后, 还包括步 骤 5 : 将二者之间的空隙包括空格的相邻字符称为包含空格的相邻字符; 用各对所 述包含空格的相邻字符之间的相对距离除以所述空格宽度, 将得到的商值的整数 部分作为该对所述包含空格的相邻字符之间的空格的数量。

Description:
一种识别 PDF文件中的空格的方法 技术领域

本发明涉及识别 PDF 文件中的字符的技术领域, 特别是涉及一种识别 PDF 文件中的空格的方法。 背景技术

在将 PDF文件做字符提取,如:选择拷贝操作或转换 为其他格式(如 WORD、 TXT等格式) 的文件时, 都要对 PDF文件中的字符进行识别, 尤其是要对相邻字 符间的空格进行判断, 从而顺利地組词和断句。

因 PDF文件是版式文档的特殊性, 在文档中产生视觉上的空格效果的表现形 式是多种多样的, 相邻字符间空隙的产生有多种原因, 这里详细介绍其中的两个 原因, 一是因为存在空格所以产生空隙, 二是因为版面设置了字符间距所以产生 空隙。 现有的识别 PDF文件中的空格的技术, 是判断每对相邻字符之间的距离是 否小于预知的空格宽度, 是则判断该对相邻字符之间不存在空格, 否则判断该对 相邻字符间存在空格, 进而在转换后的文件中在该对相邻字符之间设 置空格。

现有技术的缺点在于: 当 PDF文件中的字符间距设置得过大, 例如其大于空 格宽度时, 该技术会将所有只存在字符间距而没有空格的 空隙全部判断为存在空 格, 这样就会造成组词和断句的大量错误, 严重影响格式转换的质量。 一个简单 的示例如图 1 所示, 该图中由两个单词 "Character" 和 "spacing" 组成了连贯的 "Character spacing" 词組, 但仅在 "Character" 最后的 V 字符和 "spacing" 中 的 "s" 字符之间存在空格 (该空隙实际上是一个空格与一个字符间距的 叠加), 其余的相邻字符之间的空隙全部为字符间距, 但是由于该字符间距要大于空格宽 度, 因而利用现有技术识别后, 这个词组将在转换后的文件中变成包括 16个字母 字符和 15个空格的字符串 "C h a r a c t e r s p a c i n g" ,从而造成严重的转换失误。 发明内容

本发明所要解决的技术问题是提供一种识别 PDF文件中的空格的方法, 能提 高相邻字符之间是否存在空格的判断准确率。

本发明解决上述技术问题的技术方案如下: 一种识别 PDF文件中的空格的方 法, 该方法包括:

步驟 1 : 遍历所述 PDF文件, 记录各对相邻字符之间的距离;

步骤 2: 确定各对相邻字符之间的距离中的最小值 h;

步骤 3 : 用各对相邻字符之间的距离减去 h, 得到各对相邻字符之间的相对距 离,

步骤 4 : 依次判断各对相邻字符之间的相对距离是否小 于预知的空格宽度, 是 则该对相邻字符之间的空隙不是空格, 否则, 该对相邻字符之间的空隙包括空格。

本发明的有益效果是: 本发明通过便利 PDF文件, 记录各对相邻字符之间的 距离 ,进而确定各对相邻字符之间的距离中的最小 h ,将其作为字符间距的标准, 这是因为, 相邻字符间的空隙只能为一个字符间距组成, 或者由一个字符间距与 一个以上的空格组成, 因而字符间距 h 是相邻字符间的距离的最小值。 本发明用 各对相邻字符之间的距离减去 h,得到各对相邻字符之间的相对距离,该相 距离 或者小于空格宽度, 这是该对相邻字符之间不存在空格的情形, 或者不小于空格 宽度, 这是该对相邻字符之间存在空格的情形。 因此, 本发明通过依次判断各对 相邻字符之间的相对距离是否小于预知的空格 宽度, 即可剔除相邻字符之间的空 隙为字符间距的情形, 准确确定各对相邻字符之间的空隙是否为空格 , 从而大大 提高相邻字符之间是否存在空格的判断准确率 。

在上述技术方案的基础上, 本发明还可以 #文如下改进:

进一步, 在所述步骤 4之后, 还包括步骤 5 : 将二者之间的空隙包括空格的相 邻字符称为包含空格的相邻字符; 用各对所述包含空格的相邻字符之间的相对距 离除以所述空格宽度, 将得到的商值的整数部分作为该对所述包含空 格的相邻字 符之间的空格的数量。 附图说明

图 1 为字符间距过大的 PDF文件的示意图;

图 2为本发明提出的识别 PDF文件中的空格的方法的流程图。 具体实施方式

以下结合附图对本发明的原理和特征进行描述 , 所举实例只用于解释本发明, 并非用于限定本发明的范围。 图 2为本发明提出的识别 PDF文件中的空格的方法的流程图。 这里, PDF是 Portable Document Format的缩写, 意为便携文件格式, 是一种电子文件格式, PDF 文件指的是采用 PDF格式的电子文件。本发明中, PDF文件中的字符可以为字母、 数字、 汉字、 空格、 标点等一切可以采用的字符形式。

如图 2所示, 该方法包括:

步骤 201 : 遍历 PDF文件, 记录各对相邻字符之间的距离。

本步骤中的 "遍历" 是一种计算机运算形式, 指的是沿着某条搜索路线, 依 次对树中每个结点均做一次且仅做一次访问。 遍历的方法以及上述的 "树" 的概 念属于计算机领域的公知常识, 在此不做赘述。

本步骤中,遍历 PDF文件的方法为: 对 PDF文件中的每个字符都进行一次访 问, 且仅做一次访问。

PDF 文件中的每对相邻字符之间都有一定的空隙, 空隙的大小因字符间距以 及是否存在空格的不同而有一定差异, 而在每个 PDF文件中, 空格宽度都是已知 的, 因而相邻字符之间的距离 (也就是空隙的大小) 就仅与字符间距的设置有关。 本步骤在进行空格的识别之前, 要记录所有相邻字符之间的距离, 从而为步骤 202 确定字符间距做准备。

步骤 202: 确定各对相邻字符之间的距离中的最小值 h。

相邻字符之间的空隙只有如下两种来源: 一是由一个字符间距构成该空隙, 二是由一个字符间距与一个以上的空格叠加构 成该空隙。 因此, 在步骤 201 确定 了所有相邻字符之间的距离的基础上, 本步骤可以从中找出相邻字符之间的距离 的最小值 并且, h即为该 PDF文件中设置的字符间距, 也就是说, 该 PDF文 件中, 二者之间的距离为 h 的一对或多对相邻字符, 其二者之间的空隙仅由一个 字符间距組成, 而没有空格的存在。

步驟 203 : 用各对相邻字符之间的距离减去 h, 得到各对相邻字符之间的相对 距离。

在上述的相邻字符之间的空隙的两种来源的基 础上, 本步骤用各对相邻字符 之间的距离减去1, 得到的差值(即各对相邻字符之间的相对距离 ) 或者为零, 或 者为正整数倍的空格宽度。 值得注意的是, 考虑到不同种类的字符之间的字符间 距可能有较小的差异, 上述的差值为零的情形, 可以扩展到差值为绝对值接近零 且远小于空格宽度的值, 上述的差值为整数倍的空格宽度的情形, 可以扩展到差 值为正整数倍的空格宽度加上或者减去一极小 值的情形, 该极小值指的是接近零 且远小于空格宽度的正值。

步骤 204 : 依次判断各对相邻字符之间的相对距离是否小 于预知的空格宽度, 是则该对相邻字符之间的空隙不是空格, 否则, 该对相邻字符之间的空隙包括空 格。

在步骤 203 的基础上, 本步骤判断各对相邻字符之间的相对距离是否 小于预 知的空格宽度, 如果是, 则意味着该对相邻字符之间的空隙仅由一个字 符间距构 成, 因而可判断该对相邻字符之间的空隙不是空格 , 否则, 意味着该对相邻字符 之间的空隙由一个字符间距与一个以上的空格 构成, 因而可判断该对相邻字符之 间的空隙包括空格, 这里的 "包括" 意味着该空隙还包括一个字符间距。

在本步骤执行结束之后, 即可确定该 PDF文件中所有的空格, 从而在进行文 件格式的转换时, 在有空格的位置设置空格, 保证转换质量。

由此可见, 本发明通过便利 PDF文件, 记录各对相邻字符之间的距离, 进而 确定各对相邻字符之间的距离中的最小值 h ,将其作为字符间距的标准,这是因为, 相邻字符间的空隙只能为一个字符间距组成, 或者由一个字符间距与一个以上的 空格組成, 因而字符间距 h 是相邻字符间的距离的最小值。 本发明用各对相邻字 符之间的距离减去 h,得到各对相邻字符之间的相对距离,该相 距离或者小于空 格宽度, 这是该对相邻字符之间不存在空格的情形, 或者不小于空格宽度, 这是 该对相邻字符之间存在空格的情形。 因此, 本发明通过依次判断各对相邻字符之 间的相对距离是否小于预知的空格宽度, 即可剔除相邻字符之间的空隙为字符间 距的情形, 准确确定各对相邻字符之间的空隙是否为空格 , 从而大大提高相邻字 符之间是否存在空格的判断准确率。

步骤 204确定了 PDF文件中包括空格的位置, 但步骤 201至 204还不能确定 相邻字符之间的空格的数量, 因而在上述的步骤 204 之后, 还可以包括确定相邻 字符之间的空格数量的步骤 205 :将二者之间的空隙包括空格的相邻字符称为 含 空格的相邻字符; 用各对包含空格的相邻字符之间的相对距离除 以空格宽度, 将 得到的商值的整数部分作为该对包含空格的相 邻字符之间的空格的数量。

步骤 205 中, 用商值的整数部分作为该对包含空格的相邻字 符之间的空格的 数量, 而不是用商值作为该对包含空格的相邻字符之 间的空格的数量, 也是因为 考虑到不同种类的字符之间的字符间距有较小 的差异, 该商值在整数部分之外, 还可能包括小数部分。

利用本发明对图 1示例中的空格进行判断,结果为仅在 "Character"最后的 "r" 字符和 "spacing"中的 "s"字符之间存在空格, 因而格式转换的结果就为 "Character spacing" , 与 PDF文件所要表示的内容相同。

由此可见, 本发明具有以下优点:

( 1 ) 本发明通过便利 PDF 文件, 记录各对相邻字符之间的距离, 进而确定 各对相邻字符之间的距离中的最小值 h, 将其作为字符间距的标准, 这是因为, 相 邻字符间的空隙只能为一个字符间距组成, 或者由一个字符间距与一个以上的空 格組成, 因而字符间距 h是相邻字符间的距离的最小值。 本发明用各对相邻字符 之间的距离减去 h,得到各对相邻字符之间的相对距离,该相 距离或者小于空格 宽度, 这是该对相邻字符之间不存在空格的情形, 或者不小于空格宽度, 这是该 对相邻字符之间存在空格的情形。 因此, 本发明通过依次判断各对相邻字符之间 的相对距离是否小于预知的空格宽度, 即可剔除相邻字符之间的空隙为字符间距 的情形, 准确确定各对相邻字符之间的空隙是否为空格 , 从而大大提高相邻字符 之间是否存在空格的判断准确率。

以上所述仅为本发明的较佳实施例, 并不用以限制本发明, 凡在本发明的精 神和原则之内, 所作的任何修改、 等同替换、 改进等, 均应包含在本发明的保护 范围之内。