Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DOCUMENT READER APPARATUS
Document Type and Number:
WIPO Patent Application WO/2008/081666
Kind Code:
A1
Abstract:
Document reader apparatus (100) capable of, at reading, assigning a file name enabling recall of the contents of document read. The document reader apparatus (100) comprises document reading means (120) for reading a document and generating read data; marking area extracting means (130) for extracting any marking area produced by marking in the document from the contents of the read data; character segmentation means (140) for segmenting characters within the marking area having been extracted by the marking area extracting means (130); character recognizing means (150) for recognizing any characters having been segmented by the character segmentation means (140); and control means (101) for assigning any characters having been recognized by the character recognizing means (150) as a file name of read data having been generated by the document reading means (120).

Inventors:
YAMAYA YORIHIRO (JP)
Application Number:
PCT/JP2007/073044
Publication Date:
July 10, 2008
Filing Date:
November 29, 2007
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
KONICA MINOLTA HOLDINGS INC (JP)
YAMAYA YORIHIRO (JP)
International Classes:
G06T1/00; G06F12/00; G06V30/40; G06V30/10
Foreign References:
JPH0652236A1994-02-25
JP2004246597A2004-09-02
JPH04170845A1992-06-18
Download PDF:
Claims:
文書を読み取って読み取りデータを生成する文字読み取り手段と、
前記文書においてマーキングされたマーキング領域を前記読み取りデータの中から抽出するマーキング領域抽出手段と、
前記マーキング領域抽出手段により抽出されたマーキング領域内の文字を切り出す文字切出し手段と、
前記文字切出し手段により切り出された文字を認識する文字認識手段と、
前記文字認識手段により認識された文字を、前記文字読み取り手段により生成された前記読み取りデータのファイル名として付与する制御手段と、
を備えたことを特徴とする文書読み取り装置。
前記マーキング領域抽出手段は色判別手段を備え、
前記色判別手段は、前記読み取りデータにおける色成分の相違に基づいて、前記マーキング領域を抽出することを特徴とする請求の範囲第1項記載の文書読み取り装置。
前記文書読み取り手段により生成された前記読み取りデータを処理する画像処理手段を備え、
前記画像処理手段は、前記マーキング領域抽出手段により抽出されたマーキングの色を除外した状態の前記読み取りデータを保存用の読み取りデータとすることを特徴とする請求の範囲第1項又は第2項に記載の文書読み取り装置。
前記マーキング領域抽出手段は、マーキングされた透明シートの読み取りデータから前記マーキング領域を抽出しておき、その透明シートの次に前記文字読み取り手段で読み取られた文書の読み取りデータの中から前記マーキング領域を抽出することを特徴とする請求の範囲第1項~第3項のいずれか一項に記載の文書読み取り装置。
前記文字読み取り手段は、可視光以外の成分の読み取りが可能に構成されており、
前記マーキング領域抽出手段は、前記読み取りデータに含まれる可視光以外の成分から前記マーキング領域を抽出することを特徴とする請求の範囲第1項~第4項のいずれか一項に記載の文書読み取り装置。
前記文書に付されたマーキングを特定の波長の光あるいは熱により消去する消去手段を備えたことを特徴とする請求の範囲第1項~第5項のいずれか一項に記載の文書読み取り装置。
前記文字切り出し手段により切り出される文字がないマーキング領域が存在した場合、前記制御手段は、そのマーキング領域が存在する頁を前記文書の先頭頁として認識する
ことを特徴とする請求の範囲第1項~第6項のいずれか一項に記載の文書読み取り装置。
前記マーキング領域抽出手段により抽出されたマーキング領域が存在する場合、前記制御手段は、そのマーキング領域が存在する頁を前記文書の先頭頁として認識することを特徴とする請求の範囲第1項~第6項のいずれか一項に記載の文書読み取り装置。
前記マーキング領域抽出手段により抽出されたマーキング領域が複数存在する場合、前記制御手段は、前記文字認識手段で認識された複数のマーキング領域での文字を、所定の取り決めに基づいて結合し、結合された文字を前記読み取りデータのファイル名として付与することを特徴とする請求の範囲第1項~第8項のいずれか一項に記載の文書読み取り装置。
Description:
文書読み取り装置

 本発明は、1枚以上の紙原稿からなる文書 を複数部に亘って効率的に電子化する技術に 関する。

 近年、1枚以上の紙原稿からなる文書を複 数部に亘って効率的に電子化する場合、自動 給紙機能を持つ文書画像読取装置(ADFを備え スキャナ)を用いて当該原稿を連続的に読み る処理が広く行われている。その際、読み った文書毎に、異なるファイル名を付与す 必要がある。

 一般的には、読み取り時の時分秒単位の 間をファイル名にするものが多い。また、 の手法として、文書の内容を文字認識によ 文字化し、文書における先頭行の文字列を 動的にファイル名として付与するものもあ 。

 しかし、時刻などを用いた場合において 、ファイル名からその文書の内容が想起で ず、後で利用する際に不便である。また、 書における先頭行の文字列をファイル名に た場合においても、必ずしも先頭行の文字 がその文書に適したファイル名であるとは らない。

 なお、以上のような問題の解決手段として 例えば下記の特許文献のようなものがある

特開2000-35908号公報

特開平08―212196号公報

特開2004―192499号公報

特開2006-163835号公報

特開2002―189984号公報

 特許文献1は、ファイル名の自動的生成に ついて開示している。例えば、生成した文書 の先頭部から「B社見積書」などのキーワー を抽出し、文書の生成日付{980310}とその日に 生成した文書中での文書番号{003}や、作成者 鈴木太郎」を合成して、ファイル名「B社見 積書-980310-003-鈴木太郎」を作成する。しかし 、必ずしも内容を想起されるようなファイル 名になるとは限らないという問題がある。

 また、特許文献2は、保存時にタブレット 機構などで手書き入力されたファイル名を利 用することについて開示している。しかし、 手書きで入力する手間がかかるという問題や 複数文書を処理する場合に作業負荷が大きく なり、実用性が低いという問題がある。

 また、特許文献3は、過去文書管理装置で 使用したファイル名やコメントのリストを表 示し、ユーザはそのリストを元に追加編集し ファイル名やコメントとすることについて開 示している。しかし、内容が新規な文書の場 合、一から入力するのと変わらず、入力する 手間がかかるという問題や複数文書を処理す る場合、作業負荷が大きくなるという問題が ある。

 また、特許文献4は、自動に付与されたフ ァイル名を効率的に変更する方法について開 示している。しかし、ファイル名を効率的に 変更するものであっても、変更する手間がか かる問題がある。

 また、特許文献5は、特定の領域を読み取 るための指定の技術が記載されているものの 、ファイル名の付与に関しては何ら記載され ていない。

 本発明は、以上のような課題を解決する めになされたものであって、読み取った文 の内容を想起できるファイル名を読み取り に付与できる文書読み取り装置を実現する とを目的とする。また、複数文書を処理す 場合にも、複数文書それぞれに自動的にフ イル名を付与できる文書読み取り装置を実 することを目的とする。

 以上の課題を解決する本発明は、以下に 載するようなものである。

 (1)請求の範囲第1項記載の発明は、文書を 読み取って読み取りデータを生成する文字読 み取り手段と、前記文書においてマーキング されたマーキング領域を前記読み取りデータ の中から抽出するマーキング領域抽出手段と 、前記マーキング領域抽出手段により抽出さ れたマーキング領域内の文字を切り出す文字 切出し手段と、前記文字切出し手段により切 り出された文字を認識する文字認識手段と、 前記文字認識手段により認識された文字を、 前記文字読み取り手段により生成された前記 読み取りデータのファイル名として付与する 制御手段と、を備えたことを特徴とする文書 読み取り装置である。

 (2)請求の範囲第2項記載の発明は、前記マ ーキング領域抽出手段は色判別手段を備え、 前記色判別手段は、前記読み取りデータにお ける色成分の相違に基づいて、前記マーキン グ領域を抽出することを特徴とする請求の範 囲1記載の文書読み取り装置である。

 (3)請求の範囲第3項記載の発明は、前記文 書読み取り手段により生成された前記読み取 りデータを処理する画像処理手段を備え、前 記画像処理手段は、前記マーキング領域抽出 手段により抽出されたマーキングの色を除外 した状態の前記読み取りデータを保存用の読 み取りデータとすることを特徴とする請求の 範囲第1項又は第2項に記載の文書読み取り装 である。

 (4)請求の範囲第4項記載の発明は、前記マ ーキング領域抽出手段は、マーキングされた 透明シートの読み取りデータから前記マーキ ング領域を抽出しておき、その透明シートの 次に前記読み取り手段で読み取られた文書の 読み取りデータの中から前記マーキング領域 を抽出することを特徴とする請求の範囲第1 ~第3項のいずれか一項に記載の文書読み取り 装置である。

 (5)請求の範囲第5項記載の発明は、前記文 字読み取り手段は、可視光以外の成分の読み 取りが可能に構成されており、前記マーキン グ領域抽出手段は、前記読み取りデータに含 まれる可視光以外の成分から前記マーキング 領域を抽出することを特徴とする請求の範囲 第1項~第4項のいずれか一項に記載の文書読み 取り装置である。

 (6)請求の範囲第6項記載の発明は、前記文 書に付されたマーキングを特定の波長の光あ るいは熱により消去する消去手段を備えたこ とを特徴とする請求の範囲第1項~第5項のいず れか一項に記載の文書読み取り装置である。

 (7)請求の範囲第7項記載の発明は、前記文 字切り出し手段により切り出される文字がな いマーキング領域が存在した場合、前記制御 手段は、そのマーキング領域が存在頁を前記 文書の先頭頁として認識することを特徴とす る請求の範囲第1項~第6項のいずれか一項に記 載の文書読み取り装置である。

 (8)請求の範囲第8項記載の発明は、前記マ ーキング領域抽出手段により抽出されたマー キング領域が存在する場合、前記制御手段は 、そのマーキング領域が存在する頁を前記文 書の先頭頁として認識することを特徴とする 請求の範囲第1項~第6項のいずれか一項に記載 の文書読み取り装置である。

 (9)請求の範囲第9項記載の発明は、前記マ ーキング領域抽出手段により抽出されたマー キング領域が複数存在する場合、前記制御手 段は、前記文字認識手段で認識された複数の マーキング領域での文字を、所定の取り決め に基づいて結合し、結合された文字を前記読 み取りデータのファイル名として付与するこ とを特徴とする請求の範囲第1項~第8項のいず れか一項に記載の文書読み取り装置である。

 本発明の文書読み取り装置によると以下 ような効果が得られる。

 (1)請求の範囲第1項記載の発明では、利用 者が、所望の文字列をマーキングしておくこ とで、読み取った文書の内容を想起できるフ ァイル名を読み取り時に付与できる。

 (2)請求の範囲第2項記載の発明では、利用 者が、所望の文字列を、所定の色でマーキン グしておくことで、誤動作無くマーキングが 抽出されるため、読み取った文書の内容を想 起できるファイル名を読み取り時に付与でき る。

 (3)請求の範囲第3項記載の発明では、利用 者が、所望の文字列をマーキングしておくこ とで、読み取った文書の内容を想起できるフ ァイル名を読み取り時に付与でき、マーキン グそのものの跡が読み取りデータに残らなく なる。

 (4)請求の範囲第4項記載の発明では、利用 者が、所望の文字列に該当する位置を、直前 の透明シートでマーキングしておくことで、 読み取った文書の内容を想起できるファイル 名を読み取り時に付与できるようになり、マ ーキングそのものの跡が読み取りデータに残 らなくなる。また、透明シートを用いた場合 は、各種の手法で透明シート上のマーキング を消去することで、この透明シートを再利用 することが可能になる。なお、透明シートと は、文字通り透明なシートだけでなく、若干 の透明性を有する半透明シートなどを含むも のとする。

 (5)請求の範囲第5項記載の発明では、利用 者が、所望の文字列を可視光以外で読み取り 可能な状態(紫外線による蛍光など)でマーキ グしておくことで、読み取った文書の内容 想起できるファイル名を読み取り時に付与 きるようになり、マーキングそのものの跡 読み取りデータに残らなくなる。

 (6)請求の範囲第6項記載の発明では、利用 者が特定の波長の光や熱を照射することで退 色したり分解反応が進行するインクを使用し てマーキングしておいて、マーキング領域の 抽出や文字認識が完了した後に、特定の波長 の光や熱を照射することで、マーキングその ものの跡が文書に残らなくなる。この結果、 文書を元通りにすることが可能になる。

 また、利用者が、所望の文字列をマーキ グしておくことで、読み取った文書の内容 想起できるファイル名を読み取り時に付与 きるようになる。

 (7)請求の範囲第7項記載の発明では読み取 った文書の内容を想起できるファイル名を読 み取り時に付与でき、複数文書を処理する場 合にも、複数文書それぞれに自動でファイル 名を付与できるようになる。

 (8)請求の範囲第8項記載の発明では、読み 取った文書の内容を想起できるファイル名を 読み取り時に付与でき、複数文書を処理する 場合にも、複数文書それぞれに自動でファイ ル名を付与できるようになる。

 (9)請求の範囲第9項記載の発明では、利用 者が、所望の文字列をマーキングしておくこ とで、読み取った文書の内容を想起できるフ ァイル名を読み取り時に付与できるようにな る。

本発明の実施形態の構成を示すブロッ 図である。 本発明の実施形態の動作を示すフロー ャートである。 本発明の実施形態の動作を示すフロー ャートである。 本発明の実施形態の動作を示すフロー ャートである。 本発明の実施形態の動作を示すフロー ャートである。 本発明の実施形態の動作を示す説明で る。

符号の説明

 100 文書読み取り装置
 101 制御手段
 110 記憶手段
 120 文書読み取り手段
 130 マーキング領域抽出手段
 140 文字切り出し手段
 150 文字認識手段
 160 画像処理手段
 170 消去手段

 以下、図面を参照して本発明を実施する めの最良の形態(以下、実施形態)を詳細に 明する。

 (1)文書読み取り装置の構成:
 図1は本発明の第1の実施形態の文書読み取 装置100内の詳細構成を示すブロック図であ 。

 なお、この図1では、本実施形態の動作説 明に必要な部分の周囲を中心に記載してあり 、その他の文書読み取り装置100として既知の 電源スイッチ、電源回路などの各種の部分に ついては省略してある。

 本実施形態の文書読み取り装置100は、各 を制御すると共に読み取りデータに所定の ァイル名を付与する制御手段101と、読み取 データを記憶する記憶手段110と、文書を光 的に読み取って読み取りデータを生成する キャナなどの文書読み取り手段120と、文書 おいてマーキングされたマーキング領域を み取りデータの中から抽出するマーキング 域抽出手段130と、マーキング領域抽出手段1 30により抽出されたマーキング領域内の文字 切り出す文字切出し手段140と、文字切出し 段140で切り出された文字を認識する文字認 手段150と、読み取りデータを処理すると共 マーキング領域抽出手段で抽出されたマー ングの色を除外した状態の読み取りデータ 保存用の読み取りデータとする画像処理を 行する画像処理手段160と、文書に付された ーキングを特定の波長の光あるいは熱によ 消去する消去手段170と、を備えて構成され いる。

 (2)文書読み取り装置の動作(1):
 以下、図2のフローチャートを参照して、本 実施形態の文書の読み取り時の動作説明を行 う。

 文書読み取り装置100の利用者は、文書の ァイル名(タイトル)にしたいところを、所 の色のマーカによってマーキングした1つの 書を用意し、文書読み取り装置100の給紙ト イにセットする。

 たとえば、図6のような書類1で、挨拶文 内容であるので、文頭の「ご挨拶」の部分 マーキングしておく。

 そして、文書読み取り装置100において、 み取り開始のスイッチを操作し、文書を自 給紙機能によりスキャンさせる。給紙トレ に文書があれば(図2中のステップS201でY)、 書読み取り手段120が文書を1頁分ずつ読み取 て、読み取りデータを生成する(図2中のス ップS202)。この読み取りデータは、この時点 では、制御手段101を介して記憶手段110に一時 的にテンポラリファイルとして記憶される。

 なお、文書読み取り手段120から出力され 読み取りデータとは、一般的にはスキャナ どから出力される画像データに相当するも である。

 ここで、マーキング領域抽出手段130が、 み取りデータの中から所定の色の判別を行 て、文書においてマーキングされたマーキ グ領域を抽出する(図2中のステップS203)。マ ーキング領域が抽出されなければ(図2中のス ップS203でN)、次の頁の読み取りを実行する( 図2中のステップS201、S202)。

 この場合、マーキングの色は、予め特定 色が指定されていてもよいし、有彩色全般 無彩色以外、白と黒以外(有彩色とグレー) 黄色以外の有彩色、などという指定であっ もよい。

 ここで、マーキング領域抽出手段130によ てマーキング領域が抽出されれば(図2中の テップS203でY)、文字切り出し手段140がマー ング領域内の文字を切り出す(図2中のステッ プS204)。

 この文字切り出し手段140で切り出された 字(文字列)は文字認識手段150に渡される。

 文字認識手段150では、切り出された文字 パターン認識処理や文字認識処理などによ て認識する(図2中のステップS205)。このよう にして認識された文字列は、ファイル名の候 補として制御手段101に渡される。

 マーキング領域内に切り出し済みの文字 がなければ(図2中のステップS206でN)、マー ング領域の抽出動作(図2中のステップS203)に り、文字列の切り出し(図2中のステップS204) 、文字列の認識(図2中のステップS205)とを繰 返す。

 新たに切り出して認識した文字列のほか 、既に切り出し済みの文字列があれば(図2 のステップS206でY)、これらの認識された文 列を、制御手段101が結合する(図2中のステッ プS207)。そして、マーキング領域の抽出動作( 図2中のステップS203)に戻り、未処理のマーキ ングがなくなるまで以上の処理を繰り返す。

 なお、マーキングがあった場合、その領 を検出し、その中の文字列を切り出して、 字認識を行う一連の処理に関しては、特開2 002―189984号公報などに記載された手法を用い ることも可能である。

 そして、以上の動作を繰り返し、一連の 書の全頁をスキャンしたら(図2中のステッ S201でN)、制御手段101は、認識された文字列 あるいは結合された文字列をファイル名と て付与し、全頁の文書の読み取りデータを 憶手段110に保存する(図2中のステップS208)。 お、読み取りデータは、予め定められた、 るいは、利用者から指定された形式(PDF,JPEG, TIFF,GIFなど)で保存される。

 ここで、複数のマーキング領域で切り出 れ認識された文字列が存在する場合、切り された順に直接結合してもよいし、アンダ バーやハイフンを介して接続してもよい。 た、数字の文字列や数字以外の文字列など 存在する場合には、予め定められた所定の 序で結合を行うようにしてもよい(例えば、 数字の次に数字以外の文字を結合する)。

 このため、利用者が所望の文字列をマー ングしておくことで、読み取った文書の内 を想起できるファイル名を読み取り時に付 できるようになる。

 図6のような書類1の場合には、文頭の「 挨拶」の部分をマーキングしておいたため ファイル名は「ご挨拶」となる。

 なお、マーカは通常の可視光であっても いし、蛍光であってもよい。また、可視光 透明であって、紫外線などの特定励起光で 光を発して認識可能になるインクを用いる とも可能である。このような可視光で透明 マーキングとすることで、見かけ上、文書 跡を残すことが無く、望ましい。

 また、画像処理手段160で色判別を行って 利用者から指定された色のマーカをファイ 名付与に用いることが可能である。これに り、誤動作無くマーキングが抽出されるた 、読み取った文書の内容を想起できるファ ル名を読み取り時に付与できるようになる

 (3)文書読み取り装置の動作(2):
 以下、図3のフローチャートを参照して、本 実施形態の文書の読み取り時の動作説明を行 う。

 文書読み取り装置100の利用者は、文書の ァイル名(タイトル)にしたいところを、所 の色のマーカによってマーキングした1つの 書を用意し、文書読み取り装置100の給紙ト イにセットする。

 そして、文書読み取り装置100において、 み取り開始のスイッチを操作し、文書を自 給紙機能によりスキャンさせる。給紙トレ に文書があれば(図3中のステップS301でY)、 書読み取り手段120が文書を1頁分ずつ読み取 て、読み取りデータを生成する(図3中のス ップS302)。この読み取りデータは、この時点 では、制御手段101を介して記憶手段110に一時 的にテンポラリファイルとして記憶される。

 ここで、マーキング領域抽出手段130が、 み取りデータの中から所定の色の判別を行 て、文書においてマーキングされたマーキ グ領域を抽出する(図3中のステップS303)。マ ーキング領域が抽出されなければ(図3中のス ップS303でN)、次の頁の読み取りを実行する( 図3中のステップS301)。

 ここで、マーキング領域抽出手段130によ てマーキング領域が抽出されれば(図3中の テップS303でY)、その抽出されたマーキング 域が最初のものであるか否かが制御手段101 画像処理手段160とによって判断される(図3中 のステップS304)。

 最初のマーキング領域であれば(図3中の テップS304でY)、そのマーキングの色が画像 理手段160で認識され、除去すべきドロップ ウトカラーとして制御手段101が指定を行う( 3中のステップS305)。

 そして、最初のマーキング領域であれば( 図3中のステップS304でY)ドロップアウトカラ としての認識(図3中のステップS305)後、また 最初のマーキング領域でない場合も(図3中 ステップS304でN)、文字切り出し手段140がマ キング領域内の文字を切り出す(図3中のステ ップS306)。

 この文字切り出し手段140で切り出された 字(文字列)は文字認識手段150に渡される。

 文字認識手段150では、切り出された文字 パターン認識処理や文字認識処理などによ て認識する(図3中のステップS307)。このよう にして認識された文字列は、ファイル名の候 補として制御手段101に渡される。

 マーキング領域内に切り出し済みの文字 がなければ(図3中のステップS308でN)、マー ング領域の抽出動作(図3中のステップS303)に り、文字列の切り出し(図3中のステップS304) 以降の処理を繰り返す。

 新たに切り出して認識した文字列のほか 、既に切り出し済みの文字列があれば(図3 のステップS308でY)、これらの認識された文 列を、制御手段101が結合する(図3中のステッ プS309)。そして、マーキング領域の抽出動作( 図3中のステップS303)に戻り、未処理のマーキ ングがなくなるまで以上の処理を繰り返す。

 そして、以上の動作を繰り返し、一連の 書の全頁をスキャンしたら(図3中のステッ S301でN)、読み取りデータに含まれるドロッ アウトカラーを画像処理手段160で除去し(図3 中のステップS310)、制御手段101は、認識され 文字列、あるいは結合された文字列をファ ル名として付与し、全頁の文書の読み取り ータを記憶手段110に保存する(図3中のステ プS311)。なお、読み取りデータは、予め定め られた、あるいは、利用者から指定された形 式(PDF,JPEG,TIFF,GIFなど)で保存される。

 ここで、複数のマーキング領域で切り出 れ認識された文字列が存在する場合、切り された順に直接結合してもよいし、アンダ バーやハイフンを介して接続してもよい。 た、数字の文字列や数字以外の文字列など 存在する場合には、予め定められた所定の 序で結合してもよい(例えば数字の次に数字 以外の文字を結合する)。

 ここでは、画像処理により、ファイル名 与に使用されたマーキングの色については 去されるため、それ以外の通常のマーカな は残されたまま、読み取りデータが保存さ る。

 このため、利用者が所望の文字列をマー ングしておくことで、読み取った文書の内 を想起できるファイル名を読み取り時に付 できるようになり、マーキングそのものの が読み取りデータに残らなくなる。

 (4)文書読み取り装置の動作(3):
 以下、図4のフローチャートを参照して、本 実施形態の文書の読み取り時の動作説明を行 う。

 文書読み取り装置100の利用者は、文書の ァイル名(タイトル)にしたいところを、所 の色のマーカによってマーキングした1つの 書を用意し、文書読み取り装置100の給紙ト イにセットする。

 なお、この実施形態では、熱あるいは特 の波長の光の照射によって、色素が消滅あ いは退色するインクで作成されたマーカを いることにする。

 そして、文書読み取り装置100において、 み取り開始のスイッチを操作し、文書を自 給紙機能によりスキャンさせる。給紙トレ に文書があれば(図4中のステップS401でY)、 書読み取り手段120が文書を1頁分ずつ読み取 て、読み取りデータを生成する(図4中のス ップS402)。この読み取りデータは、この時点 では、制御手段101を介して記憶手段110に一時 的にテンポラリファイルとして記憶される。

 そして、制御手段101の指示に基づいて消 手段170が文書に対して特定の波長の光また 熱を加えられる(図4中のステップS403)。その 結果、マーキングがある文書に対しては、マ ーキングが消去される。

 ここで、マーキング領域抽出手段130が、 み取りデータの中から所定の色の判別を行 て、文書においてマーキングされたマーキ グ領域を抽出する(図4中のステップS404)。マ ーキング領域が抽出されなければ(図4中のス ップS404のN)、次の頁の読み取りを実行する( 図4中のステップS401、S402)。

 ここで、マーキング領域抽出手段130によ てマーキング領域が抽出されれば(図4中の テップS404でY)、文字切り出し手段140がマー ング領域内の文字を切り出す(図4中のステッ プS405)。

 この文字切り出し手段140で切り出された 字(文字列)は文字認識手段150に渡される。

 文字認識手段150では、切り出された文字 パターン認識処理や文字認識処理などによ て認識する(図4中のステップS406)。このよう にして認識された文字列は、ファイル名の候 補として制御手段101に渡される。

 マーキング領域内に切り出し済みの文字 がなければ(図4中のステップS407でN)、マー ング領域の抽出動作(図4中のステップS404)に り、文字列の切り出し(図4中のステップS405) 、文字列の認識(図4中のステップS406)とを繰 返す。

 新たに切り出して認識した文字列のほか 、既に切り出し済みの文字列があれば(図4 のステップS407でY)、これらの認識された文 列を、制御手段101が結合する(図4中のステッ プS408)。そして、マーキング領域の抽出動作( 図4中のステップS404)に戻り、未処理のマーキ ングがなくなるまで以上の処理を繰り返す。

 なお、マーキングがあった場合、その領 を検出し、その中の文字列を切り出して、 字認識を行う一連の処理に関しては、特開2 002―189984号公報などに記載された手法を用い ることも可能である。

 そして、以上の動作を繰り返し、一連の 書の全頁をスキャンしたら(図4中のステッ S401でN)、制御手段101は、認識された文字列 あるいは結合された文字列をファイル名と て付与し、全頁の文書の読み取りデータを 憶手段110に保存する(図4中のステップS409)。 お、読み取りデータは、予め定められた、 るいは、利用者から指定された形式(PDF,JPEG, TIFF,GIFなど)で保存される。

 ここで、複数のマーキング領域で切り出 れ認識された文字列が存在する場合、切り された順に直接結合してもよいし、アンダ バーやハイフンを介して接続してもよい。 た、数字の文字列や数字以外の文字列など 存在する場合には、予め定められた所定の 序で結合してもよい(例えば数字の次に数字 以外の文字を結合する)。

 このため、利用者が所望の文字列をマー ングしておくことで、読み取った文書の内 を想起できるファイル名を読み取り時に付 できるようになり、また、マーキングその のの跡が文書に残らなくなる。この結果、 書を元通りにすることが可能になる。

 なお、特定波長で消えるインクとしては 例えば、特開平05-185588号公報に記載されて るような紫外線照射で消える(退色する、あ るいは、分解反応が進行する)インクを使用 ることができる。

 また、熱で消えるインクとしては、例え 、特開平09-288713号公報や、特開2001-171213号 報に記載されているような、所定の熱(温度) により分解反応が進行して退色するインクを 用いることができる。

 (5)文書読み取り装置の動作(4):
 以下、図5のフローチャートを参照して、本 実施形態の文書の読み取り時の動作説明を行 う。

 文書読み取り装置100の利用者は、文書の ァイル名(タイトル)にしたいところを、所 の色のマーカによってマーキングした複数 文書を用意し、文書読み取り装置100の給紙 レイにセットする。

 なお、この実施形態では、異なるタイト を付したい複数の文書を給紙トレイにセッ する。その際、異なる文書の先頭頁には、 白(文字列なし)のマーキングを行っておく

 そして、文書読み取り装置100において、 み取り開始のスイッチを操作し、文書を自 給紙機能によりスキャンさせる。給紙トレ に文書があれば(図5中のステップS501でY)、 書読み取り手段120が文書を1頁分ずつ読み取 て、読み取りデータを生成する(図5中のス ップS502)。この読み取りデータは、この時点 では、制御手段101を介して記憶手段110に一時 的にテンポラリファイルとして記憶される。

 ここで、マーキング領域抽出手段130が、 み取りデータの中から所定の色の判別を行 て、文書においてマーキングされマーキン 領域を抽出する(図5中のステップS503)。マー キング領域が抽出されなければ(図5中のステ プS503でN)、次の頁の読み取りを実行する(図 5中のステップS501)。

 ここで、マーキング領域抽出手段130によ てマーキング領域が抽出されれば(図5中の テップS503でY)、文字切り出し手段140がマー ング領域内の文字を切り出す(図5中のステッ プS504)。

 ここで、マーキング領域内が空白であれ 、前頁までの読み取りデータについて、既 切り出され認識された文字列をファイル名 して付与し、制御手段101が記憶手段110に保 する(図5中のステップS506)。なお、読み取り データは、予め定められた、あるいは、利用 者から指定された形式(PDF,JPEG,TIFF,GIFなど)で 存される。

 なお、連続処理を実行するため、それま の文字列をクリアし、かつ、読み取りを行 ている現頁を先頭頁として処理を続行する( 図5中のステップS508)。

 ここで、マーキング領域内の文字が通常 文字であれば(図5中のステップS505でY)、こ 文字切り出し手段140で切り出された文字(文 列)は文字認識手段150に渡される。

 文字認識手段150では、切り出された文字 パターン認識処理や文字認識処理などによ て認識する(図5中のステップS509)。このよう にして認識された文字列は、ファイル名の候 補として制御手段101に渡される。

 マーキング領域内に切り出し済みの文字 がなければ(図5中のステップS510でN)、マー ング領域の抽出動作(図5中のステップS503)に り、文字列の切り出し(図5中のステップS504) 、文字列の認識(図5中のステップS509)とを繰 返す。

 新たに切り出して認識した文字列のほか 、既に切り出し済みの文字列があれば(図5 のステップS510でY)、これらの認識された文 列を、制御手段101が結合する(図5中のステッ プS511)。そして、マーキング領域の抽出動作( 図5中のステップS503)に戻り、未処理のマーキ ングがなくなるまで以上の処理を繰り返す。

 なお、マーキングがあった場合、その領 を検出し、その中の文字列を切り出して、 字認識を行う一連の処理に関しては、特開2 002―189984号公報などに記載された手法を用い ることも可能である。

 そして、以上の動作を繰り返し、一連の 書の全頁をスキャンしたら(図5中のステッ S501でN)、制御手段101は、認識された文字列 あるいは結合された文字列をファイル名と て付与し、全頁の文書の読み取りデータを 憶手段110に保存する(図5中のステップS512)。 お、読み取りデータは、予め定められた、 るいは、利用者から指定された形式(PDF,JPEG, TIFF,GIFなど)で保存される。

 ここで、複数のマーキング領域で切り出 れ認識された文字列が存在する場合、切り された順に直接結合してもよいし、アンダ バーやハイフンを介して接続してもよい。 た、数字の文字列や数字以外の文字列など 存在する場合には、予め定められた所定の 序で結合してもよい(例えば数字の次に数字 以外の文字を結合する)。

 このため、利用者が所望の文字列をマー ングしておくことで、読み取った文書の内 を想起できるファイル名を読み取り時に付 できるようになる。

 そして、これにより、読み取った文書の 容を想起できるファイル名を読み取り時に 与でき、複数文書を処理する場合にも、複 文書それぞれに自動でファイル名を付与で るようになる。

 なお、以上の実施形態では、給紙トレイ 文書があるかぎり、処理を繰り返すので、 数の文書を連続して異なるファイル名を付 しつつ保存することが可能になる。

 (5)その他:
 以上の実施形態の説明では、文書の用紙に ーカでマーキングをする具体例であった。 れに対し、マーキング領域とすべき領域を む文書の1枚前に透明シートあるいは半透明 シートをおき、文書のマーキング領域に該当 する位置で透明シートあるいは半透明シート にマーキングだけを施しておくことも可能で ある。

 この場合、マーキングされた透明シート るいは半透明シートとその直後の文書の頁 からマーキング領域を抽出し、ファイル名 することが可能である。

 このため、利用者が、所望の文字列に該 する位置を、直前の透明シートあるいは半 明シートでマーキングしておくことで、読 取った文書の内容を想起できるファイル名 読み取り時に付与できるようになり、マー ングそのものの跡が読み取りデータに残ら くなる。

 また、透明シートあるいは半透明シート 用いてマーキングした場合は、水や有機溶 を用いたマーキングの拭き取り、熱や光で 去可能なインクを用いておいて消去手段170 消去することなどにより、このシートを再 用することが可能になる。

 また、透明シートあるいは半透明シート 、可視光では見えないマーカを用いてマー ングすることも可能である。

 なお、以上の実施形態の各部は、スキャ などの読み取り装置に内蔵させてもよいし スキャナとコンピュータとの両方で実現し もよい。

 また、スキャナとコンピュータとの間に む専用のファイル名付与装置として構成し もよい。

 なお、以上の全ての実施形態において、 ーカによるマーキングとは、一般的にマー として販売されているラインマーカによる ーキングだけでなく、色鉛筆による囲み(マ ーキング)、赤や青の油性あるいは水性ボー ペンや万年筆による囲み(マーキング)などで あってもよいものとする。

 また、マーカによるマーキングとしては 矩形など、特定の形状を抽出するように指 することも可能である。このようにするこ により、下線や丸囲みなどのマーキングに 応することが無くなり、所望のファイル名 誤動作なく付与することが可能になる。

 また、逆に、ファイル名として抽出・認 するマーカによるマーキングとして、マー ングの形状、すなわち、矩形、丸囲み、下 、のいずれか、あるいは、全てを指定して いて、文字列の切り出しや認識を行わせる とも可能である。これにより、利用者の使 やすい状況に設定することが可能になる。

 また、ファイル名として抽出・認識する ーカによるマーキングとして、マーキング 色と形状との両方を指定することも可能で り、このようにすることにより、既に存在 る他のマーキングとの区別が可能になり、 動作せずに所望のファイル名を付与するこ が可能になる。