Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
TEXT SEGMENTATION DEVICE, TEXT SEGMENTATION METHOD, AND PROGRAM
Document Type and Number:
WIPO Patent Application WO/2009/084554
Kind Code:
A1
Abstract:
A device, method, and program which precisely and properly segment an inputted text into desired topic units. The device is provided with a model base topic segmentation means (102) which segments the text using a topic model expressing a semantical group when segmenting the text by each topic, a parameter estimation means (103) which estimates a control parameter in the case of segmenting the text on the basis of the change-point detection of word distribution within the text with the result of the segmentation obtained by the model base topic segmentation means as an instructor, and a change-point detection topic segmentation means (104) which segments the text on the basis of the change-point detection of the word distribution within the text using the parameter estimated by the parameter estimation means.

Inventors:
TERAO MAKOTO (JP)
KOSHINAKA TAKAFUMI (JP)
Application Number:
PCT/JP2008/073502
Publication Date:
July 09, 2009
Filing Date:
December 25, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NEC CORP (JP)
TERAO MAKOTO (JP)
KOSHINAKA TAKAFUMI (JP)
International Classes:
G06F17/30
Domestic Patent References:
WO2005069158A22005-07-28
Foreign References:
JP2007052307A2007-03-01
JP2005167452A2005-06-23
Other References:
"Proc. of the 32nd Annual Meeting on Association for Computational Linguistics", 1994, article MARTI HEARST: "Multi-Paragraph Segmentation of Expository Text", pages: 9 - 16, XP058159261, DOI: doi:10.3115/981732.981734
Attorney, Agent or Firm:
KATO, Asamichi (20-12 Shin-Yokohama 3-chomeKohoku-ku, Yokohama-shi, Kanagawa 33, JP)
Download PDF:
Claims:
 テキストを複数の区間に分割する装置であって、
 前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定手段と、
 前記パラメータ推定手段で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割手段と、
 を備えたことを特徴とするテキスト分割装置。
 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段と、
 前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割手段と、をさらに備え、
 前記モデルベース話題分割手段による前記テキストの分割結果が、前記テキストに付与された分割結果として、前記パラメータ推定手段に提供され、前記パラメータ推定手段は、前記モデルベース話題分割手段による前記テキストの分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項1に記載のテキスト分割装置。
 前記モデルベース話題分割手段は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
 前記パラメータ推定手段は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段で用いる前記パラメータを推定する、ことを特徴とする請求項2に記載のテキスト分割装置。
 前記パラメータ推定手段は、前記変化点検出話題分割手段による前記テキストの分割対象区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項3に記載のテキスト分割装置。
 前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割手段による分割結果を出力し、
 前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割手段による分割結果を出力する分割結果統合手段をさらに備えたことを特徴とする請求項3又は4に記載のテキスト分割装置。
 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
 前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項3に記載のテキスト分割装置。
 前記モデルベース話題分割手段は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項6に記載のテキスト分割装置。
 前記モデルベース話題分割手段は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項3に記載のテキスト分割装置。
 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割手段による前記分割結果を教師として、前記変化点検出話題分割手段が前記区間を分割する際に用いるパラメータを推定し、
 前記変化点検出話題分割手段は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定手段が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項4に記載のテキスト分割装置。
 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による前記テキストの前記分割対象区間と定める分割対象区間決定手段をさらに備え、
 前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項4に記載のテキスト分割装置。
 前記パラメータ推定手段は、前記モデルベース話題分割手段による分割結果を正解とみなしたときに、前記変化点検出話題分割手段による分割結果に関する分割正解精度が大となるように、前記パラメータを推定する、ことを特徴とする請求項2に記載のテキスト分割装置。
 テキストを複数の区間に分割する方法であって、
 前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定工程と、
 前記パラメータ推定工程で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割工程と、
 を含むことを特徴とするテキスト分割方法。
 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割するモデルベース話題分割工程をさらに含み、
 前記モデルベース話題分割工程による前記テキストの分割結果が、前記テキストに付与された分割結果として、前記パラメータ推定工程に提供され、前記パラメータ推定工程は、前記モデルベース話題分割工程による前記テキストの分割結果を教師として、前記変化点検出話題分割工程で用いる前記パラメータを推定する、ことを特徴とする請求項12に記載のテキスト分割方法。
 前記モデルベース話題分割工程は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
 前記パラメータ推定工程は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割工程による前記分割結果を教師として、前記変化点検出話題分割工程で用いる前記パラメータを推定する、ことを特徴とする請求項13に記載のテキスト分割方法。
 前記パラメータ推定工程は、前記変化点検出話題分割工程による前記テキストの分割対象区間から所定の範囲内において、前記モデルベース話題分割工程による前記分割結果を教師として、前記変化点検出話題分割工程が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項14に記載のテキスト分割方法。
 前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割工程による分割結果を出力し、
 前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割工程による分割結果を出力する分割結果統合工程をさらに備えたことを特徴とする請求項14又は15に記載のテキスト分割方法。
 前記モデルベース話題分割工程は、前記話題モデル記憶工程に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
 前記話題モデル記憶工程に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項14に記載のテキスト分割方法。
 前記モデルベース話題分割工程は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶工程に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項17に記載のテキスト分割方法。
 前記モデルベース話題分割工程は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項14に記載のテキスト分割方法。
 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定工程は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割工程による前記分割結果を教師として、前記変化点検出話題分割工程が前記区間を分割する際に用いるパラメータを推定し、
 前記変化点検出話題分割工程は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定工程が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項15に記載のテキスト分割方法。
 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割工程による前記テキストの前記分割対象区間と定める分割対象区間決定工程をさらに含み、
 前記変化点検出話題分割工程は、前記分割対象区間決定工程が定めた前記分割対象区間を分割する、ことを特徴とする請求項15に記載のテキスト分割方法。
 前記パラメータ推定工程は、前記モデルベース話題分割工程による分割結果を正解とみなしたときに、前記変化点検出話題分割工程による分割結果に関する分割正解精度が大となるように、前記パラメータを推定する、ことを特徴とする請求項13に記載のテキスト分割方法。
 テキストを複数の区間に分割するコンピュータに、
 前記テキストに付与された分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定処理と、
 前記パラメータ推定処理で推定された前記パラメータを用いて、前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割処理と、
 を実行させるプログラム。
 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段を参照し、前記話題モデルを用いて前記テキストを話題に対応させて分割し、前記テキストの分割結果を、前記テキストに付与された分割結果として、前記パラメータ推定処理に提供するモデルベース話題分割処理と、
 前記パラメータ推定処理として、前記モデルベース話題分割処理による前記テキストの分割結果を教師として、前記変化点検出話題分割処理で用いる前記パラメータを推定する処理と、
 を前記コンピュータに実行させる請求項23に記載のプログラム。
 前記モデルベース話題分割処理は、前記テキストの分割の確からしさを表す分割信頼度を、前記テキストを話題に対応させて分割した少なくとも1つの区間に対して出力し、
 前記パラメータ推定処理は、前記分割信頼度の相対的に高い区間において、前記モデルベース話題分割処理による前記分割結果を教師として、前記変化点検出話題分割処理で用いる前記パラメータを推定する、ことを特徴とする請求項24に記載のプログラム。
 前記パラメータ推定処理は、前記変化点検出話題分割処理による前記テキストの分割対象区間から所定の範囲内において、前記モデルベース話題分割処理による前記分割結果を教師として、前記変化点検出話題分割処理が前記分割対象区間を分割する際に用いるパラメータを推定する、ことを特徴とする請求項25に記載のプログラム。
 前記テキストを分割した複数の区間のうち、前記分割信頼度の相対的に高い区間においては、前記モデルベース話題分割処理による分割結果を出力し、
 前記分割信頼度の相対的に低い区間においては、前記変化点検出話題分割処理による分割結果を出力する分割結果統合処理を、さらに前記コンピュータに実行させる請求項25又は26に記載のプログラム。
 前記モデルベース話題分割処理は、前記話題モデル記憶処理に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に高く出力し、
 前記話題モデル記憶処理に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項25に記載のプログラム。
 前記モデルベース話題分割処理は、前記テキストにおいて、特定の話題を表さないガーベジモデルとマッチした区間を、前記話題モデル記憶処理に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する区間と判定し、前記区間について前記分割信頼度を相対的に低く出力する、ことを特徴とする請求項28に記載のプログラム。
 前記モデルベース話題分割処理は、前記話題モデルの尤度、又は、前記話題モデルの事後確率のエントロピーによって、前記テキストを話題に対応させて分割した少なくとも1つの区間に対する前記分割信頼度を計算する、ことを特徴とする請求項25に記載のプログラム。
 前記分割対象区間が複数の区間から構成される場合、前記パラメータ推定処理は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記区間から所定の範囲内において、前記モデルベース話題分割処理による前記分割結果を教師として、前記変化点検出話題分割処理が前記区間を分割する際に用いるパラメータを推定し、
 前記変化点検出話題分割処理は、前記分割対象区間の複数の区間のそれぞれの区間に対して、前記パラメータ推定処理が前記区間に対して推定したパラメータを用いて、前記区間を分割する、ことを特徴とする請求項26に記載のプログラム。
 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割処理による前記テキストの前記分割対象区間と定める分割対象区間決定処理をさらに含み、
 前記変化点検出話題分割処理は、前記分割対象区間決定処理が定めた前記分割対象区間を分割する、ことを特徴とする請求項26に記載のプログラム。
 前記パラメータ推定処理は、前記モデルベース話題分割処理による分割結果を正解とみなしたときに、前記変化点検出話題分割処理による分割結果に関する分割正解精度が大となるように、前記パラメータを推定する、ことを特徴とする請求項24に記載のプログラム。
 意味的なまとまりを表す話題モデルを記憶する話題モデル記憶手段と、
 テキストを入力し前記話題モデルの話題に対応させて分割するモデルベース話題分割手段と、
 前記テキストを入力し、所定のパラメータを用いて前記テキスト内の単語分布の変化点を検出し、前記変化点の検出結果に基づき前記テキストを分割する変化点検出話題分割手段と、
 前記モデルベース話題分割手段で分割された前記テキストの分割結果を教師として、前記変化点検出話題分割手段での前記テキストを分割した区間が、前記モデルベース話題分割手段での話題モデルによる分割区間とより良く一致するように、前記変化点検出話題分割手段で用いる前記所定のパラメータの推定を行うパラメータ推定手段と、
 前記モデルベース話題分割手段による分割結果と、前記変化点検出話題分割手段による分割結果を統合した結果を出力する分割結果統合手段と、
 を備えたことを特徴とするテキスト分割システム。
 前記モデルベース話題分割手段は、前記話題モデル記憶手段に記憶される話題モデルのうちのいずれかが表す話題に関する前記テキスト中の区間に対しては、分割信頼度を相対的に高く出力し、
 前記話題モデル記憶手段に記憶される話題モデルが表すいずれの話題にも対応しない話題に関する前記テキスト中の区間に対しては、前記分割信頼度を相対的に低く出力し、
 前記分割信頼度の相対的に低い区間を、前記変化点検出話題分割手段による分割対象区間と定める分割対象区間決定手段をさらに備え、
 前記変化点検出話題分割手段は、前記分割対象区間決定手段が定めた前記分割対象区間を分割する、ことを特徴とする請求項34に記載のテキスト分割システム。
 入力テキストを話題モデルを用いて話題に対応させて複数の区間に分割するモデルベース話題分割部と、
 前記モデルベース話題分割部による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定するパラメータ推定部と、
 前記パラメータ推定部で推定された前記パラメータを用いて前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する変化点検出話題分割部と、
 前記モデルベース話題分割部でのテキスト分割結果と前記変化点検出話題分割部でのテキスト分割結果を統合して出力する分割結果統合部と、
 を備えたことを特徴とするテキスト分割装置。
 入力テキストを話題モデルを用いて話題に対応させて複数の区間に分割し、
 前記モデルベース話題分割部による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定し、
 前記推定された前記パラメータを用いて前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割し、
 話題モデルを用いたテキスト分割結果と、前記変化点検出結果に基づくテキスト分割結果を統合して出力する、ことを特徴とするテキスト分割方法。
 入力テキストを話題モデルを用いて話題に対応させて複数の区間に分割する処理と、
 前記モデルベース話題分割部による前記テキストの分割結果を教師として、前記テキスト内の単語分布の変化点の検出に基づいて前記テキストを分割する際のパラメータを推定する処理と、
 前記推定された前記パラメータを用いて前記テキスト内の単語分布の変化点の検出に基づいて、前記テキストを分割する処理と、
 話題モデルを用いたテキスト分割結果と、前記変化点検出結果に基づくテキスト分割結果を統合して出力する処理と、
 をコンピュータに実行させるプログラム。
Description:
テキスト分割装置とテキスト分 方法およびプログラム

 (関連出願についての記載)
 本願は、先の日本特許出願2007-336400号(2007年 12月27日出願)の優先権を主張するものであり 前記先の出願の全記載内容は、本書に引用 もって繰込み記載されているものとみなさ る。
 本発明は、テキスト分割技術に関し、特に 単語列や文字列などのテキストを意味的な とまりの単位である話題へと分割するテキ ト分割装置と方法およびプログラムに関す 。

 単語列や文字列などのテキストを意味的な とまりの単位である話題へと分割するテキ ト分割技術は、自然言語処理における重要 基礎技術の一つである。テキストを話題ご に分割することにより、例えば、
 ・膨大な量のテキストの話題ごとへの分類
 ・テキスト全体の構造の抽出、
 ・それぞれの話題について要約作成、
 等を可能としている。

 また、近時、映像コンテンツが大量に流 しつつあるなか、テキスト分割を映像に含 れる音声の書き起こしテキスト、或いは、 声認識結果テキストに適用することで、映 コンテンツの一覧性・検索性を向上するこ が可能となる。このように、テキスト分割 術の重要性はさらに増しつつある。

 テキスト分割技術として、大きく2種類の 技術を挙げることができる。まず、これら2 類の技術について、図面を参照して詳細に 明する。

 第1の技術は、分割対象となる入力テキス ト内における単語分布の変化点を話題の境界 として検出するものである。これは、入力テ キスト内で同じ話題に属する区間では、同じ 単語分布が継続するであろうことを仮定した 技術である。第1の技術の代表例として、非 許文献1に記載されているHearst法が挙げられ (第1の関連技術)。

 図10は、Hearst法の動作を模式的に示した 明図である。図10に示すように、Hearst法では 、まず、入力テキストの各部分に対して一定 幅の窓を設定し、各窓内の単語分布を求める 。そして、隣接する窓間の単語分布を比較す ることで単語分布が大きく変化する点を検出 し、これを話題境界とする。単語分布として は、窓内の単語の出現頻度を計数して求めら れるユニグラムがよく用いられる。あるいは 、隣接する単語の2つ組み、3つ組み等の出現 度を単語分布としても良い。単語分布が大 く変化する点を検出するには、例えば、隣 窓間の単語分布の類似度をコサイン類似度 どによって求め、類似度の系列の極小点が 値以下である点を検出すれば良い。図10に いては、類似度閾値としてth2を設定すれば 分割点H1、H2、H3、H4、H5、H6、H7が得られる。 類似度閾値としてth3を設定すれば、分割点H2 H6が得られる。

 以上の説明から分かるように、Hearst法は どのような入力テキストが与えられても何 かの分割結果を出力することが可能である

 しかしながら、Hearst法においては、
 ・窓幅、
 ・類似度閾値、
 ・類似度の平滑化回数、
 等の分割結果を制御するための各種パラメ タが存在する。そして、これら各種パラメ タの値によって、入力テキストがどのよう 話題単位へと分割されるかが変化する。

 テキスト分割の第2の技術は、あらかじめ 様々な話題に関する知識を持ち、これを利用 することで入力テキストを各話題へと分割す る。第2の技術の例として、非特許文献2が挙 られる。

 図11は、非特許文献2に記載されている技 (第2の関連技術)の動作を模式的に示す説明 である。図11に示すように、この非特許文 2に記載の技術では、あらかじめ、新聞記事 どの話題ごとに分割されているテキストコ パスを用いて、「野球」や「為替」等のよ な様々な話題に関する統計モデル、すなわ 話題モデルを学習して用意しておく。話題 デルとしては、例えば、各話題に出現する 語の出現頻度を学習したユニグラムモデル どを用いれば良い。ここで、話題間の遷移 起こりやすさを適宜決めてやれば、入力テ ストと最も良く整合する話題モデル系列を 話題の変化点の位置とともに求めることが きる。すなわち、入力テキストを話題単位 と分割することができる。入力テキストと 題モデルとの対応付けは、仮に、入力単語 を入力音声波形に置き換え、話題モデルを 素モデルに置き換えてみれば分かるように 音声認識でよく用いられている技術と同様 、フレーム同期ビームサーチなどの計算法 よって実現することができる。

 これにより、入力テキストの中で、あら じめ話題モデルを用意しておいた話題に関 る区間については、用意した話題モデルを 題単位として分割することが可能となる。 11においては、あらかじめ用意した「野球 、「為替」、「サッカー」、「総選挙」の 話題モデルが入力テキストの対応する区間 マッチすることで、入力テキストがそれぞ の話題へと分割され、分割点M1、M2、M3、M5、 M6、M7が得られる。

 さらに、第1の技術の特徴である入力テキ スト内の単語分布の変化点検出と、第2の技 の特徴である話題に関する知識の利用とを み合わせることで入力テキストを話題へと 割する技術が、特許文献1に記載されている この特許文献1に記載の発明を第3の関連技 として詳細に説明する。

 特許文献1に記載の発明においては、映像 を話題ごとに分割することを目的として、映 像中の字幕や音声から得られるテキストの時 系列を話題ごとに分割する。このとき、分割 結果として得たい各話題に関する知識として 、あらかじめ各話題に関する何らかのテキス ト情報が得られることが前提となっている。 以下の説明では、この各話題に関するテキス ト情報のことを「台本データ」と呼ぶ。

 特許文献1に記載の発明の動作の概略を説 明する。まず、映像から抽出したテキストの 時系列を第1の技術によって分割し、次に、 割された各区間のテキストと台本データか 得られる各話題に関するテキスト情報とが 似しているかどうかを検証し、台本データ のいずれの話題とも類似していなかった区 は再び第1の技術によってより細かく分割す ことを繰り返す、というものである。

 以下では、ニュース番組を個々のニュー へと分割する場合を例に、図面を参照して 特許文献1に記載の発明の動作の詳細を説明 する。

 図12は、特許文献1の図2の構成を示す図で ある(ただし、図12において、参照符号は特許 文献1の図2とは異なる)。図12を参照すると、 像データ記憶手段602には、分割対象となる ュース番組が記憶されている。また、台本 ータ記憶手段601には、分割結果として得た 話題の単位である個々のニュースに関する キスト情報として、各ニュースのタイトル キストが記憶されている。

 まず、台本テキスト区間取得手段603が、 本データ記憶手段601を参照することで、各 ュースのタイトルテキストを取得する。

 次に、映像テキスト区間生成手段604が、 1の技術、すなわち適当なパラメータを用い て単語分布の変化点を検出する手法によって 、ニュース番組中の字幕や音声から得られる テキストの時系列を分割し、分割された各区 間のテキストを映像テキスト区間として出力 する。

 そして、テキスト類似度計算手段605は、 像テキスト区間生成手段604によって分割さ た各映像テキスト区間のテキストと、台本 キスト区間取得手段603で得られた各ニュー のタイトルテキストとの類似度を計算する

 テキスト対応付け手段606は、各映像テキ ト区間に対して、その区間のテキストと最 よく類似し、かつ、類似度があらかじめ設 された閾値より高いタイトルテキストを持 ニュースを対応付ける。

 さらに、再帰処理制御手段607は、テキス 対応付け手段606によってニュースが対応付 られなかった映像テキスト区間を対象に、 像テキスト区間生成手段604においてより細 い分割がなされるようにパラメータを変更 た上で、映像テキスト区間生成手段604、テ スト類似度計算手段605、およびテキスト対 付け手段606による処理を繰り返し行わせる

 このとき、全ての映像テキスト区間にニ ースが対応付けられるか、パラメータがあ かじめ設定された限界値に達した場合は、 り返し処理を終了する。

 最後に、映像テキスト区間統合手段608が 隣接する映像テキスト区間で対応するニュ スが同一である場合に、これを一つの映像 キスト区間として統合し、最終的な分割結 として出力する。

Marti A. Hearst、 “MULTI-PARAGRAPH SEGMENTATION  OF EXPOSITORY TEXT,”32nd Annual Meeting of the As sociation for Computational Linguistics、 pp.9-16、199 4. J.P.Yamron、 I.Carp、 L.Gillick、 S.Lowe、 and  P.van Mulbregt,“A HIDDEN MARKOV MODEL APPROACH TO TEXT SEGMENTATION AND EVENT TRACKING、”IEEE Interna tional Conference on Acoustics、 Speech and Signal P rocessing、 pp.333-336、 1998. 越仲孝文、奥村明俊、磯谷亮輔、“HMMの 変分ベイズ学習によるテキストセグメンテー ション及びその映像インデキシングへの応用 、”電子情報通信学会論文誌、Vol.J89-D、No.9 pp.2113-2122、2006.

特開2005-167452号公報(図2)

 以上の非特許文献1乃至3、及び特許文献1 各開示事項は、本書に引用をもって繰り込 記載されているものとする。以下に本発明 よる関連技術の分析を与える。

 上述した第1、第2および第3の関連技術は それぞれ次に挙げる問題点を有する。

 第1の関連技術においては、入力テキスト を所望の話題単位へと分割することが難しい 、という問題がある。ここで、所望の話題単 位とは、分割結果として得ようとしている話 題単位のことである。例えば、ニュースに関 するテキストを分割する場合の所望の話題単 位としては、個々のニュース単位やニュース ジャンル単位などが考えられる。

 前述したように、第1の関連技術では、窓 幅や類似度閾値等といった各種パラメータを 変更することで、入力テキストがどのような 話題単位へと分割されるかが変わってくる。 そして、所望の話題単位を得るためには、ど のようなパラメータ値を設定すれば良いかが 明らかではない。これが、第1の関連技術に いて入力テキストを所望の話題単位へと分 することが難しい理由である。以下具体例 即して説明する。

 例えば、図10に示す例において、類似度 値をth3に設定すると、分割点H2、H6が得られ 入力テキストは、「経済」、「スポーツ」 「政治」といったニュースジャンルを話題 位として分割される。

 一方、図10に示す例において、類似度閾 をth2に設定すると、分割点H1、H2、H3、H4、H5 H6、H7が得られ、個々のニュースへと分割さ れる。さらに、類似度閾値をth1に設定すると H8、H9、H10、H11、H12も分割点となり、さらに かな単位へと分割される。

 このとき、例えば、所望の話題単位とし 、個々のニュースを単位に分割したいとし も、類似度閾値としてth2を適切に設定する とは難しい。その結果、所望の話題単位と 異なる単位で分割されてしまうことになる

 言い換えると、第1の関連技術においては 、入力テキストがどのような話題単位へと分 割されるかが事前に分からない。これは実用 上大きな問題である。

 このことは、窓幅などの他のパラメータ 設定についても同様である。また、仮に、 る入力テキストに対して所望の話題単位で 割できる適切なパラメータ値を設定できた しても、同じパラメータ値で全く性質の異 る他のテキストを所望の話題単位へと分割 きる保証はない。このため、様々な入力テ ストを扱う場合には、上記問題は、より深 となる。なお、入力テキストによってパラ ータの最適値が異なることは、例えば、窓 の適正値が話題の継続長に依存することを えても明らかである。

 第2の関連技術においては、話題モデルを 用意することができなかった未知の話題が入 力テキスト中に現れると、その区間を正しく 分割することが不可能である、という問題が ある。

 例えば、図11に示す例において、入力テ スト中の区間A1-A3および区間A5-A7は、対応す 話題モデルとして、「為替」、「野球」、 サッカー」、「総選挙」に関する話題モデ が用意されているため、これらの話題を単 として分割できるが、区間A3-A5は対応する 題モデルが用意されていないため(図11の「 知の話題区間」参照)、この区間は、正しく 割することができない。

 そして、あらかじめあらゆる話題を想定 て話題モデルを用意することは、現実には 可能である。このため、第2の関連技術にお いて、様々な入力テキストを扱う場合には、 実用上大きな問題となる。

 次に、第3の関連技術においては、台本デ ータとしてテキスト情報を用意することがで きなかった話題が入力テキスト中に現れると 、その区間を正しく分割することができない 、という問題がある。これは、第2の関連技 とほぼ同様の問題である。その理由は、第3 関連技術においては、台本データ中のいず の話題とも対応付けられない区間は、再帰 理によってパラメータが限界値に達するま 細分化されてしまうためである。その結果 台本データ中のいずれの話題とも対応付け れない区間がどのように分割されるかは、 らかじめ設定されたパラメータの限界値に って決定されることになる。台本データ中 いずれの話題とも対応付けられない区間に して、事前にパラメータの限界値を適切に 定することは不可能である。このため、適 な分割結果が得られない。

 したがって、本発明の目的は、入力テキ トを所望の話題単位へ適正に分割可能とす 、テキスト分割装置、テキスト分割方法お びプログラムを提供することにある。

 本願で開示される発明は、上記課題を解 するため、概略以下の構成とされる。

 本発明の1つの側面によれば、テキストを複 数の区間に分割する装置であって、
 前記テキストに付与された分割結果を教師 して、前記テキスト内の単語分布の変化点 検出に基づいて前記テキストを分割する際 パラメータを推定するパラメータ推定手段 、
 前記パラメータ推定手段で推定された前記 ラメータを用いて、前記テキスト内の単語 布の変化点の検出に基づいて、前記テキス を分割する変化点検出話題分割手段と、
 を備えたテキスト分割装置が提供される。

 本発明に係る装置においては、他の側面に いて、意味的なまとまりを表す話題モデル 記憶する話題モデル記憶手段と、
 前記話題モデルを用いて前記テキストを話 に対応させて分割するモデルベース話題分 手段と、をさらに備え、
 前記モデルベース話題分割手段による前記 キストの分割結果が、前記テキストに付与 れた分割結果として、前記パラメータ推定 段に提供され、前記パラメータ推定手段は 前記モデルベース話題分割手段による前記 キストの分割結果を教師として、前記変化 検出話題分割手段で用いる前記パラメータ 推定する構成としてもよい。

 本発明に係る装置は、さらに他の側面に いて、前記モデルベース話題分割手段は、 記テキストの分割の確からしさを表す分割 頼度を、前記テキストを話題に対応させて 割した少なくとも1つの区間に対して出力し 、前記パラメータ推定手段は、前記分割信頼 度の相対的に高い区間において、前記モデル ベース話題分割手段による前記分割結果を教 師として、前記変化点検出話題分割手段で用 いる前記パラメータを推定する構成としても よい。

 本発明に係る装置において、前記パラメ タ推定手段は、前記変化点検出話題分割手 の分割対象区間から所定の範囲内において 前記モデルベース話題分割手段による前記 キストの分割結果を教師として、前記変化 検出話題分割手段が前記分割対象区間を分 する際に用いるパラメータを推定する、構 としてもよい。

 本発明に係る装置において、前記テキスト 分割した複数の区間のうち、前記分割信頼 の相対的に高い区間においては、前記モデ ベース話題分割手段による分割結果を出力 、
 前記分割信頼度の相対的に低い区間におい は、前記変化点検出話題分割手段による分 結果を出力する分割結果統合手段をさらに えた構成としてもよい。

 本発明に係る装置において、前記モデルベ ス話題分割手段は、前記話題モデル記憶手 に記憶される話題モデルのうちのいずれか 表す話題に関する前記テキスト中の区間に して、前記分割信頼度を相対的に高く出力 、
 前記話題モデル記憶手段に記憶される話題 デルが表すいずれの話題にも対応しない話 に関する前記テキスト中の区間に対して、 記分割信頼度を相対的に低く出力する構成 してもよい。

 本発明に係る装置において、前記モデル ース話題分割手段は、前記テキストにおい 、特定の話題を表さないガーベジモデルと ッチした区間を、前記話題モデル記憶手段 記憶される話題モデルが表すいずれの話題 も対応しない話題に関する区間と判定し、 記区間について前記分割信頼度を相対的に く出力する構成としてもよい。

 本発明に係る装置において、前記話題モ ルの尤度、又は、前記話題モデルの事後確 のエントロピーによって、前記テキストを 題に対応させて分割した少なくとも1つの区 間に対する前記分割信頼度を計算するように してもよい。

 本発明に係る装置において、前記分割対象 間が複数の区間から構成される場合、前記 ラメータ推定手段は、前記分割対象区間の 数の区間のそれぞれの区間に対して、前記 間から所定の範囲内において、前記モデル ース話題分割手段による前記分割結果を教 として、前記変化点検出話題分割手段が前 区間を分割する際に用いるパラメータを推 し、
 前記変化点検出話題分割手段は、前記分割 象区間の複数の区間のそれぞれの区間に対 て、前記パラメータ推定手段が前記区間に して推定したパラメータを用いて、前記区 を分割するようにしてもよい。

 本発明に係る装置において、前記分割信 度の相対的に低い区間を、前記変化点検出 題分割手段による前記テキストの前記分割 象区間と定める分割対象区間決定手段をさ に備え、前記変化点検出話題分割手段は、 記分割対象区間決定手段が定めた前記分割 象区間を分割するようにしてもよい。

 本発明に係る装置において、前記パラメ タ推定手段は、前記モデルベース話題分割 段による分割結果を正解とみなしたときに 前記変化点検出話題分割手段による分割結 に関する分割正解精度が大となるように、 記パラメータを推定するようにしてもよい

 本発明によれば、テキストを複数の区間に 割する方法であって、
 前記テキストに付与された分割結果を教師 して、前記テキスト内の単語分布の変化点 検出に基づいて前記テキストを分割する際 パラメータを推定するパラメータ推定工程 、
 前記パラメータ推定工程で推定された前記 ラメータを用いて、前記テキスト内の単語 布の変化点の検出に基づいて、前記テキス を分割する変化点検出話題分割工程と、
 を含むテキスト分割方法が提供される。

 本発明に係る方法において、意味的なまと りを表す話題モデルを記憶する話題モデル 憶手段を参照し、前記話題モデルを用いて 記テキストを話題に対応させて分割するモ ルベース話題分割工程をさらに含み、
 前記モデルベース話題分割工程による前記 キストの分割結果が、前記テキストに付与 れた分割結果として、前記パラメータ推定 程に提供され、前記パラメータ推定工程は 前記モデルベース話題分割工程による前記 キストの分割結果を教師として、前記変化 検出話題分割工程で用いる前記パラメータ 推定する、ようにしてもよい。本発明の方 によれば、上記本発明に係る装置の上記さ に他の側面として説明した内容に対応する 法が提供される。

 本発明に係るコンピュータプログラムよれ 、テキストを複数の区間に分割するコンピ ータに、
 前記テキストに付与された分割結果を教師 して、前記テキスト内の単語分布の変化点 検出に基づいて前記テキストを分割する際 パラメータを推定するパラメータ推定処理 、
 前記パラメータ推定処理で推定された前記 ラメータを用いて、前記テキスト内の単語 布の変化点の検出に基づいて、前記テキス を分割する変化点検出話題分割処理と、
 を実行させるプログラムが提供される。

 本発明に係るプログラムによれば、意味的 まとまりを表す話題モデルを記憶する話題 デル記憶手段を参照し、前記話題モデルを いて前記テキストを話題に対応させて分割 、前記テキストの分割結果を、前記テキス に付与された分割結果として、前記パラメ タ推定処理に提供するモデルベース話題分 処理と、
 前記パラメータ推定処理として、前記モデ ベース話題分割処理による前記テキストの 割結果を教師として、前記変化点検出話題 割処理で用いる前記パラメータを推定する 理と、を前記コンピュータに実行させるプ グラムよりなる。本発明の方法によれば、 記本発明に係る装置のさらに他の側面とし 説明した内容に対応するプログラムが提供 れる。

 本発明によれば、入力テキストを所望の 題単位へ適正に分割することが可能となる その理由は、本発明においては、入力テキ トを所望の話題単位へと分割するためのパ メータを推定し、任意の入力テキストに対 て分割結果を出力可能としたためである。

本発明の第1の実施例の構成を示す図で ある。 本発明の第2の実施例の構成を示す図で ある。 本発明の第1の実施例の動作を説明する ための流れ図である。 本発明の第2の実施例の動作を説明する ための流れ図である。 本発明の第1の実施例の動作の一例を示 す説明図である。 本発明の第1の実施例におけるパラメー タ推定手段の動作の一例を示す説明図である 。 本発明の第1の実施例におけるパラメー タ推定手段の動作の一例を示す説明図である 。 本発明の第2の実施例の動作の一例を示 す説明図である。 本発明の第3の実施例の構成を示す図で ある。 第1の関連技術の動作の一例を示す説 図である。 第2の関連技術の動作の一例を示す説 図である。 第3の関連技術の構成を示す図である

符号の説明

 101 話題モデル記憶手段
 102 モデルベース話題分割手段
 103 パラメータ推定手段
 104 変化点検出話題分割手段
 105 分割結果統合手段
 201 話題モデル記憶手段
 202 モデルベース話題分割手段
 203 パラメータ推定手段
 204 変化点検出話題分割手段
 205 分割結果統合手段
 206 分割対象区間決定手段
 510 データ処理装置
 520 記憶装置
 521 話題モデル記憶手段
 530 テキスト分割用プログラム
 601 台本データ記憶手段
 602 映像データ記憶手段
 603 台本テキスト区間取得手段
 604 映像テキスト区間生成手段
 605 テキスト類似度計算手段
 606 テキスト対応付け手段
 607 再帰処理制御手段
 608 映像テキスト区間統合手段

 本発明の実施の形態について図面を参照 て以下に説明する。本発明に係るテキスト 割装置においては、意味的なまとまりを表 話題モデルを記憶する話題モデル記憶手段( 図1の101)と、話題モデルを用いてテキストを 題に対応させて分割するモデルベース話題 割手段(図1の102)と、モデルベース話題分割 段によるテキストの分割結果を教師として テキスト内の単語分布の変化点の検出に基 いてテキストを分割する際の制御パラメー を推定するパラメータ推定手段(図1の103)と パラメータ推定手段が推定したパラメータ 用いて、テキスト内の単語分布の変化点の 出に基づいて前記テキストを分割する変化 検出話題分割手段(図1の104)を備えている。

 パラメータ推定手段(図1の103)は、モデル ース話題分割手段(図1の102)による入力テキ トの分割結果を教師として、変化点検出話 分割手段(図1の104)で用いられるパラメータ 推定する。

 変化点検出話題分割手段(図1の104)は、パ メータ推定手段(図1の103)で推定されたパラ ータを用いて、入力テキストを分割する。

 次に、本発明の第1の実施例について、図 面を参照して詳細に説明する。図1は、本発 の第1の実施例の構成を示す図である。

 図1を参照すると、本発明の第1の実施例 、入力されたテキストを複数の区間に分割 る装置であって、話題モデル記憶手段101と モデルベース話題分割手段102と、パラメー 推定手段103と、変化点検出話題分割手段104 、分割結果統合手段105と、を備えている。

 これらの手段は、それぞれ概略次のよう 動作する。

 モデルベース話題分割手段102は、話題モ ル記憶手段101が記憶する話題モデルを用い 、入力テキストを話題ごとへと分割する。

 次に、パラメータ推定手段103は、モデル ース話題分割手段102による分割結果を教師 して、変化点検出話題分割手段104の動作を 御するパラメータを推定する。

 変化点検出話題分割手段104は、パラメー 推定手段103が推定したパラメータを用いて テキスト内の単語分布の変化点を検出する とで、入力テキストを分割する。

 最後に、分割結果統合手段105は、モデル ース話題分割手段102による分割結果と、変 点検出話題分割手段104による分割結果とを 合して、入力テキストの最終的な分割結果 出力する。

 図3は、本発明の第1の実施例の動作を説 する流れ図である。次に、図1、図3を参照し て、本実施例の全体の動作について詳細に説 明する。

 分割対象となる入力テキストとしては、 意の文字や単語の並び、或いは、コンピュ タを操作した際のコマンドの時系列などが いられる。特に制限されないが、本実施例 おいては、複数の単語から構成される単語 を入力テキストとする。日本語のように、 語単位に分かち書きされていない言語のテ ストを入力とする場合は、入力テキストに して、例えば公知の形態素解析法等を適用 ることで、入力テキストを複数の単語へと 前に分割したものを入力テキストとしても い。また、入力テキストの単語列から、話 とは直接関係のない助詞や助動詞などを事 に取り除いたものを、入力テキストとして 良い。

 本実施例においては、あらかじめ、入力 キストを分割する際の所望の話題単位に対 した話題モデルを用意し、話題モデル記憶 段101に記憶しておく。例えば、ニュースに するテキストを分割する際に、ニュースの ャンルを所望の話題単位として分割したい 合には、「スポーツ」や「政治」といった ュースジャンルごとの話題モデルを用意す 。また、個々のニュースを所望の話題単位 して分割したい場合には、「為替」、「野 」、「総選挙」といった個々のニュースご の話題モデルを用意する。これらの話題モ ルとしては、例えば、それぞれの話題に出 する単語や単語の2つ組みの出現確率を表し たユニグラムやバイグラムなどのモデルを用 いればよい。このような話題モデルは、あら かじめ話題ごとに分類された大量のテキスト データ、例えば、新聞記事データなどを用い て学習することができる。なお、あらゆる話 題に関する話題モデルをあらかじめ用意して 話題モデル記憶手段101に記憶しておくことは 現実的には不可能である。

 以下では、話題モデル記憶手段101が記憶 る話題モデルのいずれかが表す話題を「既 の話題」、話題モデル記憶手段101が記憶す 話題モデルのいずれもが表さない、すなわ 、話題モデルが用意されていない話題を「 知の話題」と呼ぶことにする。

 入力テキストを分割する際には、まず、 デルベース話題分割手段102が、話題モデル 憶手段101に記憶された話題モデルを用いて 力テキストを分割する(図3のステップS301)。 特に制限されないが、モデルベース話題分割 手段102による分割は、前述した第2の関連技 を用いて、入力テキストと最も良く整合す 話題モデル系列を、話題の変化点の位置と もに求めることで実現してもよい。

 具体的には、例えば、各話題モデルが各 態に配置されたHidden Markov Model(HMM)を用い フレーム同期ビームサーチなどの方法によ 、入力テキストと整合する話題モデル系列 求めることができる。このとき、話題間の 移確率を定める必要がある。話題間の遷移 率の設定は、話題モデルの学習に用いたテ ストデータ中の各話題の並びを元に学習し も良いし、或いは、あらゆる話題間の遷移 率を等しいものとしても良い。

 モデルベース話題分割手段102によって、 力テキスト中の既知の話題区間は、所望の 題単位へと分割される。一方、入力テキス 中の未知の話題区間は、用意されているい れの話題モデルとも整合しないため、未知 話題区間を正しく分割することはできず、 のような分割結果が得られるかは分からな 。

 本実施例において、モデルベース話題分 手段102は、入力テキストを話題ごとに分割 るだけでなく、入力テキストのどの区間が 知の話題区間であるかを判定するように動 させても良い。この場合、モデルベース話 分割手段102において、未知の話題区間の判 は、特定の話題を表さない話題モデルであ ガーベジモデルを用意しておき、入力テキ トを分割する際に、話題モデル記憶手段101 記憶された話題モデルに加え、予め用意さ たガーベジモデルも用いることで実現でき 。すなわち、未知の話題区間では他の話題 デルよりもガーベジモデルの方がより良く 合することから、ガーベジモデルが整合し 区間が未知の話題区間であり、それ以外の の話題モデルが整合した区間が既知の話題 間であると判定できる。

 ここで、ガーベジモデルとしては、例えば
 ・あらゆる単語の出現確率が等しいモデル 、
 ・様々な話題を含んだ大量のテキストデー 全体における単語の出現確率を表したモデ 、
 などを用いれば良い。

 次に、パラメータ推定手段103が、モデル ース話題分割手段102による分割結果を教師 して、変化点検出話題分割手段104がテキス の分割に際して用いるパラメータを推定す (図3のステップS302)。パラメータの推定は、 様々なパラメータを用いて変化点検出話題分 割手段104によって入力テキストを複数の区間 に分割し、変化点検出話題分割手段104がモデ ルベース話題分割手段102による分割結果を最 も良く再現するような分割結果を出力する際 のパラメータを求めれば良い。このようにす ることで、パラメータ推定手段103は、変化点 検出話題分割手段104が入力テキスト中のどの ような区間についても所望する結果に近い話 題単位へと分割するようなパラメータ値を推 定することができる。

 変化点検出話題分割手段104は、パラメー 推定手段103によって推定されたパラメータ 用いて、入力テキスト内の単語分布の変化 を検出することで、入力テキストを分割す (図3のステップS303)。本実施例において、変 化点検出話題分割手段104は、パラメータ推定 手段103からのパラメータを用いて入力テキス トの単語分布の変化点を検出してる点が、前 記第1の関連技術と相違しているが、変化点 検出の動作自体は、前記1の関連技術と同様 動作とされる。変化点検出話題分割手段104 、入力テキストのあらゆる区間を分割する とが可能であるが、第1の関連技術について 説明したとおり、適切な分割結果を出力する ためには、パラメータを適正に定める必要が ある。

 本実施例においては、
 ・パラメータ推定手段103は、変化点検出話 分割手段104が入力テキスト中のどのような 間でも所望に近い話題単位へと分割するよ なパラメータ値を推定し、
 ・変化点検出話題分割手段104は、パラメー 推定手段103で推定されたパラメータを用い 分割する、
 ため、入力テキスト中のどのような区間で 所望に近い話題単位へと分割することがで る。

 最後に、分割結果統合手段105は、モデル ース話題分割手段102による分割結果と、変 点検出話題分割手段104による分割結果とを 合して(図3のステップS304)、例えば2つの分 結果を統合した結果を入力テキストの最終 な分割結果として出力する(図3のステップS30 5)。

 2つの分割結果を統合して出力する方法とし ては、例えば、モデルベース話題分割手段102 によって、
 ・未知の話題区間と判定された区間は、変 点検出話題分割手段104による分割結果を出 し、
 ・既知の話題区間と判定された区間は、モ ルベース話題分割手段102による分割結果を 力すれば良い。

 このようにすることで、既知の話題区間 、モデルベース話題分割手段102によって確 に所望の話題単位で分割し、かつ、未知の 題区間も、変化点検出話題分割手段104によ て所望に近い話題単位で分割することがで る。

 なお、分割結果統合手段105は、モデルベ ス話題分割手段102による分割結果と、変化 検出話題分割手段104による分割結果とを統 するかわりに、入力テキストの全ての区間 おいて、変化点検出話題分割手段104による 割結果をそのまま出力しても良い。

 次に、図1、および、図5から図7の説明図 参照して、本実施例の動作を具体例に基づ て説明する。

 以下では、図5の(a)に示した話題を含むニ ュースに関するテキストを分割する場合を例 に説明する。ここで、所望の話題単位は、個 々のニュースであるものとする。図5におい 、横軸は一次元に展開したテキストを表し いる。

 すなわち、最終的な分割結果としては、 5の(b)に「正解話題分割」として示した分割 点A1、A2、A3、A4、A5、A6、A7を得たいものとす 。

 図1の話題モデル記憶手段101には、所望の 話題単位である個々のニュースに関する話題 モデルとして、「為替」、「野球」、「サッ カー」、「総選挙」の話題モデルが記憶され ているものとする(図5の(d)参照)。

 また、特に制限されないが、本実施例にお て、変化点検出話題分割手段104は、例えば 特許文献1に記載されているHearst法によって 、入力テキストを分割するものとする。Hearst 法は、入力テキストの各部分に対して一定幅 の窓を設定し、隣接窓間の単語分布の類似度 の極小点が閾値以下である点で入力テキスト を分割する。Hearst法のパラメータには、
 ・窓幅、
 ・類似度の閾値、
 ・類似度の平滑化回数、
 などが存在する。この場合、パラメータ推 手段103で推定するパラメータは、窓幅や類 度の閾値等となる。なお、以下では、変化 検出話題分割手段104は、一例としてHearst法 よって入力テキストを分割するものとして 明を行うが、本発明において、変化点検出 題分割手段104の実現手法がHearst法に限定さ るものではないことは勿論である。

 まず、図1のモデルベース話題分割手段102 が話題モデルを用いて入力テキストを分割す ることで、図5の(c)に「モデルベース話題分 結果」として示したように、分割点M1、M2、M 3、M5、M6、M7が得られる。

 図5の(c)のモデルベース話題分割結果にお いて、区間M1-M3、区間M5-M7は、既知の話題区 であるため、所望の話題単位である個々の ュースを単位として分割することができる 一方、区間M3-M5は、「スケート」と「ゴルフ 」の2つのニュースから構成されているが、 れらの話題に関する話題モデルが用意され いないため、区間M3-M5にはガーベジモデルが 整合し、未知の話題区間と判定されている。

 次に、図1のパラメータ推定手段103が、モ デルベース話題分割手段102による分割結果を 教師として、変化点検出話題分割手段104で変 化点検出による分割に用いるパラメータを推 定する。ここでは、変化点検出話題分割手段 104はHearst法により入力テキストを分割するこ とから、パラメータ推定手段103は、Hearst法の パラメータを推定する。

 パラメータ推定手段103によるパラメータ 定の方法を、Hearst法のパラメータの一つで る類似度閾値を推定する場合を例に説明す 。

 パラメータ推定手段103は、まず、値が異 る様々な類似度閾値を用いて、入力テキス をHearst法によって分割する。

 図5の(f)に、入力テキストに対してHearst法 を適用した際の「隣接窓間の単語分布の類似 度」の系列を示す。これより、例えば、変化 点検出話題分割手段104が類似度閾値としてth1 を用いて分割した場合、分割点H1、H8、H2、H9 H3、H10、H4、H5、H11、H6、H12、H7が得られる。

 変化点検出話題分割手段104が類似度閾値 してth2(<th1)を用いた場合、分割点H1、H2、 H3、H4、H5、H6、H7が得られる。

 変化点検出話題分割手段104が類似度閾値 してth3(<th2)を用いた場合、分割点H2、H6が 得られる。

 このとき、パラメータ推定手段103は、モ ルベース話題分割手段102による分割点(M1、M 2、M3、M5、M6、M7)と、変化点検出話題分割手 104で各類似度閾値を用いたときのHearst法に る分割点とを比較し、モデルベース話題分 による分割結果を、最も良く再現するよう 分割結果が得られる類似度閾値を求める。

 そのためには、例えば、モデルベース話 分割手段102による分割結果を正解としたと に、Hearst法による分割結果の分割正解精度 最大になるような類似度閾値を求めればよ 。

 図6および図7は、この手順の一例を示す 明図である。図6には、教師となるモデルベ ス話題分割手段102による分割結果と、類似 閾値としてth1、th2、th3を用いた場合の変化 検出話題分割手段104によるHearst法の分割結 (図6の(d)変化点検出話題分割結果)が示され いる。ここで、モデルベース話題分割によ 分割点を正解としたときに、Hearst法による 割点のうち正しく分割できたとみなせる分 点には○印が付与されている(図6の(d)にお て、分割点番号が○で囲まれている)。

 例えば、類似度閾値としてth1を用いたと のHearst法による分割点のうち、○印が付与 れているH1、H2、H3、H5、H6、H7が正しく分割 きたとみなせることを示している。

 なお、本実施例において、パラメータ推 手段103は、変化点検出話題分割手段104で行 れたHearst法による分割点と、モデルベース 題分割手段102で行われたモデルベース話題 割による分割点とが完全に一致せずに、例 ば数単語程度、両者の分割点がずれている 合でも、正しく分割できたとみなしても良 。

 ここで、パラメータ推定手段103において モデルベース話題分割の結果を正解とした きのHearst法による分割結果の分割正解精度 、Recall、Precision、F値などで評価することが できる。

 Recallは、分割すべき点のうち正しく分割で た点の割合である。
 Precisionは、分割した点のうち正しく分割で た点の割合である。
 F値は、RecallとPrecisionの調和平均である。

 図6の(d)の変化点検出話題分割結果において 、例えば、類似度閾値がth1の場合、分割すべ き点6箇所(M1、M2、M3、M5、M6、M7)のうち6箇所(H 1、H2、H3、H5、H6、H7)が正しく分割できている ので、
 Recallは、6/6=1.0である。
 また分割した点12箇所(H1~H12)のうち6箇所(H1 H2、H3、H5、H6、H7)が正しく分割できているの で、
 Precisionは、6/12=0.5であり、従ってF値は0.67と なる。

 図7(a)の表に、類似度閾値としてth1、th2、 th3を用いた場合の分割正解精度を計算した結 果の一覧を示す。

 ここで、分割正解精度をF値で評価するも のとすれば、分割正解精度が最大になるのは 類似度閾値としてth2を用いた場合である。こ のため、パラメータ推定手段103は、類似度閾 値として、th2を推定する。

 なお、パラメータ推定手段103は、モデル ース話題分割手段102によって既知の話題区 と判定された区間の結果のみを参照して、 デルベース話題分割手段102による分割結果 様々なパラメータを用いたときのHearst法に る分割結果とを比較し、変化点検出話題分 手段104のパラメータを推定しても良い。

 未知の話題区間は、モデルベース話題分 手段102によって正しく分割できない区間で ることから、未知の話題区間の結果を除外 ることで、所望の話題単位へと分割するた のパラメータをより適切に推定することが きるようになる。

 例えば、図6において、既知の話題区間と 判定された区間M1-M3および区間M5-M7の結果の を用いて、前記と同様に、それぞれの類似 閾値における分割正解精度を計算すると、 7(b)となり、類似度閾値がth2のときF値は1.0と なる(分割信頼度高い)。

 また、ここでは、パラメータ推定手段103 推定するパラメータの例として、類似度閾 を例に説明したが、窓幅や類似度の平滑化 数などの他のパラメータについても、同様 して、推定することができる。

 本実施例において、パラメータ推定手段1 03におけるパラメータ推定の方法は、変化点 出話題分割手段104でHearst法を用いた場合の ラメータ推定に限定されるものでないこと 勿論である。変化点検出話題分割手段104がH earst法以外の手法によって入力テキストを分 する場合でも、パラメータ推定手段103は、 記と同様の方法によって、変化点検出話題 割手段104のパラメータを推定することがで る。例えば、入力テキスト内の単語分布の 化点を検出することで入力テキストを分割 る他の手法として、非特許文献3に記載のテ キスト分割法が挙げられる。

 非特許文献3に記載のテキスト分割法は、 入力テキストを学習データとみなして状態が 話題に対応したHMMを学習することで入力テキ ストを分割する手法であり、分割結果を変化 させるパラメータとして、HMMの事前分布の超 パラメータが存在する。

 本実施例において、変化点検出話題分割 段104として、非特許文献3に記載のテキスト 分割法を採用した場合でも、パラメータ推定 手段103は、前記と同様の方法によって、HMMの 事前分布の超パラメータを推定することがで きる。

 本実施例においては、前述したように、 化点検出話題分割手段104は、パラメータ推 手段103によって推定されたパラメータを用 て、入力テキストを分割する。これによっ 、変化点検出話題分割手段104は、入力テキ ト中のどのような区間でも、所望に近い話 単位へと分割することができる。

 この点について、再び図5を参照して説明 する。

 まず、図5の例において、パラメータ推定 手段103によって推定された類似度閾値th2を用 いると、変化点検出話題分割手段104では、Hea rst法によって、入力テキスト中の既知の話題 区間を所望に近い話題単位へと分割すること ができる。

 図5を参照すると、既知の話題区間(区間A1 -A3、区間A5-A7)では、変化点検出話題分割手段 104において類似度閾値th2を用いたHearst法によ って、所望の話題単位である個々のニュース へと分割する分割点H1、H2、H3、H5、H6、H7が得 られている。すなわち「為替」、「野球」、 「サッカー」、「総選挙」のニュースへと分 割可能であることが分かる。

 これは、既知の話題区間を所望の話題単 へと分割することができるモデルベース話 分割手段102による分割結果を最も良く再現 るように、類似度閾値th2を求めたことから 然である。

 さらに、変化点検出話題分割手段104にお て類似度閾値th2を用いると、Hearst法によっ 、入力テキスト中の未知の話題区間も所望 話題単位、すなわち個々のニュース単位へ 分割することができる。なぜならば、ある キストを所望の話題単位へと分割するため パラメータ値は、そのテキスト内ではほぼ 定であると期待できるためである。実際、 5を参照すると、変化点検出話題分割手段104 において、類似度閾値としてth2を用いれば、 入力テキスト中の未知の話題区間(区間A3-A5) は、Hearst法によって分割点H4が得られ、個々 のニュース、すなわち「スケート」と「ゴル フ」のニュースへと分割可能であることが分 かる。

 以上より、変化点検出話題分割手段104に いて、類似度閾値としてth2を用いれば、Hear st法によって、入力テキスト全体を、概ね個 のニュース単位へと分割できることが分か 。なお、類似度閾値としてth3を用いると、H earst法によってこの入力テキスト全体を概ね ュースジャンル単位へと分割できる。分割 H2、H6により、入力テキストは、経済、スポ ーツ、政治に分割される。

 最後に、分割結果統合手段105は、モデルベ ス話題分割手段102による分割結果と、変化 検出話題分割手段104による分割結果とを統 して、入力テキストの最終的な分割結果を 力する。具体的には、例えば、モデルベー 話題分割手段102によって、
 ・未知の話題区間と判定された区間M3-M5は 変化点検出話題分割手段104による分割結果 あるH4を出力し、
 ・既知の話題区間と判定された区間M1-M3お び区間M5-M7は、モデルベース話題分割手段102 による分割結果であるM1、M2、M3、M5、M6、M7を 出力すれば、入力テキストのあらゆる区間を 所望の話題単位に分割できる。

 或いは、入力テキストの全ての区間にお て、変化点検出話題分割手段104による分割 果であるH1、H2、H3、H4、H5、H6、H7を出力し も良い。

 なお、モデルベース話題分割手段102は、 力テキストの各区間に対して、分割の確か しさを表す分割信頼度を出力しても良い。 こで、分割信頼度が高い区間は、モデルベ ス話題分割手段102による分割結果が正しい 能性が高いことを意味し、逆に、分割信頼 が低い区間は、モデルベース話題分割手段1 02による分割結果が誤っている可能性が高い とを意味するものとする。

 本実施例において、例えば、入力テキス の各区間と最も良く整合した話題モデルの 度(likelihood)をその区間の分割信頼度とする とが出来る。一般に、入力テキストと整合 た話題モデルの尤度が高いほど、その区間 分割結果が正しい可能性が高まるためであ 。データXが与えられたときのパラメータθ 尤度L(θ)は条件確率P[X|θ]で与えられる。

 或いは、入力テキストの各区間に対して各 題モデルの事後確率(a posterior probability)を 算し、それら事後確率のエントロピーが小 いほど分割信頼度が高くなるようにしても い。例えば、事後確率のエントロピーの逆 を分割信頼度とすることが出来る。話題モ ルの事後確率をPiとした場合、事後確率の ントロピーHは、-σi Pi・log(Pi)で与えられる 事後確率のエントロピーが小さい場合、特 の話題モデルの事後確率が高い、すなわち 定の話題モデルのみが入力テキストと良く 合したことを意味するので、その区間の分 結果が正しい可能性が高い。
なお、各話題モデルの事後確率は、各話題モ デルの尤度を用いれば容易に計算できる。周 知のごとく、データXが与えられたときのパ メータθiの事後確率P[θi|X]=P[X|θi]・P[θi]/{σi P[X|θi]・P[θi]}で与えられる。ここで、P[θi] 各話題の事前確率であり、事前に学習デー から求めておいても良いし、或いは、話題 よらず一定であるとしても良い。

 或いは、特定の話題を表さない話題モデ であるガーベジモデルが整合した未知の話 区間に対しては分割信頼度が低くなるよう しても良い。ガーベジモデルが整合した区 はいずれの話題モデルとも整合しなかった とを意味するので、当然ながら、その区間 正しく分割されていないためである。

 このようにして、モデルベース話題分割 段102が分割信頼度を出力する場合、パラメ タ推定手段103は、分割信頼度が一定値以上 区間の結果のみを参照して、モデルベース 題分割手段102による分割結果と様々なパラ ータを用いたときのHearst法による分割結果 を比較し、変化点検出話題分割手段104のパ メータを推定しても良い。

 このように、モデルベース話題分割手段1 02によって正しく分割できている可能性が高 区間の結果を用いてパラメータを推定する とで、所望の話題単位へと分割するための ラメータをより適切に推定することができ ようになる。

 また、モデルベース話題分割手段102が分割 頼度を出力する場合、分割結果統合手段105 、
 ・分割信頼度が一定値以下の区間は変化点 出話題分割手段104による分割結果を出力し
 ・分割信頼度が一定値以上の区間はモデル ース話題分割手段102による分割結果を出力 ても良い。

 このように、モデルベース話題分割手段1 02による分割結果が誤っている可能性が高い 間(分割信頼度が一定値以下の区間)は、変 点検出話題分割手段104の結果を出力するこ で、入力テキスト全体をより正確に話題分 することが可能となる。

 なお、本実施例では、パラメータ推定手 103は、モデルベース話題分割手段102による 割結果を教師として、変化点検出話題分割 段104のパラメータを推定しているが、本発 はかかる構成に制限されるものでないこと 勿論である。一例として、本実施例におい 、パラメータ推定手段103は、モデルベース 題分割手段102による分割結果以外の分割結 を教師として、変化点検出話題分割手段104 パラメータを推定しても良い。

 例えば、モデルベース話題分割手段102の わりに、人手によって入力テキストを所望 話題単位に分割し、パラメータ推定手段103 人手による分割結果を教師とすることもで る。このようにすることで、人手によって 力テキストの一部分を所望の話題単位へと 割することで、入力テキストの他の部分も 望の話題単位へと分割することが可能とな 。

 次に、本実施例の作用効果について説明 る。

 本実施例では、パラメータ推定手段103が モデルベース話題分割手段102による分割結 を教師とすることで、変化点検出話題分割 段104が入力テキスト中のどのような区間で 所望の話題単位へと分割するようなパラメ タを推定することができる。このため、ど ような入力テキストが与えられても、テキ トを所望の話題単位へと分割することがで る。

 次に、本発明の第2の実施例について、図 面を参照して詳細に説明する。図2は、本発 の第2の実施例の構成を示す図である。本実 例においては、前記第1の実施例に対して、 分割対象区間を決定する手段が追加されてい る。

 図2を参照すると、本発明の第2の実施例 、入力されたテキストを複数の区間に分割 る装置であって、話題モデル記憶手段201と モデルベース話題分割手段202と、パラメー 推定手段203と、変化点検出話題分割手段204 、分割結果統合手段205と、分割対象区間決 手段206とを備えている。図4は、本発明の第2 の実施例の動作を説明する流れ図である。図 8は、本発明の第2の実施例を説明するための 明図である。

 次に、図2、図4、図8を参照して、本実施 の全体の動作について詳細に説明する。た し、話題モデル記憶手段201、モデルベース 題分割手段202はそれぞれ、本発明の第1の実 施例における話題モデル記憶手段101、モデル ベース話題分割手段102、と同様の動作を行う ため、詳しい説明は適宜省略する。

 まず、モデルベース話題分割手段202が、 題モデル記憶手段201に記憶された話題モデ を用いて入力テキストを分割する(図4のス ップS401)。このとき、モデルベース話題分割 手段202は、入力テキストの各区間に対して、 分割の確からしさを表す分割信頼度を出力す る。

 分割信頼度は、本発明の第1の実施例にお いて説明したように、話題モデルの尤度や事 後確率のエントロピー、或いはガーベジモデ ルと整合したか否か、などに基づいて計算す れば良い。

 図8に示した例では、モデルベース話題分 割手段202によって、入力テキストは分割点M1 M2、M3、M5、M6、M7、M8、M9、M10、M11で分割さ 、さらに、区間M3-M5および区間M8-M9は分割信 度が低いものと判定されている。

 次に、分割対象区間決定手段206が、分割 頼度が一定値以下の区間を、変化点検出話 分割手段204の分割対象区間として定める(図 4のステップS402)。

 分割信頼度が低い区間は、モデルベース 題分割手段202による分割結果が誤っている 能性が高いことから、変化点検出話題分割 段204によって分割した方が、望ましい分割 果が得られるものと想定される。

 図8に示した例では、区間M3-M5および区間M 8-M9が、変化点検出話題分割手段204で分割す き区間として定められる。

 パラメータ推定手段203は、本発明の第1の 実施例におけるパラメータ推定手段103と同様 に、変化点検出話題分割手段204のパラメータ を推定する(図4のステップS403)。このとき、 割対象区間決定手段206により定められた分 対象区間から所定の範囲内におけるモデル ース話題分割手段202による分割結果のみを 師とする点が、本発明の第1の実施例におけ パラメータ推定手段103とは異なる。

 図8に示した例では、変化点検出話題分割 手段204が区間M3-M5を分割する際に用いるパラ ータは、分割対象区間M3-M5から所定の範囲 である区間T1-T2におけるモデルベース話題分 割の結果(M2、M3、M5、M6)のみを教師として推 される。

 また、変化点検出話題分割手段204が区間M 8-M9を分割する際に用いるパラメータは、分 対象区間M8-M9から所定の範囲内である区間T3- T4におけるモデルベース話題分割の結果(M7、M 8、M9、M10)のみを教師として推定される。

 入力テキスト中での位置が近いほど、入 テキストを所望の話題単位へと分割するた のパラメータ値も似ていると考えられるた 、分割対象区間から所定の範囲内のモデル ース話題分割の結果のみを教師とすること 、その分割対象区間を所望の話題単位へと 割するためのより適切なパラメータを推定 ることができる。

 ここで、上述した所定の範囲、すなわち 教師として用いるモデルベース話題分割結 の範囲を定める最も簡単な方法は、分割対 区間を前後に一定値だけ広げた区間を所定 範囲とする方法である。

 このような単純な方法でも、分割対象区 の周辺のモデルベース話題分割結果のみを 師としているため、入力テキスト全体を教 として用いるよりは、分割対象区間を所望 話題単位へと分割するのにより適したパラ ータを得ることができる。

 或いは、他の方法として、パラメータを 定しながら教師とする範囲を少しずつ広げ いき、推定されるパラメータ値の急激な変 を検出し、変化する直前の範囲を所定の範 としても良い。すなわち、推定されるパラ ータ値が急激に変化した場合、その範囲の 後で入力テキストの性質が大きく変化して ると考えられるため、このように所定の範 を定めることで適切なパラメータ値を推定 ることができる。

 変化点検出話題分割手段204は、パラメー 推定手段203によって推定されたパラメータ 用いて、入力テキスト中の分割対象区間決 手段206により定められた分割対象区間を分 する(図4のステップS404)。

 図8に示した例では、変化点検出話題分割手 段204は、分割対象区間M3-M5およびM8-M9を分割 る。このとき、
 ・分割対象区間M3-M5を分割する際には、区 T1-T2におけるモデルベース話題分割の結果を 教師として推定されたパラメータ値を用い、
 ・分割対象区間M8-M9を分割する際には、区 T3-T4におけるモデルベース話題分割の結果を 教師として推定されたパラメータ値を用いる 。

 本実施例においては、このように、パラ ータ推定手段203によって、分割対象区間ご に適切に推定されたパラメータ値を用いる とで、入力テキストをより所望に近い話題 位へと分割することができる。

 分割結果統合手段205は、モデルベース話題 割手段202による分割結果と、変化点検出話 分割手段204による分割結果とを統合して(図 4のステップS405)、2つの手段202、204による分 結果を統合したものを入力テキストの最終 な分割結果として出力する(図4のステップS40 6)。具体的には、分割結果統合手段205は、
 ・変化点検出話題分割手段204が分割対象と た区間では、変化点検出話題分割手段204に る分割結果を出力し、
 ・変化点検出話題分割手段204が分割対象と なかった区間では、モデルベース話題分割 段202による分割結果を出力する。

 次に、本実施例の作用効果について説明 る。

 本実施例では、変化点検出話題分割手段2 04のパラメータを、分割対象区間から、所定 範囲内におけるモデルベース話題分割の結 のみを教師として推定するため、分割対象 間の周辺のテキストの性質にあわせたパラ ータ値を推定することが可能となる。その 果、分割対象区間を所望の話題単位へと分 する精度を向上することができる。

 さらに、本実施例では、変化点検出話題 割手段204のそれぞれの分割対象区間ごとに それぞれの区間から所定の範囲内における デルベース話題分割の結果を教師としてパ メータを推定している。このため、入力テ スト内において所望の話題単位を得るため 最適なパラメータ値が変化している場合で 、変化点検出話題分割手段204によって精度 く入力テキストを所望の話題単位へと分割 きる。

 次に、本発明の第3の実施例について、図 面を参照して詳細に説明する。

 本発明の第3の実施例は、第1または第2の 施例をプログラムにより構成した場合に、 のプログラムにより動作するコンピュータ して実現される。

 図9を参照すると、本発明の第3の実施例 、MPU等を含んで構成されるデータ処理装置51 0と、磁気ディスクや半導体メモリ等で構成 れる記憶装置520と、テキスト分割用プログ ム530とから構成される。記憶装置520は、話 モデル記憶手段521などとして使用される。 キスト分割用プログラム530は、データ処理 置510に読み込まれ、データ処理装置510の動 を制御することにより、データ処理装置510 に、前記第1又は第2に実施例の機能を実現す る。すなわち、データ処理装置510は、テキス ト分割用プログラム530の制御により、図1の デルベース話題分割手段102、パラメータ推 手段103、変化点検出話題分割手段104、分割 果統合手段105、あるいは、図2のモデルベー 話題分割手段202、パラメータ推定手段203、 化点検出話題分割手段204、分割結果統合手 205、分割対象区間決定手段206の処理を実行 る。

 本発明は、テキスト・音声・映像などの ディアデータを話題ごとに整理された状態 閲覧する情報閲覧システムや、情報閲覧シ テムをコンピュータに実現するためのプロ ラムといった用途に適用できる。また、大 のメディアデータの中から特定の話題に関 るメディアデータを検索する情報検索シス ムといった用途にも適用可能である。

 本発明の全開示(請求の範囲を含む)の枠 において、さらにその基本的技術思想に基 いて、実施形態ないし実施例の変更・調整 可能である。また、本発明の請求の範囲の 内において種々の開示要素の多様な組み合 せないし選択が可能である。すなわち、本 明は、請求の範囲を含む全開示、技術的思 にしたがって当業者であればなし得るであ う各種変形、修正を含むことは勿論である