Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
INFORMATION ANALYZING DEVICE, INFORMATION ANALYZING METHOD, INFORMATION ANALYZING PROGRAM, AND SEARCH SYSTEM
Document Type and Number:
WIPO Patent Application WO/2009/096506
Kind Code:
A1
Abstract:
An information analyzing device comprises an associated representation generating section for receiving a representation to be evaluated as an input which is a linguistic representation to be evaluated and generating a linguistic representation associated with the representation to be evaluated as an associated representation and a reliability degree calculating section for acquiring the representation to be evaluated and the associated representation with time information included, respectively, from a plurality of electronic documents and comparing between the number of appearance of the acquired representation to be evaluated and the associated representation in the same period to calculate the degree of reliability on the semantic content of the representation to be evaluated at a specific point in time.

Inventors:
ANDO SHINICHI (JP)
NAKAZAWA SATOSHI (JP)
TAKEDA TOSHIO (JP)
Application Number:
PCT/JP2009/051538
Publication Date:
August 06, 2009
Filing Date:
January 30, 2009
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NEC CORP (JP)
ANDO SHINICHI (JP)
NAKAZAWA SATOSHI (JP)
TAKEDA TOSHIO (JP)
International Classes:
G06F19/00; G06F17/21; G06F17/30
Foreign References:
JP2006048319A2006-02-16
Other References:
MATSUI K.: "Knowledge Management", JOHO SHORI, vol. 47, no. 8, 15 August 2006 (2006-08-15), pages 893 - 899
SHIMOTA Y.: "A study of public opinion surveys using weblogs", IPSJ SIG NOTES, vol. 2006, no. 59, 31 May 2006 (2006-05-31), pages 61 - 68
SHIMOTA Y., DAI 68 KAI(HEISEI 18 NEN) ZENKOKU TAIKAI KOEN RONBUNSHU (3) DATABASE TO MEDIA NETWORK, 7 March 2006 (2006-03-07), pages 3-191 - 3-192
TOKUHISA R.: "The Relationship between Utterances and ''Involvement'' in Conversational Dialogue", DAI 44 KAI REPORTS OF THE MEETING OF SPECIAL INTERNET GROUP ON SPOKEN LANGUAGE UNDERSTANDING AND DIALOGUE PROCESSING (SIG-SLUD-A501), 3 June 2005 (2005-06-03), pages 13 - 20
TATEISHI K.: "Opinion Information Retrieval from the Internet", IPSJ SIG NOTES, vol. 2001, no. 69, 17 July 2001 (2001-07-17), pages 75 - 82
Attorney, Agent or Firm:
YAMASHITA, Johei (Toranomon 40th MT Bldg.13-1, Toranomon 5-chome,Minato-ku, Tokyo 01, JP)
Download PDF:
Claims:
 評価対象の言語表現である評価対象表現を入力として受け付け、前記評価対象表現に関連する言語表現を関連表現として生成する関連表現生成部と、
 複数の電子文書から前記評価対象表現と前記関連表現とをそれぞれ時刻情報付きで取得し、取得した前記評価対象表現と前記関連表現との同時期の出現回数を比較することによって、特定の時点における前記評価対象表現の意味内容に関する信頼度を算出する信頼度算出部とを
 備えたことを特徴とする情報分析装置。
 前記信頼度算出部は、複数の電子文書から前記評価対象表現と前記関連表現とをそれぞれ時刻情報付きで取得し、取得した前記評価対象表現と前記関連表現との同時期の出現回数の変化傾向を比較することによって、特定の時点における前記評価対象表現の信頼度を調整する請求項1記載の情報分析装置。
 前記信頼度算出部は、
 前記評価対象表現の増加傾向と前記関連表現の減少傾向とが同時期に観測される場合に、当該評価対象表現の増加傾向と当該関連表現の減少傾向とが同時期に観測される時点又は当該時点以降における前記評価対象表現の信頼度を増加させ、
 前記評価対象表現の減少傾向と前記関連表現の増加傾向とが同時期に観測される場合に、当該評価対象表現の減少傾向と当該関連表現の増加傾向とが同時期に観測される時点又は当該時点以降における前記評価対象表現の信頼度を減少させる
 請求項2記載の情報分析装置。
 前記関連表現生成部は、評価対象表現に対して意味が対立する表現を関連表現として生成する請求項1から請求項3のうちのいずれか1項に記載の情報分析装置。
 前記関連表現生成部は、複数の電子文書を参照して評価対象表現と共起する表現を関連表現として生成する請求項1から請求項4のうちのいずれか1項に記載の情報分析装置。
 前記信頼度算出部は、各時点における前記評価対象表現と前記関連表現との出現回数の比に従って、それぞれ各時点における前記評価対象表現の信頼度を調整する請求項5記載の情報分析装置。
 前記信頼度算出部は、複数の電子文書から取得した評価対象表現と関連表現とについて、当該評価対象表現と当該関連表現との著者が一致する割合を算出し、算出した著者が一致する割合に応じて、前記評価対象表現の信頼度を調整する請求項1から請求項6のうちのいずれか1項に記載の情報分析装置。
 前記信頼度算出部は、複数の電子文書から取得した評価対象表現と関連表現とについて、当該評価対象表現と当該関連表現との出典が一致する割合を算出し、算出した出典が一致する割合に応じて、前記評価対象表現の信頼度を調整する請求項1から請求項7のうちのいずれか1項に記載の情報分析装置。
請求項1から請求項8のいずれか1項に記載の情報分析装置と、該情報分析装置から出力される、信頼度の高い表現を検索条件として、複数の検索対象文書から該表現を含む文書を検索する文書検索部と、
前記文書検索部で検索された文書を出力する文書出力部とを備えた検索システム。
 評価対象の言語表現である評価対象表現を入力として受け付け、前記評価対象表現に関連する言語表現を関連表現として生成し、
 複数の電子文書から前記評価対象表現と前記関連表現とをそれぞれ時刻情報付きで取得し、取得した前記評価対象表現と前記関連表現との同時期の出現回数を比較することによって、特定の時点における前記評価対象表現の意味内容に関する信頼度を算出する
ことを特徴とする情報分析方法。
 前記信頼度の算出は、複数の電子文書から前記評価対象表現と前記関連表現とをそれぞれ時刻情報付きで取得し、取得した前記評価対象表現と前記関連表現との同時期の出現回数の変化傾向を比較することによって、特定の時点における前記評価対象表現の信頼度を調整することで行う請求項10記載の情報分析方法。
 前記信頼度の算出は、
 前記評価対象表現の増加傾向と前記関連表現の減少傾向とが同時期に観測される場合に、当該評価対象表現の増加傾向と当該関連表現の減少傾向とが同時期に観測される時点又は当該時点以降における前記評価対象表現の信頼度を増加させ、
 前記評価対象表現の減少傾向と前記関連表現の増加傾向とが同時期に観測される場合に、当該評価対象表現の減少傾向と当該関連表現の増加傾向とが同時期に観測される時点又は当該時点以降における前記評価対象表現の信頼度を減少させることで行う
 請求項11記載の情報分析方法。
 前記関連表現の生成は、評価対象表現に対して意味が対立する表現を関連表現として生成することで行う請求項10から請求項12のうちのいずれか1項に記載の情報分析方法。
 前記関連表現の生成は、複数の電子文書を参照して評価対象表現と共起する表現を関連表現として生成することで行う請求項10から請求項13のうちのいずれか1項に記載の情報分析方法。
 前記信頼度の算出は、各時点における前記評価対象表現と前記関連表現との出現回数の比に従って、それぞれ各時点における前記評価対象表現の信頼度を調整することで行う請求項14記載の情報分析方法。
 前記信頼度の算出は、複数の電子文書から取得した評価対象表現と関連表現とについて、当該評価対象表現と当該関連表現との著者が一致する割合を算出し、算出した著者が一致する割合に応じて、前記評価対象表現の信頼度を調整することで行う請求項10から請求項15のうちのいずれか1項に記載の情報分析方法。
 前記信頼度の算出はで、複数の電子文書から取得した評価対象表現と関連表現とについて、当該評価対象表現と当該関連表現との出典が一致する割合を算出し、算出した出典が一致する割合に応じて、前記評価対象表現の信頼度を調整することで行う請求項10から請求項16のうちのいずれか1項に記載の情報分析方法。
 コンピュータに、
 評価対象の言語表現である評価対象表現を入力として受け付け、前記評価対象表現に関連する言語表現を関連表現として生成する関連表現生成処理と、
 複数の電子文書から前記評価対象表現と前記関連表現とをそれぞれ時刻情報付きで取得し、取得した前記評価対象表現と前記関連表現との同時期の出現回数を比較することによって、特定の時点における前記評価対象表現の意味内容に関する信頼度を算出する信頼度算出処理とを
 実行させるための情報分析用プログラム。
 コンピュータに、
 前記信頼度算出処理で、複数の電子文書から前記評価対象表現と前記関連表現とをそれぞれ時刻情報付きで取得し、取得した前記評価対象表現と前記関連表現との同時期の出現回数の変化傾向を比較することによって、特定の時点における前記評価対象表現の信頼度を調整する処理を実行させる
 請求項18記載の情報分析用プログラム。
 コンピュータに、
 前記信頼度算出処理で、
 前記評価対象表現の増加傾向と前記関連表現の減少傾向とが同時期に観測される場合に、当該評価対象表現の増加傾向と当該関連表現の減少傾向とが同時期に観測される時点又は当該時点以降における前記評価対象表現の信頼度を増加させる処理と、
 前記評価対象表現の減少傾向と前記関連表現の増加傾向とが同時期に観測される場合に、当該評価対象表現の減少傾向と当該関連表現の増加傾向とが同時期に観測される時点又は当該時点以降における前記評価対象表現の信頼度を減少させる処理とを実行させる
 請求項19記載の情報分析用プログラム。
 コンピュータに、
 前記関連表現生成処理で、評価対象表現に対して意味が対立する表現を関連表現として生成する処理を実行させる
 請求項18から請求項20のうちのいずれか1項に記載の情報分析用プログラム。
 コンピュータに、
 前記関連表現生成処理で、複数の電子文書を参照して評価対象表現と共起する表現を関連表現として生成する処理を実行させる
 請求項18から請求項21のうちのいずれか1項に記載の情報分析用プログラム。
 コンピュータに、
 前記信頼度算出処理で、各時点における前記評価対象表現と前記関連表現との出現回数の比に従って、それぞれ各時点における前記評価対象表現の信頼度を調整する処理を実行させる
 請求項22記載の情報分析用プログラム。
 コンピュータに、
 前記信頼度算出処理で、複数の電子文書から取得した評価対象表現と関連表現とについて、当該評価対象表現と当該関連表現との著者が一致する割合を算出し、算出した著者が一致する割合に応じて、前記評価対象表現の信頼度を調整する処理を実行させる
 請求項18から請求項23のうちのいずれか1項に記載の情報分析用プログラム。
 コンピュータに、
 前記信頼度算出処理で、複数の電子文書から取得した評価対象表現と関連表現とについて、当該評価対象表現と当該関連表現との出典が一致する割合を算出し、算出した出典が一致する割合に応じて、前記評価対象表現の信頼度を調整する処理を実行させる
 請求項18から請求項24のうちのいずれか1項に記載の情報分析用プログラム。
Description:
情報分析装置、情報分析方法、 報分析用プログラム、及び検索システム

 本発明は、情報の信頼性を評価する情報 析装置、情報分析方法及び情報分析用プロ ラム、及び検索システムに関する。

 近年、インターネット上のWebページや電 掲示板等を介して、大量の情報が世の中に 通している。そのため、一般のユーザにと ては、インターネット上のどの情報を信頼 ることができ、どの情報を信頼することが きないかを判別することが困難になってき いる。

 例えば、「緑茶は癌に効く」や「冥王星 惑星である」といった命題を1つ取り上げた 場合、インターネット上にはその命題に関す る多種多様な記事や解説、意見といった賛否 両論の情報が大量に流通している。そのため 、ユーザは、そのような情報を広く参照する ことで、当該命題の信頼性を判断することが できる。しかし、それらの情報の一部を参照 するだけでは判断に偏りが生じる可能性を排 除できず、かといってユーザが全ての情報に 目を通すことも現実的には非常に困難である 。特に、時間経過によってその情報の信頼性 が変動する場合には、この傾向はいっそう強 くなる。

 例えば「冥王星は惑星である」という命 は、2006年に惑星の定義が変更されたことに よって、その真偽が変化している。そのため 、いつの時点の情報を参照するかによって、 ユーザの判断が異なってしまう危険性がある 。

 ここで、インターネット上の情報の信頼 を評価する関連技術が、例えば、非特許文 1に記載されている。非特許文献1に記載さ た関連技術によれば、特定の命題を含む大 のWeb文書を、その文書の発信者や、その文 に対する賛否に関する意見、その根拠とい た意味内容に基づいて分類整理し提示する とによって、その命題に対するユーザの信 性判断を支援する技術が開示されている。

 また、インターネット上の記事やブログ 電子メール等には多くの場合、作成日時や 信日時等の時間情報が付与されている。そ で、そうしたインターネット上の情報から 目する命題が記述された文書を抽出し、抽 した文書を各文書毎に付与されている時間 報に基づいて整理することによって、着目 る命題の出現時期や出現回数を提示する技 が存在する。例えば、非特許文献2には、収 集したブログ全体において特定の話題語が出 現した回数の時系列変化を抽出し表示する方 法が記載されている。

H. Miyamori, et. al., "Evaluation Data and Prot otype System WISDOM for Information Credibility Analys is", In Proc. of First International Symposium on Un iversal Communication, pp.234-237 (2007) 南野朋之,鈴木泰裕,藤木稔明,奥村学,「bl ogの自動収集と監視」,人工知能学会論文誌,Vo l.19,No.6,pp.511-520,2004年

 しかし、非特許文献1や非特許文献2に記 された関連技術を用いたとしても、分析対 となる言語表現の特定の時点における信頼 を適切に評価することができないという問 点がある。その理由は、非特許文献1に記載 れた関連技術では、基本的に、時間経過に る信頼性の変動を考慮していないためであ 。また、非特許文献2に記載された時間経過 による変動を扱う関連技術を用いたとしても 、単に分析対象となる言語表現の出現回数に 関する時系列変化を提示できるにすぎず、そ の出現回数の増加/減少といった時系列変化 必ずしも信頼性を反映していないためであ 。

 例えば、ある命題に対応する言語表現の 現回数について減少傾向が観測できた場合 考える。この場合、非特許文献1や非特許文 献2に記載された関連技術を用いたとしても その命題が否定されたことによって出現回 が減少しているのか、それともその命題が 般的な事実として世の中に受け入れられた めに取り上げられなくなっただけなのかを 別することができない。

 また、ある種の命題については特定の条 下でのみ真となるような命題が存在するが このような命題についても単に分析対象と る言語表現の出現回数を観測するだけでは この特定の条件下でのみ真となる現象を捉 ることができない。

 本発明の典型的(exemplary)な目的は、分析 象となる言語表現の特定の時点における信 性を適切に評価することができる情報分析 置、情報分析方法及び情報分析用プログラ を提供することにある。

 本発明による典型的(exemplary)な情報分析装 は、評価対象の言語表現である評価対象表 を入力として受け付け、前記評価対象表現 関連する言語表現を関連表現として生成す 関連表現生成部と、
 複数の電子文書から前記評価対象表現と前 関連表現とをそれぞれ時刻情報付きで取得 、取得した前記評価対象表現と前記関連表 との同時期の出現回数を比較することによ て、特定の時点における前記評価対象表現 意味内容に関する信頼度を算出する信頼度 出部とを
 備えたことを特徴とする。

 本発明による典型的(exemplary)な情報分析方 は、評価対象の言語表現である評価対象表 を入力として受け付け、前記評価対象表現 関連する言語表現を関連表現として生成し
 複数の電子文書から前記評価対象表現と前 関連表現とをそれぞれ時刻情報付きで取得 、取得した前記評価対象表現と前記関連表 との同時期の出現回数を比較することによ て、特定の時点における前記評価対象表現 意味内容に関する信頼度を算出する
ことを特徴とする。

 本発明による典型的(exemplary)な情報分析用 ログラムは、コンピュータに、
 評価対象の言語表現である評価対象表現を 力として受け付け、前記評価対象表現に関 する言語表現を関連表現として生成する関 表現生成処理と、
 複数の電子文書から前記評価対象表現と前 関連表現とをそれぞれ時刻情報付きで取得 、取得した前記評価対象表現と前記関連表 との同時期の出現回数を比較することによ て、特定の時点における前記評価対象表現 意味内容に関する信頼度を算出する信頼度 出処理とを
 実行させるためのものである。

 本発明によれば、分析対象となる言語表 の特定の時点における信頼性を適切に評価 ることができる。

本発明による情報分析装置の構成の一 を示すブロック図である。 情報分析装置が情報を分析する処理の 例を示すフローチャートである。 第2の実施形態における情報分析装置の 構成の一例を示すブロック図である。 文書記憶部が格納する文書の例を示す 明図である。 文書記憶部を検索した結果を時系列的 プロットした結果の例を示す説明図である 文書記憶部を検索した結果を時系列的 プロットした結果の他の例を示す説明図で る。 情報分析装置の最小の構成例を示すブ ック図である。 本発明による検索システムの構成を示 ブロック図である。

符号の説明

10 入力装置
20,50 データ処理装置
30 記憶装置
40 出力装置
60 情報分析用プログラム
21 関連表現生成部
22 信頼度算出部
31,32 文書記憶部

実施形態1.
 以下、本発明の典型的(exemplary)な第1の実施 態について図面を参照して説明する。本発 は、分析対象となる言語表現の特定の時点 おける信頼性を評価する情報分析方式を用 た情報分析装置に関する。

 本実施形態において、情報分析装置は、 価対象の言語表現である評価対象表現を入 として受け付け、評価対象表現に関連する 語表現を関連表現として生成する関連表現 成部を備える。また、情報分析装置は、複 の文書(電子文書)から評価対象表現と関連 現との各々を時間情報付きで取得し、両者 同時期の出現回数を比較することによって 特定の時点における評価対象表現の意味内 に関する信頼度を算出する信頼度算出部を える。

 上記のような構成を採用し、情報分析装 は、単に分析対象となる評価対象表現の各 点における出現回数だけでなく、当該評価 象表現と相関して出現する関連表現の各時 における出現回数を考慮して信頼度を算出 る。そのようにすることによって、当該言 表現の特定の時点における信頼性を適切に 価することができる。

 図1は、本発明による情報分析装置の第1 実施形態の構成の一例を示すブロック図で る。図1に示すように、情報分析装置は、入 装置10、データ処理装置20、記憶装置30及び 力装置40を含む。本実施形態の情報分析装 は、専用IC等のハードウェアで構成している が、後述する第2の実施形態で述べるように プログラムに従って動作するコンピュータ の情報処理装置によってソフトウェアでそ 機能を実現することもできる。

 図1に示す情報分析装置において、入力装 置10は、ユーザの入力を受け付ける装置であ 、具体的には、キーボードやマウス等の入 デバイスによって実現される。記憶装置30 、各種情報を記憶する装置であり、具体的 は、磁気ディスク装置や光ディスク装置等 記憶媒体によって実現される。出力装置40は 、処理結果をユーザに出力する装置であり、 具体的には、ディスプレイ装置や印刷装置等 の出力デバイスによって実現される。

 記憶装置30は、文書記憶部31を含む。

 文書記憶部31は、例えばインターネット の記事やブログといった文書データを時間 報とともに格納する。典型的には、文書デ タに対して、その文書が発信された日時や 成された日時が時間情報として文書単位に 与されているものとする。また、時間情報 、文書データ内の特定の部分に対して付与 れていてもよい。例えば、ある文書データ の「2008年1月10日に○○社は~と発表した」と いう言語表現部分に対して、「2008年1月10日 という時間情報が付与されていてもよい。 憶装置の文書記憶部は、必ずしも情報分析 置内部で文書を保持する必要はない。文書 対するアクセス手段さえ提供されれば、実 の文書は、情報分析装置の内部に保持され 、外部に保持されるものでもよい。例えば 記憶装置の替わりに、インターネット上の ログをキーワードや日時を指定して検索す ブログ検索エンジンを用いてもよい。

 データ処理装置20は、関連表現生成部21と 、信頼度算出部22とを含む。

 関連表現生成部21は、命題としてその信 性を評価したい言語表現である評価対象表 を、入力として入力装置10から受け付ける機 能を備える。また、関連表現生成部21は、入 された評価対象表現に関連する言語表現を 連表現として生成する機能を備える。

 ここで、関連表現として、例えば、入力 れた評価対象表現に対立する言語表現や、 書記憶部31に記憶された文書の中で評価対 表現と共起する言語表現を用いることがで る。

 このような機能を備えることにより、関 表現生成部21は、例えば、評価対象表現に して意味が対立する表現を関連表現として 成する。また、関連表現生成部21は、例えば 、複数の電子文書を参照して評価対象表現と 共起する表現を関連表現として生成する。

 信頼度算出部22は、入力された評価対象 現と関連表現生成部21が生成した関連表現と の各々に対応する検索結果を、時間情報付き で文書記憶部31から取得(抽出)する機能を備 る。また、信頼度算出部22は、当該時間情報 に基づいて、評価対象表現と関連表現との両 者の同時期の出現回数を比較することによっ て、特定の時点における評価対象表現の意味 内容の真偽に関する信頼度を算出する機能を 備える。

 このような機能を備えることにより、信 度算出部22は、複数の電子文書から評価対 表現と関連表現とをそれぞれ時刻情報付き 取得し、取得した評価対象表現と関連表現 の同時期の出現回数を比較することによっ 、特定の時点における評価対象表現の意味 容に関する信頼度を算出する。

 ここで、信頼度を算出する対象となる特 の時点は、典型的には、現時点もしくは過 の時点である。しかし、予測等によって評 対象表現と関連表現との出現回数が得られ 場合には、特定の時点は未来の時点であっ もよい。また、信頼度算出部22は、信頼度 、例えば、評価対象表現と関連表現との各 点における出現回数の差分に基づいて計算 たり、評価対象表現と関連表現との各時点 おける出現回数の変化分の差分に基づいて 算したりする。

 また、信頼度算出部22は、複数の電子文 から評価対象表現と関連表現とをそれぞれ 刻情報付きで取得し、取得した評価対象表 と関連表現との同時期の出現回数の変化傾 を比較することによって、特定の時点にお る評価対象表現の信頼度を調整する機能を える。

 例えば、信頼度算出部22は、評価対象表 の増加傾向と関連表現の減少傾向とが同時 に観測される場合に、当該評価対象表現の 加傾向と当該関連表現の減少傾向とが同時 に観測される時点又は当該時点以降におけ 評価対象表現の信頼度を増加させることに って、信頼度を調整する。また、例えば、 頼度算出部22は、評価対象表現の減少傾向と 関連表現の増加傾向とが同時期に観測される 場合に、当該評価対象表現の減少傾向と当該 関連表現の増加傾向とが同時期に観測される 時点又は当該時点以降における評価対象表現 の信頼度を減少させることによって、信頼度 を調整する。

 信頼度算出部22は、各時点における評価 象表現と関連表現との出現回数の比に従っ 、それぞれ各時点における評価対象表現の 頼度を調整する機能を備えてもよい。また 信頼度算出部22は、複数の電子文書から取得 した評価対象表現と関連表現とについて、当 該評価対象表現と当該関連表現との著者が一 致する割合を算出し、算出した著者が一致す る割合に応じて、評価対象表現の信頼度を調 整する機能を備えてもよい。さらに、信頼度 算出部22は、複数の電子文書から取得した評 対象表現と関連表現とについて、当該評価 象表現と当該関連表現との出典が一致する 合を算出し、算出した出典が一致する割合 応じて、評価対象表現の信頼度を調整する 能を備えてもよい。

 次に、動作について説明する。図2は、情 報分析装置が情報を分析する処理の一例を示 すフローチャートである。関連表現生成部21 、まず、入力装置10から評価対象表現の入 を受け付ける(図2に示すステップA1)。ここで 、例えば、関連表現生成部21は、ユーザの操 に従って、評価対象表現の入力を受け付け 。関連表現生成部21は、他の装置が出力す 評価対象表現を入力として受け付けてもよ 。次いで、関連表現生成部21は、入力された 評価対象表現に関連する言語表現を関連表現 として生成する(図2に示すステップA2)。ここ 、関連表現生成部21は、複数の関連表現が 成できる場合には、それら全ての関連表現 生成するものとする。

 なお、関連表現生成部21が生成する関連 現としては、1つに入力された評価対象表現 対立する言語表現がある。この対立する言 表現は、典型的には入力された評価対象表 に否定表現を加えることで生成することが きる。

 例えば、「緑茶は癌に効く」という評価 象表現が入力された場合、関連表現生成部2 1は、この評価対象表現に否定表現「ない」 加え、さらに自然言語生成技術等で一般的 行なわれている活用形の調整を行なうこと 、この評価対象表現に対立する言語表現「 茶は癌に効かない」を生成することができ 。また、例えば、関連表現生成部21は、「” A”は必要である」という言語表現に対して 定表現「不」を加えることで「”A”は不必 である」という対立表現を生成することも きるし、さらに言語表現「必要」と言語表 「不要」は対立する表現であるという言語 現間の知識を利用して「”A”は不要である 」という対立表現を生成してもよい。

 また、関連表現生成部21は、関連表現と て、評価対象表現と共起しやすい表現を生 してもよい。この共起しやすい言語表現を 成する場合、関連表現生成部21は、典型的に は、入力された評価対象表現に基づいて文書 記憶部31が記憶する文書を検索し、得られた 索結果の中で評価対象表現の近くに現れる 題部分を抽出する。そして、関連表現生成 21は、この抽出した命題部分に基づいて、 起しやすい言語表現を生成することができ 。

 例えば、「耐震ジェルは効果がある」と う評価対象表現が入力され、関連表現生成 21は、この入力された評価対象表現に基づ て文書記憶部31から、「突っ張り棒と併用す ると耐震ジェルは地震対策として効果がある 」という言語表現を含む文書を検索したとす る。この場合、関連表現生成部21は、この検 結果中で評価対象表現の近傍に現れる命題 分「突っ張り棒と併用する」を抽出する。 して、関連表現生成部21は、言語生成技術 で一般的に行なわれている活用形の調整を なうことで、この評価対象表現に共起する 語表現「突っ張り棒と併用する」を生成す ことができる。

 次に、信頼度算出部22は、入力された評 対象表現に基づいて文書記憶部31を検索し、 評価対象表現を含む検索結果を時間情報付き で取得(抽出)する(図2に示すステップA3)。次 で、信頼度算出部22は、図2に示すステップA2 で生成した関連表現の中から未処理の関連表 現を1つ選び出す(図2に示すステップA4)。

 そして、信頼度算出部22は、未処理の関 表現が得られたか否か(すなわち、未処理の 連表現が存在するか否か)を調べる(図2に示 ステップA5)。未処理の関連表現が得られた 判断した場合には、信頼度算出部22は、そ 関連表現に基づいて文書記憶部31を検索して 、当該関連表現を含む検索結果を時間情報付 きで取得(抽出)する(図2に示すステップA6)。

 さらに、信頼度算出部22は、評価対象表 と関連表現との出現回数やその時間変化傾 を比較する(図2に示すステップA7)。そして、 信頼度算出部22は、その比較結果に従って、 時点における信頼度を算出し、信頼度の値 調整する(図2に示すステップA8)。

 ここで、信頼度算出部22は、ある時点に ける信頼度を、例えば、その時点における 価対象表現の出現回数と関連表現の出現回 との差を計算し、得られた値を正規化する とによって算出することができる。

 上記のようにして得られた信頼度は、そ 値が大きいほど評価対象表現に示された内 が信頼できることを意味する。また、この 頼度の値がマイナスになる場合には、その 価対象表現に記された内容が信頼できない とを意味する。さらに、この信頼度の値が0 である場合には、その評価対象表現に記され た内容が信頼できるか否かは不明であり、す なわち、文書記憶部31に格納された文書を判 材料とするだけでは判定できないことを意 する。

 また、信頼度算出部22は、ある時点にお る信頼度を、さらに、例えば、その時点に ける評価対象表現の出現回数の変化分と関 表現の出現回数の変化分との差を計算し、 の差の値を正規化した値を加える等するこ で調整してもよい。これは、出現回数の差 ら算出された信頼度が同じ値であっても、 価対象表現が増加傾向にある場合には信頼 が大きくなり、評価対象表現が減少傾向に る場合には信頼度が小さくなることを意味 る。ここでは、特に、関連表現の増加/減少 向と比較して評価対象表現の増加/減少傾向 を測ることで、関連する話題全体の増加/減 傾向の影響によって評価対象表現が増加/減 する現象を取り除く効果を期待することも きる。

 さらに、信頼度算出部22は、評価対象表 の増加傾向と関連表現の減少傾向とが同時 に観測された場合に、その時点以降の評価 象表現の信頼度がより大きくなるように信 度を調整してもよい。又は、信頼度算出部22 は、評価対象表現の減少傾向と関連表現の増 加傾向とが同時期に観測された場合に、その 時点以降の評価対象表現の信頼度がより小さ くなるように信頼度を調整してもよい。

 また、信頼度算出部22は、入力された評 対象表現に共起する言語表現が関連表現生 部21によって関連表現として生成された場合 には、ある時点における信頼度を、その時点 における評価対象表現と関連表現との出現回 数の比に応じて調整してもよい。例えば、信 頼度算出部22は、この比の値が大きい場合に 信頼度を小さくし、この比の値が小さい場 には信頼度を大きくするように調整すれば い。

 さらに、信頼度算出部22は、評価対象表 と関連表現との著者や出典が一致する場合 は、その関連表現が評価対象表現との相関 が非常に強いと見なして、当該関連表現に る信頼度の調整幅を大きくするように構成 てもよい。

 次いで、信頼度算出部22は、各時点毎の 頼度を調整した後、図2に示すステップA5に って処理を継続する。この場合、信頼度算 部22は、全ての関連表現について処理を終了 するまで、ステップA6~A8の処理を繰り返し実 する。

 図2に示すステップA5において未処理の関 表現がない場合には(すなわち、全ての関連 表現について処理を終了した場合には)、信 度算出部22は、算出した信頼度を出力装置4 出力させて(図2に示すステップA9)、処理を終 了する。

 ここで、信頼度の出力方法については、 頼度算出部22は、ユーザが指定した時点の 頼度を出力装置4に出力させるように構成し もよいし、ある期間の信頼度の時系列変化 グラフの形で出力装置4に出力させるように 構成してもよい。また、信頼度算出部22は、 頼度を直接ユーザに提示するのではなく、 頼度が大きく変化する要因になった関連情 を提示(例えば、表示)させるように構成し もよい。

 以上のように、本実施形態によれば、単 分析対象となる評価対象表現の各時点にお る出現回数だけでなく、当該評価対象表現 相関して出現する関連表現の各時点におけ 出現回数を考慮して信頼度を算出する。そ ため、分析対象となる言語表現の特定の時 における信頼性を適切に評価することがで る。

 また、本実施形態において、単に特定の 点における信頼度をユーザに提示するので なく、予め定められた閾値によって各時点 おいて当該評価対象表現が信頼できるか否 を判定し、当該評価対象表現の有効期間を 力するように構成してもよい。

 さらに、本実施形態では、各時点で当該 価対象表現と強く相関する関連表現を見つ 出し、その関連表現の存在もしくは時系列 な変化を根拠に信頼度を調整するように構 されている。そのため、信頼度が大きく変 した場合にはその要因となった関連情報を ーザに提示する構成とすることができる。 って、このように構成することによって、 確な情報を与えつつユーザの信頼性判定を 援することもできる。

実施形態2.
 次に、本発明の典型的(exemplary)な第2の実施 態について図面を参照して説明する。図3は 、第2の実施形態における情報分析装置の構 の一例を示すブロック図である。図3に示す うに、本実施形態において、情報分析装置 、第1の実施形態と同様に、入力装置10、デ タ処理装置50、記憶装置30及び出力装置40を む。データ処理装置50は、プログラム制御 より動作して各種処理を実行する装置であ 、具体的には、プログラムを記憶するメモ と、プログラムを実行するCPUとを含む。

 ここで、情報分析用プログラム60は、デ タ処理装置50に読み込まれてデータ処理装置 50の動作を制御し、記憶装置30に文書記憶部32 を生成する機能を備える。また、データ処理 装置50は、情報分析用プログラム60に従った 御により、第1の実施形態で示したデータ処 装置20が実行する処理と同様の処理を実行 る機能を備える。

 このような機能を備えることによって、 実施形態は、データ処理装置50は、FD(フロ ピィディスク)等のフレキシブルディスク、C D-ROM、DVD、フラッシュメモリ等のコンピュー 読み取り可能な情報記録媒体に記憶された 報分析用プログラム60を読み込み、読み込 だ情報分析用プログラム60に従って処理を実 行する。例えば、データ処理装置50は、評価 象の言語表現である評価対象表現を入力と て受け付け、評価対象表現に関連する言語 現を関連表現として生成する関連表現生成 理と、複数の電子文書から評価対象表現と 連表現とをそれぞれ時刻情報付きで取得し 取得した評価対象表現と関連表現との同時 の出現回数を比較することによって、特定 時点における評価対象表現の意味内容に関 る信頼度を算出する信頼度算出処理とを実 させるための情報分析用プログラム60を読 込み、処理を実行する。

 次に、本発明の実施例を図面を参照して 明する。なお、本実施例に示す情報分析装 は、第1の実施形態で示した情報分析装置に 対応するものである。本実施例において、情 報分析装置は、入力装置10としてキーボード 備え、データ処理装置20として中央演算装 (central processing unit)を備える。また、情報 析装置は、記憶装置30として磁気ディスク記 録装置、出力装置40として液晶ディスプレイ のディスプレイを備える。情報分析装置は 情報分析用プログラムに従って動作するコ ピュータで構成される。情報分析用プログ ムは記憶装置30の一部に記憶されていても いし、データ処理装置20が有するメモリに記 憶されてもよい。情報分析装置が、ネットワ ークを介して端末と接続されるサーバーであ る場合は、入力装置10と出力装置40は端末と 信を行う通信部となり、キーボード、ディ プレイは無くともよい。

 データ処理装置20が備える中央演算装置 、関連表現生成部21及び信頼度算出部22とし 機能する。また、磁気ディスク記憶装置に 、文書記憶部31として機能する記憶領域が 保されている。

 図4は、文書記憶部31が格納する文書の例 示す説明図である。なお、図4は、文書記憶 部31として機能している記憶領域を模式的に 形式で表したものであり、各行が文書記憶 31に格納された1つ1つの文書を表している。 図4に示すように、文書記憶部31は、各々の文 書と時間情報との組で対応付けて記憶する。 図4において、文書記憶部31には、時間情報「 2004/10/13」と「冥王星は太陽系の9番目の惑星 あるが、」を含む文書との組、時間情報「2 005/06/09」と「太陽系の惑星である冥王星は」 を含む文書との組、時間情報「2006/09/12」と 冥王星は惑星でないとの結論に達した。」 含む文書との組、時間情報「2006/11/21」と「 王星は惑星であるという意見も依然根強い 」を含む文書との組、時間情報「2007/04/05」 と「冥王星が惑星ではなくなったため、」を 含む文書との組等が記憶されている。

 例えば、図4に示す例において、1行目は 文書記憶部31に、2004年10月13日に発信された 冥王星は太陽系の第9番目の惑星であるが、 」という表現を含む文書が格納されているこ とを表している。

 以下、まず「冥王星は惑星である」とい 言語表現を評価対象表現として入力した場 を考える。

 中央演算装置は、まず、ユーザの操作に って、「冥王星は惑星である」という言語 現を評価対象表現として受け付ける(キーボ ードから入力する)。すると、中央演算装置 、この入力された評価対象表現に基づいて 評価対象表現に関連する関連表現を生成す 。ここでは、例えば、関連表現として評価 象表現に対立する言語表現を生成する場合 考える。この場合、中央演算装置は、「冥 星は惑星である」という言語表現に否定表 「ない」を付加した後に活用形を調整する とで、「冥王星は惑星でない」という関連 現を生成する。

 次に、中央演算装置は、評価対象表現「 王星は惑星である」に基づいて(「冥王星は 惑星である」をキーとして)、文書記憶部31を 検索する。次に、中央演算装置は、関連表現 「冥王星は惑星でない」を未処理の関連表現 として取り出し、この関連表現に基づいて( 冥王星は惑星でない」をキーとして)、文書 憶部31を検索する。

 ここで、中央演算装置は、検索方法とし 、単に文字列として評価対象表現や関連表 と完全一致する表現だけを抽出するのでは く、意味的に同じ内容を表している同義表 等が広く取得できる方式を採用して、文書 憶部31を検索してもよい。例えば、中央演 装置は、構文構造として評価対象表現や関 表現と一致する表現や、評価対象表現や関 表現の一部を同義語で言いかえた表現のよ に、意味的に同じ内容を表している同義表 等が広く取得できる方式を採用してもよい

 図5は、評価対象表現「冥王星は惑星であ る」と関連表現「冥王星は惑星でない」とに 基づいて、文書記憶部31を検索した結果を時 列的にプロットした結果の例を示す説明図 ある。図5に示す例では、縦軸が言語表現の 出現回数を表し、横軸が時間を表している。 そして、実線のグラフが評価対象表現「冥王 星は惑星である」の検索結果を表し、点線の グラフが関連表現「冥王星は惑星でない」の 検索結果を表している。

 さらに、中央演算装置は、評価対象表現 関連表現との検索結果に対して、出現回数 その時間変化傾向を比較し、信頼度を計算 る。例えば、中央演算装置は、評価対象表 の信頼度を、数式「f(t)=α(t)×((評価対象表 の出現回数)-(関連表現の出現回数))」を用い て計算することができる。ここで、α(t)は、 時点tにおける正規化のための係数を出力す る関数である。

 また、中央演算装置は、評価対象表現の 頼度を、数式「g(t)=β(t)×((評価対象表現の 現回数の変化分)-(関連表現の出現回数の変 分))」を用いて調整することができる。ここ で、β(t)は、各時点tにおける正規化のための 係数を出力する関数である。また、この場合 、中央演算装置は、調整後の信頼度を、例え ば、f(t)とg(t)との重み付き和等を求めること よって計算することができる。

 さらに、中央演算装置は、評価対象表現 関連表現との検索結果を比較して、著者も くは出典が同じものがある場合、その検索 果中の割合に応じて信頼度を調整してもよ 。例えば、中央演算装置は、検索結果中の 者や出典が一致するものの割合に応じて、 連表現の出現回数に1以上の値を乗じた値を 関連表現の出現回数として、上記に示した各 数式に適用してもよい。これは、関連表現が より多く出現したものとみなして信頼度を計 算することを意味する。

 また、次に、「耐震ジェルは有効である という言語表現を評価対象表現として入力 た場合を考える。

 中央演算装置は、まず、ユーザの操作に って、「耐震ジェルは有効である」という 語表現を評価対象表現として受け付ける(キ ーボードから入力する)。すると、中央演算 置は、この入力された評価対象表現に基づ て、評価対象表現に関連する関連表現を生 する。ここでは、例えば、関連表現として 価対象表現と共起しやすい表現を生成する 合を考える。

 中央演算装置は、まず、評価対象表現「 震ジェルは有効である」に基づいて(「耐震 ジェルは有効である」をキーとして)、文書 憶部31を検索する。ここで、「突っ張り棒と 併用すると耐震ジェルは地震対策として効果 がある」という言語表現を含む文書が検索さ れたとすると、中央演算装置は、この検索結 果中で評価対象表現の近傍に現れる命題部分 「突っ張り棒と併用する」を抽出する。そし て、中央演算装置は、抽出した命題部分に対 して言語生成技術等で一般的に行なわれてい る活用形の調整を行なうことで、この評価対 象表現に共起する言語表現「突っ張り棒と併 用する」を生成する。

 次に、中央演算装置は、上記と同様に、 価対象表現「耐震ジェルは有効である」に づいて、文書記憶部31を検索する。次に、 央演算装置は、図5に示した例と同様の処理 行なって、関連表現「突っ張り棒と併用す 」を未処理の関連表現として取り出し、こ 関連表現に基づいて(「突っ張り棒と併用す る」をキーとして)、文書記憶部31を検索する 。

 図6は、評価対象表現「耐震ジェルは有効 である」と関連表現「突っ張り棒と併用する 」とに基づいて、文書記憶部31を検索した結 を時系列的にプロットした結果の例を示す 明図である。図6に示す例では、縦軸が言語 表現の出現回数を表し、横軸が時間を表して いる。そして、実線のグラフが評価対象表現 「耐震ジェルは有効である」の検索結果を表 し、点線のグラフが関連表現「突っ張り棒と 併用する」の検索結果を表している。

 さらに、中央演算装置は、図5に示した例 と同様にして、評価対象表現と関連表現との 検索結果に対して、出現回数やその時間変化 傾向を比較し、信頼度を計算する。

 なお、中央演算装置は、共起しやすい表 を関連表現として利用する際には、特に評 対象表現と関連表現との出現回数の比を計 し、その比の値に応じて信頼度を調整して よい。例えば、中央演算装置は、評価対象 現と関連表現との出現回数の比の値が予め められた閾値以上であれば、関連表現の出 回数をより大きな値に置き換えて信頼度を 算してもよい。また、中央演算装置は、そ 比の値が予め定められた閾値以下であれば 関連表現の出現回数をより小さな値に置き えて信頼度を計算してもよい。

 以上のように、本実施例によれば、中央 算装置は、単に分析対象となる評価対象表 の各時点における出現回数だけでなく、当 評価対象表現と相関して出現する関連表現 各時点における出現回数を考慮して信頼度 算出する。そのため、分析対象となる言語 現の特定の時点における信頼性を適切に評 することができる。

 次に、本発明による情報分析装置の最小 成について説明する。図7は、情報分析装置 の最小の構成例を示すブロック図である。図 7に示すように、情報分析装置は、最小の構 要素として、関連表現生成部21と、信頼度算 出部22とを含む。

 図7に示す最小構成の情報分析装置におい て、関連表現生成部21は、評価対象の言語表 である評価対象表現を入力として受け付け 評価対象表現に関連する言語表現を関連表 として生成する機能を備える。また、信頼 算出部22は、複数の電子文書から評価対象 現と関連表現とをそれぞれ時刻情報付きで 得し、取得した評価対象表現と関連表現と 同時期の出現回数を比較することによって 特定の時点における評価対象表現の意味内 に関する信頼度を算出する機能を備える。

 図7に示す最小構成の情報分析装置によれ ば、単に分析対象となる評価対象表現の各時 点における出現回数だけでなく、当該評価対 象表現と相関して出現する関連表現の各時点 における出現回数を考慮して信頼度を算出す る。そのため、分析対象となる言語表現の特 定の時点における信頼性を適切に評価するこ とができる。

以上説明した各実施形態の情報分析装置は 情報分析装置を用いて入力した表現で信頼性 が高いとされた表現を検索条件として提示す る検索システムの用途に適用できる。

図8は、本発明による検索システムの構成 示すブロック図である。図8に示す検索シス ムは、情報分析装置100と、文書検索部70と 文書出力装置80と、検索対象文書データベー ス90とを含んでいる。情報分析装置100は図1に 示した第1の実施形態の情報分析装置である 図1に示す情報分析装置の替わりに図3に示す 情報分析装置を用いてもよい。

文書検索部70は、情報分析装置100から出力 る信頼性の高い表現を、検索条件として受 取り、検索対象文書データベース90でアク ス可能な複数の文書の中から、受け取った 現を含んでいる文書を検索する。文書出力 置80は、文書検索部70で検索された文書を出 する。検索対象文書データベース90は、検 対象とする文書集合へのアクセスを可能に るデータベースである。検索対象文書デー ベース90の構成は、インターネットテキスト のような文書集合に対するアクセスを提供す るデータベースであってよい。検索対象とす る文書集合は検索対象文書データベース90の に蓄積されていてもよいし、URLのような各 書へのアクセス手段のみが提供され、文書 実体は外部に蓄積されていてもよい。

以上、本発明の代表的な実施形態について 説明したが、本発明は、本願の請求の範囲に よって規定される、その精神または主要な特 徴から逸脱することなく、他の種々の形で実 施することができる。そのため、前述した各 実施形態は単なる例示にすぎず、限定的に解 釈されるべきではない。本発明の範囲は特許 請求の範囲によって示すものであって、明細 書や要約書の記載には拘束されない。さらに 、特許請求の範囲の均等範囲に属する変形や 変更はすべて本発明の範囲内のものである。

本願は、2008年1月30日に出願された特願2008- 019015号に基づき、優先権の利益を主張するも のである。そして、特願2008-019015号の内容は 願の明細書の内容に含まれる。

 本発明は、入力された命題の信頼性をイ ターネット上の情報を用いて評価する情報 析装置の用途に適用できる。また、本発明 、情報分析装置をコンピュータを用いて実 するためのプログラムの用途に適用できる