Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DICTIONARY REGISTERING SYSTEM, DICTIONARY REGISTERING METHOD, AND DICTIONARY REGISTERING PROGRAM
Document Type and Number:
WIPO Patent Application WO/2008/146583
Kind Code:
A1
Abstract:
A dictionary registering system for enabling the user to register a word in a user dictionary while alleviating the adverse effect even if the word may have an adverse effect on natural language processing. The dictionary registering system comprises a data processing device for implementing natural language processing by managing/using a user dictionary and a storage device holding system dictionary information and user dictionary information used for the natural language processing. The dictionary registering system is used for natural language processing using the user dictionary. The storage device includes the system dictionary information used for natural language processing and the user dictionary. The data processing device has word information registering means for registering information on the inputted word in the user dictionary, difference creating means for creating the difference between a first processing result of the natural language processing using the system dictionary information and a second processing result of the natural language processing using the system dictionary information and the user dictionary information, a correctness/error receiving means for receiving judgment on correctness/error whether the change from the first processing result to the second processing result which corresponds to the difference is correct or wrong, and dictionary registering means for registering in the user dictionary the received word registering information and a part or all of a combination of the received correctness/error and the input sentence from which the difference giving the correctness/error is created.

Inventors:
SADAMASA KUNIHIKO (JP)
ANDO SHINICHI (JP)
Application Number:
PCT/JP2008/058539
Publication Date:
December 04, 2008
Filing Date:
May 08, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NEC CORP (JP)
SADAMASA KUNIHIKO (JP)
ANDO SHINICHI (JP)
International Classes:
G06F17/28
Foreign References:
JP2005267578A2005-09-29
JPH08287057A1996-11-01
JPH03127257A1991-05-30
JPH10312377A1998-11-24
JP2004362249A2004-12-24
Attorney, Agent or Firm:
YAMASHITA, Johei (Toranomon 40th MT Bldg.13-1, Toranomon 5-chome,Minato-k, Tokyo 01, JP)
Download PDF:
Claims:
 ユーザ辞書を管理・使用して自然言語処理をおこなうデータ処理装置と、自然言語処理に用いるシステム辞書情報及びユーザ辞書情報を保持する記憶装置と、を備えるユーザ辞書を使用して自然言語処理を行う辞書登録システムであって、
 前記記憶装置が、
 自然言語処理に用いるシステム辞書情報と、
 ユーザ辞書と、を備え、
 前記データ処理装置が、
 入力された単語に関する情報を前記ユーザ辞書に登録する、単語情報登録手段と、
 前記システム辞書情報を用いて自然言語処理をおこなった第1の処理結果と、前記システム辞書情報と前記ユーザ辞書情報を用いて自然言語処理をおこなった第2の処理結果との、処理結果の差分を作成する、差分作成手段と、
 前記差分作成手段で作成された差分にあたる、前記第1の処理結果から前記第2の処理結果への変化が正しいか誤っているかの正誤の判定を受け付ける正誤受付手段と、
 前記受け付けた単語の登録情報を、前記受け付けた正誤と各正誤を付与する差分を作成する元となった入力文のペアの一部又は全てと共に前記ユーザ辞書に登録する辞書登録手段と、
 を備えることを特徴とする辞書登録システム。
 請求項1に記載の辞書登録システムであって、
 前記データ処理装置が、
 前記辞書登録手段においてユーザ辞書中に登録された、単語と共に格納された正誤と各正誤を付与する差分を作成する元となった入力文のペアの情報を用いて前記受け付けた単語の利用条件及び利用時のスコアを計算するパラメータ学習手段と、
 自然言語処理システムが解析する対象の入力に、前記辞書登録手段においてユーザ辞書中に登録された単語が含まれていた場合に、前記パラメータ学習手段において計算された単語の利用条件を満たす場合のみ、前記単語情報登録手段において登録された入力された単語に関する情報を利用して解析する、又は、前記前記パラメータ学習手段において計算されたスコアを用いて解析する、自然言語解析処理手段を更に備えることを特徴とする辞書登録システム。
 請求項1又は2に記載の辞書登録システムであって、
 前記データ処理装置が、
 前記受け付けた単語の登録情報対象文と正誤を作成する元となった入力文のペアの情報に対する正誤を追加で受け付け、前記辞書登録手段においてユーザ辞書中に登録された利用条件及び利用時スコアに対して再計算を行うことができる、利用条件及び利用時スコア再計算手段を更に備えることを特徴とする辞書登録システム。
 ユーザ辞書を管理・使用して自然言語処理をおこなうデータ処理装置と、自然言語処理に用いるシステム辞書情報及びユーザ辞書情報を保持する記憶装置と、を備えるユーザ辞書を使用して自然言語処理を行う辞書登録システムであって、
 前記記憶装置が、
 自然言語処理に用いるシステム辞書情報と、
 ユーザ辞書と、を備え、
 前記データ処理装置が、
 入力された単語に関する情報を前記ユーザ辞書に登録する、単語情報登録手段と、
 前記システム辞書情報を用いて自然言語処理をおこなった第1の処理結果と、前記システム辞書情報と前記ユーザ辞書情報を用いて自然言語処理をおこなった第2の処理結果との、処理結果の差分を作成する、差分作成手段と、
 前記差分作成手段で作成された差分にあたる、前記第1の処理結果から前記第2の処理結果への変化が正しいか誤っているかの正誤の判定を受け付ける正誤受付手段と、
 前記受け付けた正誤から前記受け付けた単語の利用条件、又は利用時のスコアの何れか又はその組合せを計算するパラメータ学習手段と、
 前記受け付けた単語の登録情報を、前記計算された利用条件、又はスコアの何れか又はその組合せと共に前記ユーザ辞書に登録する辞書登録手段と、
 を備えることを特徴とする辞書登録システム。
 請求項4に記載の辞書登録システムであって、
 前記データ処理装置が、
 自然言語処理システムが解析する対象の入力に前記ユーザ辞書中に格納された単語が含まれていた場合に、前記各単語と共に格納された単語の利用条件を満たす場合のみ前記単語情報登録手段において登録された入力された単語に関する情報を利用して解析する、又は、前記各単語と共に格納されたスコアを用いて解析する、自然言語解析処理手段を更に備えることを特徴とする辞書登録システム。
 請求項2乃至5の何れか1項に記載の辞書登録システムであって、
 前記データ処理装置が、
 前記正誤の判定結果を、正誤の判定のもととなった素性ごとに判別力が高い順に順序づけを行っておく、正誤素性順位付与手段を更に備え、
 前記利用条件を計算する際に、判別力が高い素性に基づいた正誤のみで利用条件を計算できるのであれば、それよりも下位の順位が付与されている素性に基づいた正誤を利用条件の計算の要素として用いないことを特徴とする辞書登録システム。
 請求項2乃至6の何れか1項に記載の辞書登録システムであって、
 前記パラメータ学習手段は、ユーザ辞書中の単語の利用条件を定めるにあたって、当該単語や当該単語の周囲の単語の見出しや品詞、活用形、意味分類、その他の文法情報の1つまたはその組み合わせ、からなる条件と、
 当該単語を利用した場合としない場合で、形態素解析結果に含まれる未知語の数が増えるか減るか、からなる条件と、
 当該単語を利用した場合としない場合で、構文解析の成功・失敗が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、当該単語の周囲の単語の形態素区切りや品詞が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、単語を文節に纏め上げた場合の文節の切れ目が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、当該単語の周囲の単語の構文解析結果での係り先が変化するか、からなる条件と、
 の何れか1つ、又はその組み合わせ、を用いて利用条件を定めることを特徴とする辞書登録システム。
 ユーザ辞書を管理・使用して自然言語処理をおこなうデータ処理装置と、自然言語処理に用いるシステム辞書情報及びユーザ辞書情報を保持する記憶装置と、を備えるユーザ辞書を使用して自然言語処理を行うシステムにおける、辞書登録方法であって、
 前記データ処理装置が、入力された単語に関する情報を前記ユーザ辞書に登録する、単語情報登録ステップと、
 前記データ処理装置が、前記システム辞書情報を用いて自然言語処理をおこなった第1の処理結果と、前記システム辞書情報と前記ユーザ辞書情報を用いて自然言語処理をおこなった第2の処理結果との、処理結果の差分を作成する、差分作成ステップと、
 前記データ処理装置が、前記差分作成ステップで作成された差分にあたる、前記第1の処理結果から前記第2の処理結果への変化が正しいか誤っているかの正誤の判定を受け付ける正誤受付ステップと、
 前記データ処理装置が、前記受け付けた単語の登録情報を、前記受け付けた正誤と各正誤を付与する差分を作成する元となった入力文のペアの一部又は全てと共に前記ユーザ辞書に登録する辞書登録ステップと、
 を備えることを特徴とする辞書登録方法。
 請求項8に記載の辞書登録方法であって、
 前記データ処理装置が、前記辞書登録ステップにおいてユーザ辞書中に登録された、単語と共に格納された、正誤と各正誤を付与する差分を作成する元となった入力文のペアの情報を用いて前記受け付けた単語の利用条件及び利用時のスコアを計算するパラメータ学習ステップと、
 前記データ処理装置が、自然言語処理システムが解析する対象の入力に、前記辞書登録ステップにおいてユーザ辞書中に登録された単語が含まれていた場合に、前記パラメータ学習ステップにおいて計算された単語の利用条件を満たす場合のみ、前記単語情報登録ステップにおいて登録された入力された単語に関する情報を利用して解析する、又は、前記前記パラメータ学習ステップにおいて計算されたスコアを用いて解析する、自然言語解析処理ステップを更に備えることを特徴とする辞書登録方法。
 請求項8又は9に記載の辞書登録方法であって、
 前記データ処理装置が、前記受け付けた単語の登録情報対象文と正誤を作成する元となった入力文のペアの情報に対する正誤を追加で受け付け、前記辞書登録ステップにおいてユーザ辞書中に登録された利用条件及び利用時スコアに対して再計算を行うことができる、利用条件及び利用時スコア再計算ステップを更に備えることを特徴とする辞書登録方法。
 ユーザ辞書を管理・使用して自然言語処理をおこなうデータ処理装置と、自然言語処理に用いるシステム辞書情報及びユーザ辞書情報を保持する記憶装置と、を備えるユーザ辞書を使用して自然言語処理を行うシステムにおける、辞書登録方法であって、
 前記データ処理装置が、入力された単語に関する情報を前記ユーザ辞書に登録する、単語情報登録ステップと、
 前記データ処理装置が、前記システム辞書情報を用いて自然言語処理をおこなった第1の処理結果と、前記システム辞書情報と前記ユーザ辞書情報を用いて自然言語処理をおこなった第2の処理結果との、処理結果の差分を作成する、差分作成ステップと、
 前記データ処理装置が、前記差分作成ステップで作成された差分にあたる、前記第1の処理結果から前記第2の処理結果への変化が正しいか誤っているかの正誤の判定を受け付ける正誤受付ステップと、
 前記データ処理装置が、前記受け付けた正誤から前記受け付けた単語の利用条件、又は利用時のスコアの何れか又はその組合せを計算するパラメータ学習ステップと、
 前記データ処理装置が、前記受け付けた単語の登録情報を、前記計算された利用条件、又はスコアの何れか又はその組合せと共に前記ユーザ辞書に登録する辞書登録ステップと、
 を備えることを特徴とする辞書登録方法。
 請求項11に記載の辞書登録方法であって、
 前記データ処理装置が、自然言語処理システムが解析する対象の入力に前記ユーザ辞書中に格納された単語が含まれていた場合に、前記各単語と共に格納された単語の利用条件を満たす場合のみ前記単語情報登録ステップにおいて登録された入力された単語に関する情報を利用して解析する、又は、前記各単語と共に格納されたスコアを用いて解析する、自然言語解析処理ステップを更に備えることを特徴とする辞書登録方法。
 請求項9乃至12の何れか1項に記載の辞書登録方法であって、
 前記データ処理装置が、前記正誤の判定結果を、正誤の判定のもととなった素性ごとに判別力が高い順に順序づけを行っておく、正誤素性順位付与ステップを更に備え、
 前記データ処理装置が、前記利用条件を計算する際に、判別力が高い素性に基づいた正誤のみで利用条件を計算できるのであれば、それよりも下位の順位が付与されている素性に基づいた正誤を利用条件の計算の要素として用いないことを特徴とする辞書登録方法。
 請求項9乃至13の何れか1項に記載の辞書登録方法であって、
 前記データ処理装置が、前記パラメータ学習ステップで、ユーザ辞書中の単語の利用条件を定めるにあたって、当該単語や当該単語の周囲の単語の見出しや品詞、活用形、意味分類、その他の文法情報の1つまたはその組み合わせ、からなる条件と、
 当該単語を利用した場合としない場合で、形態素解析結果に含まれる未知語の数が増えるか減るか、からなる条件と、
 当該単語を利用した場合としない場合で、構文解析の成功・失敗が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、当該単語の周囲の単語の形態素区切りや品詞が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、単語を文節に纏め上げた場合の文節の切れ目が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、当該単語の周囲の単語の構文解析結果での係り先が変化するか、からなる条件と、
 の何れか1つ、又はその組み合わせ、を用いて利用条件を定めることを特徴とする辞書登録方法。
 ユーザ辞書を管理・使用して自然言語処理を行う辞書登録プログラムであって、
 入力された単語に関する情報を前記ユーザ辞書に登録する、単語情報登録機能と、
 前記システム辞書情報を用いて自然言語処理をおこなった第1の処理結果と、前記システム辞書情報と前記ユーザ辞書情報を用いて自然言語処理をおこなった第2の処理結果との、処理結果の差分を作成する、差分作成機能と、
 前記差分作成機能で作成された差分にあたる、前記第1の処理結果から前記第2の処理結果への変化が正しいか誤っているかの正誤の判定を受け付ける正誤受付機能と、
 前記受け付けた単語の登録情報を、前記受け付けた正誤と各正誤を付与する差分を作成する元となった入力文のペアの一部又は全てと共に前記ユーザ辞書に登録する辞書登録機能と、
 をコンピュータに実現させることを特徴とする辞書登録プログラム。
 請求項15に記載の辞書登録プログラムであって、
 前記データ処理装置が、前記辞書登録機能においてユーザ辞書中に登録された、単語と共に格納された、正誤と各正誤を付与する差分を作成する元となった入力文のペアの情報を用いて前記受け付けた単語の利用条件及び利用時のスコアを計算するパラメータ学習機能と、
 前記データ処理装置が、自然言語処理システムが解析する対象の入力に、前記辞書登録機能においてユーザ辞書中に登録された単語が含まれていた場合に、前記パラメータ学習機能において計算された単語の利用条件を満たす場合のみ、前記単語情報登録機能において登録された入力された単語に関する情報を利用して解析する、又は、前記前記パラメータ学習機能において計算されたスコアを用いて解析する、自然言語解析処理機能を更にコンピュータに実現させることを特徴とする辞書登録プログラム。
 請求項15又は16に記載の辞書登録プログラムであって、
 前記データ処理装置が、前記受け付けた単語の登録情報対象文と正誤を作成する元となった入力文のペアの情報に対する正誤を追加で受け付け、前記辞書登録機能においてユーザ辞書中に登録された利用条件及び利用時スコアに対して再計算を行うことができる、利用条件及び利用時スコア再計算機能を更にコンピュータに実現させることを特徴とする辞書登録プログラム。
 ユーザ辞書を管理・使用して自然言語処理を行う、辞書登録プログラムであって、
 入力された単語に関する情報を前記ユーザ辞書に登録する、単語情報登録機能と、
 前記システム辞書情報を用いて自然言語処理をおこなった第1の処理結果と、前記システム辞書情報と前記ユーザ辞書情報を用いて自然言語処理をおこなった第2の処理結果との、処理結果の差分を作成する、差分作成機能と、
 前記差分作成機能で作成された差分にあたる、前記第1の処理結果から前記第2の処理結果への変化が正しいか誤っているかの正誤の判定を受け付ける正誤受付機能と、
 前記受け付けた正誤から前記受け付けた単語の利用条件、又は利用時のスコアの何れか又はその組合せを計算するパラメータ学習機能と、
 前記受け付けた単語の登録情報を、前記計算された利用条件、又はスコアの何れか又はその組合せと共に前記ユーザ辞書に登録する辞書登録機能と、
 をコンピュータに実現させることを特徴とする辞書登録プログラム。
 請求項18に記載の辞書登録プログラムであって、
 前記データ処理装置が、自然言語処理システムが解析する対象の入力に前記ユーザ辞書中に格納された単語が含まれていた場合に、前記各単語と共に格納された単語の利用条件を満たす場合のみ前記単語情報登録機能において登録された入力された単語に関する情報を利用して解析する、又は、前記各単語と共に格納されたスコアを用いて解析する、自然言語解析処理機能を更にコンピュータに実現させることを特徴とする辞書登録プログラム。
 請求項16乃至19の何れか1項に記載の辞書登録プログラムであって、
 前記データ処理装置が、前記正誤の判定結果を、正誤の判定のもととなった素性ごとに判別力が高い順に順序づけを行っておく、正誤素性順位付与機能を更に備え、
 前記データ処理装置が、前記利用条件を計算する際に、判別力が高い素性に基づいた正誤のみで利用条件を計算できるのであれば、それよりも下位の順位が付与されている素性に基づいた正誤を利用条件の計算の要素として用いないことを特徴とする辞書登録プログラム。
 請求項16乃至20の何れか1項に記載の辞書登録プログラムであって、
 前記データ処理装置が、前記パラメータ学習機能で、ユーザ辞書中の単語の利用条件を定めるにあたって、当該単語や当該単語の周囲の単語の見出しや品詞、活用形、意味分類、その他の文法情報の1つまたはその組み合わせ、からなる条件と、
 当該単語を利用した場合としない場合で、形態素解析結果に含まれる未知語の数が増えるか減るか、からなる条件と、
 当該単語を利用した場合としない場合で、構文解析の成功・失敗が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、当該単語の周囲の単語の形態素区切りや品詞が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、単語を文節に纏め上げた場合の文節の切れ目が変化するか、からなる条件と、
 当該単語を利用した場合としない場合で、当該単語の周囲の単語の構文解析結果での係り先が変化するか、からなる条件と、
 の何れか1つ、又はその組み合わせ、を用いて利用条件を定めることを特徴とする辞書登録プログラム。
Description:
辞書登録システム、辞書登録方 および辞書登録プログラム

 本発明は機械翻訳システム等の自然言語 理システムにおけるユーザ辞書登録システ 、辞書登録方法および辞書登録プログラム 関し、より詳細には、ユーザ辞書を利用し 自然言語処理を行う辞書登録システム、辞 登録方法および辞書登録プログラムに関す 。

 近年、計算機の処理能力の高まりに応じ 、第1の言語を第2の言語に翻訳する機械翻 システムを始めとした様々な自然言語処理 ステムが実用化され利用されるようになっ 。

 自然言語処理システムは、入力される文 解析・処理するためのデフォルトの辞書(以 下、「システム辞書」と呼ぶ。)を有する。

 またシステム辞書の他にも、システム辞 に登録されていない新語やユーザ独自の語 表現をユーザ固有の辞書(以下、「ユーザ辞 書」と呼ぶ。)に登録して、ユーザが各自で 然言語処理の解析結果を改善できる枠組み 有することが多い。

 そして、このユーザ辞書に登録された単 は、システム辞書中の単語より優先される が通常である。

 ところが、ユーザ辞書中の単語がシステ 辞書中の単語より優先されることに起因し 、不適切な語をユーザ辞書に登録すると、 って全体としての解析結果が悪化する場合 ある。

 そこで、ユーザ辞書に登録すると悪影響 与える可能性のある単語が登録されようと る際に、ユーザに対する警告を表示するシ テムが提案されている。

 このような辞書登録システムの一例が、 許文献1に記載されている(以下、「関連技 1」と呼ぶ。)。この関連技術1の辞書登録シ テムは、登録項目入力手段と、辞書登録項 検査手段と、エラーメッセージ表示/処理選 手段とを有する。

 このような構成を有する関連技術1を用い た辞書登録システムは次のように動作する。

 まず、登録項目入力手段にて、ユーザ辞 に登録する新規登録語と、その品詞や訳語 どの関連情報を受け付ける。

 次に辞書登録項目検査手段にて、当該入 された登録語が予め定められた特定の条件 満たすか否かをチェックする。ここで、特 の条件としては、当該登録語が既存の機能 を上書きする、当該登録語と同一文字列の 存語が存在し品詞が異なる、当該登録語の 出しが既存語の1活用形の文字列等と同じに なる等が挙げられる。

 前記条件を満たす場合は、エラーメッセ ジ表示/処理選択手段にて、当該条件に応じ たエラー表示(「登録中の単語『書き込み』 標準辞書内の動詞『書き込む』と連用形が 致するため登録に注意が必要です」)とユー への選択肢(「強制登録」/「修正登録」/「 録取り消し」)を表示する。

 最後に前記処理選択手段にてユーザが選 した処理を実行する。

 しかし、関連技術1では、悪影響を与える 可能性のある単語に対する選択肢としては、 悪影響があることをわきまえた上で登録する か、それとも登録しないか、または悪影響の 少ない別の単語を登録するか、の3つの中か しか選択しかできず、その単語そのものを 影響を抑えて登録することはできなかった

 なお、ユーザ辞書に登録することにより 影響を与えやすい単語としては、助詞や助 詞などの機能語が一例として知られている

 これら機能語の一部である助詞+動詞の形 の長単位助詞については悪影響を抑えつつユ ーザ辞書登録可能にしたシステムが提案され ている(以下、関連技術2と呼ぶ)。なお、長単 位助詞の例としては、「について」や「を考 慮した」が挙げられる。

 関連技術2を用いた辞書登録システムの一 例が特許文献2に記載されている。この関連 術2の辞書登録システムは、登録項目入力手 と、見出し語分割手段と、辞書登録手段を する。

 このような構成を有する関連技術2を用い た辞書登録システムは次のように動作する。

 すなわち、まず、登録項目入力手段にて ユーザ辞書に登録する新規登録語とその品 や訳語などの関連情報を受け付ける。

 次に見出し語分割手段にて、入力された が機能語の場合に見出しを形態素に分割す 。最後に辞書登録手段にて、分割された形 素に対して元の見出しとその関連情報への 付けを行う。

 更に、この関連技術2の辞書登録システム によって作成されたユーザ辞書を利用する構 文解析システムは、入力された文を形態素解 析した結果に前記分割した形態素が含まれる 場合には、分割前の形態素が連体修飾する助 詞である場合は文末でないことや、連用修飾 の場合は直後に助動詞が続かないことなどの 特定条件を満たすか否かを判別する。

 そして、特定条件を満たす場合は、分割 の形態素を復元して処理を継続する。

 これにより、助詞+動詞の形の長単位助詞を 悪影響を抑えつつ登録することを可能にして いる。

特開平07-085059号公報

特開平11-003336号公報

 しかしながら、関連技術2では、前述の通 り、悪影響を与える可能性のある単語のうち 、機能語のごく一部の語に対処する方法しか 提案されておらず、その他の種類の語には対 処することができなかった。

 その他の悪影響を与える可能性がある単 の例としては、自立語のなかでも、内部に 造を持っている単語が挙げられる。

 例えば機械翻訳において、「濃い青」と った、日本語では「濃い」と「青」の2語か らなる単語に対して、”dark blue”という訳 で翻訳したい場合について説明する。

 この場合は、「濃い青」全体で一語の名 として登録したくなる。しかし、「濃い青 を一語の名詞としてユーザ辞書に登録して まうと、内部構造の「濃い」に対する修飾 必要な入力に対して解析を行う場合は、解 が破綻してしまう。

 例えば、「濃い青」全体で一語の名詞と て登録し、「非常に濃い青」なる入力がな れた場合は、「非常に(副詞)/濃い青(名詞) と解釈されることとなるが、一般には副詞 名詞を修飾することができないため、結果 して、解析が破綻する。

 この問題は名詞のような体言だけの問題 はなく、「ゆっくり歩く(動詞)」、「顔が い(形容詞)」のような、内部構造を持った用 言に対しても同様に問題となる。

 その他にも、特許文献1にも記載されてい る、既存の機能語や活用語とバッティングを 起こす辞書登録の例、例えば「ので(固有名 )」、「かんだ(固有名詞)」といった自立語 登録も悪影響を与えうる。

 しかしながらこれらの悪影響を与えうる 立語は、関連技術1又は2を用いても登録す ことはできない。また、前述のとおり、機 語に関しては、関連技術2では助詞+動詞の形 以外のものには対処できない。

 そこで、本発明は、ユーザ辞書に登録す 単語が、自然言語処理に悪影響を及ぼす可 性のある単語である場合でも、その悪影響 最小限に抑えた辞書登録を可能とする辞書 録システム、その方法及びそのプログラム 提供することを目的とする。

 本発明によれば、ユーザ辞書を管理・使 して自然言語処理をおこなうデータ処理装 と、自然言語処理に用いるシステム辞書情 及びユーザ辞書情報を保持する記憶装置と を備えるユーザ辞書を使用して自然言語処 を行う辞書登録システムであって、前記記 装置が、自然言語処理に用いるシステム辞 情報と、ユーザ辞書と、を備え、前記デー 処理装置が、入力された単語に関する情報 前記ユーザ辞書に登録する、単語情報登録 段と、前記システム辞書情報を用いて自然 語処理をおこなった第1の処理結果と、前記 システム辞書情報と前記ユーザ辞書情報を用 いて自然言語処理をおこなった第2の処理結 との、処理結果の差分を作成する、差分作 手段と、前記差分作成手段で作成された差 にあたる、前記第1の処理結果から前記第2の 処理結果への変化が正しいか誤っているかの 正誤の判定を受け付ける正誤受付手段と、前 記受け付けた単語の登録情報を、前記受け付 けた正誤と各正誤を付与する差分を作成する 元となった入力文のペアの一部又は全てと共 に前記ユーザ辞書に登録する辞書登録手段と 、を備えることを特徴とする辞書登録システ ムが提供される。

 また、本発明によれば、ユーザ辞書を管 ・使用して自然言語処理をおこなうデータ 理装置と、自然言語処理に用いるシステム 書情報及びユーザ辞書情報を保持する記憶 置と、を備えるユーザ辞書を使用して自然 語処理を行う辞書登録システムであって、 記記憶装置が、自然言語処理に用いるシス ム辞書情報と、ユーザ辞書と、を備え、前 データ処理装置が、入力された単語に関す 情報を前記ユーザ辞書に登録する、単語情 登録手段と、前記システム辞書情報を用い 自然言語処理をおこなった第1の処理結果と 、前記システム辞書情報と前記ユーザ辞書情 報を用いて自然言語処理をおこなった第2の 理結果との、処理結果の差分を作成する、 分作成手段と、前記差分作成手段で作成さ た差分にあたる、前記第1の処理結果から前 第2の処理結果への変化が正しいか誤ってい るかの正誤の判定を受け付ける正誤受付手段 と、前記受け付けた正誤から前記受け付けた 単語の利用条件、又は利用時のスコアの何れ か又はその組合せを計算するパラメータ学習 手段と、前記受け付けた単語の登録情報を、 前記計算された利用条件、又はスコアの何れ か又はその組合せと共に前記ユーザ辞書に登 録する辞書登録手段と、を備えることを特徴 とする辞書登録システムが提供される。

 更に、本発明によれば、ユーザ辞書を管 ・使用して自然言語処理をおこなうデータ 理装置と、自然言語処理に用いるシステム 書情報及びユーザ辞書情報を保持する記憶 置と、を備えるユーザ辞書を使用して自然 語処理を行うシステムにおける、辞書登録 法であって、前記データ処理装置が、入力 れた単語に関する情報を前記ユーザ辞書に 録する、単語情報登録ステップと、前記デ タ処理装置が、前記システム辞書情報を用 て自然言語処理をおこなった第1の処理結果 と、前記システム辞書情報と前記ユーザ辞書 情報を用いて自然言語処理をおこなった第2 処理結果との、処理結果の差分を作成する 差分作成ステップと、前記データ処理装置 、前記差分作成ステップで作成された差分 あたる、前記第1の処理結果から前記第2の処 理結果への変化が正しいか誤っているかの正 誤の判定を受け付ける正誤受付ステップと、 前記データ処理装置が、前記受け付けた単語 の登録情報を、前記受け付けた正誤と各正誤 を付与する差分を作成する元となった入力文 のペアの一部又は全てと共に前記ユーザ辞書 に登録する辞書登録ステップと、を備えるこ とを特徴とする辞書登録方法が提供される。

 更に、本発明によれば、ユーザ辞書を管 ・使用して自然言語処理をおこなうデータ 理装置と、自然言語処理に用いるシステム 書情報及びユーザ辞書情報を保持する記憶 置と、を備えるユーザ辞書を使用して自然 語処理を行うシステムにおける、辞書登録 法であって、前記データ処理装置が、入力 れた単語に関する情報を前記ユーザ辞書に 録する、単語情報登録ステップと、前記デ タ処理装置が、前記システム辞書情報を用 て自然言語処理をおこなった第1の処理結果 と、前記システム辞書情報と前記ユーザ辞書 情報を用いて自然言語処理をおこなった第2 処理結果との、処理結果の差分を作成する 差分作成ステップと、前記データ処理装置 、前記差分作成ステップで作成された差分 あたる、前記第1の処理結果から前記第2の処 理結果への変化が正しいか誤っているかの正 誤の判定を受け付ける正誤受付ステップと、 前記データ処理装置が、前記受け付けた正誤 から前記受け付けた単語の利用条件、又は利 用時のスコアの何れか又はその組合せを計算 するパラメータ学習ステップと、前記データ 処理装置が、前記受け付けた単語の登録情報 を、前記計算された利用条件、又はスコアの 何れか又はその組合せと共に前記ユーザ辞書 に登録する辞書登録ステップと、を備えるこ とを特徴とする辞書登録方法が提供される。

 更に、本発明によれば、ユーザ辞書を管 ・使用して自然言語処理を行う辞書登録プ グラムであって、入力された単語に関する 報を前記ユーザ辞書に登録する、単語情報 録機能と、前記システム辞書情報を用いて 然言語処理をおこなった第1の処理結果と、 前記システム辞書情報と前記ユーザ辞書情報 を用いて自然言語処理をおこなった第2の処 結果との、処理結果の差分を作成する、差 作成機能と、前記差分作成機能で作成され 差分にあたる、前記第1の処理結果から前記 2の処理結果への変化が正しいか誤っている かの正誤の判定を受け付ける正誤受付機能と 、前記受け付けた単語の登録情報を、前記受 け付けた正誤と各正誤を付与する差分を作成 する元となった入力文のペアの一部又は全て と共に前記ユーザ辞書に登録する辞書登録機 能と、をコンピュータに実現させることを特 徴とする辞書登録プログラムが提供される。

 更に、本発明によれば、ユーザ辞書を管 ・使用して自然言語処理を行う、辞書登録 ログラムであって、入力された単語に関す 情報を前記ユーザ辞書に登録する、単語情 登録機能と、前記システム辞書情報を用い 自然言語処理をおこなった第1の処理結果と 、前記システム辞書情報と前記ユーザ辞書情 報を用いて自然言語処理をおこなった第2の 理結果との、処理結果の差分を作成する、 分作成機能と、前記差分作成機能で作成さ た差分にあたる、前記第1の処理結果から前 第2の処理結果への変化が正しいか誤ってい るかの正誤の判定を受け付ける正誤受付機能 と、前記受け付けた正誤から前記受け付けた 単語の利用条件、又は利用時のスコアの何れ か又はその組合せを計算するパラメータ学習 機能と、前記受け付けた単語の登録情報を、 前記計算された利用条件、又はスコアの何れ か又はその組合せと共に前記ユーザ辞書に登 録する辞書登録機能と、をコンピュータに実 現させることを特徴とする辞書登録プログラ ムが提供される。

 本発明によれば、あらかじめ定めた利用 件やスコアを用いて解析処理を行うことで ユーザが誤りに変化したと付与したケース 類似する入力が行われた場合には、当該単 を利用しない方向への抑制をかけることが きるので、ユーザ辞書に登録する単語が、 然言語処理に悪影響を及ぼす可能性がある 語であったとしても、悪影響を最小限に抑 た辞書登録を行うことが可能となる。

本発明の第1の発明(ユーザ辞書登録時) 実施するための最良の形態の構成を示すブ ック図である。 本発明の第1の発明(ユーザ辞書を利用 た解析時)を実施するための最良の形態の構 を示すブロック図である。 本発明の第1の発明(ユーザ辞書登録時) 実施するための最良の形態の動作を示す流 図である。 本発明の第1の発明(ユーザ辞書を利用 た解析時)を実施するための最良の形態の動 を示す流れ図である。 本発明の第2の発明(ユーザ辞書登録時) 実施するための最良の形態の構成を示すブ ック図である。 本発明の第2の発明(ユーザ辞書を利用 た解析時)を実施するための最良の形態の構 を示すブロック図である。 本発明の第2の発明(ユーザ辞書登録時) 実施するための最良の形態の動作を示す流 図である。 本発明の第2の発明(ユーザ辞書を利用 た解析時)を実施するための最良の形態の動 を示す流れ図である。 第1の実施例のパラメータ学習に用いる 対象文の第1の具体例である。 上記第1の具体例の、単語「かんだ」 使用時の形態素解析結果・構文解析結果で る。 上記第1の具体例の、単語「かんだ」 用時の形態素解析結果・構文解析結果であ 。 上記第1の具体例から得られた、パラ ータ学習用の素性抽出結果と受け付けた正 である。 第1の実施例の正誤受付部のユーザイ ターフェイスの具体的な一例である。 第1の実施例のパラメータ学習部で用 る知識の具体的な一例を示す表である。 第1の実施例の言語解析部実行時の入 の一例に対する、単語「かんだ」未使用時 形態素解析結果・構文解析結果である。 上記一例に対する、単語「かんだ」使 用時の形態素解析結果・構文解析結果である 。 上記一例から利用条件判別用に抽出さ れた素性である。 第1の実施例のパラメータ学習に用い 対象文の第2の具体例である。 上記第2の具体例の、単語「かんだ」 使用時の形態素解析結果・構文解析結果で る。 上記第2の具体例の、単語「かんだ」 用時の形態素解析結果・構文解析結果であ 。 上記第2の具体例から得られた、パラ ータ学習用の素性抽出結果と受け付けた正 である。

符号の説明

1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
20 言語解析部
21 登録情報入力部
22 差分作成部
23 正誤受付部
24 パラメータ学習部
25 辞書登録部
31 システム辞書記憶部
32 ユーザ辞書記憶部

 次に、発明を実施するための最良の形態 ついて図面を参照して詳細に説明する。

 [第1の実施の形態]
 図1は、本発明を実施するための第1の実施 形態であって、ユーザ辞書に単語を登録す 際の構成を示すブロック図である。

 図1を参照して説明すると、本発明の第1 実施の形態は、入力装置1と、データ処理装 2と、記憶装置3とを有する。

 データ処理装置2は、言語処理部20と、登 情報受付部21と、差分作成部22と、正誤受付 部23と、パラメータ学習部24と、辞書登録部25 とを有する。

 記憶装置3は、言語処理知識記憶部31と、 ーザ辞書記憶部32とを有する。

 これらの各部分はそれぞれ概略つぎのよ に動作する。

 言語処理知識記憶部31には、言語処理部20 が言語処理を行うのに必要な単語の見出し、 品詞、訳語、意味分類、単語の情報や文法情 報が格納されている。

 ユーザ辞書記憶部32は、言語処理知識記 部31に含まれない単語をユーザが独自に登録 し言語処理部20で利用するための辞書が格納 れている部分である。

 言語処理部20は、言語処理知識記憶部31と ユーザ辞書記憶部32内のユーザ辞書を用いて 入力に対して処理を施す部分である。

 なお、入力は多くの場合、文単位で処理 れるが、文節毎や複数文毎、一段落毎など 単位以外の単位毎の処理であってもよい。

 この点、本実施例の説明では文単位で入 が行われる場合を想定し、以下では「文」 入力文」という記述を用いる。

 言語処理部20の処理のバリエーションと ては、入力文に対して辞書を用いて単語に 割する処理が必要となる言語処理であれば 々なものが考えられる。

 例えば、入力文を単語に分割し品詞を付 する形態素解析処理、形態素解析の後、単 間の関係を求める構文解析処理、入力文を の原語に翻訳して出力する機械翻訳処理、 力文を音声に合成して出力する音声合成処 、音声認識処理に用いる言語モデルを作成 る言語モデル作成処理などである。

 この点、本部分の具体的な言語処理の内 が、どのような処理であるかということは 本発明の本質とは関わりがないため、特に 定されるものではない。

 本発明のユーザ辞書登録システムを用い 作成されたユーザ辞書を利用する際、パラ ータ学習部24で得られるパラメータを利用 て処理を行う点に特徴があるが、これにつ ては後述する。

 登録情報受付部21は、ユーザ辞書に登録 る単語の見出しと、その品詞や訳語、意味 報等の関連情報を受け付ける。ここで受け ける登録情報は言語処理部20で必要となる情 報のため、言語処理部20が行う処理の内容に り異なる。

 例えば言語処理部20が形態素解析処理を う場合は、単語の見出しと品詞を受け付け のが一般的である。

 言語処理部20が機械翻訳処理を行う場合 、単語の見出しと品詞に加えて、訳語や訳 の品詞の情報、場合によって意味情報等も 般的には必要となる。

 差分作成部22は、登録情報受付部21にて入 力された単語を利用した場合と利用しない場 合での、言語処理部20の解析結果の差分を表 する。

 ここで、差分を作成する為の文書は、予 用意しておいてもよいし、登録時にユーザ 指定させても良いし、インターネットや文 管理サーバ等の大量の文書が記憶された場 から動的に検索・収集してもよい。

 また、差分の表示方法には様々なバリエ ションが考えられる。例えば、最も単純な 法としては、当該単語を利用した場合の解 結果と利用しない場合の解析結果とを並べ 表示する方法が考えられる。

 また、言語処理部20の解析結果は好まし はテキスト文書である。そして、解析結果 テキスト文書で出力する場合は、一般に入 可能なテキスト文書の差分作成ツールの出 を用いても良い。

 さらに、言語処理部20の途中解析結果の 分を表示しても良い。たとえば、構文解析 理の場合、一般に形態素解析処理を行った に行うため、その形態素解析処理の差分を 示しても良い。

 また、機械翻訳処理の場合であれば、一 に形態素解析処理と構文解析処理を行った に行うため、形態素解析処理の差分若しく 構文解析処理の差分をそれぞれ表示しても い。

 正誤受付部23は、差分作成部22で作成した 差分を表示し、その個々に関して、前記単語 を利用しない場合と比較して、利用した場合 に解析結果が正しいものに変化したか誤りに 変化したかの正誤の判定をユーザから受け付 ける。

 好ましくは、正しいものに変化した場合 ○、誤りに変化した場合に×、等の2値を受 付ける。なお、表示した差分の全てについ 、正誤を付与させる必要はない。また、○ に加え、変化の正誤が不明の場合に△等を け付ける3値受け付けでも良い。その場合、 段の処理では、△を付与した単語は処理の 象としては用いない。

 パラメータ学習部24は、正誤受付部23で入 力された正誤を元にし、この正誤に従うよう に、登録情報受付部21で受け付けられ今後辞 登録部25でユーザ辞書に登録される単語の 用条件や利用時のスコアといったパラメー を定める。

 ここで、利用条件とは、当該単語を、ユ ザ辞書を利用する言語処理部20において利 するための条件である。具体的には、言語 理部20が解析対象の、ある入力を受け付けた 場合に、この入力がここでの利用条件に合致 した場合にのみ当該単語が解析に利用される 。

 また、利用時のスコアとは、当該単語を ユーザ辞書を利用する自然言語解析システ において利用する際に、当該単語の重みと て加味されるスコアである。

 自然言語処理の解析結果は一般に複数の 昧性を持つことが多く、また一般に各曖昧 に対して言語処理システムにとっての妥当 を表すスコアが付与される。利用時のスコ は、当該単語を利用した曖昧性の妥当性を すスコアに加味されることによって、当該 語を利用した曖昧性の優先度を上げ下げす 働きを持つ。なお、スコアは、連続量であ ても良いし離散量であってもよい。

 辞書登録部25は、登録情報受付部21で受け 付けた単語の登録情報を、パラメータ学習部 24で得られた、単語の利用条件や利用時のス アと共にユーザ辞書記憶部32中のユーザ辞 に登録する。

 この際、単語の登録情報と共に登録する は、単語の利用条件と利用時のスコアの両 でも、何れか一方でもよいし、または共に 録しなくても良い。

 次に、本発明を実施するための第1の実施 の形態であって、ユーザ辞書を利用した解析 時の構成を図2のブロック図を用いて説明す 。

 図2を参照すると、本発明の第1の実施の 態(ユーザ辞書を利用した解析時)は、入力装 置1と、データ処理装置2と、記憶装置3と、出 力装置4とを有する。

 データ処理装置2は、言語処理部20を有す 。

 記憶装置3は、言語処理知識記憶部31と、 ーザ辞書記憶部32とを有する。

 これらの部分はそれぞれ概略つぎのよう 動作する。

 言語処理知識記憶部31には、言語処理部20 が言語処理を行うために必要な、単語の見出 し、品詞、訳語、意味分類等の単語の情報や 文法情報が格納されている。

 ユーザ辞書記憶部32は、言語処理知識記 部31に含まれない単語の情報を、ユーザが独 自に登録し、言語処理部20で利用するための ーザ辞書が格納されている部分である。

 入力装置1は、言語処理部20が処理する対 となる入力を受け付ける装置である。

 言語処理部20は、言語処理知識記憶部31に 格納された言語処理知識と、ユーザ辞書記憶 部32に格納されたユーザ辞書を用いて、入力 対して何らかの自然言語処理を施す部分で る。

 言語処理部20と言語処理知識記憶部31に記 憶された言語処理知識は、前記ユーザ辞書が 作成された際に、本発明のユーザ辞書登録シ ステムで利用された言語処理部20、言語処理 識記憶部31に記憶された言語処理知識と同 ものであることが好ましい。

 言語処理部20は、前述したとおり、前記 ーザ辞書中の単語を処理に利用する場合に 単語と共に登録されている、パラメータ学 部24で得られた利用条件と利用時のスコアを 利用して処理を行うという点に特徴がある。

 なお、ここで用いている、利用条件と利 時のスコアの文言の意味については前述の りである。

 出力装置4は、言語処理部20の処理結果を 力する機能を有する。

 次に、本実施の形態の全体の動作につい 詳細に説明する。

 第1に、図1及び図3のフローチャートを参 して、本実施の形態のユーザ辞書登録を行 際の動作について説明する。

 まず、登録情報受付部21において、ユー からユーザ辞書に登録する単語の見出しと の品詞や訳語、意味情報等の登録情報を受 付ける(図3のステップA1)。

 次に、差分作成部21において、差分作成 対象とする対象文書を確定する(ステップA2)

 続いて、自然言語処理部20において、対 文書中の各文について、ステップA1で受け付 けた単語をユーザ辞書に仮登録しないで処理 した処理結果と、当該単語をユーザ辞書に仮 登録して処理した処理結果を作成する(ステ プA3)。

 なお仮登録する際には、パラメータ学習 で計算されるパラメータは付与しない。つ り、あくまで仮登録であり、本登録ではな ので利用条件は与えずに使用し、利用時の コアも変化させない。

 その次に、差分作成部21において、得ら た2つの処理結果の差分を作成する(ステップ A4)。そして、得られた差分の情報をユーザに 提示する(ステップA5)。

 さらに、正誤受付部23において、ステッ A5で提示した差分の各々について、ユーザに 単語を利用しない場合と、利用した場合を比 較させ、利用した場合に解析結果が正しいも のに変化したか誤りに変化したかの正誤の判 断をユーザから受け付ける(ステップA6)。

 その後、パラメータ学習部24において、 誤受付部23で入力された正誤を元に、この正 誤に従うように単語の利用条件や利用時のス コアを定める(ステップA7)。

 最後に、辞書登録部25において、ステッ A1で受け付けた登録情報を、ステップA7で得 れた利用条件や利用時のスコアと共にユー 辞書に登録する(ステップA8)。

 第2に、図2及び図4のフローチャートを参 して、本実施の形態の解析時の動作につい 説明する。

 まず、入力装置1において、処理対象とな る入力文を受け付ける(図4のステップA21)。

 次に、言語処理部20において、ユーザ辞 中の単語が入力文の1つの曖昧性で使われる 合、当該単語を利用して良いか否かを、当 単語と共に登録された利用条件を入力文中 当該単語の出現箇所が満たすかを元に判定 る(ステップA22)。

 ここで利用可能と判断されたユーザ辞書 の単語は、後段の言語処理に用いる。逆に 用不能と判断されたユーザ辞書中の単語は 後段の言語処理に用いられない。

 さらに、言語処理部20において、入力文 処理を行う(ステップA23)。

 言語処理部20の処理のバリエーションと ては、入力文に対して辞書を用いて単語に 割する処理が必要となる言語処理であれば 々なものが考えられる。

 例としては、入力文を単語に分割し品詞 付与する形態素解析処理、形態素解析の後 単語間の関係を求める構文解析処理、入力 を別の言語に翻訳して出力する機械翻訳処 、入力文を音声に合成して出力する音声合 処理、音声認識処理に用いる言語モデルを 成する言語モデル作成処理などが例示出来 。もっとも、具体的にどのような言語処理 行われるかということは、本発明の本質と 関わりがないため、言語処理部20の具体的 処理内容については限定しない。

 但し、処理にユーザ辞書中の単語を用い 場合に、単語と共に利用時のスコアが登録 れている場合は、入力文中で当該単語が1度 出現する毎に、当該単語を用いる処理の曖昧 性の妥当性のスコアに対し、この利用時のス コアを加味して、妥当性のスコアを調整する 。

 そして、妥当性のスコアが最大となる処 結果を言語処理部20の出力とする。

 最後に、出力装置4において、言語処理部 20の出力する処理結果を出力する(ステップA24 )。

 次に、第1の実施の形態の効果について説 明する。

 本実施の形態では、差分作成部により作 された、登録しようとする単語を利用する 利用しないかにより生じる言語処理解析部 解析結果の差分を表示し、その各々の差分 対して、当該単語を利用することで解析結 が正しいものに変化したか誤りに変化した の正誤をユーザに付与させることができる

 さらに、その正誤を元に、ユーザが正し ものに変化したと付与したケースでは登録 ようとする単語を使うような、逆に誤りに 化したと付与したケースでは単語を使わな ような条件を、登録しようとする単語の周 情報等から学習し、また同様な切り分けが 能となるようなこの単語の利用スコアを推 し、単語の登録情報と共にユーザ辞書に登 することができる。

 加えて、そして得られた条件やスコアを いて解析処理を行うことで、ユーザが誤り 変化したと付与したケースと類似する入力 言語解析部に対して行われた場合には、当 単語を利用しない方向への抑制がかかるた 、登録単語から生じる悪影響を抑えること できる。

 [第2の実施の形態]
 次に、発明を実施するための他の最良の形 について図面を参照して詳細に説明する。

 図5は、本発明を実施するための第2の実 の形態におけるユーザ辞書登録時の構成を すブロック図である。

 図5を参照して説明すると、本発明の第2 実施の形態(ユーザ辞書登録時)は、入力装置 1と、データ処理装置2と、記憶装置3とを有す る。

 データ処理装置2は、言語処理部20と、登 情報受付部21と、差分作成部22と、正誤受付 部23と、辞書登録部25とを有する。

 記憶装置3は、言語処理知識記憶部31と、 ーザ辞書記憶部32とを有する。

 なお、入力装置1、言語処理装置20、登録 報受付部21、差分作成部22、正誤受付部23、 語処理知識記憶部31、ユーザ辞書記憶部32は 、第1の実施の形態(ユーザ辞書登録時)の対応 する符号を有する各部分と、同様である。

 これらの部分はそれぞれ概略つぎのよう 動作する。

 言語処理知識記憶部31には、言語処理部20 が言語処理を行うのに必要な単語の見出し、 品詞、訳語、意味分類、単語の情報や文法情 報が格納されている。

 ユーザ辞書記憶部32は、言語処理知識記 部31に含まれない単語をユーザが独自に登録 し言語処理部20で利用するためのユーザ辞書 格納されている部分である。

 言語処理部20は、言語処理知識記憶部31と ユーザ辞書記憶部32に格納されているユーザ 書を用いて、入力に対しての処理を施す部 である。

 登録情報受付部21は、ユーザ辞書に登録 る単語の見出しと、その品詞や訳語、意味 報等の関連情報を受け付ける部分である。

 差分作成部22は、登録情報受付部21にて入 力された単語を利用した場合と利用しない場 合での、言語処理部20の解析結果の差分を表 する部分である。

 正誤受付部23は、差分作成部22で作成した 差分を表示し、その個々に関して、単語を利 用しない場合と比較して利用した場合に解析 結果が正しいものに変化したか誤りに変化し たかの正誤をユーザから受け付ける部分であ る。

 辞書登録部25は、登録情報受付部21で受け 付けた単語の登録情報を、正誤受付部23で受 付けた正誤と、正誤を付与した差分を作成 る元となる文とのペアの一部または全部と に、ユーザ辞書記憶部32に格納されたユー 辞書に登録する。

 図6は、本発明を実施するための第2の実 の形態であって、ユーザ辞書を利用した解 を行う際の構成を示すブロック図である。

 図6を参照して説明すると、本発明の第2 実施の形態(ユーザ辞書を利用した解析時)は 、入力装置1と、データ処理装置2と、記憶装 3と、出力装置4とを有する。

 データ処理装置2は、言語処理部20と、パ メータ学習部24とを有する。

 記憶装置3は、言語処理知識記憶部31と、 ーザ辞書記憶部32とを有する。

 なお、言語処理知識記憶部31と、入力装 1は、第1の実施の形態(ユーザ辞書を利用し 解析時)と同様、データ処理装置2は、第1の 施の形態(ユーザ辞書を利用した解析時)とほ ぼ同様である。なお、相違点については、以 下で説明する。

 また、パラメータ学習部24は、第1の実施 形態(ユーザ辞書登録時)におけるパラメー 学習部24とほぼ同様である。相違点について は、以下で説明する。

 これらの部分はそれぞれ概略つぎのよう 動作する。

 言語処理知識記憶部31は、言語処理部20が 言語処理を行うのに必要な単語の見出し、品 詞、訳語、意味分類、単語の情報や文法情報 といった、言語処理知識が格納されている。

 ユーザ辞書記憶部32は、言語処理知識記 部31に含まれない単語をユーザが独自に登録 し言語処理部20で利用するためのユーザ辞書 格納されている部分である。

 但し、第1の実施の形態では登録された各 単語の利用条件や利用時のスコアが記録され ているのに対し、第2の実施の形態では、第2 実施の形態(ユーザ辞書登録時)の正誤受付 23で、正誤と、正誤を付与した差分を作成す る元となる文とのペアの一部または全部が記 録されている点で相違する。

 入力装置1は、言語処理部20が処理する対 となる入力を受け付ける機能を有する。

 パラメータ学習部24は、入力を処理する に利用されうる、ユーザ辞書記憶部32に記憶 されたユーザ辞書中の各単語について、当該 各単語と共に記録された文と、正誤を元に、 当該各単語の利用条件と利用時のスコアを定 める。

 ここでの定め方は、第1の実施の形態(ユ ザ辞書登録時)におけるパラメータ学習部24 定め方と同様である。

 言語処理部20は、言語処理知識記憶部31と ユーザ辞書記憶部32内のユーザ辞書を用いて 入力に対して処理を施す部分である。

 言語処理部20と言語処理知識記憶部31に記 憶された言語処理知識は、ユーザ辞書記憶部 32に格納されたユーザ辞書が作成された際に 発明のユーザ辞書登録システムで利用され いた言語処理部20、言語処理知識記憶部31に 記憶された言語処理知識を用いることが好ま しい。

 言語処理部20は、ユーザ辞書中の単語を 理に利用する場合に、パラメータ学習部24で 得られた利用条件と、利用時のスコアを利用 して処理を行うという点に特徴がある。

 なお、ここで用いている、利用条件と利 時のスコアの文言の意味については前述の りである。

 出力装置4は、言語処理部20の処理結果を 力する機能を有する。

 次に、本実施の形態の全体の動作につい 詳細に説明する。

 第1に、図5及び図7のフローチャートを参 して、本実施の形態のユーザ辞書登録を行 際の動作について説明する。

 なお、本実施の形態のステップA31からA36 、図3で示されている第1の実施の形態(ユー 辞書登録時)のステップA1からA6と同様であ 。

 まず、登録情報受付部21において、ユー からユーザ辞書に登録する単語の見出しと の品詞や訳語、意味情報等の登録情報を受 付ける(図7のステップA31)。

 次に、差分作成部21において、差分作成 対象とする対象文書を確定する(ステップA32) 。

 続いて、自然言語処理部20において、対 文書中の各文について、ステップA31で受け けた単語をユーザ辞書に仮登録しないで処 した処理結果と、当該単語をユーザ辞書に 登録して処理した処理結果を作成する(ステ プA33)。なお仮登録する際には、パラメータ 学習部で計算されるパラメータは付与しない 。つまり、利用条件は与えず常に使用し、利 用時のスコアも変化させない。

 その次に、差分作成部21において、得ら た2つの処理結果の差分を作成し(ステップA34 )、ユーザに提示する(ステップA35)。

 さらに、正誤受付部23において、ステッ A5で提示した差分の各々について、単語を利 用しない場合と比較して利用した場合に解析 結果が正しいものに変化したか誤りに変化し たかの正誤をユーザから受け付ける(ステッ A36)。

 最後に、辞書登録部25において、ステッ A31で受け付けた登録情報を、ステップA36で け付けた、正誤と正誤を付与した差分を作 する元となる文のペアの一部または全部と に、ユーザ辞書記憶部32に格納されたユーザ 辞書に登録する(ステップA37)。

 第2に、図6及び図8のフローチャートを参 して、本実施の形態の解析時の動作につい 説明する。

 なお、本実施の形態のステップA41、A43、A 44及びA45は、図4で示されている第1の実施の 態(ユーザ辞書を用いた解析時)のステップA1 A2、A3及びA4と同様である。

 まず、入力装置1において、処理対象とな る入力文を受け付ける(図8のステップA41)。

 次に、パラメータ学習部24において、入 文を処理する際に利用されうるユーザ辞書 憶部32に記憶されたユーザ辞書中の各単語に ついて、当該各単語と共にペアとして記録さ れている文と正誤を元に、当該各単語の利用 条件と利用時のスコアを求める(ステップA42)

 その次に、言語処理部20において、当該 語が入力文の1つの曖昧性で使われる場合、 該単語を利用して良いかを、ステップA42に 当該単語について求めた利用条件を入力文 の当該単語の出現箇所が満たすかを元に判 する(ステップA43)。

 ここで利用可能と判断されたユーザ辞書 の単語は、後段の言語処理に用いられる。 に利用不能と判断されたユーザ辞書中の単 は、後段の言語処理に用いられない。

 さらに、言語処理部20において、入力文 処理を行う(ステップA44)。

 処理にユーザ辞書中の単語を用いる場合 は、ステップA42にて当該単語について求め れた利用時のスコアを、入力文中で当該単 が1度出現する毎に、当該単語を用いる処理 の曖昧性の妥当性のスコアに対して加味して 妥当性のスコアを調整する。

 そして、妥当性のスコアが最大となる処 結果を言語処理部20の出力とする。

 最後に、出力装置4において、言語処理部 20の出力した処理結果を出力する(ステップA45 )。

 次に、本実施の形態の効果について説明 る。

 本構成では、第1の実施形態と同じく、差 分作成部により作成された、登録しようとす る単語を利用するか利用しないかにより生じ る言語処理解析部の解析結果の差分を表示す ることができる。

 そして、その表示された各々の差分に対 て、当該単語を利用することで解析結果が しいものに変化したか誤りに変化したかの 誤をユーザに付与させることができる。

 その正誤を元に、ユーザが正しいものに 化したと付与したケースでは登録しようと る単語を使うような、逆に誤りに変化した 付与したケースでは単語を使わないような 件を、登録しようとする単語の周辺情報等 ら学習することが可能となる。

 また同様な切り分けが可能となるような の単語の利用スコアを推定し、単語の登録 報と共にユーザ辞書に登録することができ 。

 得られた条件やスコアを用いて解析処理 行うことで、ユーザが誤りに変化したと判 したケースと類似する入力が言語解析部に して行われた場合には、当該単語を利用し い方向への抑制がかかるため、登録単語の 影響を抑えることができる。

 更に、本構成では単語と共に利用条件や 用時のスコア自体ではなく、それらを求め ための正誤と対象文を記録するようにして る。これにより、当該単語のユーザ辞書登 の後、ユーザの想定と異なる当該単語の利 され方をする文に遭遇した場合等に、正誤 対象分を追加することで、当該単語の利用 件や利用時のスコアのユーザによる調整が 能となる。

 なお、以上述べた実施の形態では、ユー 辞書中の単語の利用条件と利用時のスコア 、ユーザが付与した正誤とその対象文とは 他に記録されている場合について説明した 、これらを共に記録する実施の形態でも上 した効果は得られる。

 次に、具体的な実施例を用いて本発明を 施するための最良の形態の動作を説明する

 まず、第1の実施の形態に基づく1の実施 について述べる。第1の実施例は、本発明の ーザ辞書登録システムが、日本語から英語 の翻訳を行う日英機械翻訳システムに対す ユーザ辞書登録システムである場合を考え 。

 この場合、言語処理部20は、日本語から 語への翻訳を行う日英機械翻訳部の役割を たす。

 言語処理知識記憶部31に記憶された言語 理知識は、日英機械翻訳を行うための日本 の単語と英語の単語の対訳関係を記載した 英翻訳辞書(以下、システム辞書と呼ぶ)と当 該辞書を用いて日本語の文を英語の文に変換 するための翻訳規則とを有する。

 一方、ユーザ辞書記憶部32に記憶された ーザ辞書は、システム辞書に記載されてい い日本語の単語と英語の単語の対訳関係を ーザが独自に定義するための辞書となる。

 また、パラメータ学習部で求める単語の利 条件は、
 1)当該単語や当該単語の周囲の単語の見出 や品詞、活用形、意味分類、その他の文法 報の1つまたはその組み合わせ、からなる条 。
 2)当該単語を利用した場合と、しない場合 、形態素解析結果に含まれる未知語の数が えるか減るか、からなる条件。
 3)当該単語を利用した場合と、しない場合 、構文解析の成功・失敗が変化するか、か なる条件。
 4)当該単語を利用した場合と、しない場合 、当該単語の周囲の単語の形態素区切りや 詞が変化するか、からなる条件。
 5)当該単語を利用した場合と、しない場合 、単語を文節に纏め上げた場合の文節の切 目が変化するか、からなる条件。
 6)当該単語を利用した場合と、しない場合 、当該単語の周囲の単語の構文解析結果で 係り先が変化するか、からなる条件。

 以上の6つの条件の中の1つまたはその組 合わせから定まる条件を含む条件であるこ が好ましい。もっとも、正誤受付部23で受け 付ける正誤に基づくその他の利用条件であっ ても良いし、その他の利用条件を以上の6つ 件と組み合わせてもよい。

 なお、上記条件2)である、形態素解析結 での未知語の含まれ方の増減と構文解析の 功または失敗の変化を利用条件とする理由 、一般に未知語が増えるような解析の変化 構文解析が失敗するようになる解析の変化 誤りである可能性が非常に高いため、これ を条件とすることで確実な誤りを排除する とができるためである。

 また、上記条件4)である、周囲の単語の 態素区切りや品詞の変化、上記条件5)である 、文節の切れ目の変化、上記条件6)である、 文解析結果での係り先の変化を利用条件と る理由は、これらが変化しない場合は変化 る場合に比べて言語処理部20の処理結果の 化が一般に小さくなるという関連性があり 従って悪影響が生じる可能性が低いためで る。

 よって、これらの変化を条件にすること 、悪影響の切り分けが可能となることが多 ため、以上の6つの条件を用いることが好ま しいといえる。

 また、上記の条件だけで利用条件が適切 定義しきれない場合は、当該単語の周囲の 出しや品詞、活用形、意味分類、その他の 法情報を、更に利用条件に用いても良い。

 次に、この日英機械翻訳システムを用い 、「かんださんと会った」という文を翻訳 ようとした際に、「かんだ」という固有名 がシステム辞書に登録されていなかったの 翻訳がうまくいかず、ユーザが「かんだ」 いう固有名詞をユーザ辞書に登録する場合 ついて考える。

 まず、登録情報受付部21より、「かんだ をユーザ辞書に登録するのに必要な情報を け付ける。

 本実施例では、対象とする自然言語処理 して日英機械翻訳を想定しているため、登 に必要な以下のような情報を入力する。

 見出し:かんだ 品詞:固有名詞 訳語:Kanda  語の品詞:NOUN 意味分類:人
 なお、ここで示す登録情報の種類は一例で り、登録に必要な情報は、対象とする自然 語処理の種類やその実装方法によって異な うる。

 例えば、翻訳辞書以外では訳語の情報は 必要であり、音声合成用辞書では更に、読 やアクセントの情報が必要となる。

 次に、差分作成部22にて、前記受け付け 登録情報を利用した場合と、利用しない場 の言語処理部20の処理結果の差分を作成する 。

 このためには、まず、差分を作成するた の対象とする文の集合を定める必要がある この集合は、予め用意しておいても良いし 登録時にユーザに指定させても良いし、イ ターネットや文書管理サーバ等の大量の文 が記憶された場所から動的に検索・収集し もよい。

 なお一般に、単語の用法は、その単語が いられる分野によって異なることが多い。

 よって、この文の集合は、ユーザがこの 然言語処理システムをよく適用する分野で いられる文の集合である方が、後段のパラ ータ学習がより精度良く行われるため好ま いといえる。

 また、処理時間を短縮するという目的の めには、好ましくはこの集合は、今回登録 ようとしている単語の見出しの文字列や、 該単語が連用形・終止形などの活用を持つ 合はその一活用形の文字列、を含む文のみ 絞る方がよい。

 ここでは、このように定められた文の集 が、図9に示す5文であったとして説明をす 。

 次に、この5文の集合の各文に対し、今回 登録しようとしている単語「かんだ」を用い ずに行った場合の処理結果と、当該単語を仮 にユーザ辞書に登録したとして行った場合の 処理結果を求める。

 図10は、図9の各文に対して、単語「かん 」を用いずに行った結果の形態素解析結果 構文解析結果、そして言語処理部20の出力 ある翻訳結果である。

 形態素解析結果における“/”は単語の切 れ目、丸括弧“()”は単語の品詞と活用を表 。また構文解析結果における四角括弧“[] は文節の纏まりを、矢印は文節の係り先を す。

 文ID1を例に説明すると、「かんだをオー ン」なる文は形態素解析の結果は「かんだ 「を」「オープン」という3単語に分割され 、それぞれの単語の品詞は「未知語」「助詞 」「サ変」となる。

 そして構文解析の結果は、「かんだ」「 」の2単語が1つの文節、「オープン」の1単 が1つの文節として纏め上げられ、その後、 「かんだ」「を」から成る文節の係り先が「 オープン」から成る文節となっている。そし て翻訳結果は「かんだ is opened.」である。

 なお、形態素解析結果の品詞の後に更に 括弧“()”が続く場合、その括弧内は活用 の活用形を表している。

 例えば、文ID5を例に取ると、形態素解析 果の最後の形態素「だ」の品詞は「助動詞 で、その活用形は「終止」となる。

 一方、図11は、図9の各文に対して、単語 かんだ」をユーザ辞書に仮登録し、当該単 を処理に用いた結果の形態素解析結果、構 解析結果、そして言語処理部20の出力であ 翻訳結果である。なお、構文解析結果の係 先を表す矢印の先が「×」になっているもの は、係り先が得られなかったことを表す。

 例えば文ID3の文では、「ガム」「を」か なる文節の係り先が定まっていない。また ID5の文では、「頭」「に」からなる文節の り先が定まっていない。

 また、本実施例では、構文解析処理にお てまず、文節を纏め上げてから各文節の係 先を計算しているが、文節の纏め上げを行 ずに直接各単語の係り先の単語を計算して 良い。その場合、文節に関する素性は用い れない。

 ここでは、言語処理部20の処理結果を求 ると同時に、その途中状態として得られる 態素解析結果と構文解析結果も求めておく 本発明では、形態素解析結果は必須となる 、言語処理部20の種類によっては構文解析処 理を行わない物もあるため、これらの構文解 析処理を行わない言語処理を行う目的に、本 発明を適用する際には、必ずしも構文解析結 果は求めなくてもよい。

 構文解析結果を用いない場合でも、本発 の目的であるユーザ辞書登録の悪影響を抑 する効果は、構文解析結果の情報を使わな 分だけ小さくなりはするが得ることができ 。

 逆に構文解析処理を用いない言語処理部2 0に本発明を適用する際は、別途、構文解析 を用意して、構文解析結果を求めて本発明 ユーザ辞書登録システムに組み入れること より、本発明で得られる効果を高めること できる。

 その次に、差分作成部22において、得ら た2種類の言語処理部20の処理結果すなわち 訳結果の差分を作成し表示する。

 差分の表示方法は、好ましくは、登録し うとする単語を利用した場合と利用しない 合で翻訳結果に差分がでる文についてのみ 原文と、当該単語を利用しない翻訳結果と 利用した翻訳結果の3つを組として並べて表 示する。

 より好ましくは、利用した場合と利用し い場合の2つの翻訳結果の各々について、実 際に差分となっている文字列部分のみ色をか える、アンダーラインやその他のマーカーを 付与する等の強調表示を行うことでユーザの 差分チェックを効率化できる。

 そして、対象とする文の集合の全てまた 一部について前記3つ組を表示し、各々の差 分について、当該単語を利用しない場合と比 較して利用した場合の解析結果が正しいもの に変化しているか誤りに変化しているかの正 誤を受け付けるインターフェースを設ける。

 以上の差分表示方法の一例を図13に示す なお、一文中で差分が複数箇所に生じ、各 の正誤が異なるケースも考えうるため、正 を受け付けるためのインターフェースを一 中の個々の差分箇所のそれぞれについて受 付けられるものとしてもよい。

 続いて、正誤受付部23において、上記表 した差分と正誤を受け付けるインターフェ スを用いて、各々の差分について正誤を受 付ける。単語を仮登録した結果、文ID1、2の 果は改善しているため、これらの結果の変 は「正」、文ID3~5の結果は悪化しているた 、これらの変化は「誤」という入力をユー がしたとする。

 さらに、上記受け付けた正誤と、登録し うとしている単語を利用した場合と利用し い場合のそれぞれについて求めた形態素解 結果、構文解析結果から、当該単語の利用 件を求めるための情報(以下、素性と呼ぶ) 抽出する。ここで、好ましくは、素性とし 以下の物を考慮する。

 未知語増 :当該単語を利用しない場合と 較して増加した未知語の数。

 構文破綻増:当該単語を利用しない場合と 比較して増加した、未決定な係り先の数。

 係り先  :当該単語を利用した場合とし い場合で係り先が変化する文節または単語 存在するか。係り先を考える単位(文節また 単位)が変化した場合に係り先も変化するこ とにするかは限定しないが、好ましくは、当 該単位の右側の境界が変化した場合は係り先 が変化したとする。

 文節境界 :文節纏め上げによる文節の境 が変化したか。

 形態素境界:形態素解析による単語区切り の境界が変化したか。

 活用形  :当該単語が活用する単語であ 場合の活用形。活用形をそのまま用いても いし、何らかの抽象化(係り先が用言か体言 によって連用・連体の2値に纏めるなど)を っても良い。

 元の語の品詞・活用:当該単語を利用しな い形態素解析結果の、当該単語位置に存在す る単語の品詞・活用当該単語を利用した場合 に当該単語が形作る2本の形態素境界が利用 ない場合に変化しない場合、その2本の形態 境界の内側から接する単語の品詞と活用。 態素境界が異なる場合の定義は限定しない 、好ましくは、空値(値なし)とする。

 隣の語の品詞・活用:当該単語を利用した 形態素解析結果における、左隣接・右隣接す る単語の品詞・活用当該単語が文頭、文末に 存在する場合も定義は限定しないが、好まし くはそれぞれ左隣接の品詞を「文頭」、右隣 接の品詞を「文末」とする。

 当該単語の周辺の単語の周囲の文法情報 しては、ここでは、元の語と隣の語の品詞 活用のみを例示しているが、参照する範囲 前記例示により示された範囲に限定される のではない。また、上記の素性のみでは利 条件が定めきれない場合、単語の文字列(見 出し)の情報を用いても良い。

 また用いる文法情報の種類も他に意味分 や活用語の場合活用型、用言の場合各情報 ど、ここに挙げたものに限定されない。

 また1つの正誤に付随する素性の集合を以 下では「事例」と呼ぶ。

 今回対象とする対象文から得られた素性 ユーザ入力の正誤を整理した表を図12に示 。ここでは、具体例として文ID3の素性抽出 果について説明する。

 文ID3について、ユーザが「誤」という入 をしたため、正誤は「×」となる。

 形態素解析結果での未知語の数は利用の 無に拘わらず0のため、未知語増は0-0=「-(変 化なし)」となる。

 構文解析結果での未決定な係り先の数は 利用しない場合0、利用した場合1のため、 文破綻増は1-0=「1」となる。

 当該単語が形作る形態素境界を「/」で表 すと、「ガムを / かんだ /」となるが、こ 境界は、当該単語を利用しない場合の形態 境界「/ ガム / を / かん / だ /」中に のまま含まれるため、形態素境界は「同じ となる。

 「かんだ」の前後の形態素は当該単語を 用した場合も利用しない場合も、「を」(助 詞)と「文末」で変わらないため、周辺形態 は「同じ」となる。

 当該単語を利用した場合と利用しない場 で、文節纏め上げによる文節は変化しない め、文節境界は「同じ」となる。

 当該単語を利用した場合に、文節[ガム  ]の係り先が未決定に変化するため、係り先 は「変化」となる。

 当該単語は活用する語でも助詞でもない め、活用形は「-(空値)」となる。

 当該単語を利用する場合と利用しない場 で形態素境界は変わらず、利用しない場合 当該単語位置には、「かん(動詞) /だ(助動 (終止))」の2語が存在するため、左の形態素 境界に隣接する元の語の品詞・活用は「かん (動詞)」、右の形態素境界に隣接する元の語 品詞・活用は「だ(助動詞(終止))」となる。

 当該単語を利用した場合に当該単語に左 接する単語は「を(助詞)」のため、左隣接 る隣の語の品詞・活用は「助詞(活用はなし) 」、当該単語は文末に位置するため、右隣接 する隣の語の品詞・活用は「文末(活用はな )」となる。

 こうして得られた素性を元に、正誤を適 に判別できる条件を求める。ここでいう適 とは、好ましくはユーザから与えられた正 の全てについて、得られた素性を元にして しく判別が可能な条件を求めることを言う

 但し、正誤が完全に判別できない場合も 在する。その場合、当該単語の登録による 影響をできるだけなくすことを目的に、本 「正」と判別すべき事例の幾つかを誤って 誤」と判別してしまっても、できるだけ本 「誤」の事例を正しく「誤」と判別できる うな条件を求めることが好ましい。

 この判別条件の求め方は、SVM(Support Vector  Machine)等の分類器を用いて学習しても良い 、何らかのヒューリスティックにもとづい 条件を求めても良い。

 以下ではヒューリスティックに基づく方 の一例について述べる。以下で述べるヒュ リスティックは、学習のための事例数が少 い場合にSVM等の学習器で容易に発生しうる 学習の問題を緩和する方法となっている。

 本実施例で述べる方法では予め、正誤の 別力が高いと思われる順に、ヒューリステ カルに素性の順序づけを行っておく。また 素性を順位を持った複数クラスに分類して き、より上位のクラスの素性のみで判別が 能な場合に、より下位のクラスの素性を用 ないようにする。またパラメータ学習部24 与えられる事例の数が少ない場合であって 、より適切に利用条件が定まるように、判 力が高い上位クラスの素性を元にした条件 より上位の素性で判別が可能だったとして 設定する。

 一方で判別力の低い中位、下位クラスの 性を元にした条件は、過学習の原因になる め、より上位の素性で判別が可能な場合に 、それらの素性を条件には用いない。

 以上の方針に基づいた定義の一例を図14 示す。図14の各クラス中の素性は、矢印の上 流の方が優先度が高い。

 実際に具体例に基づいて、条件獲得の処 を説明する。

 まず、上位クラスの素性を用いた条件を 定する。ここでは、正誤を正確に分別でき 条件のみを列挙する。空値(-)は条件には用 ない。

 また、「未知語増< 0 → ○」「未知 減 > 0 → ×」「構文破綻増 < 0 →  」「構文破綻増 > 0 → ×」の4条件は非 常に確度の高い条件であるため、これら条件 を満たされない事例が存在しない限りは、利 用条件の要素として列挙する。

 本実施例の具体例に基づく列挙の結果は 下の通りである。

 未知語増 < 0 → ○ 未知語増 > 0   ×
 構文破綻 < 0 → ○ 構文破綻増 > 0 → ×
 係り先 = 変化 → ×
 形態素境界 = 変化 → ×
 周辺形態素 = 変化 → ×
 以上を、素性の順序づけに従ってつなぎ合 せ、利用条件を作成する。

 if (未知語増 < 0) then ○
 else if (未知語増 > 0) then ×
 else if (構文破綻 < 0) then ○
 else if (構文破綻 > 0) then ×
 else if (係り先 = 変化) then ×
 else if (形態素境界 = 変化) then ×
 else if (周辺形態素 = 変化) then ×
 上記の利用条件により、与えられた5事例の 正誤判別を完全に行える。よって、上記の利 用条件を登録しようとする単語「かんだ」の 利用条件とする。もし、上記の条件では与え られた5事例の正誤判別が不十分な場合は、 位クラスの素性を用いて条件を詳細化、な 不十分な場合は下位クラスを更に用いる。

 もちろん、正誤判別が不十分な状態で利 条件としてしまってもよい。例えば今回下 クラスに分類した単語の見出し等の素性は 般に過学習を生じやすいため、事例数が少 い場合は、正誤判別が不十分な場合でもこ らの素性は用いないほうが好ましい。

 最後に、辞書登録部25により、登録情報 付部21で受け付けた登録情報を、上記で得ら れた利用条件と共にユーザ辞書記憶部22中の ーザ辞書に登録する。

 以上でユーザ辞書に登録する処理の具体 な説明を終える。以下では、上記で登録さ たユーザ辞書中のエントリを用いた日英機 翻訳処理を具体例を挙げて説明する。

 日英翻訳システムに対する入力として、 かんださんと会う」なる入力が与えられた する。そして、当該システムは、ユーザ辞 中の単語も用いて当該入力を形態素解析す 。形態素解析の結果は以下の通りである。

 かんだ(固有名詞) /さん(接尾辞) /と(助 ) /会う(動詞(終止)) すると、ユーザ辞書中 単語「かんだ」が用いられることが分かる で、当該システムは、ユーザ辞書中に登録 れている「かんだ」を利用した形態素解析 果・構文解析結果と利用しない形態素解析 果・構文解析結果を計算する。

 これらの解析結果を図15及び図16に示す。 これらの解析結果から、ユーザ辞書登録時と 同様に、素性の抽出を行う。抽出結果を図17 示す。

 ここで、ユーザ辞書中の単語「かんだ」 共に登録されている利用条件を参照すると 上記抽出された素性のうち「未知語増 = -1 」なる素性が、「if (未知語増 < 0) then  」の部分に適合するため、判別結果は「○ となる。そのため、本入力においては、ユ ザ辞書中の単語「かんだ」が利用され、結 として、”I will meet Mr. Kanda.”なる自然 翻訳が得られる。

 一方で、当該システムに「舌をかんだよ なる入力が行われた場合を考える。同様に ーザ辞書中の単語「かんだ」が用いられう が、この場合は、当該単語を利用しない場 、利用した場合と比較して構文破綻増が増 るため、単語「かんだ」と共に記録された 用条件のうち、「else if (構文破綻 > 0) then ×」の部分に適合し、単語「かんだ」は 用いられない。結果として、適切に単語「か んだ」の利用が抑制され、「I bit my tongue. なる自然な翻訳が得られる。

 以上で、単語「かんだ」を例とした具体 の説明を終える。次に、単語「濃い青」を 体例に簡単に説明を行う。

 まず、「かんだ」の例と同様に、登録情 受付部21にて「濃い青」の登録情報を受け ける。

 見出し:濃い青 品詞:名詞 訳語:dark blue 訳 語の品詞:NOUN
 差分作成のための文の集合、その形態素解 ・構文解析結果、得られる素性が図18、図19 。図20及び図21の通りであったとする。する 、「かんだ」の例と同様に利用条件として 下が得られる。

 if (未知語増 < 0) then ○
 else if (未知語増 > 0) then ×
 else if (構文破綻 < 0) then ○
 else if (構文破綻 > 0) then ×
 else if (係り先 = 変化) then ×
 else if (形態素境界 = 変化) then ×
 else if (周辺形態素 = 変化) then ×
 この利用条件を上記登録情報と共にユーザ 書に登録する。そして、ユーザ辞書を用い 日英翻訳処理を行う。入力が「濃い青は好 だ」「濃い青のシャツ」等の場合、単語「 い青」と共に登録された利用条件を満たす め、それぞれ “I like dark blue”“a dark b lue shirt”と登録単語を利用した適切な訳が 力される。

 一方で、「これはとても濃い青だ」「色 濃い青空」等では仮に当該単語が利用され と”This is --- very --- dark blue.”“a dark  blue sky of color”と文の構造を壊した却って しくない翻訳結果となるが、それぞれ”係 先=変化”,”形態素境界=変化”の条件を満 すため、当該単語の利用条件が満たされず 当該単語が利用されない翻訳結果”This is  thick blue.”“ a blue sky with thick color”が 力される。

 以上で、単語「濃い青」を例とした具体 の説明を終える。次に、利用条件の代わり 利用時のスコアを用いる方法について簡単 述べる。

 今までの具体例では、ユーザ辞書に登録 れた単語を利用するか否かの決定を、素性 用いた条件によって行ってきたが、一部の 件は利用時のスコアを調節することでも実 可能である。

 例えば、お屠蘇の意味の単語「とそ」を 録することを考える。この語が登録されて ないと、「とそを飲む」といった文の翻訳 失敗することになるが、一般に文字数の少 いひらがなの語、特に単語の始まりか終わ が助詞に一致するような語は悪影響が大き ことが多い。単語「とそ」は前述の条件を たす。そして、実際に「とそ」を登録した 合には、「この机とその机」等の解釈を壊 。

 したがって利用条件を用いる方法では、 誤受付、パラメータ学習の結果、当該単語 利用しない場合に明らかに解析が破綻する 合、つまり以下のような条件が得られると る。

 if (未知語増 < 0) then ○
 else if (未知語増 > 0) then ×
 else if (構文破綻 < 0) then ○
 else if (構文破綻 > 0) then ×
 このような、明らかに解析が破綻する場合 み利用する、という条件が、利用時のスコ による調節が可能な条件の一例である。

 一般にはユーザ辞書中の単語はシステム 書中の単語より優先される、つまり、シス ム辞書中の単語の利用時のスコアと比較し 優先度の高いスコアがユーザ辞書中の単語 振られることになる。もっとも、このよう 明らかに解析が破綻する場合のみ利用すれ よい単語の場合には、システム辞書中の単 の利用時のスコアより優先度が低い、しか 未知語を生成するよりは優先度が高いスコ を当該単語に付与することで、適切な利用 制御が可能となる。

 他の利用可能な例を前述の「濃い青」を 録する例を具体例に説明する。「濃い/青汁 」「濃い青/汁」の2つの曖昧性の解釈の妥当 (スコア)は、両者とも2単語の自立語からな ため、ほぼ同等のスコアとなるとする。

 このようにユーザ辞書中の単語「濃い青 を用いなくてもほぼ同等の妥当性の曖昧性 他に存在する場合にはそちらを用いるとい た利用の制御をする必要が正誤受付の結果 判別するために生じた場合も想定できる。

 この場合も、利用時のスコアのシステム 書中の単語の利用時のスコアより低い優先 に設定することで解決可能である。

 もちろん、素性を用いた条件と利用時の コアによる制御は排他ではなく、これらを 時に行うようなパラメータ学習を行っても い。

 以下、第1の実施例を用いた場合の効果に ついて説明する。通常の日英機械翻訳システ ムを用いて、「かんださんと会った」という 文を翻訳しようとした際、「かんだ」という 固有名詞が辞書に登録されていない場合は翻 訳がうまくいかなかった。この場合は、ユー ザが「かんだ」という固有名詞を登録するこ とによってこの文に関しては正しい翻訳結果 を得ることができた。反面、「ガムをかんだ 」といった文では「かんだ」が固有名詞と解 釈されてしまい正しい翻訳結果を得ることは できなかった。逆に「かんだ」を登録しない と「かんださんと会う」「かんだ整骨院」と いった表現では正しい翻訳結果を得ることが できなかった。

 本発明の辞書登録システムによると、正 受付部23で実例文の各々について登録しよ とする単語の利用の正誤をユーザに入力さ 、パラメータ学習部24においてこの正誤から 求めた当該単語の利用条件や利用時のスコア を、言語処理部20を用いた実際の処理の際に 照することで、当該単語の登録による悪影 がある場合でも抑制しつつ、当該単語をユ ザ辞書に登録することができる。

 同様に、関連技術において、ユーザ辞書 録システムでは登録が行われ、かつ悪影響 でていた「濃い青」なる単語に対しても悪 響を抑えた上で登録することが可能になっ いる。

 次に、第2の実施の形態に基づく第2の実 例について述べる。第2の実施例も、本発明 ユーザ辞書登録システムが、日本語から英 への翻訳を行う日英機械翻訳システムに用 るユーザ辞書登録システムである場合を考 る。

 言語処理部20、言語処理知識記憶部31及び ユーザ辞書記憶部32は、第1の実施例と同様と する。ただし、ユーザ辞書記憶部32中のユー 辞書に単語と共に登録される情報として、 誤受付部23でユーザから受け付けた正誤と 各正誤を付与した差分の元となる入力文と 含まれる点が異なる。

 第1の実施例と同様に「濃い青」を登録す る場合について考える。

 まず、登録情報受付部21にて、第1の実施 と同様の登録情報を受け付ける。

 次に、差分作成部22にて、第1の実施例と なり、差分を作成する基となる対象文とし 、図18の(2)~(4)のみが選ばれたとする。これ 元に作成した差分に対して正誤受付部23に ユーザが付与した正誤は第1の実施例と同様 あったとする(図21のID2~4の正誤が得られる)

 最後に辞書登録部25にて、前記登録情報 、上記得られた正誤と各正誤を付与する差 の元となった対象文と共にユーザ辞書に登 する。すなわち、以下の情報も登録情報と に登録する。

 非常に濃い青を塗る→×
 濃い青になる→○
 この濃い青です→○
 以上でユーザ辞書に登録する処理の説明を え、以下では、上記で登録されたユーザ辞 中のエントリを用いた日英機械翻訳処理を 体例を挙げて説明する。

 この日英機械翻訳システムに「これはと も濃い青だ」なる入力がなされたとする。 ると、当該システムはパラメータ学習部24 てユーザ辞書中の単語も用いてこの入力を 態素解析する。形態素解析の結果は以下の りである。

 これ(名詞) /は(助詞) /とても(副詞) /濃 青(名詞) /だ(助動詞)

 よって、ユーザ辞書中の単語「濃い青」 使いうることがわかる。そのため、引き続 パラメータ学習部24にて、単語「濃い青」 共に登録されている正誤を付与する差分の となった対象文を当該単語を利用して形態 解析・構文解析、また当該単語を利用しな で形態素解析・構文解析する。

 その結果を基に第1の実施例のパラメータ 学習部24と同様にパラメータ学習用の素性を 出する。その抽出結果は図21のID2~4と同様に なる。この素性を元に、第1の実施例のパラ ータ学習部24と同様に利用条件を得る。得ら れる利用条件は以下の通りとなる。

 if (未知語増 < 0) then ○
 else if (未知語増 > 0) then ×
 else if (構文破綻 < 0) then ○
 else if (構文破綻 > 0) then ×
 else if (係り先 = 変化) then ×
 ここで、日英翻訳システムに為された入力 対して当該単語を利用した場合と利用しな 場合で形態素解析・構文解析を行って素性 抽出し、上記利用条件を満たすかを考える すると、”係り先=変化”の条件を満たすた め、上記利用条件が満たされず、結果として 、正しく単語「濃い青」の使用が抑制される 。

 一方で、入力が「濃い青は好きだ」「濃 青のシャツ」等の場合は上記利用条件を満 すため、適切に単語「濃い青」が用いられ 第1の実施例と同様に、悪影響のある単語を 登録した上で悪影響を抑えるように動作して いることが分かる。

 しかし、ここで「濃い青汁」なる入力が されたとする。この場合、単語「濃い青」 使用すると、“dark blue soup”なる不適な訳 語となるため、単語「濃い青」の使用を抑制 したいケースとなる。しかし同様に上記利用 条件を満たすかという観点から考えると、上 記利用条件を満たしてしまうため、単語「濃 い青」が用いられてしまう。

 このように、利用条件の精度が不十分な 合、この利用条件の判別に誤った文とその 誤を、ユーザ辞書に追加登録する。既に登 されている正誤とその元となった対象文と わせると、単語「濃い青」に対しては、以 の正誤とその元となる対象文が登録される

 非常に濃い青を塗る→×
 濃い青になる→○
 この濃い青です→○
 濃い青汁→× (今回追加分)
 この状態で、再度「濃い青汁」なる入力を けると、今度は利用条件として以下が得ら る。この利用条件は、利用条件獲得の元と る正誤と対象文が第1の実施例と同一になる ため、第1の実施例での利用条件と同様であ 。

 if (未知語増 < 0) then ○
 else if (未知語増 > 0) then ×
 else if (構文破綻 < 0) then ○
 else if (構文破綻 > 0) then ×
 else if (係り先 = 変化) then ×
 else if (形態素境界 = 変化) then ×
 else if (周辺形態素 = 変化) then ×
 「濃い青汁」なる入力は、今度は”形態素 界=変化”の条件を満たすため、上記利用条 件を満たすことができず、単語「濃い青」の 使用が抑制され、適切に、”thick green soup. なる入力が得られるようになる。

 以下、第2の実施例による発明の効果につ いて説明する。第1の実施例と同様に、通常 日英機械翻訳システムでは登録が困難な単 をユーザ辞書登録可能である。加えて、ユ ザ辞書に現在の利用条件や利用時スコアを 定した元となる正誤とその対象文を登録し おくことができる。これにより、ユーザ辞 登録時に決定された利用条件や利用時スコ が不十分であることが後の日英機械翻訳シ テム利用中に判明した場合でも、対象文と れに対する正誤を追加で受け付け、利用条 や利用時スコアの再推定を行うことができ 。そして、より適切な利用条件や利用時ス アを設定しなおすことが可能となっている

 なお、上述の実施例では、ユーザ辞書中 単語の利用条件と利用時のスコアは、ユー が付与した正誤とその対象文とは排他に記 されているが、これらを共に記録する実施 形態でも上述した効果は得られる。

 また、上述の実施例では言語処理部20の として日英機械翻訳を用いたが、本発明の 途は日英機械翻訳に限定されるものではな 。

 また、上述の実施例では、本発明の辞書 録システムを、ユーザがユーザ辞書を作成 る際に利用する例について述べた。もっと その他の用途に本実施例を利用することも 能である。例えば、言語処理システムの開 者が当該言語処理システム用のシステム辞 を構築する際に、本発明の辞書登録システ を用いてシステム辞書中に単語の利用条件 利用時のスコア、パラメータ学習用の文と 誤を格納しても良い。

 その場合、システム辞書中の単語を使う にも、上述の実施例で述べたユーザ辞書中 単語を利用する場合と同様に、上記言語処 システムの開発者が格納した利用条件等を 照して処理を行う。

 なお、辞書登録システムは、ハードウェ 、ソフトウェア又はこれらの組合せにより 現することができる。

 本願は、日本の特願2007-136660(2007年5月23日 に出願)に基づいたものであり、又、特願2007- 136660に基づくパリ条約の優先権を主張するも のである。特願2007-136660の開示内容は、特願2 007-136660を参照することにより本明細書に援 される。

 本発明の代表的な実施形態が詳細に述べ れたが、様々な変更(changes)、置き換え(substi tutions)及び選択(alternatives)が請求項で定義さ た発明の精神と範囲から逸脱することなく されることが理解されるべきである。また 仮にクレームが出願手続きにおいて補正さ たとしても、クレームされた発明の均等の 囲は維持されるものと発明者は意図する。

 本発明は、自然言語文を単語に分割する 態素解析を行った後に処理を行う任意のシ テムに適用できる。

 すなわち形態素解析システムや自然言語 から単語間の関係の構造を作成する構文解 システム、入力された自然言語文を音声に 成して出力する音声合成システム、入力さ た自然言語文を別の言語に翻訳して出力す 機械翻訳システム、大量の自然言語文の集 から特徴的な単語や単語の共起・連なりを 出するマイニングシステムといったシステ 用のユーザ辞書登録システムに適用できる