Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
VOICE RECOGNITION SYSTEM, VOICE RECOGNITION METHOD, AND VOICE RECOGNITION PROCESSING PROGRAM
Document Type and Number:
WIPO Patent Application WO/2008/114708
Kind Code:
A1
Abstract:
[PROBLEMS] To provide a voice recognition system which can rapidly perform a recognition process while maintaining the voice recognition quality of a voice recognition device. [MEANS FOR SOLVING PROBLEMS] A voice recognition system includes: a voice input device (10) which inputs a voice and displays the recognition result; and a voice recognition device (20) which acquires the voice from the voice input device (10), performs the recognition process on the voice, and sends the recognition result to the voice input device (10). The voice input device (10) has a user dictionary unit (12) containing words used for recognizing the input voice and reduced user dictionary creation means (13) which extracts a word corresponding to the input voice from the user dictionary unit (12) to create a reduced user dictionary. The voice recognition device (20) has voice recognition means (22) which inputs the input voice and the reduced user dictionary from the voice input device (10) and recognizes the input voice according to the reduced user dictionary and a system dictionary prepared in advance.

Inventors:
YAMABANA KIYOSHI (JP)
Application Number:
PCT/JP2008/054705
Publication Date:
September 25, 2008
Filing Date:
March 14, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NEC CORP (JP)
YAMABANA KIYOSHI (JP)
International Classes:
G10L15/06; G10L15/07; G10L15/10; G10L15/30; G10L15/32
Domestic Patent References:
WO2008007688A12008-01-17
Foreign References:
JP2000075887A2000-03-14
JPS59107400A1984-06-21
JP2005128076A2005-05-19
JP2002162988A2002-06-07
JP2005227510A2005-08-25
JP2003140682A2003-05-16
JP2002215184A2002-07-31
JPH11327583A1999-11-26
Attorney, Agent or Firm:
TAKAHASHI, Isamu (Shinoda Bldg.10-7, Higashi Kanda 1-chome,Chiyoda-k, Tokyo 31, JP)
Download PDF:
Claims:
電気信号に変換された入力音声を認識する音声認識システムであって、
 音声認識に用いるユーザ辞書を格納したユーザ辞書部と、
 前記ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する縮小ユーザ辞書作成手段と、
 予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する音声認識手段とを有することを特徴とする音声認識システム。
前記ユーザ辞書部と前記縮小ユーザ辞書作成手段とが、クライアント端末装置に搭載され、
 前記音声認識手段が、前記クライアント端末装置と通信可能なサーバに搭載されている請求項1に記載の音声認識システム。
前記クライアント端末は、前記入力音声と前記縮小ユーザ辞書とを前記音声認識手段に送信する請求項2に記載の音声認識システム。
前記請求項1又は2に記載の音声認識システムにおいて、
 前記縮小ユーザ辞書は、前記ユーザ辞書が有する単語の中から前記入力音声に含まれる可能性のある単語を選び出した辞書である音声認識システム。
前記請求項1又は2に記載の音声認識システムにおいて、
 前記縮小ユーザ辞書作成手段は、前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し且つその計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する音声認識システム。
前記請求項1又は2に記載の音声認識システムにおいて、
 前記縮小ユーザ辞書作成手段は、前記ユーザ辞書を用いたワードスポッティング法により前記縮小ユーザ辞書を作成する音声認識システム。
前記請求項1又は2に記載の音声認識システムにおいて、
 前記縮小ユーザ辞書作成手段は、入力音声とユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を集計する照合部と、この集計された各単語と対応する尤度との組を仮に保持する単語仮格納部と、この単語仮格納部内から用度の高い一又複数の単語を選択し縮小ユーザ辞書作成する単語選択部とを有する音声認識システム。
電気信号に変換された入力音声を認識する音声認識方法であって、
 ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成し、
 予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識することを特徴とする音声認識方法。
クライアント側で前記ユーザ辞書から前記縮小ユーザ辞書を作成し、
 前記入力音声のデータと前記縮小ユーザ辞書とを、前記クライアント端末と通信可能なサーバに送信し、前記サーバ側で前記システム辞書と前記縮小ユーザ辞書とを用いて前記入力音声を認識する請求項8に記載の音声認識方法。
前記請求項8又は9に記載の音声認識方法において、
 前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する音声認識方法。
前記請求項8又は9に記載の音声認識方法において、
 ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する音声認識方法。
前記請求項8又は9に記載の音声認識方法において、
 前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を計算し、この計算された尤度とこれに対応する単語との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する音声認識方法。
電気信号に変換された入力音声を、通信可能に接続されたクライアント端末装置とサーバとにより認識するための音声認識プログラムであって、
 前記クライアント端末装置のコンピュータに、
 ユーザ辞書から前記入力音声の認識に不要と判断した単語を排除して縮小ユーザ辞書を作成する機能とを実行させ、
 前記サーバのコンピュータに、
 予め備えているシステム辞書に前記縮小ユーザ辞書を追加し、これらの辞書に基づいて前記入力音声を認識する機能を実行させることを特徴とする音声認識プログラム。
前記クライアント端末装置のコンピュータに、
 前記入力音声と前記縮小ユーザ辞書とを前記サーバに向けて送信する指令を出力する機能を実行させる請求項13に記載の音声認識プログラム。
前記請求項13に記載の音声認識プログラムにおいて、
 前記クライアント端末装置のコンピュータに、
 前記ユーザ辞書が有する単語と前記入力音声とを照合して前記入力音声中に当該単語が現れる尤度を計算し、その計算結果に基づいて前記尤度の高い単語を選択して前記縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
前記請求項13に記載の音声認識プログラムにおいて、
 前記クライアント端末装置のコンピュータに、
 ワードスポッティング処理により前記ユーザ辞書から前記縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
前記請求項13に記載の音声認識プログラムにおいて、
 前記クライアント端末装置のコンピュータに、
 前記入力音声と前記ユーザ辞書内の単語との照合を行い前記入力音声中に現れる各単語の尤度を計算し、この計算された尤度とこれに対応する単語との組を仮に保持し、この仮格納された単語内から尤度の高い一又複数の単語を選択し縮小ユーザ辞書作成し、この選択された単語を改めて辞書の形に編成し縮小ユーザ辞書を作成する機能を実行させる音声認識プログラム。
Description:
音声認識システム、音声認識方 、および音声認識処理プログラム

 本発明は、クライアント端末装置におい 音声を入力し、ネットワークで接続された ーバにおいて音声認識処理を行うサーバ・ ライアント型の音声認識システム、音声認 方法、及び音声認識処理プログラムに関す 。

 上記のサーバ・クライアント型の音声認 システムにあっては、音声認識用の辞書を のように配置するかが設計上重要なポイン となっている。音声認識を行うエンジンが ーバに装備されていることを考慮すると、 声認識用辞書はエンジンからアクセスが容 なサーバに装備するのが妥当である。その 由は、一般に、クライアント端末装置(以下 「クライアント」と略称)とサーバを接続す ネットワーク回線は、サーバ内部のデータ 送路であるデータバスと比較して、データ 送の速度が遅く且つ通信にかかるコストも 価なためである。

 一方、クライアントに特有の単語など、 ライアント毎に音声認識対象の語彙を変え い場合があるが、クライアントに特有の単 の音声認識用辞書は、クライアントに装備 るほうが管理上好都合である。そのため、 般には、サーバ・クライアント型の音声認 システムでは、サーバが備える音声認識用 書とクライアントが備える音声認識用辞書 双方を利用して音声認識処理を進めること なる。サーバが備える音声認識用辞書とク イアントが備える音声認識用辞書の双方を 用して音声認識処理を行うシステムの一例 提案されている(特許文献1参照)。

 図8に示す音声認識システムは、音声認識 エンジン104と認識辞書103を有するクライアン ト100と、音声認識エンジン114と認識辞書113を 有するサーバ110から構成されている。この音 声認識システムは、概ね次のように動作する 。クライアント100は音声入力部102から音声が 入力されると、辞書制御部106により制御され る認識辞書103を参照して音声認識エンジン104 により音声認識処理を行う。音声認識処理に 成功し、音声認識結果が得られた場合は、音 声認識結果が結果統合部107を経由して出力さ れる。

 一方、音声認識処理に失敗し、音声認識 果がリジェクト(Reject)となった場合は、ク イアント100は入力された音声データを音声 信部105によりサーバ110に送信する。サーバ11 0は音声受信部112により音声データを受信し 辞書制御部115により制御される認識辞書113 参照して音声認識エンジン114により音声認 処理を行う。得られた音声認識結果は結果 信部116によりクライアント110に送信され、 果統合部107を経由して出力される。

 要約すれば、クライアント単独で音声認 結果が得られた場合はそれを音声認識シス ムの出力とし、音声認識結果が得られなか た場合はサーバで音声認識処理を行い、そ 音声認識結果を音声認識システムの出力と るものである。

 また、サーバが備える音声認識用辞書と ライアントが備える音声認識用辞書を利用 て音声認識処理を行う別のシステムの例が 案されている(特許文献2参照)。図9に示す音 声認識システムは、ユーザ辞書204A、音声認 用データ204B、辞書管理情報204Cを格納した記 憶部204を有するクライアント200と、認識辞書 215と音声認識部B214を有するサーバ210が、ク イアント200側の通信部202及びサーバ側の通 部211を介して相互に通信を行う構成となっ いる。

 この音声認識システムは、概ね次のように 作する。クライアント210は音声認識処理に 立ち、ユーザ辞書204Aを通信部202によりサー バ210に送信する。その後、クライアント200は 音声入力部201から入力された音声データを通 信部202によりサーバ210に送信する。サーバ210 は通信部211により受信したユーザ辞書204と辞 書管理部212により管理される認識辞書215を用 いて、音声認識部214により音声認識処理を行 う。

特開2003-295893号公報

特許第3581648号

 しかしながら、上述した技術による音声 識システムには、以下に述べる課題が存在 る。

 まず、特許文献1に記載の技術では、クラ イアント上の認識辞書とサーバ上の認識辞書 を使った音声認識処理を行うことができない 。それは、この特許文献1に記載のシステム あっては、まず、クライアント上の認識辞 だけを用いて音声認識処理を行い、音声認 処理に失敗した場合にサーバ上の認識辞書 みを用いて音声認識処理を行うためである このため、正解の音声認識結果が複数の単 を含み、一部の単語がクライアント側の認 辞書にのみ含まれ、別の一部の単語がサー 側の認識辞書にのみ含まれるものであるよ な場合、このシステムでは、正解の音声認 結果を得ることができない。

 また、上記特許文献1に記載の技術では、 まず、クライアント側で音声認識処理を行う と共に音声認識処理の成功/失敗をクライア ト側で判断し、失敗の場合にのみ、サーバ で音声認識処理を行う。このため、この特 文献1のシステムでは、クライアントが、音 認識処理に失敗したにも関わらず誤って成 と判定すると、それがそのままシステム全 としての音声認識結果として採用される。 のため、クライアントの音声認識処理の精 が、システム全体の音声認識処理の精度に きく影響する。

 ところが、クライアント端末で利用可能 リソースは、一般にサーバと比較して小さ 、クライアント上で行う音声認識処理の精 は、サーバで処理する場合と比べて低いの 通常である。そのため、システムとしての 声認識の精度を上げにくいという不都合が じている。

 又、特許文献2に記載の技術では、音声認 識処理の前にクライアント上の認識辞書をサ ーバに送信し、サーバでは送信された認識辞 書とサーバ自身の認識辞書を用いて音声認識 処理を行う。このシステムでは、音声認識処 理の前に大量のデータ転送を行うため、多大 な通信コストと通信時間がかかるという不都 合が生じている。尚、この特許文献2には、 識語彙ごとに入力フォーム識別子を指定し 管理するようにし、現在入力対象となって る入力フォームの情報を用いてユーザ辞書 の音声認識対象語彙を絞り込むやり方への 及がある。

 しかしながら、この音声認識対象語彙を り込むやり方が適用可能なのは、発声前に め、音声認識対象語彙を絞り込む情報(この 場合は入力フォーム情報)が与えられている 合に限られ、このような追加情報が利用で ない一般の音声認識システムに対しては適 することができない、という不都合が生じ いる。

 本発明は、音声認識の質を維持しつつシ テムの負担を増加させることなく当該音声 識をより迅速に処理し得るサーバ・クライ ント型の音声認識システム、音声認識方法 及び音声認識処理プログラムを提供するこ を、その目的とする。

 前記目的を達成するため、本発明に係る音 認識システムは、電気信号に変換された入 音声を認識する音声認識システムであって
 音声認識に用いるユーザ辞書を格納したユ ザ辞書部と、
 前記ユーザ辞書から前記入力音声の認識に 要と判断した単語を排除して縮小ユーザ辞 を作成する縮小ユーザ辞書作成手段と、
 予め備えているシステム辞書に前記縮小ユ ザ辞書を追加し、これらの辞書に基づいて 記入力音声を認識する音声認識手段とを有 ることを特徴とするものである。

 本発明に係る音声認識方法は、電気信号に 換された入力音声を認識する音声認識方法 あって、
 ユーザ辞書から前記入力音声の認識に不要 判断した単語を排除して縮小ユーザ辞書を 成し、
 予め備えているシステム辞書に前記縮小ユ ザ辞書を追加し、これらの辞書に基づいて 記入力音声を認識することを特徴とするも である。

 本発明に係る音声認識プログラムは、電気 号に変換された入力音声を認識するために いる音声認識プログラムであって、
 前記クライアント端末装置のコンピュータ 、
 ユーザ辞書から前記入力音声の認識に不要 判断した単語を排除して縮小ユーザ辞書を 成する機能とを実行させ、
 前記サーバのコンピュータに、
予め備えているシステム辞書に前記縮小ユー ザ辞書を追加し、これらの辞書に基づいて前 記入力音声を認識する機能を実行させること を特徴とするもののである。

 本発明は、音声認識装置における音声認 処理に際しては、音声入力装置から入力音 と縮小ユーザ辞書とを送るようにしたので 音声認識装置側では、縮小ユーザ辞書とシ テム辞書とに基づいて音声認識の質を維持 つつ当該入力音声に対する音声認識を実行 ることができる。さらに音声入力装置から ーザ辞書に代えてデータ容量の小さい縮小 ーザ辞書を送るようにしたので、音声認識 置に転送するデータ量及び通信コストを、 ーザ辞書全体を送信する場合と比べて大幅 削減でき、かかる点においてデータ伝送時 の短縮および前述した音声認識装置におけ 音声認識の処理時間を大幅に短縮すること できる。したがって、音声認識の質を維持 つつシステムの負担を増加させることなく 該音声認識をより迅速に成し得る。

 以下、本発明の実施の形態を、添付図面に づいて説明する。
[第1の実施形態]
 本発明の第1の実施形態にかかる音声認識シ ステムの一構成例を図1に基づいて説明する

 この図1において、本実施形態にかかる音 声認識システムは、音声入力装置としてのク ライアント端末装置(以下「クライアント」 略称する)10と、音声認識装置としてのサー 20とから構成される。クライアント10は、音 を入力する音声入力部11と、音声認識に用 る単語を有するユーザ辞書部12と、入力され た音声に関してユーザ辞書部12から不要と判 した単語を排除して縮小ユーザ辞書を作成 る縮小ユーザ辞書作成手段としての縮小ユ ザ辞書作成部13と、入力音声及び縮小ユー 辞書をサーバ20に送信するクライアント通信 部14とを備えている。符号13Dは、縮小ユーザ 書作成部13で作成した縮小ユーザ辞書を格 した縮小ユーザ辞書部を示す。又、符号15は 、サーバ20で音声認識され送られてきた認識 果の音声情報を表示画面頭に出力表示する 識結果出力部を示す。

 サーバ20は、音声認識に用いる単語を有 るシステム辞書21と、クライアント10から送 された入力音声及び縮小ユーザ辞書を受信 るサーバ通信部23と、システム辞書と縮小 ーザ辞書とを用いて入力音声について音声 識処理を行う音声認識手段としての音声認 部22とを備えている。

 このため、本実施形態におけるサーバ20 おける音声認識処理では、実質的に、シス ム辞書とユーザ辞書の双方を使用した場合 同じ音声認識結果を得ることができるよう なっている。又、クライアント10からサーバ 20に転送するデータ量及び通信コストを、ユ ザ辞書全体を送信する場合と比べて削減で るようになっている。

 前述した縮小ユーザ辞書は、具体的には ユーザ辞書12が有する単語の中から入力音 に含まれている可能性が高い単語を選び出 た辞書として構成されている。縮小ユーザ 書作成部13は、ユーザ辞書部12が有する単語 入力音声とを照合し、入力音声中に当該単 が現れる尤度を計算し、計算結果を基に尤 の高い単語を選択して縮小ユーザ辞書を作 する。

 これにより、ユーザ辞書と縮小ユーザ辞 との差分は入力音声に含まれる可能性の低 単語となり、音声認識処理では、実質的に ステム辞書とユーザ辞書の双方を使用した 合と同じ音声認識結果が得られる。

 又、クライアント10の処理は、ユーザ辞 の単語に対して入力音声に含まれる可能性 あるかどうかを判定する処理であり、この 階では、本当に出現している単語の欠落だ を注意すればよく、音声認識精度に直接悪 響を及ぼさないようになっている。

 更に、前述した縮小ユーザ辞書作成部(縮 小ユーザ辞書作成手段)13は、前記ユーザ辞書 12を用いたワードスポッティング法によって 小ユーザ辞書を作成する。

 以下、これを更に詳述する。図1において 、クライアント10は、前述したように、音声 力部11と、ユーザ辞書12と、縮小辞書作成部 13と、クライアント通信部14とを備えている また、サーバ20は、システム辞書部21と、音 認識部22と、サーバ通信部23とを備えている 。サーバ20との通信を行うクライアント通信 14と、クライアント10との通信を行うサーバ 通信部23とは、通信回線120を介して接続され いる。

 クライアント10において、音声入力部11は 、例えばマイクロフォンとA/D変換器から構成 することが可能である。ユーザ辞書部12は、 ードディスクや不揮発性メモリ等の記憶部 らなり、これに辞書データが格納された形 が採られている。縮小辞書作成部13は、入 音声を参照してユーザ辞書から縮小ユーザ 書を作成するものであり、本実施形態では ランダムアクセスメモリ(RAM))を有するマイ ロプロセッサと、前記RAMに格納されたコン ュータプログラムを実行する中央処理装置(C PU)とから構成されている。クライアント通信 部14は、例えば有線LANや無線LAN、或いは携帯 話機等を利用してデータの通信を行う。

 サーバ20は、例えばパーソナルコンピュ タ等により構成される。システム辞書部21は 、例えば音声認識に用いる辞書を格納したハ ードディスクにより構成されている。サーバ 通信部23は、LAN等を利用してクライアント10 の間にデータの通信を行う。音声認識部22は 、システム辞書部21のシステム辞書を参照し がら所定の音声認識処理を実行する。通信 線120は、例えば有線LANや無線LAN、あるいは 帯電話機で使用する無線網等から構成され 。

 次に、上記第1実施形態の動作を、図2に基 いて説明する。
 まず、ユーザがクライアント10の音声入力 11から音声を入力する(ステップS101:音声入力 工程)。これに伴い、縮小辞書作成部13は、ス テップS101で入力された音声データを参照し 、ユーザ辞書部12から縮小ユーザ辞書を作成 する(ステップS102:縮小ユーザ辞書作成工程)

 具体的には、縮小ユーザ辞書は、ユーザ 書部102に格納されているユーザ辞書に含ま る単語の中から入力音声に含まれている可 性が高いものを選び出すことにより作成さ た辞書で、前記ユーザ辞書の部分辞書とし の性質を備えている。即ち、認識すべき音 が入力された場合、縮小ユーザ辞書はユー 辞書部102のユーザ辞書に基づいて入力音声 対応した辞書として作成される。縮小ユー 辞書には、ユーザ辞書の単語の内、一部の のだけが含まれているが、各単語の持つ情 はユーザ辞書と同じである。そして、この 成された縮小ユーザ辞書は、前述した縮小 ーザ辞書部13Dに格納される。

 次に、クライアント通信部14が、ステッ S101で入力された音声データと、ステップS102 で作成された縮小ユーザ辞書とを、通信回線 120を介してサーバ20のサーバ通信部23に送信 る(ステップS103:送信工程)。

 続いて、サーバ20のサーバ通信部23が、ク ライアント10から送信されてきた音声データ 縮小ユーザ辞書を受信する(ステップS104)。 のサーバ側の音声認識部22は、受信した音 データを対象として、システム辞書部21にシ ステム辞書と受信した縮小ユーザ辞書との双 方を用いて、音声認識処理を実行する(ステ プ105:音声認識工程)。

 そして、この音声認識処理された前記入 音声にかかる音声認識情報が前述したクラ アント10へ返送されて来た場合には、当該 ライアント10から外部に向けて出力される( 力音声出力工程)。この場合は、例えば、前 した認識結果出力部15から外部に向けて画 若しくは文字表示等によって出力表示され ようになっている。

 ここで、上述した各ステップ101乃至105に っては、その実行内容をクライアント10側 サーバ側とに分けて制御プログラム若しく データ処理にかかるプログラムに代えて実 可能に構成し、各々の側にて予め装備した ンピュータに実行させるように構成しても い。

 次に、上記縮小辞書作成部13の構成につい 、図3を参照して説明する。
 この縮小辞書作成部13は、入力音声と単語 照合を行い入力音声中に当該単語が現れる 度を計算する照合部13Aと、この尤度の対象 なった単語と尤度の組を仮に保持する単語 格納部13Bと、この単語仮格納部13Bを参照し 尤度の高い一乃至複数の単語を選択する単 選択部13Cとを備えて構成されている。

 次に、図4に基づいて上記縮小辞書作成部13 動作を説明する。
 この縮小辞書作成部13は、ユーザ辞書12に含 まれる単語のそれぞれに対して、ステップS20 2とステップS203の処理を繰り返す(ステップS20 1)。
 ステップS202では、縮小辞書作成部13は、照 部13Aにおいて、注目単語が入力音声に含ま る尤度を計算する(尤度計算工程)。ステッ S203では、縮小辞書作成部13は、注目単語を 計算した尤度と対応させて(組にして)縮小辞 書とし、これを作成単語仮格納部13Bに格納す る(単語仮格納工程)。

 ユーザ辞書12に含まれる全ての単語に対 て上記の処理が終了したら、縮小辞書作成 13は、単語選択部13Cを起動する。縮小辞書作 成部13は、単語選択部13Cにより、単語仮格納 13Bに格納された単語の中から尤度の高いも をいくつか選択する(単語選択工程)。選択 れた単語は、改めて辞書の形に編成され、 小ユーザ辞書が作成されて縮小ユーザ辞書 13Dに格納される(縮小辞書作成工程)。

 ここで、単語選択部13Bにおける選択処理は 様々なやり方で実施可能である。例えば、 定の尤度を予め定めておき、この尤度以上 単語を選択し、この尤度未満の単語は選択 ない、というやり方で実施できる。
 或いは、固定の数を予め定めておき、選択 た単語数がこの数を超えない範囲で、尤度 高いものから単語を順に選択していく、と うやり方で実施することもできる。
 もちろん、これらを組み合わせて、例えば 選択した単語の数が予め定めた数を超えな 範囲で、尤度の高いものから単語を順に選 していくが、これも予め定めた最低尤度よ 尤度の低い単語は選択しない、などのやり で実施することもできる。

 実際には、ユーザ辞書12は、例えばハード ィスクや不揮発性メモリに格納された辞書 ータとして構成することができる。単語仮 納部13Bは、ハードディスクや不揮発性メモ 、あるいは揮発性メモリに確保されたデー 格納領域として構成する。
 照合部13Aと単語選択部13Cは、例えば、メモ 上に格納されコンピュータプログラムをCPU 実行することにより構成されるようにして よいものである。

 また、縮小ユーザ辞書部13Dは、ユーザ辞書 12の場合と同様に、ハードディスクやメモ 上に記憶された辞書データとしての形態が られている。
 縮小ユーザ辞書部13Dに格納された縮小ユー 辞書は、格納されているデータが、単語選 部13Cで選択された単語に限られることから ユーザ辞書の部分辞書としての性質を有す 。

 照合部13Aは、様々な実施形態を採ること できる。例えば、音声認識におけるワード ポッティング法に用いる手法を、そのまま 用して実施することができる。ワードスポ ティング法とは、例えば、「日本国特許庁 成の標準技術集」平成13年度のテーマ「サ チエンジン」の、C-6-(3)「音声検索」の項で 明されているように、入力音声から必要な 語や音節を拾い出していく方式である。

 本第1実施形態では、ユーザ辞書12の単語の 々に対して、その単語が入力音声から拾い せるか否かを判定し(抽出可否判定工程)、 定時に計算した尤度とともに単語仮格納部13 Bに格納すればよい(縮小辞書作成工程)。
 これらについては、各工程内容をプログラ 化し前述したクライアント側に予め装備し コンピュータに実行させるように構成して よい。

 上記標準技術集を参照すると、ワードス ッティングの実現法としては、DP(Dynamic Proc essing )マッチングを利用する方法がある。DP ッチングとは、音声認識におけるパターン ッチング技術であり、単語中の同じ音素同 が対応するように時間正規化を行って単語 単語の類似距離を求めるものである。例え 一つの単語に対し二つの音声波形があると る。これを時系列パターンAとBとし、Aを入 音声、Bを標準パターンとする。

 DPマッチングを用いてワードスッポティン を行う場合、スポッティングの対象となる 語の標準パターンBを入力音声A(スペクトル どのパラメータ系列)の始端から1フレームず つずらしながら、入力音声の部分区間とDPマ チングを行う。
 マッチング結果としての距離がある閾値以 になったとき、その時点に標準パターンあ 、と判定する。

 本第1実施形態では、上述した閾値を定め ず、距離がどのような値になっても、これを 正負逆転して尤度として出力するように構成 すればよい。距離を尤度に変換する際に正負 を逆転するのは、距離は小さいほど単語が入 力音声に含まれる可能性が高いので、値が大 きいほど単語が入力音声に含まれる可能性が 高くなる尤度として使用するには、大小を逆 転する必要があるためである。

 また、DPマッチングの代わりにHMM(Hidden Marko v Model)を用いてワードスポッティングを行う 方法もよく知られている。HMMを用いてワード スポッティングを行う方法は、例えば、「確 率モデルによる音声認識」第2版(中川聖一著 (社)電子情報通信学会発行、平成元年)の第3 章3.4.2 「音韻・音節・単語スポッティング ルゴリズム」に詳しい。
 上記で詳細に説明したように、照合部13Aに ける照合処理は、既知の技術を用いて様々 形態で実施することが可能である。

 次に、この第1実施形態全体の具体的な動 作を、図5の入力例と上記図2及び図4のフロー チャートを用いて詳細に説明する。

 図5(a)は、ユーザ辞書部12に格納されたユー 辞書(内容)の一例を示す。このユーザ辞書 は、主にニューヨーク市内の地名に対する 本語表記と発音が格納されている。
 今、ユーザが、クライアント10の音声入力 11に対し、例えば「シェイスタジアムはどこ ですか」と発声(音声入力)したと想定する(図 2のステップS101)。
 この発声に対応する読みは、ひらがなで表 すると、「しぇいすたじあむわどこですか となる。ユーザの音声入力に伴い、直ちに 小辞書作成部13が起動する(図2のステップS10 2)。

 図4を参照すると、縮小辞書作成部13は、 ーザ辞書部102に格納された各単語に対し、 の単語が入力音声に含まれる尤度を計算し 単語仮格納部13Bに格納する処理を繰り返す( ステップS201:図4のステップS202乃至ステップS2 03)。本例では、まず、尤度の計算対象の単語 としてユーザの発音した「イーストビレッジ 」が選択され、縮小辞書作成部13は、この単 と入力音声とを照合し、この単語が入力音 に含まれる尤度を計算する。計算された尤 が例えば「0.2」であった場合、縮小辞書作 部13は、単語「イーストビレッジ」の辞書 容、即ち表記・発音及び尤度「0.2」の組を 単語仮格納部13Aに格納する。

 次に、注目単語をユーザ辞書中の次の単語 クロイスターズ」に変えて、同様な尤度計 を行う。計算された尤度が例えば「0.1」で った場合、縮小辞書作成部13は、単語「ク イスターズ」の辞書内容、即ち、表記・発 及び尤度「0.1」の組を、単語仮格納部13Bに 納する。縮小辞書作成部13は、ユーザ辞書12 全ての単語に対して、この尤度計算と単語 格納部13Bへの単語格納の処理を繰り返す。
 図5(b)は、尤度計算及び単語格納の処理が完 了した時点の単語仮格納部13Bの内容の一例を 示す図である。ユーザ辞書の全ての単語に対 して、計算された尤度が、単語と対応するよ うに格納されている。

 次に、縮小辞書作成部13は、単語選択部13 Cにより、単語仮格納部13Bから尤度の高い単 を選択する(図4のステップS204)。本例では、 度が例えば「0.5」以上の単語を選択するよ に、単語選択部13Cが構成されているものと る。図5(b)の内容を参照すると、該当する単 語は、「シェイスタジアム」(尤度0.8)、「シ ークスピアガーデン」(尤度0.6)、及び「メ シーズ」(尤度0.5)の三語であり、これら三語 が単語選択部13Cにより選択される。

 次に、縮小辞書作成部13は、単語選択部13C より選択された三語を出力し、これら三語 らなる辞書を作成する(図4のステップS205)。 うして作成されたものが縮小ユーザ辞書で り、縮小ユーザ辞書部13Dに格納される。図5 (C)に格納された内容を示す。
 この図5(C)において、縮小ユーザ辞書は、先 に選択された三つの単語「シェイスタジアム 、シェークスピアガーデン、メイシーズ」か らなり、各単語の辞書内容は、図5(a)に示し ユーザ辞書と全く同じになるように構成さ ている。
 このようにして、クライアント10で作成さ た縮小ユーザ辞書は、入力音声データ「し いすたじあむわどこですか」と一緒に、ク イアント通信部14から通信回線120を介してサ ーバ20のサーバ通信部23に送信される(図2のス テップS103)。

 サーバ20は、サーバ通信部23により入力音 声データと縮小ユーザ辞書を受信すると、音 声認識部22により音声認識処理を実行する(図 2のステップS105)。この音声認識処理では、ク ライアント10から送信された縮小ユーザ辞書 、サーバ20側のシステム辞書との双方を使 する。図5(d)に、サーバ20のシステム辞書部21 に格納されているシステム辞書の内容の一例 を示す。

 図5(d)において、本例では、「ここ」「そこ 」のような指示詞、「だ」「です」のような 独立助動詞、格助詞「が」「を」「に」、副 助詞「は」、終助詞「か」、一般名詞「日本 」「ワシントン」、間投詞「はい」「いいえ 」のように、任意の状況で使われる可能性が 高い一般的な単語がシステム辞書部21に格納 れている。
 音声認識部22は、入力音声「しぇいすたじ むはどこですか」に対して、縮小ユーザ辞 とシステム辞書の両方を使って音声認識処 を行い、音声認識結果「シェイスタジアム/ /どこ/です/か」を得る。ここで、スラッシ 「/」は、認識された単語の区切れ目を表す ために、説明上導入した記号である。

 上記音声認識結果「シェイスタジアム/は /どこ/です/か」における文頭の単語「シェイ スタジアム」は、縮小ユーザ辞書に由来する 単語であり、その後に続く「は」「どこ」「 です」「か」は、いずれもシステム辞書に由 来する単語である。縮小ユーザ辞書の単語は 、元々はクライアント10のユーザ辞書12に格 されていた単語である。

 このように、本第1実施形態では、クライ アント10側のユーザ辞書部12のユーザ辞書と ーバ20側のシステム辞書部21のシステム辞書 単語が混在するような場合でも、その音声 識結果を得ることができる。これは従来技 に対する利点の一つである。

 ここで、音声認識前にクライアントのユー 辞書の全体をサーバに転送して音声認識処 でシステム辞書と一緒に使用する汎用の技 と、本第1実施形態とを比較する。
 汎用の技術では、ユーザ辞書全体、即ち、 5(a)の例では10単語全てを送信する必要があ た。これに対し、本第1実施形態では、上述 したように縮小ユーザ辞書に格納された三単 語分のデータを転送すればよい。

 一般に、クライアント10とサーバ20とを接 続する通信線120は、クライアント10及びサー 20それぞれに内蔵されたデータバスと比較 て、データ転送速度が遅く、データ転送に かるコストも格段に大きいのが普通である このような状況で転送データ量を少なく抑 ることは非常に重要であり、これにより、 送にかかる時間とコストを低減できるとい 従来にない利点を得ることが可能となる。

 又、クライアント10で利用できる計算リソ スが少なく、縮小辞書作成部13の照合部13Aに おける尤度計算の精度が良くない場合でも、 単語選択部13Cにおける選択基準を甘めに設定 しておいて、より多くの単語が選択されるよ うに構成する。
 このように構成することにより音声認識精 の悪化を防止することができるのも、本第1 実施形態の他にない優れた利点(効能)である

 これは、選択部13Cが最終的には不要とな 単語を選択し、不要となる単語が縮小ユー 辞書に含まれた場合でも、正解に含まれる 語を落とさなければ、サーバ10で実行する 声認識処理で正解が得られると期待できる めである。かかる場合は、縮小ユーザ辞書 サイズが大きくなりデータ転送時間とコス に影響があるが、これらとのトレードオフ 考慮して選択部13Cにおける選択基準を設定 ればよい。

 本第1実施形態では、縮小ユーザ辞書の作成 に際して必要とするのは入力音声だけである 点に特徴を有する。
 これに対し、汎用の技術では、入力先のフ ームのIDのように、音声以外の情報を使用 ることによってクライアントからサーバに 信する語彙を絞り込む必要があった。

 本第1実施形態では、上述したように縮小ユ ーザ辞書の作成に際しては、入力音声以外の 情報を必要としない。入力音声は音声認識処 理において必ず必要となる情報であることか ら、本第1実施形態は音声認識処理を実行す 任意の状況で適用可能となっている。
 この点は、汎用の技術が音声認識の処理対 である音声データ以外の情報がないと適用 きないのと比較して、本実施形態の大きな 点である。

 尚、本実施形態では、単語選択部13Cにお る選択基準を、通信線120の通信速度や通信 ストを勘案して決定するように実施するこ も容易である。例えば、通信速度が低速な 合や通信コストが高価な場合、縮小ユーザ 書に格納する単語数の上限を抑えて、クラ アント10からサーバ120に対する縮小ユーザ 書の転送に一定以上の時間やコストがかか ないように調整することは容易である。こ ような調整を、音声が入力されるたびに動 に行うように構成することも容易である。

 以上説明したように、本第1実施形態におい ては、下記のような効果を奏する。
 即ち、サーバ20における音声認識処理では 実質的にシステム辞書とユーザ辞書の双方 同時に使用して音声認識結果を得ることが きる。具体的に説明すると、ユーザが携帯 る携帯端末などのクライアントにはユーザ 書が搭載されているから、ユーザはユーザ 書に必要な単語を登録する。ユーザ辞書を のままの容量でサーバに送信してユーザ辞 とシステム辞書とを用いて音声認識を行う とが最善の方法であるが、辞書を送信する とを考慮すると、送信容量の面で問題が生 る。

 そこで、本発明の実施形態では、入力音 の認識に不要と判断した単語を排除するこ によりユーザ辞書の容量を縮小して縮小ユ ザ辞書を作成し、これを入力音声のデータ ともにサーバに送信する。したがって、ク イアントからサーバへの送信容量が増える を抑えることができる。しかも、サーバに 信される縮小ユーザ辞書には、入力音声の 識に必要な単語が含まれ、その単語がユー によって登録されるのであるから、縮小ユ ザ辞書をサーバのシステム辞書と組み合わ ることにより、入力音声を確実に認識でき 。

 以上のように本発明の実施形態では、ユ ザ辞書から縮小ユーザ辞書を作成するが、 の縮小ユーザ辞書は入力音声の認識に不要 判断した単語を排除して作成するものであ 、縮小ユーザ辞書とシステム辞書とを用い 入力音声の認識処理は、ユーザ辞書とシス ム辞書とを用いた入力音声の認識処理と実 的に同じであり、上述したように実質的に ステム辞書とユーザ辞書との双方を同時に 用して音声認識結果を得ることができるも である。

 更に、入力音声以外の情報が利用できな 場合でも、前述した入力音声のみでも縮小 ーザ辞書の作成が容易であり、又、汎用の におけるユーザ辞書の転送に比較して転送 が大幅に少なくなることから、クライアン 及びサーバ間で転送されるデータ量を大幅 低減させることができる。又、クライアン で利用可能なリソースが少ない場合でもシ テム全体としての音声認識精度への悪影響 少ないという効果がある。

 即ち、本第1の実施形態は上述したように 構成され機能するので、これによると、前述 したように音声認識装置における音声認識処 理に際しては、音声入力装置から入力音声と 縮小ユーザ辞書とを送るようにしたことから 、音声認識装置側では、縮小ユーザ辞書とシ ステム辞書とに基づいて音声認識の質を維持 しつつ当該入力音声に対する音声認識を実行 することができる。さらに、音声入力装置か らユーザ辞書に代えてデータ容量の小さい縮 小ユーザ辞書を送るようにしたので、音声認 識装置に転送するデータ量及び通信コストを 、ユーザ辞書全体を送信する場合と比べて大 幅に削減できる。したがって、データ伝送時 間の短縮および前述した音声認識装置におけ る音声認識の処理時間を大幅に短縮すること ができ、音声認識の質を維持しつつシステム の負担を増加させることなく当該音声認識を より迅速に成し得る。

[第2の実施形態]
 次に、本発明の第2の実施形態を図6及び図7 参照して説明する。
 ここで、前述した第1の実施形態と同一の構 成部材については同一の符号を用いるものと する。

 この図6乃至図7において、本第2の実施形態 ある音声認識システムは、音声入力装置と てのクライアント端末装置(以下「クライア ント」と略称する)60と、音声認識装置として のサーバ70とから構成される。
 クライアント(クライアント端末装置)60は、 図6に示すように音声入力部61、データ処理部 62、記憶部63、クライアント通信部64、縮小辞 書作成プログラム65、および認識結果出力部6 9とを備えている。
 記憶部63には、ユーザ辞書63aがデータとし 記憶されている。データ処理部62は、縮小辞 書作成プログラム65を読み込んで、データ処 (縮小辞書作成)を制御する。

 データ処理部62は、縮小辞書作成プログ ム65に従って、第1の実施形態の縮小辞書作 手段13で実行する処理と同一の処理を実行す る。具体的には、データ処理部62は、クライ ント(クライアント端末装置)60の音声入力部 61に入力された音声を参照して、この音声に まれる可能性の高い単語を記憶部63内のユ ザ辞書63aの中からいくつか選択して縮小ユ ザ辞書を作成する。クライアント60で作成さ れた縮小ユーザ辞書は、クライアント通信部 64により通信回線120を介してサーバ(音声認識 装置)70に送信される。符号69は、サーバ70か 送り込まれる入力音声に対する認識結果を 力表示する認識結果出力部を示す。

 又、音声認識装置としてのサーバ70は、 7に示すように、サーバ通信部71、データ処 部72、記憶部73、音声認識プログラム75を備 ている。記憶部73には、システム辞書73aがデ ータとして記憶されている。データ処理部72 、音声認識プログラム75を読み込んで、デ タ処理を制御する。

 データ処理部72は、音声認識プログラム75に 従って、前述した第1実施形態における音声 識部22で実行する処理と同一の処理を実行す る。
 具体的には、データ処理部72は、クライア ト60から送りこまれる入力音声データと縮小 ユーザ辞書とをサーバ通信部71を介して受信 た後、記憶部73内のシステム辞書73aと前記 小ユーザ辞書の両方を利用して、入力音声 ータに対する音声認識処理を実行する。

 本第2の実施形態では、クライアント60およ サーバ70とも、例えば、パーソナルコンピ ータ(以下PC)、PDA(Personal Digital Assistant)、携 電話機など、CPUとメモリを有しネットワー 接続が可能な電子機器であれば、どれを用 て実施することも可能である。又、クライ ント60の入力部61は、コンピュータに汎用の 音声入力機能があれば、これをそのまま利用 することができる。
 その他各部の機能については、或いはその の構成およびその作用効果については、前 した第1実施形態の場合と同一となっている 。

 以上説明したように、本第2の実施形態にお いては、下記のような効果を奏する。
 まず、サーバ70における音声認識処理では 前述した第1実施形態の場合と同様に、実質 にシステム辞書とユーザ辞書とを同時に使 した場合と同じ音声認識結果を得ることが き、入力音声以外の情報が利用できない場 でもクライアント60及びサーバ70間で転送さ れるデータ量が少なくて済むという効果があ る。
 更に、クライアント60で利用可能なリソー が少ない場合でもシステム全体としての音 認識精度への悪影響が少ないという効果が る。

 このように、上述した各実施形態にあっ は、音声入力装置であるクライアント端末 置(クライアント)では、入力された音声を 象としてユーザ辞書から単語を抽出し、縮 ユーザ辞書を作成する。単語の抽出は、ユ ザ辞書の単語のうちから入力音声に含まれ いる可能性を判断し、可能性が高いものを 出する処理として行われる。そして、前記 声入力装置(クライアント)から入力音声と縮 小ユーザ辞書を音声認識装置(サーバ)に送信 る。一方、音声認識装置(サーバ)側では、 ステム辞書と縮小ユーザ辞書を同時に使用 て音声認識処理が行われる。ここで、クラ アントのユーザ辞書と縮小ユーザ辞書の差 は入力音声に含まれる可能性の低い単語の であるため、サーバの音声認識処理では実 的にシステム辞書とユーザ辞書とを同時に 用した場合と同じ音声認識結果が得られる

 又、縮小ユーザ辞書のサイズはユーザ辞 のサイズと比べて大幅に小さくできること 期待できるため、音声入力装置及び音声認 装置の間で転送されるデータ量を、ユーザ 書全体を送信する場合と比べて確実に削減 ることができる。更に、音声入力装置と音 認識装置間の通信は、通常、サーバ内部あ いはクライアントのデータ転送と比べて転 速度が低速で通信コストも高価である。そ ため、転送データ量の削減は、データ転送 間の短縮、音声認識処理のレスポンス改善 通信コスト削減が可能となる。

 更に、音声入力装置(クライアント)では ーザ辞書の単語に対して入力音声に含まれ 可能性があるかどうかを判定するが、この 階では、本当に出現している単語が欠落し いように注意すればよく、縮小ユーザ辞書 不要な単語が含まれていても最終的な音声 識の精度には影響しない。不要な単語は音 認識処理で最終的に採用されないことが期 されるためである。従って、音声入力装置( ライアント)で処理に使えるリソースが少な く高精度な処理が実行できない場合でも、音 声認識精度に直接悪影響を及ぼさない。言い 換えれば、CPUやメモリなどリソースが少ない 音声入力装置(クライアント)に対する本発明 機能搭載が容易となる。

 即ち、本発明の実施形態によると、音声 識装置における音声認識処理では実質的に ステム辞書とユーザ辞書の双方を使用した 合と同じ音声認識結果を得ることができる かりでなく、入力音声以外の情報が利用で ない場合でも、音声入力装置及び音声認識 置間で転送されるデータ量が少なくて済む 更に、音声入力装置で利用可能なリソース 少ない場合でも、システム全体としての音 認識精度への悪影響が少なくできる。

 本発明の他の実施形態にかかる音声認識 ステムは、音声を電気信号に変換し入力音 として入力する音声入力装置と、この音声 力装置に入力された入力音声を取り込んで 識処理する音声認識装置とを通信可能に接 して成る音声認識システムにあって、前述 た音声入力装置は、前記入力音声の認識に いる単語を格納したユーザ辞書部と、前記 力音声に対応する単語を前記ユーザ辞書部 ら抽出して縮小ユーザ辞書を作成する縮小 ーザ辞書作成手段とを備えている。又、前 した音声認識装置は、前記音声入出力装置 ら前記入力音声と前記縮小ユーザ辞書とを 力すると共に、この縮小ユーザ辞書と予め えている音声認識用の単語を格納したシス ム辞書とに基づいて前記入力音声を認識す 音声認識手段を備えている、という構成と てもよいものである。

 このため、これによると、上述したよう 音声認識装置における音声認識処理に際し は、音声入力装置から入力音声と縮小ユー 辞書とを送るようにしたので、音声認識装 側では、縮小ユーザ辞書とシステム辞書と 基づいて音声認識の質を維持しつつ当該入 音声に対する音声認識を実行することがで 、且つ音声入力装置からユーザ辞書に代え データ容量の小さい縮小ユーザ辞書を送る うにしたので、音声認識装置に転送するデ タ量及び通信コストを、ユーザ辞書全体を 信する場合と比べて大幅に削減でき、かか 点においてデータ伝送時間の短縮および前 した音声認識装置における音声認識の処理 間を大幅に短縮することができる。

 本発明の他の実施形態にかかる音声認識 ステムでは、音声を電気信号に変換し入力 声として入力する音声入力装置と、この音 入力装置で入力された入力音声を認識処理 る音声認識装置とを通信可能に接続して成 音声認識システムにあって、前記音声入出 装置は、音声を入力する音声入力部と、入 した音声の認識に用いる単語を格納したユ ザ辞書部と、前記入力音声に対応する単語 前記ユーザ辞書から抽出して縮小ユーザ辞 を作成する縮小ユーザ辞書作成手段と、前 入力音声及び前記縮小ユーザ辞書を前記音 認識装置に送信する送信手段とを備えてい 。又、前述した音声認識装置は、音声認識 の単語を格納したシステム辞書部と、前記 声入力装置から送信される前記入力音声及 前記縮小ユーザ辞書を受信する受信手段と 前記システム辞書と前記縮小ユーザ辞書と 用いて前記入力音声について音声認識処理 行う音声認識部とを備える、という構成構 としてもよいものである。

 このため、上記音声認識システムにあって 、前述した音声認識装置における音声認識 理に際しては、縮小ユーザ辞書とシステム 書に基づいて認識処理を実行し得るので、 質的にユーザ辞書とシステム辞書の双方を 用した場合と同じ音声認識結果を得ること できる。
 また、音声入力装置から音声認識装置に転 するデータ量及び通信コストを、ユーザ辞 全体を送信する場合と比べて大幅に削減で 、かかる点において回線の負担を確実に低 することができ、全体的に音声認識の処理 間を短縮することができるという利点があ 。更に、音声入力装置から音声認識装置に 送するデータ量及び通信コストを、ユーザ 書全体を送信する場合と比べて大幅に削減 きる。

 ここで、前述した縮小ユーザ辞書は、前 ユーザ辞書が有する単語の中から前記入力 声に含まれる可能性のある単語を選び出し 辞書である。又、前述した縮小ユーザ辞書 成手段は、前記ユーザ辞書が有する単語と 記入力音声とを照合して前記入力音声中に 該単語が現れる尤度を計算し且つその計算 果に基づいて前記尤度の高い単語を選択し 前記縮小ユーザ辞書を作成する構成として よい。

 これにより、ユーザ辞書と縮小ユーザ辞 との差分は入力音声に含まれる可能性の低 単語となり、音声認識処理では実質的にシ テム辞書とユーザ辞書の双方を使用した場 と同じ音声認識結果が得られる。又、音声 力装置側での上記処理は、ユーザ辞書の単 に対して入力音声に含まれる可能性がある どうかを判定する処理であり、この段階で 、本当に出現している単語が落ちないよう だけ注意すればよく、汎用の技術のように 声認識精度に直接悪影響を及ぼさないとい 利点がある。

 更に、この縮小ユーザ辞書作成手段につい は、前記ユーザ辞書を用いたワードスポッ ィング法により前記縮小ユーザ辞書を作成 るように構成してもよい。
 これにより、音声認識に用いるワードスポ ティング法を縮小ユーザ辞書の作成に有効 応用し効率的な縮小ユーザ辞書を作成する とができる。

 また、上述した縮小ユーザ辞書作成手段 ついては、入力音声とユーザ辞書内の単語 の照合を行い前記入力音声中に現れる各単 の尤度を集計する照合部と、この集計され 各単語と対応する尤度との組を仮に保持す 単語仮格納部と、この単語仮格納部内から 度の高い一又複数の単語を選択し縮小ユー 辞書作成する単語選択部と、を含む構成と てもよい。

 本発明の他の実施形態にかかる音声認識 法は、音声入力装置にあって音声を電気信 に変換しこれを入力音声として入力し、前 音声入力装置が備えている音声認識用のユ ザ辞書から前記入力された音声に関する単 を抽出して縮小ユーザ辞書を作成し、前記 力音声及び前記縮小ユーザ辞書を前記音声 力装置から音声認識装置に送信し、前記入 音声及び前記縮小ユーザ辞書を受信した前 音声認識装置にて作動し当該音声認識装置 備えている音声認識用のシステム辞書と受 した前記縮小ユーザ辞書とに基づいて前記 力音声について音声認識処理を行う構成と てもよいものである。

 本発明の他の実施形態にかかる音声認識 法は、音声入力装置にあって音声を電気信 に変換しこれを入力音声として入力し、前 音声入力装置が備えている音声認識用のユ ザ辞書から前記入力された音声に関する単 を抽出して縮小ユーザ辞書を作成し、前記 力音声及び前記縮小ユーザ辞書を前記音声 力装置から音声認識装置に送信し、前記入 音声及び前記縮小ユーザ辞書を受信した前 音声認識装置にて受信し、前記音声認識装 が作動し当該音声認識装置が備えている音 認識用のシステム辞書と受信した前記縮小 ーザ辞書とに基づいて前記入力音声につい 音声認識処理を行う構成としてもよいもの ある。

 このため、音声認識装置における音声認 処理では実質的にシステム辞書とユーザ辞 の双方を使用した場合と同じ音声認識結果 得ることができる。また、音声入力装置か 音声認識装置に転送するデータ量及び通信 ストを、ユーザ辞書全体を送信する場合と べて削減できる。

 ここで、前述した縮小ユーザ辞書を作成 る際、前記ユーザ辞書が有する単語と前記 力音声とを照合して前記入力音声中に当該 語が現れる尤度を計算し、その計算結果に づいて前記尤度の高い単語を選択して前記 小ユーザ辞書を作成する構成としてもよい

 又、前述した縮小ユーザ辞書を作成する 、ワードスポッティング処理により前記ユ ザ辞書から前記縮小ユーザ辞書を作成する うに構成してもよい。

 更に、前述した縮小ユーザ辞書を作成す 際、前記入力音声と前記ユーザ辞書内の単 との照合を行い前記入力音声中に現れる各 語の尤度を集計し、この集計された各単語 対応する尤度との組を仮に保持し、この仮 納された単語内から尤度の高い一又複数の 語を選択し縮小ユーザ辞書を作成し、この 択された単語を改めて辞書の形に編成し縮 ユーザ辞書を作成する構成としてもよい。

 本発明の他の実施形態にかかる音声認識処 プログラムは、音声を電気信号に変換し入 音声として入力する音声入力装置と、この 声入力装置に入力された入力音声を取り込 で認識処理する音声認識装置とを通信可能 接続して成る音声認識システムにあって、 記音声入力装置が備えているコンピュータ 、
音声入力装置にあって受信した音声を電気信 号に変換しこれを入力音声として入力する音 声入力制御機能、前記音声入力装置が備えて いる音声認識用のユーザ辞書から前記入力音 声に関する単語を抽出して縮小ユーザ辞書を 作成する縮小ユーザ辞書作成制御機能、前記 入力音声及び前記縮小ユーザ辞書を音声認識 処理用として前記音声入力装置から音声認識 装置に送信する送信制御機能、を実行させる 構成としてもよいものである。

 本発明の他の実施形態にかかる音声認識処 プログラムは、音声を電気信号に変換し入 音声として入力すると共にその認識結果を 示する音声入力装置と、この音声入力装置 入力された入力音声を取り込んで認識処理 前記音声入力装置に送り返す音声認識装置 を通信可能に接続して成る音声認識システ にあって、前記音声認識装置が備えている ンピュータに、
 前記音声入力装置から送信される前記入力 声と前記音声入力装置側のユーザ辞書に係 縮小ユーザ辞書とを受信する認識対象受信 理機能、この受信した前記入力音声を、当 音声認識装置が備えている音声認識用のシ テム辞書と前記受信した縮小ユーザ辞書と 基づいて音声認識処理を行う音声認識処理 能、を実行させる構成としてもよいもので る。

 このようにしても、前述した各システム 場合とほぼ同様に音声認識処理を迅速に実 することができ、且つ縮小ユーザ辞書を使 しても実質的にユーザ辞書を使用した場合 同等の音声認識結果を得ることができ、音 入力装置から音声認識装置に転送するデー 量及び通信コストを、ユーザ辞書全体を送 する場合と比べて大幅に削減でき、全体的 音声認識の処理時間を短縮することができ という利点がある。

 ここで、前記ユーザ辞書が有する単語と 記入力音声とを照合して前記入力音声中に 該単語が現れる尤度を計算し、その計算結 に基づいて前記尤度の高い単語を選択して 記縮小ユーザ辞書を作成する機能を前記コ ピュータに実行させる構成としてもよい。

 又、前記入力音声と前記ユーザ辞書内の 語との照合を行い前記入力音声中に現れる 単語の尤度を集計し、この集計された各単 と対応する尤度との組を仮に保持し、この 格納された単語内から尤度の高い一又複数 単語を選択し縮小ユーザ辞書を作成する機 を前記コンピュータに実行させる構成とし もよい。

 又、ワードスポッティング処理により前 ユーザ辞書から前記縮小ユーザ辞書を作成 る構成してもよい。

 これにより、音声認識装置における音声 識処理では実質的にシステム辞書とユーザ 書の双方を使用した場合と同じ音声認識結 を得ることができる。又、音声入力装置の 理は、ユーザ辞書の単語に対して入力音声 含まれる可能性があるかどうかを判定する 理であり、この段階では、本当に出現して る単語が欠落しないように注意すればよく 音声認識精度に直接悪影響を及ぼすことは い。

以上、実施形態(及び実施例)を参照して本 発明を説明したが、本願発明は上記実施形 (及び実施例)に限定されるものではない。 願発明の構成や詳細には、本願発明のスコ プ内で当業者が理解し得る様々な変更をす ことができる。

 この出願は2007年3月14日に出願された日本 出願特願2007-065229を基礎とする優先権を主張 、その開示の全てをここに取り込む。

 本発明の上記実施形態では、クライアン において音声を入力し、クライアントと通 回線で接続されたサーバにおいて音声認識 行う構成の音声認識システム全般に適用す ことが可能である。また、クライアントと ては、上述したようにPDAや携帯電話機等の 帯端末は勿論、ネットワークで接続されたP Cやカーナビゲーション端末など、端末のサ ズや形態を問わず広く適用することが可能 ある。

本発明の第1の実施形態にかかる音声認 識システムの構成を示すブロック図である。 図1に開示した音声認識システムの動作 を示すフローチャートである。 図1に開示した音声認識システムの縮小 辞書作成部の構成を示すブロック図である。 図3に開示した縮小辞書作成部の動作を 示すフローチャートである。 図1に開示したクライアントのユーザ辞 書及びサーバのシステム辞書の例を示す図で ある。 本発明の第2の実施形態にかかる音声認 識システムのクライアントの構成を示すブロ ック図である。 図6に開示した音声認識システムのサー バ部分の構成を示すブロック図である。 汎用の音声認識システムの構成を示す ロック図である。 汎用の別の音声認識システムの構成を すブロック図である。

符号の説明

 10,60 音声入力装置としてのクライアント( ライアント端末装置)
 11,61 音声入力部
 12 ユーザ辞書部
 13 縮小辞書作成部(縮小辞書作成手段)
 13A 照合部
 13B 単語仮格納部
 13C 単語選択部
 13D 縮小ユーザ辞書部
 14 クライアント通信部(送信手段、受信手 )
 15,69 認識結果出力部
 20,70 音声認識装置としてのサーバ
 21 システム辞書部
 22 音声認識部(音声認識手段)
 23 サーバ通信部(送信手段、受信手段)
 62 データ処理部(縮小ユーザ辞書の作成)
 72 データ処理部(音声認識処理)
 73 記憶部(ユーザ辞書の記憶部)
 73a システム辞書
 75 音声認識プログラム
 120 通信回線