Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUDIO RECOGNITION DEVICE, AUDIO RECOGNITION METHOD, AND AUDIO RECOGNITION PROGRAM
Document Type and Number:
WIPO Patent Application WO/2008/108232
Kind Code:
A1
Abstract:
It is possible to recognize a voice by using an appropriate parameter enabling a highly accurate recognition with a small calculation cost. A voice model storage unit (7) stores in advance a voice model having a plurality of accuracies expressing voice features. An accuracy judgment unit (9) selects an accuracy nearest to the feature of an input signal among the accuracies of voice models stored in the voice model storage unit (7). According to the selected accuracy, a parameter setting unit (10) controls a parameter related to the voice recognition. Thus, when a voice model is compared with a high accuracy and a low accuracy and if the high accuracy shows a higher similarity for the input signal, voice recognition is performed by using a parameter of a low calculation cost. On the contrary, if the low accuracy shows a higher similarity for the input signal, voice recognition is performed by using a parameter to increase the accuracy.

Inventors:
ARAKAWA TAKAYUKI (JP)
HANAZAWA KEN (JP)
TSUJIKAWA MASANORI (JP)
Application Number:
PCT/JP2008/053331
Publication Date:
September 12, 2008
Filing Date:
February 26, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NEC CORP (JP)
ARAKAWA TAKAYUKI (JP)
HANAZAWA KEN (JP)
TSUJIKAWA MASANORI (JP)
International Classes:
G10L15/10; G10L15/02; G10L15/06; G10L15/08; G10L15/14; G10L15/18
Domestic Patent References:
WO2005010868A12005-02-03
Foreign References:
JPH10149192A1998-06-02
JP2005234214A2005-09-02
JP2004117503A2004-04-15
JP2000261321A2000-09-22
JP2005004018A2005-01-06
JPH0667698A1994-03-11
JP2006091864A2006-04-06
JPH08506430A1996-07-09
Attorney, Agent or Firm:
KATO, Asamichi (20-12 Shin-Yokohama 3-chomeKohoku-ku, Yokohama-shi, Kanagawa 33, JP)
Download PDF:
Claims:
 入力した音声信号を音声認識する音声認識装置であって、
 所定の音声モデルに対する音声の特徴的性質を示す情報である複数の詳細度をもつ前記音声モデルを予め記憶する音声モデル記憶手段と、
 前記音声モデル記憶手段が記憶する音声モデルがもつ詳細度のうち、入力した音声信号の特徴的性質に最も近い詳細度を選択する詳細度選択手段と、
 前記詳細度選択手段が選択した詳細度に応じて、入力した音声を音声認識するためのパラメータを設定するパラメータ設定手段とを
 備えたことを特徴とする音声認識装置。
 前記詳細度選択手段は、単位時間毎に詳細度を求めて、入力した音声信号の特徴的性質に最も近い詳細度を選択する請求項1記載の音声認識装置。
 前記詳細度選択手段は、単位時間毎に求めた詳細度を複数の単位時間にわたって統計分析し、着目する単位時間の詳細度を求める請求項2記載の音声認識装置。
 音声モデル記憶手段が記憶する音声モデルと、入力した音声信号の特徴的性質との差を示す距離情報を算出する距離算出手段を備え、
 前記距離算出手段は、詳細度が低い距離情報からより高い距離情報へと順番に距離情報を算出し、又は詳細度が高い距離情報からより低い距離情報へと順番に算出し、
 前記詳細度選択手段は、前記距離算出手段が求めた前記距離情報が極小となる詳細度を求める
 請求項1から請求項3のうちのいずれか1項に記載の音声認識装置。
 前記音声モデル記憶手段は、親子構造をもつ音声モデルを予め記憶する請求項1から請求項4のうちのいずれか1項に記載の音声認識装置。
 所定の音響モデルを予め記憶する音響モデル記憶手段と、
 パラメータ設定手段によって設定されたパラメータに基づいて、音声認識の結果として単語列を探索して抽出する単語列探索手段とを備え、
 前記音響モデル記憶手段は、前記音声モデル記憶手段が記憶する音声モデルと所定の関連性をもつ音響モデルを予め記憶し、
 前記単語列探索手段は、前記音声モデルと前記音響モデルとの関連性を用いて、単語列を探索して抽出する
 請求項1から請求項5のうちのいずれか1項に記載の音声認識装置。
 前記パラメータ設定手段は、詳細度選択手段が選択した詳細度に応じて、言語の重み付け、又は所定の枝刈り処理を行うための枝刈りパラメータの少なくともいずれかを設定する請求項1から請求項6のうちのいずれか1項に記載の音声認識装置。
 所定の音響モデルを予め複数記憶する音響モデル記憶手段と、
 所定の言語モデルを予め複数記憶する言語モデル記憶手段と、
 前記詳細度選択手段が選択した詳細度に応じて、前記音響モデル記憶手段が記憶する複数の音響モデルと、前記言語モデル記憶手段が記憶する複数の言語モデルとのうち、1組の音響モデルと言語モデルとを選択するモデル選択手段とを備えた
 請求項1から請求項7のうちのいずれか1項に記載の音声認識装置。
 前記詳細度選択手段が選択した詳細度に応じて、入力した音声信号の音声認識結果の出力方法又は出力内容を変更する出力変更手段を備えた請求項1から請求項8のうちのいずれか1項に記載の音声認識装置。
 前記詳細度選択手段が選択した詳細度に応じて、前記音声モデル記憶手段が記憶する音声モデルを更新する音声モデル更新手段を備えた請求項1から請求項9のうちのいずれか1項に記載の音声認識装置。
 入力した音声信号を音声認識する音声認識方法であって、
 予め記憶する所定の音声モデルがもつ、前記音声モデルに対する音声の特徴的性質を示す情報である複数の詳細度のうち、入力した音声信号の特徴的性質に最も近い詳細度を選択する詳細度選択ステップと、
 選択した詳細度に応じて、入力した音声を音声認識するためのパラメータを設定するパラメータ設定ステップとを
 含むことを特徴とする音声認識方法。
 前記詳細度選択ステップで、単位時間毎に詳細度を求めて、入力した音声信号の特徴的性質に最も近い詳細度を選択する請求項11記載の音声認識方法。
 前記詳細度選択ステップで、単位時間毎に求めた詳細度を複数の単位時間にわたって統計分析し、着目する単位時間の詳細度を求める請求項12記載の音声認識方法。
 予め記憶する音声モデルと、入力した音声信号の特徴的性質との差を示す距離情報を算出する距離算出ステップを含み、
 前記距離算出ステップで、詳細度が低い距離情報からより高い距離情報へと順番に距離情報を算出し、又は詳細度が高い距離情報からより低い距離情報へと順番に算出し、
 前記詳細度選択ステップで、求めた前記距離情報が極小となる詳細度を求める
 請求項11から請求項13のうちのいずれか1項に記載の音声認識方法。
 予め記憶する親子構造をもつ音声モデルに基づいて、入力した音声信号の特徴的性質に最も近い詳細度を選択する請求項11から請求項14のうちのいずれか1項に記載の音声認識方法。
 設定したパラメータに基づいて、音声認識の結果として単語列を探索して抽出する単語列探索ステップを含み、
 音声モデルと所定の関連性をもつ音響モデルを予め記憶し、
 前記単語列探索ステップで、前記音声モデルと前記音響モデルとの関連性を用いて、単語列を探索して抽出する
 請求項11から請求項15のうちのいずれか1項に記載の音声認識方法。
 前記パラメータ設定ステップで、選択した詳細度に応じて、言語の重み付け、又は所定の枝刈り処理を行うための枝刈りパラメータの少なくともいずれかを設定する請求項11から請求項16のうちのいずれか1項に記載の音声認識方法。
 選択した詳細度に応じて、予め記憶する複数の音響モデルと、予め記憶する複数の言語モデルとのうち、1組の音響モデルと言語モデルとを選択するモデル選択ステップを含む請求項11から請求項17のうちのいずれか1項に記載の音声認識方法。
 選択した詳細度に応じて、入力した音声信号の音声認識結果の出力方法又は出力内容を変更する出力変更ステップを含む請求項11から請求項18のうちのいずれか1項に記載の音声認識方法。
 選択した詳細度に応じて、予め記憶する音声モデルを更新する音声モデル更新ステップを含む請求項11から請求項19のうちのいずれか1項に記載の音声認識方法。
 入力した音声信号を音声認識するための音声認識プログラムであって、
 コンピュータに、
 予め記憶する所定の音声モデルがもつ、前記音声モデルに対する音声の特徴的性質を示す情報である複数の詳細度のうち、入力した音声信号の特徴的性質に最も近い詳細度を選択する詳細度選択処理と、
 選択した詳細度に応じて、入力した音声を音声認識するためのパラメータを設定するパラメータ設定処理とを
 実行させるための音声認識プログラム。
 前記コンピュータに、
 前記詳細度選択処理で、単位時間毎に詳細度を求めて、入力した音声信号の特徴的性質に最も近い詳細度を選択する処理を実行させる
 請求項21記載の音声認識プログラム。
 前記コンピュータに、
 前記詳細度選択処理で、単位時間毎に求めた詳細度を複数の単位時間にわたって統計分析し、着目する単位時間の詳細度を求める処理を実行させる
 請求項22記載の音声認識プログラム。
 前記コンピュータに、
 予め記憶する音声モデルと、入力した音声信号の特徴的性質との差を示す距離情報を算出する距離算出処理を実行させ、
 前記距離算出処理で、詳細度が低い距離情報からより高い距離情報へと順番に距離情報を算出し、又は詳細度が高い距離情報からより低い距離情報へと順番に算出する処理を実行させ、
 前記詳細度選択処理で、求めた前記距離情報が極小となる詳細度を求める処理を実行させる請求項21から請求項23のうちのいずれか1項に記載の音声認識プログラム。
 前記コンピュータに、
 予め記憶する親子構造をもつ音声モデルに基づいて、入力した音声信号の特徴的性質に最も近い詳細度を選択する処理を実行させる
 請求項21から請求項24のうちのいずれか1項に記載の音声認識プログラム。
 音声モデルと所定の関連性をもつ音響モデルを予め記憶する記憶手段を備えたコンピュータに、
 設定したパラメータに基づいて、音声認識の結果として単語列を探索して抽出する単語列探索処理を実行させ、
 前記単語列探索処理で、前記音声モデルと前記音響モデルとの関連性を用いて、単語列を探索して抽出する処理を実行させる
 請求項21から請求項25のうちのいずれか1項に記載の音声認識プログラム。
 前記コンピュータに、
 前記パラメータ設定処理で、選択した詳細度に応じて、言語の重み付け、又は所定の枝刈り処理を行うための枝刈りパラメータの少なくともいずれかを設定する処理を実行させる
 請求項21から請求項26のうちのいずれか1項に記載の音声認識プログラム。
 前記コンピュータに、
 選択した詳細度に応じて、予め記憶する複数の音響モデルと、予め記憶する複数の言語モデルとのうち、1組の音響モデルと言語モデルとを選択するモデル選択処理を実行させる
 請求項21から請求項27のうちのいずれか1項に記載の音声認識プログラム。
 前記コンピュータに、
 選択した詳細度に応じて、入力した音声信号の音声認識結果の出力方法又は出力内容を
変更する出力変更処理を実行させる
 請求項21から請求項28のうちのいずれか1項に記載の音声認識プログラム。
 前記コンピュータに、
 選択した詳細度に応じて、予め記憶する音声モデルを更新する音声モデル更新処理を実行させる
 請求項21から請求項29のうちのいずれか1項に記載の音声認識プログラム。
Description:
音声認識装置、音声認識方法及 音声認識プログラム

 (関連出願についての記載)
 本願は、先の日本特許出願2007-048898号(2007年 2月28日出願)の優先権を主張するものであり 前記先の出願の全記載内容は、本書に引用 もって繰込み記載されているものとみなさ る。
 本発明は、音声を認識する音声認識装置、 声認識方法及び音声認識プログラムに関し 特に、音響的な特性を判定して音声認識に わるパラメータを制御することで、少ない 算コストで音声認識の認識精度を高める音 認識装置、音声認識方法及び音声認識プロ ラムに関する。

 一般に、音声認識装置を用いて、入力し 音声を音声認識しテキスト等に変換して利 することが行われている。従来の音声認識 置として、例えば、特許文献1には、計算コ ストを増加させずに、正解が枝刈りされるこ とを抑えて、高い認識精度で音声認識を行う 装置が記載されている。また、例えば、非特 許文献1には、一般的な音声認識技術の手法 び音声認識のリアルタイム化技術が記載さ ている。

特開2001-75596号公報(段落0063-0070、図6-8) 安藤彰男著,「リアルタイム音声認識」, 子情報通信学会,pp.28-p.143

 以上の特許文献1及び非特許文献1の開示事 は、本書に引用をもって繰り込み記載され いるものとする。以下に本発明による関連 術の分析を与える。
 図12は、非特許文献1に記載された音声認識 術を用いた一般的な音声認識装置の構成例 示すブロック図である。図12に示すように 一般的に、音声認識装置は、入力信号取得 91と、特徴量算出部92と、音響モデル93と、 語モデル94と、ネットワーク探索部95と、認 結果出力部96とを含む。

 入力信号取得部91は、入力信号(音声信号) を単位時間毎に切り分けて取得(入力)する。 徴量算出部92は、入力信号取得部91が入力し た入力信号から特徴量を算出する。音響モデ ル93は、予め音響モデルを格納する。言語モ ル94は、予め言語モデルを格納する。ネッ ワーク探索部95は、特徴量算出部92で算出さ た特徴量と、音響モデル93が格納する音響 デルと、言語モデル94が格納する言語モデル とに基づいて、音声認識の結果としての単語 列の候補を探索する。認識結果出力部96は、 ットワーク探索部において探索された単語 の候補を出力する。

 図12に示す一般的な音声認識装置では、 ットワーク探索部95で単語列を探索する際に 、特徴量算出部92で算出された特徴量と、音 モデル格納部93に格納されている音響モデ と、言語モデル格納部94に格納されている言 語モデルとを用いる。まず、ネットワーク探 索部95は、単語列の探索処理を行うことによ て、式(1)に示す最も尤度の高い単語列を求 るものとする。

 この場合、非特許文献1に開示されている サーチ(探索)方法(非特許文献1の6章参照)を用 いると、ネットワーク探索部95は、入力信号x =x0,...,xTが時系列順に与えられたときに、式(2 )を用いて最も尤度の高い単語列を求めるこ ができる。

 ここで、λは言語重みと呼ばれるパラメ タである。この言語重みλを大きくすると言 語モデルに重きを置いて探索し、逆に小さく すると音響モデルに重きを置いて探索を行う ことになる。また、P(x|ω)は音響モデルを用 て求められる入力信号xに対する単語列ωの 度であり、P(ω)は言語モデルを用いて求めら れる単語列ωが出現する確率である。

 また、式(2)において、argmaxは起こりうる ての単語列の組み合わせに対して、最も尤 の高い単語列を求める演算を意味する。し しながら、全ての単語列に関して上記演算 行うには非常に多くの計算コストが必要と れるため、実際には単語列の候補(仮説)の 刈りを行う。単語列の候補の枝刈りにおい は、仮説数や尤度幅等の枝刈りパラメータ 設定する必要がある。

 上記に示した一般的な音声認識装置では 上記の言語重みや上記の枝刈りパラメータ の設定すべき複数のパラメータが存在して る。音声認識装置では、これらのパラメー を制御することで、計算コストや認識精度 変更することができる。

 また、特許文献1に記載された音声認識装 置を用いれば、上記の音声認識に係わるパラ メータを制御することができる。図13は、特 文献1に記載されている音声認識装置の構成 例を示すブロック図である。図13に示すよう 、特許文献1に記載された音声認識装置は、 音声データ記憶手段911と、音響分析手段912と 、音響モデル記憶手段913と、単語辞書記憶手 段914と、尤度演算手段915と、枝刈り手段916と 、認識結果出力手段917と、簡易音響モデル記 憶手段921と、簡易音響モデル確率演算手段922 と、順位変動計算手段923と、言語重み変更手 段931とを備える。

 音声データ記憶手段911は、入力した音声 記憶する。また、音響分析手段912は、音声 ータ記憶手段911が記憶する音声データを音 分析して音響特徴ベクトルを出力する。ま 、音響モデル記憶手段913は、各音素の音響 デルを記憶する。また、単語辞書記憶手段9 14は、単語辞書を記憶する。また、尤度演算 段915は、音響分析手段912から出力された音 特徴ベクトルと、音響モデル記憶手段913が 憶する音響モデルと、単語辞書記憶手段914 記憶する単語辞書とに基づいて、認識候補 ある仮説の尤度を演算する。また、枝刈り 段916は、尤度演算手段915が演算した仮説の 度から最大尤度を求め、求めた最大尤度か 所定のビーム幅以下の仮説を棄却する。そ て、認識結果出力手段917は、枝刈り手段916 より残された仮説を認識候補として出力す 。

 また、上記のような構成要素を備えた音 認識装置において、簡易音響モデル記憶手 921は、各音素の簡易な音響モデルを記憶す 。また、簡易音響モデル確率演算手段922は 音響分析手段912から出力された音響特徴ベ トルと、簡易音響モデル記憶手段921が記憶 る簡易な音響モデルとに基づいて、現在時 をはさむ所定の時間内における各時刻の各H MM状態の簡易音響出力確率を演算する。また 順位変動計算手段923は、簡易音響モデル確 演算手段922が求めた各時刻の各HMM状態の簡 音響出力確率の順位を求め、現在時刻をは む所定の時間内における各HMM状態の順位変 幅を計算し、HMM状態の順位変動幅の平均を 算する。そして、特許文献1に記載された音 声認識装置は、順位変動計算手段923が計算し た順位変動幅の平均に基づき、音声認識に係 るパラメータを調整するものである。

 なお、図13に示す特許文献1に記載された 声認識装置では、パラメータの例として言 重みを変更する言語重み変更手段931を備え 構成としている。

 上記のような構成とすることにより、特 文献1に記載された音声認識装置では、所定 の計算コストの中で、認識精度が最大になる ようなパラメータの制御を行うことができる 。

 しかしながら、特許文献1に記載された音 声認識装置の方法では、順位変動計算手段923 において、各HMM状態の順位変動を求めるため に着目する時刻をはさむ長時間の平均を求め る必要がある。そのため、最適なパラメータ を求めるために処理の遅延が生じてしまうと いう問題点がある。また、特許文献1に記載 れた音声認識装置の方法では、計算コスト かかる尤度演算を、簡易音響モデルと音響 デルとに対して別々に行うので、必ずしも 算コストが少なくなるとは限らないという 題点がある。

 上記のように、特許文献1や非特許文献1 記載された音声認識技術を用いた音声認識 ステム(音声認識装置)として、下記のような 問題点を有する。まず、第1の問題点として 簡易音声モデルを用いて各HMM状態の順位変 を求めてパラメータを調整する音声認識方 では、順位変動を求めるために長時間の平 を求めるので、処理の遅延が生じてしまう いう問題点がある。また、第2の問題点とし 、簡易音声モデルを用いて各HMM状態の順位 動を求めてパラメータを調整する音声認識 法では、計算コストのかかる尤度演算を簡 音響モデルに対して余分に行わなければな ないので、計算コストが多くなることがあ という問題点がある。

 そこで、本発明は、音響的な特性を判定 て、少ない計算コストで認識精度の高くな 適切なパラメータで音声認識を行うことが きる音声認識装置、音声認識方法及び音声 識プログラムを提供することを目的とする また、本発明は、同一時刻における拮抗す 候補の数を考慮することで、処理の遅延無 に適切なパラメータを設定することができ 音声認識装置、音声認識方法及び音声認識 ログラムを提供することを目的とする。さ に、本発明は、少ない演算量で適切なパラ ータを求めることができる音声認識装置、 声認識方法及び音声認識プログラムを提供 ることを目的とする。

 本発明の第1の視点によれば、所定の音声 モデルに対する音声の特徴的性質を示す情報 である複数の詳細度をもつ音声モデルを予め 記憶する音声モデル記憶手段(例えば、音声 デル格納部7によって実現される)と、音声モ デル記憶手段が記憶する音声モデルがもつ詳 細度のうち、入力した音声信号の特徴的性質 に最も近い詳細度を選択する詳細度選択手段 (例えば、詳細度判定部9によって実現される) と、詳細度選択手段が選択した詳細度に応じ て、入力した音声を音声認識するためのパラ メータを設定するパラメータ設定手段(例え 、パラメータ設定部10によって実現される) を備え、入力した音声信号を音声認識する 声認識装置が提供される。

 また、上記した音声認識装置において、 細度選択手段は、単位時間毎に詳細度を求 て、入力した音声信号の特徴的性質に最も い詳細度を選択するものであってもよい。

 また、上記した音声認識装置において、 細度選択手段は、単位時間毎に求めた詳細 を複数の単位時間にわたって統計分析し、 目する単位時間の詳細度を求めるものであ てもよい。

 また、上記した音声認識装置は、音声モ ル記憶手段が記憶する音声モデルと、入力 た音声信号の特徴的性質との差を示す距離 報を算出する距離算出手段(例えば、距離算 出部8によって実現される)を備え、距離算出 段は、詳細度が低い距離情報からより高い 離情報へと順番に距離情報を算出し、又は 細度が高い距離情報からより低い距離情報 と順番に算出し、詳細度選択手段は、距離 出手段が求めた距離情報が極小となる詳細 を求めるものであってもよい。

 また、上記した音声認識装置において、 声モデル記憶手段は、親子構造をもつ音声 デルを予め記憶するものであってもよい。

 また、上記した音声認識装置は、所定の 響モデルを予め記憶する音響モデル記憶手 (例えば、音響モデル格納部3によって実現 れる)と、パラメータ設定手段によって設定 れたパラメータに基づいて、音声認識の結 として単語列を探索して抽出する単語列探 手段(例えば、ネットワーク探索部5によっ 実現される)とを備え、音響モデル記憶手段 、音声モデル記憶手段が記憶する音声モデ と所定の関連性をもつ音響モデルを予め記 し、単語列探索手段は、音声モデルと音響 デルとの関連性を用いて、単語列を探索し 抽出するものであってもよい。

 また、上記した音声認識装置において、 ラメータ設定手段は、詳細度選択手段が選 した詳細度に応じて、言語の重み付け、又 所定の枝刈り処理を行うための枝刈りパラ ータの少なくともいずれかを設定するもの あってもよい。

 また、上記した音声認識装置は、所定の 響モデルを予め複数記憶する音響モデル記 手段(例えば、音響モデル格納部13によって 現される)と、所定の言語モデルを予め複数 記憶する言語モデル記憶手段(例えば、言語 デル格納部14によって実現される)と、詳細 選択手段が選択した詳細度に応じて、音響 デル記憶手段が記憶する複数の音響モデル 、言語モデル記憶手段が記憶する複数の言 モデルとのうち、1組の音響モデルと言語モ ルとを選択するモデル選択手段(例えば、モ デル選択部12によって実現される)とを備えた ものであってもよい。

 また、上記した音声認識装置は、詳細度 択手段が選択した詳細度に応じて、入力し 音声信号の音声認識結果の出力方法又は出 内容を変更する出力変更手段(例えば、動作 /応答設定部15によって実現される)を備えた のであってもよい。

 また、上記した音声認識装置は、詳細度 択手段が選択した詳細度に応じて、音声モ ル記憶手段が記憶する音声モデルを更新す 音声モデル更新手段(例えば、モデル学習部 16によって実現される)を備えたものであって もよい。

 本発明の第2の視点によれば、予め記憶す る所定の音声モデルがもつ、音声モデルに対 する音声の特徴的性質を示す情報である複数 の詳細度のうち、入力した音声信号の特徴的 性質に最も近い詳細度を選択する詳細度選択 ステップと、選択した詳細度に応じて、入力 した音声を音声認識するためのパラメータを 設定するパラメータ設定ステップとを含み、 入力した音声信号を音声認識する音声認識方 法が提供される。

 また、上記した音声認識方法は、詳細度 択ステップで、単位時間毎に詳細度を求め 、入力した音声信号の特徴的性質に最も近 詳細度を選択するものであってもよい。

 また、上記した音声認識方法は、詳細度 択ステップで、単位時間毎に求めた詳細度 複数の単位時間にわたって統計分析し、着 する単位時間の詳細度を求めるものであっ もよい。

 また、上記した音声認識方法は、予め記 する音声モデルと、入力した音声信号の特 的性質との差を示す距離情報を算出する距 算出ステップを含み、距離算出ステップで 詳細度が低い距離情報からより高い距離情 へと順番に距離情報を算出し、又は詳細度 高い距離情報からより低い距離情報へと順 に算出し、詳細度選択ステップで、求めた 離情報が極小となる詳細度を求めるもので ってもよい。

 また、上記した音声認識方法は、予め記 する親子構造をもつ音声モデルに基づいて 入力した音声信号の特徴的性質に最も近い 細度を選択するものであってもよい。

 また、上記した音声認識方法は、設定し パラメータに基づいて、音声認識の結果と て単語列を探索して抽出する単語列探索ス ップを含み、音声モデルと所定の関連性を つ音響モデルを予め記憶し、単語列探索ス ップで、音声モデルと音響モデルとの関連 を用いて、単語列を探索して抽出するもの あってもよい。

 また、上記した音声認識方法は、パラメ タ設定ステップで、選択した詳細度に応じ 、言語の重み付け、又は所定の枝刈り処理 行うための枝刈りパラメータの少なくとも ずれかを設定するものであってもよい。

 また、上記した音声認識方法は、選択し 詳細度に応じて、予め記憶する複数の音響 デルと、予め記憶する複数の言語モデルと うち、1組の音響モデルと言語モデルとを選 択するモデル選択ステップを含むものであっ てもよい。

 また、上記した音声認識方法は、選択し 詳細度に応じて、入力した音声信号の音声 識結果の出力方法又は出力内容を変更する 力変更ステップを含むものであってもよい

 また、上記した音声認識方法は、選択し 詳細度に応じて、予め記憶する音声モデル 更新する音声モデル更新ステップを含むも であってもよい。

 本発明の第3の視点によれば、コンピュー タに、予め記憶する所定の音声モデルがもつ 、音声モデルに対する音声の特徴的性質を示 す情報である複数の詳細度のうち、入力した 音声信号の特徴的性質に最も近い詳細度を選 択する詳細度選択処理と、選択した詳細度に 応じて、入力した音声を音声認識するための パラメータを設定するパラメータ設定処理と を実行させ、コンピュータに、入力した音声 信号を音声認識させる音声認識プログラムが 提供される。

 また、上記した音声認識プログラムは、 ンピュータに、詳細度選択処理で、単位時 毎に詳細度を求めて、入力した音声信号の 徴的性質に最も近い詳細度を選択する処理 実行させるものであってもよい。

 また、上記した音声認識プログラムは、 ンピュータに、詳細度選択処理で、単位時 毎に求めた詳細度を複数の単位時間にわた て統計分析し、着目する単位時間の詳細度 求める処理を実行させるものであってもよ 。

 また、上記した音声認識プログラムは、 ンピュータに、予め記憶する音声モデルと 入力した音声信号の特徴的性質との差を示 距離情報を算出する距離算出処理を実行さ 、距離算出処理で、詳細度が低い距離情報 らより高い距離情報へと順番に距離情報を 出し、又は詳細度が高い距離情報からより い距離情報へと順番に算出する処理を実行 せ、詳細度選択処理で、求めた距離情報が 小となる詳細度を求める処理を実行させる のであってもよい。

 また、上記した音声認識プログラムは、 ンピュータに、予め記憶する親子構造をも 音声モデルに基づいて、入力した音声信号 特徴的性質に最も近い詳細度を選択する処 を実行させるものであってもよい。

 また、上記した音声認識プログラムは、 声モデルと所定の関連性をもつ音響モデル 予め記憶する記憶手段(例えば、音響モデル 格納部3)を備えたコンピュータに、設定した ラメータに基づいて、音声認識の結果とし 単語列を探索して抽出する単語列探索処理 実行させ、単語列探索処理で、音声モデル 音響モデルとの関連性を用いて、単語列を 索して抽出する処理を実行させるものであ てもよい。

 また、上記した音声認識プログラムは、 ンピュータに、パラメータ設定処理で、選 した詳細度に応じて、言語の重み付け、又 所定の枝刈り処理を行うための枝刈りパラ ータの少なくともいずれかを設定する処理 実行させるものであってもよい。

 また、上記した音声認識プログラムは、 ンピュータに、選択した詳細度に応じて、 め記憶する複数の音響モデルと、予め記憶 る複数の言語モデルとのうち、1組の音響モ デルと言語モデルとを選択するモデル選択処 理を実行させるものであってもよい。

 また、上記した音声認識プログラムは、 ンピュータに、選択した詳細度に応じて、 力した音声信号の音声認識結果の出力方法 は出力内容を変更する出力変更処理を実行 せるものであってもよい。

 また、上記した音声認識プログラムは、 ンピュータに、選択した詳細度に応じて、 め記憶する音声モデルを更新する音声モデ 更新処理を実行させるものであってもよい そのようにすることによって、話者又は雑 環境に音声モデルを適応させる。

 要約すると、本発明による音声認識装置 、上記の課題を解決するため、概略以下の うに構成される。すなわち、音声認識装置 、音声の特徴的性質を表現する複数の詳細 をもつ音声モデルを保持し、入力信号の特 的性質に最も近い詳細度を選択し、選択し 詳細度に応じて音声認識に係わるパラメー を制御する。

 上記のような構成としたことで、音声モ ルの高い詳細度と低い詳細度とで比較した きに、入力信号に対して高い詳細度の方が い場合には、入力信号の特徴的性質が音響 デルを学習したときのデータの特徴的性質 近いので、音声の特徴的性質を信頼して、 算コストの低いパラメータを用いて音声認 を行う。逆に、入力信号に対して低い詳細 の方が近い場合には、入力信号の特徴的性 が学習データの特徴的性質から遠いので、 声の特徴的性質を信頼せずに、より精度の くなるようなパラメータを用いて音声認識 行う。そのように詳細度に応じて動的にパ メータを制御することにより、常に最適な 算コストで精度の高い音声認識を行うこと でき、本発明の第1の目的を達成することが できる。

 また、着目する時刻の入力信号に対応す 詳細度のみの情報に基づいて、最適なパラ ータを決定することができるので、処理の 延をなくすことができ、本発明の第2の目的 を達成することができる。

 また、複数の詳細度をもつ音声モデルは 音響モデルに較べて充分に小さいサイズに ることができるので、簡易音響モデルを用 て各HMM状態の順位変動を求めてパラメータ 調整する音声認識方法(特許文献1参照)に較 て、計算コストが少なくてすみ、本発明の 3の目的を達成することができる。

 本発明によれば、音声モデルがもつ詳細 のうち、入力した音声信号の特徴的性質に も近い詳細度を選択し、選択した詳細度に じて入力した音声を音声認識するためのパ メータを設定する。従って、音響的な特性 判定して、少ない計算コストで認識精度の くなる適切なパラメータで音声認識を行う とができる。すなわち、本発明によれば、 力した音声信号が音声モデルのどの詳細度 属するかの情報から、入力した音声信号の 徴的性質が音響モデル学習時の音声データ 近く信頼できるか否かを考慮することがで る、そのため、音声認識に係わるパラメー を設定し、音声認識を行うことができる。

 また、本発明によれば、同一時刻におけ 拮抗する候補の数を考慮することで、処理 遅延無しに適切なパラメータを設定するこ ができる。すなわち、本発明によれば、入 した音声信号が音声モデルのどの詳細度に するかの情報を求めるには、着目する時刻 み考慮すればよく、長時間の平均を取らな てもよい。そのため、処理が遅延すること くパラメータを設定し、音声認識を行うこ ができる。

 また、本発明によれば、少ない演算量で 切なパラメータを求めることができる。す わち、本発明によれば、複数の詳細度をも 音声モデルは、音響モデルに較べて充分に さいサイズにすることができる。そのため 少ない計算コストの増加でパラメータを設 し、音声認識を行うことができる。

本発明による音声認識装置の構成の一 を示すブロック図である。 複数の詳細度を含むGMMを模式的に表し 例を示す説明図である。 音声認識装置が実行する音声認識処理 一例を示すフローチャートである。 音声モデルの詳細度と言語重みとの関 を示した説明図である。 音声モデルの詳細度と距離との関係を した説明図である。 第3の実施の形態における音声認識装置 の構成例を示すブロック図である。 親子構造をもつ複数の詳細度をもつ音 モデルを示す模式図である。 複数の詳細度をもつ音声モデルと音響 デルとの関連性を示した説明図である。 第5の実施の形態における音声認識装置 の構成例を示すブロック図である。 第6の実施の形態における音声認識装 の構成例を示すブロック図である。 第7の実施の形態における音声認識装 の構成例を示すブロック図である。 非特許文献1に記載された音声認識技 を用いた一般的な音声認識装置の構成例を すブロック図である。 特許文献1に記載されている音声認識 置の構成例を示すブロック図である。

符号の説明

1 入力信号取得部
2 特徴量算出部
3,13 音響モデル格納部
4,14 言語モデル格納部
5 ネットワーク探索部
6 認識結果出力部
7,11 音声モデル格納部
8 距離算出部
9 詳細度判定部
10 パラメータ設定部
12 モデル選択部
15 動作/応答設定部
16 モデル学習部

実施の形態1.
 以下、本発明の第1の実施の形態について図 面を参照して説明する。図1は、本発明によ 音声認識装置の構成の一例を示すブロック である。図1に示すように、音声認識装置は 入力信号取得部1、特徴量算出部2、音響モ ル格納部3、言語モデル格納部4、ネットワー ク探索部5、認識結果出力部6、音声モデル格 部7、距離算出部8、詳細度判定部9及びパラ ータ設定部10を含む。なお、音声認識装置 、具体的には、パーソナルコンピュータ等 情報処理装置によって実現される。

 入力信号取得部1は、具体的には、プログ ラムに従って動作する情報処理装置のCPUによ って実現される。入力信号取得部1は、入力 号を単位時間毎に切り分け取得(入力)する機 能を備える。例えば、入力信号取得部1は、 イクロフォン等の音声入力装置から音声信 を入力信号として入力する。また、例えば 入力信号取得部1は、予めデータベース等に 憶する音声信号を入力信号として抽出する

 特徴量算出部2は、具体的には、プログラ ムに従って動作する情報処理装置のCPUによっ て実現される。特徴量算出部2は、入力信号 得部1が入力した入力信号に基づいて、入力 声の特徴的性質を示す特徴量を算出する機 を備える。

 音響モデル格納部3及び言語モデル格納部 4は、具体的には、磁気ディスク装置や光デ スク装置等の記憶装置によって実現される 音響モデル格納部3は、所定の音響モデルを め格納する。また、言語モデル格納部4は、 所定の言語モデルを予め格納する。

 ネットワーク探索部5は、具体的には、プ ログラムに従って動作する情報処理装置のCPU によって実現される。ネットワーク探索部5 、特徴量算出部2で算出された特徴量と、音 モデル格納部3が格納する音響モデルと、言 語モデル格納部4が格納する言語モデルとに づいて、単語列の候補を探索する機能を備 る。また、ネットワーク探索部5は、単語列 候補の探索結果に基づいて、入力音声の音 認識結果として単語列の候補を抽出する機 を備える。

 認識結果出力部6は、具体的には、プログ ラムに従って動作する情報処理装置のCPUによ って実現される。認識結果出力部6は、ネッ ワーク探索部5によって探索された単語列の 補を出力する機能を備える。例えば、認識 果出力部6は、単語列の候補を、入力音声の 音声認識結果として、ディスプレイ装置等の 表示装置に表示する。また、例えば、認識結 果出力部6は、単語列の候補を含むファイル 、入力音声の音声認識結果として出力する

 また、上記のような構成要素を備える音 認識システム(音声認識装置)において、音 モデル格納部7、距離算出部8、詳細度判定部 9及びパラメータ設定部10は、以下のような機 能を備える。

 音声モデル格納部7は、具体的には、磁気 ディスク装置や光ディスク装置等の記憶装置 によって実現される。音声モデル格納部7は 複数の詳細度をもつ音声モデルを予め格納 る。なお、「詳細度」とは、音声モデルを いて音声現象を粗く表現するか、緻密に表 するかを決める尺度である。

 距離算出部8は、具体的には、プログラム に従って動作する情報処理装置のCPUによって 実現される。距離算出部8は、音声モデル格 部7が格納する音声モデルがもつ各詳細度に する特徴量算出部2で算出された特徴量の距 離を算出する機能を備える。具体的には、距 離算出部8は、入力音声の特徴量と各詳細度 の差を示す値をそれぞれ算出することによ て、入力音声の特徴量と各詳細度との距離 算出する。

 詳細度判定部9は、具体的には、プログラ ムに従って動作する情報処理装置のCPUによっ て実現される。詳細度判定部9は、距離算出 8が求めた詳細度と特徴量との距離のうち最 小さい距離を特定し、特徴量算出部2が求め た特徴量との距離が最も小さくなるような詳 細度を求める(判定する)機能を備える。すな ち、詳細度判定部9は、音声モデル格納部7 記憶する音声モデルがもつ詳細度のうち、 力した音声信号の特徴的性質に最も近い詳 度を選択する。

 パラメータ設定部10は、具体的には、プ グラムに従って動作する情報処理装置のCPU よって実現される。パラメータ設定部10は、 詳細度判定部9が求めた詳細度の値に応じて ネットワーク探索部5が単語列を探索する際 必要となるパラメータを設定する機能を備 る。

 特徴量算出部2は、特徴量として、例えば 、入力音声のケプストラムや、対数スペクト ル、スペクトル、フォルマント位置、ピッチ 、スペクトルパワー、又はその入力音声の複 数フレームに渡る変化分等の音声の特徴を示 す値を算出する。なお、ここで記載した特徴 量及び特徴量の算出方法については、例えば 、非特許文献1の第2章に記載されている。こ で、非特許文献1の第2章に記載されている 項は、本書に引用をもって繰り込み記載さ ているものとする。

 音響モデル格納部3は、音響モデルとして 、例えば、HMM(Hidden Markov Model)等のデータを 納している。なお、ここで記載した音響モ ルについては、例えば、非特許文献1の第3 に記載されている。また、ここで記載した 響モデルの作成方法については、例えば、 特許文献1の第14章に記載されている。ここ 、非特許文献1の第3章及び第14章に記載され いる事項は、本書に引用をもって繰り込み 載されているものとする。

 言語モデル格納部4は、言語モデルとして 、例えば、N-gramや、単語辞書、文脈自由文法 等のデータを格納している。なお、ここで記 載した言語モデル及び言語モデルを用いた音 声認識アルゴリズムについては、例えば、非 特許文献1の第5章に記載されている。ここで 非特許文献1の第5章に記載されている事項 、本書に引用をもって繰り込み記載されて るものとする。

 ネットワーク探索部5は、単語列を探索す る方法として、例えば、ビームサーチを行う 等、言語モデル格納部4に格納されている言 モデルによって表現される単語列ネットワ クから、音響モデル格納部3に格納されてい 音響モデルを用いて正解単語列を探索する 法によって、入力音声の音声認識結果とし 単語列の候補を抽出する。なお、ここで記 した単語列探索方法については、例えば、 特許文献1の第6章に記載されている。ここ 、非特許文献1の第6章に記載されている事項 は、本書に引用をもって繰り込み記載されて いるものとする。

 音声モデル格納部7は、複数の詳細度を含 む音声モデルを格納している。音声モデル格 納部7は、音声モデルとして、例えば、HMM又 GMM(Gaussian Mixture Model)等のデータを格納して いる。

 HMMやGMMは、複数の確率分布関数を組み合 せることによって構成される。確率分布関 には一般的にガウス分布が用いられるが、 ウス分布以外の関数を用いてもよい。確率 布関数のパラメータは、EMアルゴリズム等 手法を用いて音声を学習することによって 定される。なお、ここで記載したEMアルゴリ ズムは、例えば、非特許文献1の第4章に記載 れている。ここで、非特許文献1の第4章に 載されている事項は、本書に引用をもって り込み記載されているものとする。

 また、音声モデルは、詳細度として、例 ば、確率分布関数の混合数や、確率分布関 の分布を平均した値等を持つ。図2は、複数 の詳細度を含むGMMを模式的に表した例を示す 説明図である。図2において、実線で囲まれ 楕円が確率分布関数を示す。図2に示すよう 、GMMは詳細度が低いときは少数の混合数の 率分布関数で表され、詳細度が高いときは 数の混合数の確率分布関数で表される。

 詳細度が異なる音声モデルを作る方法と て、トップダウンに作成する方法と、ボト アップに作成する方法とが考えられる。ト プダウンに作成する方法として、以下のよ な方法がある。例えば、学習データに対し 少ない混合数の音声モデルを学習して作成 た後に、音声モデルを構成する確率分布関 を分割する等して混合数を増加させる。そ て、その混合数を増加させたモデルを再び 習する。そのように、学習及び分割の処理 必要な混合数の音声モデルが得られるまで り返し実行することによって、詳細度が異 る音声モデルを生成することができる。

 また、例えば、モノフォンや、ダイフォ 、トライフォン、クインフォン等の音素の み合わせの詳細度を変えて音声モデルを作 することによって、詳細度が異なる音声モ ルを生成するようにしてもよい。

 ボトムアップに音声モデルを作成する方 として、例えば、なんらかの学習手段を用 て学習された複数の確率分布関数の混合に って構成される音声モデルを、k-means法等を 用いて距離に応じてまとめ上げることによっ て、詳細度の異なる音声モデルを作成する方 法がある。なお、ここで記載したk-means法は 例えば、文献(Richard O. Duda, Petter E. Hart, D avid G. Stork 著,尾上守夫 監訳,「パターン認 識」,Joh Willey & Sons. 新技術コミュニケ ション,pp.528-529)に記載されている。

 なお、上記に示した複数の詳細度をもつ 声モデルは、例えば、システムの設計者等 よって予め作成され、音声モデル格納部7に 格納される。

 なお、本実施の形態において、音声認識 置を実現する情報処理装置の記憶装置は、 声認識処理を実行するための各種プログラ を記憶している。例えば、音声認識装置を 現する情報処理装置の記憶装置は、コンピ ータに、予め記憶する所定の音声モデルが つ、音声モデルに対する音声の特徴的性質 示す情報である複数の詳細度のうち、入力 た音声信号の特徴的性質に最も近い詳細度 選択する詳細度選択処理と、選択した詳細 に応じて、入力した音声を音声認識するた のパラメータを設定するパラメータ設定処 とを実行させるための音声認識プログラム 記憶している。

 次に、動作について説明する。図3は、音 声認識装置が実行する音声認識処理の一例を 示すフローチャートである。まず、入力信号 取得部1は、マイクロフォン等のデバイスを いて取得(入力)した入力信号(音声信号)を、 位時間毎に窓掛け処理して切り出す(ステッ プS1)。

 次に、特徴量算出部2は、入力信号取得手 段1が求めた単位時間毎の入力信号に基づい 、入力音声の特徴量を算出する(ステップS2) 例えば、特徴量算出部2は、特徴量として、 t番目の単位時間の入力信号の特徴量ベクト xtを求める。

 次に、距離算出部8は、音声モデルの複数 の詳細度それぞれに対して、単位時間毎の入 力信号の特徴量との距離を求める(ステップS3 )。この場合、距離算出部8は、HMM又はGMMを音 モデルとして用いている場合、特徴量と詳 度との距離を求めるために、式(3)で示す尤 又は対数尤度を算出する。

 ここで、μkは、k番目の確率密度関数の平 均を示す。また、σkは、k番目の確率密度関 の分散を示す。また、Cは、定数項を示す。 た、nは、特徴量ベクトルxtの次元数を示す

 尤度又は対数尤度を用いる場合、尤度又 対数尤度の値が大きいほど、特徴量と詳細 との距離は小さくなる。なお、特徴量と詳 度との距離を求める場合、距離算出部8は、 尤度や対数尤度に限らず、例えば、ユークリ ッド距離等の距離尺度を求めてもよい。各詳 細度に対する音声モデルは複数個の確率密度 関数の混合で表されるが、単位時間毎の入力 信号の特徴量と詳細度との距離は、複数個の 確率密度関数のうち最も距離が近いもので代 表されるものとする。

 次に、詳細度判定部9は、距離算出部8が めた音声モデルの各詳細度に対する距離を 較し、特徴量算出部2が求めた特徴量との距 が最も小さくなる詳細度を求める(ステップ S4)。すなわち、詳細度判定部9は、距離算出 8が求めた各距離に基づいて、音声モデル格 部7が格納する音声モデルがもつ複数の詳細 度のうち、特徴量算出部2が求めた特徴量と 距離が最小となる詳細度を判定する。

 なお、ステップS4において、詳細度判定 9は、単位時間毎に詳細度を求める方法に加 て、複数の単位時間又は一発声にわたって 均した距離が最も小さくなるような詳細度 求める等統計分析を行ってもよい。すなわ 、詳細度判定部9は、単位時間毎に詳細度を 求めて、入力した音声信号の特徴的性質に最 も近い詳細度を選択してもよい。また、詳細 度判定部9は、等統計分析の結果に基づいて 特徴量が最も小さくなる詳細度を求めるよ にしてもよい。すなわち、詳細度判定部9は 単位時間毎に求めた詳細度を複数の単位時 にわたって統計分析し、着目する単位時間 詳細度を求めるようにしてもよい。

 次に、パラメータ設定部10は、詳細度判 部9によって判定された詳細度を用いて、ネ トワーク探索部5で単語列を探索する際に用 いるパラメータを設定する(ステップS5)。こ 場合、パラメータ設定部10は、パラメータと して、例えば、言語重み(例えば、重み係数) 枝刈りパラメータ等を設定する。すなわち パラメータ設定部10は、詳細度判定部9が選 した詳細度に応じて、言語の重み付け、又 所定の枝刈り処理を行うための枝刈りパラ ータの少なくともいずれかを設定する。な 、パラメータ設定部10は、言語重みや枝刈 パラメータ以外の単語列を探索する際に使 するパラメータを制御してもよい。

 なお、「枝刈り」とは、例えば、単語列 候補である仮説のうち、所定の尤度幅(閾値 )以下の仮説を破棄する処理を行うこと等を う。また、枝刈りパラメータには、例えば 枝刈り処理を行う場合に閾値として用いら る尤度幅の値等が設定される。

 詳細度に応じて言語重みを設定する場合 パラメータ設定部10は、図4に示すように、 細度が低いときには、音声の情報の信頼性 低いので、言語重みを大きく(例えば、重み 係数の値を大きく)設定する。逆に、パラメ タ設定部10は、詳細度が高いときには、音声 の情報の信頼性が高いので、言語重みを小さ く(例えば、重み係数の値を小さく)設定する

 単語列探索時の枝刈りパラメータを設定 る場合、パラメータ設定部10は、詳細度が いときには、音声の情報の信頼性が低いの 、仮説が多くなるように、枝刈りパラメー を設定する。また、パラメータ設定部10は、 詳細度が高いときには、音声の情報の信頼性 が高いので、仮説が少なくなるように、枝刈 りパラメータを設定する。

 次に、ネットワーク探索部5は、パラメー タ設定部10によって設定されたパラメータに づいて、単語列を探索する(ステップS6)。こ の場合、ネットワーク探索部5は、特徴量算 部2によって算出された特徴量と、音響モデ 格納部3に格納されている音響モデルと、言 語モデル格納部4に格納されている言語モデ とを用いて、式(2)に基づいて最も尤度の高 単語列を探索して求める。

 最後に、認識結果出力部6は、ネットワー ク探索部5によって探索された単語列の出力( えば表示)を行う(ステップS7)。

 以上のように、本実施の形態によれば、 響的な特性を判定して、少ない計算コスト 認識精度の高くなる適切なパラメータで音 認識を行うことができる。

 例えば、図5(a)に示すように、一般に、入 力信号の特徴的性質が音声モデルを学習した ときの学習データの特徴的性質と近い場合に は、より詳細度の高い音声モデルに対する距 離が小さくなる。これは、例えば、トップダ ウンに音声モデルを作成するとき、混合数を 増やす際に学習データに対し、常に距離がよ り小さくなるように確率分布関数を増加して 作成することができるためである。逆に、図 5(b)に示すように、入力信号の特徴的性質が 習データの特徴的性質と遠い場合には、詳 度の高い音声モデルほど距離が大きくなる とがある。そのようなことから、詳細度判 部9によって入力信号に対し詳細度の高い音 モデルが選ばれたときには学習データの特 的性質と近く、逆に詳細度の低い音声モデ が選ばれた時には学習データの特徴的性質 ら遠いということができる。

 上記の性質を利用して、詳細度に応じて 声認識に係わるパラメータを動的に制御す ことで、例えば、詳細度が高い場合には仮 数を減らして計算量を低減する等の措置を じることができ、最適な計算コストで認識 度の高い音声認識を行うことができる。

 また、入力音声との距離が最も近い詳細 を選ぶということは、最も詳細度が高い状 を選択された状態にまでまとめあげた音声 デルが、入力音声を最もよく表現している とを示す。そのため、最も近い詳細度の情 から、着目する時刻においてどれだけの数 対立する単語列の候補が拮抗しているかの 報を得ることができ、長時間平均を取るこ なく対立する候補の数を考慮したパラメー 設定を行うことができる。

 また、複数の詳細度をもつ音声モデルは 音響モデルに較べて充分に小さいサイズに ることができるため、従来の簡易な音響モ ルを用いる方法に較べて、計算コストを少 くできる。

実施の形態2.
 次に、本発明の第2の実施の形態について説 明する。なお、本実施の形態において、音声 認識装置の基本的な構成は、第1の実施の形 で示した音声認識装置の構成と同様である

 詳細度判定部9は、第1の実施の形態で示 たステップS4において、複数の詳細度をもつ 音声モデルに対して、低い詳細度から高い詳 細度へと順番に計算を行い、特徴量算出部2 求めた特徴量との距離が極小となる詳細度 求める。また、詳細度判定部9は、逆に、高 詳細度から低い詳細度へと順番に計算を行 、特徴量算出部2が求めた特徴量との距離が 極小となる詳細度を求めてもよい。

 本実施の形態では、距離算出部8は、詳細 度が低いものから高いものへと順番に距離を 算出し、又は詳細度が高いものから低いもの へと順番に距離を算出する。そして、詳細度 判定部9は、距離算出部8が求めた距離が最小 なる詳細度を求める。

 以上のように、本実施の形態によれば、 徴量算出部2が算出した特徴量との距離が極 小となる詳細度を求めることで、効率的に距 離が最小となる詳細度を求めることができる 。

 例えば、図5(a)に示すように、入力信号の 特徴的性質が学習データの特徴的性質と近い 場合には、詳細度が大きくなるに従って距離 は単調に減少し、詳細度が最も高いときに距 離は最小となる。また、図5(b)に示すように 入力信号の特徴的性質が学習データの特徴 性質と遠い場合には、詳細度が大きくなる 従って、距離は最初単調に減少し途中から 調増大に変わる。そのような性質から、複 の詳細度をもつ音声モデルに対して、低い 細度から高い詳細度へと順番に計算し、距 が極小となる詳細度を求めることで、効率 に距離が最小となる詳細度を求めることが きる。

実施の形態3.
 次に、本発明の第3の実施の形態について図 面を参照して説明する。図6は、第3の実施の 態における音声認識装置の構成例を示すブ ック図である。図6に示すように、本実施の 形態では、音声認識装置が、図1で示した複 の詳細度をもつ音声モデルを格納する音声 デル格納部7に代えて、親子構造をもつ複数 詳細度をもつ音声モデルを格納する音声モ ル格納部11を含む点で、第1の実施の形態と なる。

 音声モデル格納部11は、具体的には、磁 ディスク装置や光ディスク装置等の記憶装 によって実現される。音声モデル格納部11は 、親子構造をもつ複数の詳細度をもつ音声モ デルを格納する。

 本実施の形態では、音声モデル格納部11 格納されている複数の詳細度をもつ音声モ ルの各詳細度は、木構造等の親子構造をも ものとする。なお、ここでいう親子構造と 、例えば、図7に示すように、高い詳細度に する確率分布関数(子)と、低い詳細度に属 る確率分布関数(親)との間に依存関係が存在 することである。図7において、楕円と楕円 を結ぶ実線は、親分布と子分布との関係に ることを示す。

 親子関係の作成の仕方として、例えば、 ップダウン式に音声モデルを作成するとき は、親分布を分割することによって子分布 作成することができる、また、例えば、ボ ムアップ式に音声モデルを作成するときに 、子分布を纏め上げて親分布を作成するこ ができる。なお、これらの親子構造をもつ 声モデルは、例えば、システムの設計者等 よって予め作成され、音声モデル格納部11 格納される。

 次に、動作について説明する。本実施の 態では、詳細度判定部9は、第1の実施の形 で示したステップS4において、親子構造をも つ複数の詳細度をもつ音声モデルに対して、 低い詳細度から高い詳細度へと順番に計算を 行い、特徴量算出部2が求めた特徴量との距 が最小となる詳細度を求める。この際、詳 度判定部9は、各詳細度間に属する分布に親 構造があるため、ある詳細度で距離が最小 なる分布が得られたとき、その距離が最小 なる詳細度より高い詳細度について計算を う場合には、その距離が最小となる分布の 分布のみを考慮して計算すればよい。例え 、距離算出部8や詳細度判定部9は、その後 距離が最小となる分布の子分布のみに対し 、距離計算や最小となる詳細度の判定処理 行うようにすればよい。

 本実施の形態では、上記のような構成と ることにより、距離算出部8が行う距離計算 を少ない計算コストで行うことができ、第1 実施の形態で示した音声認識システムより さらに計算コストを少なくできる。

実施の形態4.
 次に、本発明の第4の実施の形態について図 面を参照して説明する。なお、本実施の形態 において、音声認識装置の基本的な構成は、 第1の実施の形態で示した音声認識装置の構 と同様である。

 本実施の形態では、音声モデル格納部7が 格納する複数の詳細度をもつ音声モデルと、 音響モデル格納部3が格納する音響モデルと 間に、所定の関連性をもたせるようにした で、第1の実施の形態と異なる。

 本実施の形態では、音響モデル格納部3は 、音声モデル格納部7が記憶する音声モデル 所定の関連性をもつ音響モデルを予め記憶 る。また、音声モデル格納部7は、音響モデ 格納部3が記憶する音響モデルと所定の関連 性をもつ音声モデルを予め記憶する。また、 ネットワーク探索部5は、音声モデルと音響 デルとの関連性を用いて、単語列の候補を 索して抽出する。

 本実施の形態では、複数の詳細度をもつ 声モデルと音響モデルとの間に関連性をも せるために、例えば、図8に示すように、複 数の詳細度をもつ音声モデルを構成する複数 の確率密度関数と、音響モデルを構成する複 数の確率密度関数とのうち、同じもの又は似 ているものに対して関連性がわかるようにし ておく。例えば、同じ又は類似する音声モデ ルと音響モデルとにリンク情報を付与する等 により、予めリンク付けを行う。図8に示す ででは、音声モデルと音響モデルとをつな 破線が、音声モデルと音響モデルとの関連 を示す。

 なお、これらの音声モデルと音響モデル の関連性(例えば、リンク付け)は、例えば システムの設計者等によって予め処理され 処理を施された音声データや音響データが れぞれ音声モデル格納部7及び音響モデル格 部3に格納される。

 本実施の形態では、上記のような構成と ることにより、第1の実施の形態で示したス テップS6で、単語列を探索する際に行う入力 号の音響モデルに対する距離の計算を、予 音声モデル及び音響モデルに付与された関 性を用いることで、ステップS3で求めた入 信号の複数の詳細度の音声モデルに対する 離を用いて省略することができる。従って ステップS6の処理におけるネットワーク探索 部5の処理負担を軽減することができる。

実施の形態5.
 次に、本発明の第5の実施の形態について図 面を参照して説明する。図9は、第5の実施の 態における音声認識装置の構成例を示すブ ック図である。図9に示すように、本実施の 形態では、音声認識装置が、音響モデル格納 部3に代えて、複数の音響モデルを格納する 響モデル格納部13を含む点で、第1の実施の 態と異なる。また、音声認識装置が、言語 デル格納部4に代えて、複数の言語モデルを 納する言語モデル格納部14を含む点で、第1 実施の形態と異なる。また、音声認識装置 、詳細度判定部9によって算出された詳細度 に応じてパラメータを設定するパラメータ設 定部10に代えて、モデル選択部12を含む点で 第1の実施の形態と異なる。

 モデル選択部12は、具体的には、プログ ムに従って動作する情報処理装置のCPUによ て実現される。モデル選択部12は、詳細度判 定部9が算出した詳細度に応じて、音響モデ と言語モデルとを選択する機能を備える。 なわち、モデル選択部12は、詳細度判定部9 選択した詳細度に応じて、音響モデル格納 3が記憶する複数の音響モデルと、言語モデ 格納部4が記憶する複数の言語モデルとのう ち、1組の音響モデルと言語モデルとを選択 る。

 次に、動作について説明する。第1の実施 の形態では、図3に示すステップS5において、 パラメータ設定部10は、詳細度判定部9によっ て判定された詳細度を用いて、ネットワーク 探索部5が単語列を探索する際に用いるパラ ータを設定する処理を行っていた。本実施 形態では、詳細度判定部9によって詳細度が 定(算出)されると、図3に示すステップS5の 理に代えて、モデル選択部12は、詳細度判定 部9によって判定された詳細度を用いて、ネ トワーク探索部5が単語列を探索する際に用 る音響モデルと言語モデルとを選択するモ ル選択処理を実行する。そして、ネットワ ク探索部5は、モデル選択部12によって選択 れた音響モデルと言語モデルとに基づいて 単語列の候補を探索し抽出する。

 本実施の形態では、上記のような構成と ることにより、詳細度判定部9によって詳細 度が低いと判定された場合には、サイズの小 さい音響モデルを選択したり、言語モデルを 語彙数の少ないものに切り替えたりすること によって、音声認識の精度を高めることがで きる。そのように、本実施の形態では、音声 認識装置は、入力音声等の条件に応じて、音 声モデル及び言語モデルを選択するように制 御する。

実施の形態6.
 次に、本発明の第6の実施の形態について図 面を参照して説明する。図10は、第6の実施の 形態における音声認識装置の構成例を示すブ ロック図である。図10に示すように、本実施 形態では、音声認識装置が、詳細度判定部9 によって算出された詳細度に応じてパラメー タを設定するパラメータ設定部10に代えて、 作/応答設定部15を含む点で、第1の実施の形 態と異なる。

 動作/応答設定部15は、具体的には、プロ ラムに従って動作する情報処理装置のCPUに って実現される。動作/応答設定部15は、詳 度判定部9によって判定された詳細度に応じ て、出力手段又は出力内容を変更する機能を 備える。すなわち、動作/応答設定部15は、詳 細度判定部9が選択した詳細度に応じて、入 した音声信号の音声認識結果の出力方法又 出力内容を変更する。

 本実施の形態では、動作/応答設定部15は 例えば、詳細度判定部9によって詳細度が低 いと判定された場合には、認識結果出力部6 、ユーザに再度発声して音声入力を促すメ セージを表示させる。また、例えば、動作/ 答設定部15は、認識結果出力部6に、話者学 が必要である旨を表示させる。また、例え 、動作/応答設定部15は、認識結果出力部6に 、音声認識結果が正しいか否かの確認を依頼 する旨を表示させる。また、例えば、動作/ 答設定部15は、認識結果出力部6に、詳細度 定部9によって詳細度が低いと判定された場 の認識結果だけを表示させないように制御 る。

 本実施の形態では、上記のような構成と ることにより、信頼度の高い認識結果だけ 表示することができる。

実施の形態7.
 次に、本発明の第7の実施の形態について図 面を参照して説明する。図11は、第7の実施の 形態における音声認識装置の構成例を示すブ ロック図である。図11に示すように、本実施 形態では、音声認識装置が、詳細度判定部9 によって算出された詳細度に応じてパラメー タを設定するパラメータ設定部10に代えて、 デル学習部16を含む点で、第1の実施の形態 異なる。

 モデル学習部16は、具体的には、プログ ムに従って動作する情報処理装置のCPUによ て実現される。モデル学習部16は、詳細度判 定部9によって算出された詳細度に応じて、 数の詳細度をもつ音声モデルと音響モデル の学習を行う機能を備える。すなわち、モ ル学習部16は、詳細度判定部9が選択した詳 度に応じて、音声モデル格納部7が記憶する 声モデルを更新することによって、話者又 雑音環境に音声モデルを適応させる。

 本実施の形態では、音響モデル学習部16 、詳細度判定部9によって詳細度が低いと判 された場合には、詳細度が高くなるように 複数の詳細度をもつ音声モデルと音響モデ とを、雑音環境又は者環境に適応させるよ に制御する。具体的には、モデル学習部16 、複数の詳細度をもつ音声モデルが、入力 号に対して平均的に偏りがあるために詳細 が低くなっているような場合には、その音 モデルの偏りを補正する処理を行い、詳細 が高くなるように制御する。また、モデル 習部16は、音声モデルの補正に合わせて、音 響モデル側の偏りについても補正する処理を 行う。

 本実施の形態では、上記のような構成と ることにより、雑音環境や話者環境が学習 と大きく異なるような場合であっても、適 な音声認識結果を出力できるようにするこ ができる。

 なお、音声認識装置において、上記に示 た各実施の形態で示した構成を互いに組み わせてもよい。例えば、上記に示した第1の 実施の形態~第7の実施の形態に示した音声認 装置の構成のいずれか2以上を組み合わせて 、音声認識装置を構成するようにしてもよい 。

 その他本発明の全開示(請求の範囲を含む )の枠内において、さらにその基本的技術思 に基づいて、実施形態ないし実施例の変更 調整が可能である。また、本発明の請求の 囲の枠内において種々の開示要素の多様な み合わせないし選択が可能である。

 本発明は、入力音声を音声認識する音声 識装置の用途に適用できる。特に、予め与 られた計算コストで、最適な音声認識の認 性能を実現する音声認識装置に適用できる