Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
VOICE ANALYSIS DEVICE, VOICE CLASSIFICATION METHOD, AND VOICE CLASSIFICATION PROGRAM
Document Type and Number:
WIPO Patent Application WO/2008/126627
Kind Code:
A1
Abstract:
It is possible to accurately cluster voice signals according to similarity of a speaker and an environment by using a practical memory use amount, a processing speed, and the online operation for successively inputted voice signals. Utterance classification probability calculation means (103) calculates a probability that a voice signal (utterance data) inputted immediately before belongs to each cluster according to a generation model as a probability model. According to the classification probability of the utterance data to the respective clusters calculated by the utterance classification probability calculation means (103), parameter update means (107) successively estimates a parameter which defines the generation model.

Inventors:
KOSHINAKA TAKAFUMI (JP)
Application Number:
PCT/JP2008/054668
Publication Date:
October 23, 2008
Filing Date:
March 13, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NEC CORP (JP)
KOSHINAKA TAKAFUMI (JP)
International Classes:
G10L15/10; G10L15/14; G10L25/78
Foreign References:
JP2003022088A2003-01-24
JPH11507443A1999-06-29
JPH07261789A1995-10-13
JP2003015684A2003-01-17
JP2005173569A2005-06-30
JP2006084875A2006-03-30
JP2002519720A2002-07-02
Attorney, Agent or Firm:
KATO, Asamichi (20-12 Shin-Yokohama 3-chome Kohoku-ku, Yokohama-sh, Kanagawa 33, JP)
Download PDF:
Claims:
 音声信号を音声の類似性に基づきクラスタに分類する音声分類装置であって、
 ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する発話分類確率計算手段と、
 前記発話分類確率計算手段が計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新手段と、を備え、
 前記発話分類確率計算手段は、前記パラメータ更新手段によって逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算する
 ことを特徴とする音声分類装置。
 過去の所定回以内に入力された音声信号について、前記パラメータ更新手段によって逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する発話分類確率更新手段を備え、
 前記パラメータ更新手段は、前記発話分類確率更新手段が計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
 請求項1に記載の音声分類装置。
 入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する新規クラスタ登録手段と、
 前記新規クラスタ登録手段によって作成された確率モデルを用いた計算結果に基づく前記パラメータ更新手段によるパラメータの推定結果から、新規クラスタを追加するか否かを決定するクラスタ数決定手段とを備えた
 請求項1または請求項2に記載の音声分類装置。
 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
 請求項1から請求項3のうちのいずれか1項に記載の音声分類装置。
 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
 請求項4に記載の音声分類装置。
 過去の所定回以内に入力された音声信号の各々に対して、前記発話分類確率更新手段に各クラスタに属する確率を再計算させることの要否を判定する更新対象発話選択手段を備えた 請求項2から請求項5のうちのいずれか1項に記載の音声分類装置。
 前記更新対象発話選択手段は、要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
 請求項6に記載の音声分類装置。
 前記新規クラスタ登録手段は、属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
 請求項3に記載の音声分類装置。
 音声信号を音声の類似性に基づきクラスタに分類するための音声分類方法であって、
 ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算し、
 前記確率を用いて、逐次、前記確率モデルを規定するパラメータを推定し、
 前記逐次推定されたパラメータによって規定される確率モデルに基づいて、少なくとも次に入力される音声信号について各クラスタに属する確率を計算する
 ことを特徴とする音声分類方法。
 過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算し、
 前記再計算した各確率を用いて、前記確率モデルを規定するパラメータを推定する
 請求項9に記載の音声分類方法。
 入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成し、
 前記作成された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する
 請求項9または請求項10に記載の音声分類方法。
 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
 請求項9から請求項11のうちのいずれか1項に記載の音声分類方法。
 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
 請求項12に記載の音声分類方法。
 過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する
 請求項10から請求項13のうちのいずれか1項に記載の音声分類方法。
 要否判定時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否を判定する
 請求項14に記載の音声分類方法。
 属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する
 請求項10から請求項15のうちのいずれか1項に記載の音声分類方法。
 音声信号を音声の類似性に基づきクラスタに分類するための音声分類用プログラムであって、
 コンピュータに、
 ある音声信号がどのクラスタに属するかを確率的に求めるための確率モデルに基づいて、逐次入力される音声信号のうち直近に入力された1つの音声信号について、各クラスタに属する確率を計算する確率計算処理、および
 前記確率計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定するパラメータ更新処理を実行させ、
 前記確率計算処理で、前記逐次推定された最新のパラメータによって規定される確率モデルに基づいて各確率を計算させる
 ための音声分類用プログラム。
 前記コンピュータに、
 過去の所定回以内に入力された音声信号について、逐次推定される最新のパラメータによって規定される確率モデルに基づいて、前記音声信号が各クラスタに属する確率を再計算する確率再計算処理を実行させ、
 パラメータ更新処理で、前記確率再計算処理で計算した各確率を用いて、逐次、前記確率モデルを規定するパラメータを推定させる
 請求項17に記載の音声分類用プログラム。
 前記コンピュータに、
 入力された音声信号がいずれのクラスタにも属さない場合を仮定して、前記音声信号が属する新規クラスタを規定した確率モデルを作成する処理、および
 前記新規クラスタが規定された確率モデルを用いた計算結果に基づくパラメータの推定結果から、新規クラスタを追加するか否かを決定する処理を実行させる
 請求項17または請求項18に記載の音声分類用プログラム。
 前記確率モデルが、状態とクラスタとを1対1に対応させた隠れマルコフモデルである
 請求項17から請求項19のうちのいずれか1項に記載の音声分類用プログラム。
 前記確率モデルが、音素の種類の数に応じた混合数を持つガウス混合分布に関連づけられた隠れマルコフモデルである
 請求項20に記載の音声分類用プログラム。
 前記コンピュータに、
 過去の所定回以内に入力された音声信号の各々に対して、各クラスタに属する確率を再計算させることの要否を判定する判定処理を実行させる
 請求項18に記載の音声分類用プログラム。
 前記コンピュータに
 前記判定処理で、その時点における計算済みの各クラスタに属する確率に関するエントロピーに基づいて、該音声信号について各クラスタに属する確率を再計算させることの要否の判定を実行させる
 請求項22に記載の音声分類用プログラム。
 前記コンピュータに、
 属すべきクラスタが既知の音声信号が予め用意されている場合に、前記音声信号が属すべきクラスタを規定した確率モデルを作成する処理を実行させる
 請求項17から請求項23のうちのいずれか1項に記載の音声分類用プログラム。
 最新の発話データについて、パラメータ記憶手段に記憶されているパラメータ値によって規定される、発話データの分布を仮定した確率モデルである生成モデルを用いて、前記発話データが各クラスタに属する確率をそれぞれ求め発話分類確率記憶手段に記憶させる発話分類確率計算手段と、
 発話データがクラスタに属する確率のエントロピーを符号反転させた値を指標とし、前記指標と所定のしきい値との大小関係に応じて、前記発話データについて各クラスタに属する確率の再計算の必要有り無しを判定する更新対象発話選択手段と、
 最新発話データ以外の所定個の発話データのうち、前記更新対象発話選択手段で再計算の必要ありと判断された発話データについてそれぞれ各クラスタに属する確率を求め、前記発話分類確率記憶手段を更新する発話分類確率更新手段と、
 前記発話分類確率計算手段および前記発話分類確率更新手段での計算結果に基づき、現時点でのクラスタ数および該クラスタ数近辺のいくつかのクラスタ数を想定した上で、それぞれのクラスタ数について生成モデルを算出するために必要な十分統計量を算出し、生成モデルのパラメータ値を推定し前記パラメータ記憶手段のパラメータ値を更新するパラメータ更新手段と、
 を備えた音声分類システム。
 前記パラメータ記憶手段に記憶されている生成モデルのパラメータおよび十分統計量を読み出し、クラスタ数を1つ増やした場合の生成モデルを作成する新規話者登録手段と、
 前記パラメータ更新手段が想定したいくつかのクラスタ数について、前記パラメータ更新手段による生成モデルのパラメータ値の推定結果から、最適なクラスタ数を決定し、決定したクラスタ数に対応する十分統計量およびパラメータ値を、前記パラメータ記憶手段に記憶するクラスタ数決定手段と、
 を備えた請求項25記載の音声分類システム。
Description:
音声分類装置、音声分類方法、 よび音声分類用プログラム

 (関連出願についての記載)
 本願は、先の日本特許出願2007-079677号(2007年 3月26日出願)の優先権を主張するものであり 前記先の出願の全記載内容は、本書に引用 もって繰込み記載されているものとみなさ る。
 本発明は、音声を分類する音声分類装置、 声分類方法、および音声分類用プログラム 関し、特に、異なる話者や環境において発 られた複数の音声信号を、話者や環境の類 性に基づいてクラスタに分類する音声分類 置、音声分類方法、および音声分類用プロ ラムに関する。

 音声分類方法に関する関連技術の一例と て、例えば非特許文献1の記載が参照される 。図6は、非特許文献1に記載されている音声 類方法を適用した音声分類装置の構成例を すブロック図である。図6に示す音声分類装 置は、発話記憶手段801と、初期化手段802と、 クラスタ間距離計算手段803と、クラスタ対統 合手段804と、停止判断手段805と、クラスタ記 憶手段806とから構成される。

 図6に示す音声分類装置は、次のように動 作する。まず、初期化手段802は、発話記憶手 段801に蓄積された発話データ(有限の長さに り出された音声信号)を一括読み出しし、発 データ数と同数のクラスタを定義して、1ク ラスタに1発話が属するような分類の初期状 を設定する。具体的には、各々の発話デー に対してユニークなクラスタIDを付与し、同 じクラスタIDが付与された発話データを用い クラスタごとの統計量(平均、分散、および 十分統計量等)を計算し、その結果をクラス 記憶手段806に記憶する。

 次に、クラスタ間距離計算手段803は、ク スタ記憶手段806に記憶されたクラスタごと 統計量に基づいて任意の2クラス間の距離( 違度)を算出する。そして、クラスタ対統合 段804は、クラスタ間距離計算手段803によっ 算出された距離が最小となるクラスタ対を 択し、そのクラスタ対を統合する。ここで 、統合させるクラスタ対のいずれか一方の ラスタIDを他方のクラスタに属する全発話 ータに付与し、そのクラスタIDが付与された 発話データ群を用いて統合させたクラスタの 統計量を再計算し、クラスタ記憶手段806に記 憶する。

 停止判断手段805は、現時点における分類 態の適切性(すなわち、さらにクラスタを統 合させるか否か)を統計量から導出される所 の規則に基づいて判断する。すなわち、現 点におけるクラスタごとの統計量から導出 れる所定の規則に基づいて、さらにクラス を統合させるか否かを判定し、もうクラス を統合させない方がよい(現時点の分類状態 適切である)と判定した場合には、現時点で の分類の状態を最終的な分類結果として出力 する。一方、さらにクラスタを統合させた方 がよい(現時点の分類状態は適切でない)と判 した場合には、現時点における分類状態か 、再度クラスタ間距離計算手段803、および ラスタ対統合手段804が、それぞれ上述した 作を繰り返す。

 なお、このような分類方法は、「最短距 法」と呼ばれる。また発話データ(音声信号 )のデータ形式としては、話者や環境を反映 た特徴量から構成される特徴ベクトルの時 列、例えば、音声認識システムでよく使用 れるメルケプストラム係数(MFCC)等が用いら ている。

 また、音声分類方法の別の関連技術とし 非特許文献2の記載が参照される。図7は、 特許文献2に記載されている音声分類方法を 用した音声分類装置の構成例を示すブロッ 図である。図7に示す音声分類装置は、発話 入力手段901と、発話-クラスタ間距離計算手 902と、クラスタ数決定手段903と、発話-クラ タ統合手段904と、クラスタ記憶手段905とか 構成される。

 図7に示す音声分類装置は、次のように動 作する。まず、発話入力手段901は、順次入力 される発話を受け取り、発話-クラスタ間距 計算手段902に順次渡す。発話-クラスタ間距 計算手段902は、1発話データを受け取ると、 その統計量(平均、分散、および十分統計量 )を計算し、またクラスタ記憶手段905にすで 記憶されている各クラスタの統計量を参照 て、1発話データと各クラスタとの間の距離 (相違度)を算出する。クラスタ数決定手段903 、入力された1発話データと各クラスタとの 間の距離が最小となるクラスタを選択して、 距離値が所定のしきい値よりも大きければク ラスタ数をN+1とし、そうでなればクラスタ数 はNのままとすることを決定する。

 発話-クラスタ統合手段904は、クラスタ数 決定手段903が決定したクラスタ数がN+1であれ ば、入力された1発話データを構成要素とす 新しいクラスタを作成し、その統計量をク スタ記憶手段905に記憶する。一方、クラス 数がNのままであれば、入力された1発話デー タをクラスタ数決定手段903が選択した距離が 最小となるクラスタに統合し、このクラスタ の統計量を再計算して、クラスタ記憶手段905 に記憶する。

 なお、本例における音声分類装置では、 話データがまったく入力されていない段階 すなわちクラスタ記憶手段905にクラスタが1 つもない段階(N=0)では、発話-クラスタ間距離 計算手段902は特に処理をせず、クラスタ数決 定手段903はクラスタ数をN+1(すなわち1)とする ことを決定する。そして、発話-クラスタ統 手段904が入力された1発話データを構成要素 する新しいクラスタを作成し、クラスタ記 手段905に記憶する。

 また、特許文献1には、複数のN人の話者 音声波形データから複数K個のクラスタを生 し、生成した複数K個のクラスタに属する話 者の音声波形データに基づいて、複数K個の ラスタに対応するK個のHMM(隠れマルコフモデ ル)を生成する話者クラスタリング処理装置 記載されている。なお、音声分類は、その 成されたK個のHMMから話者クラスタの特徴量 比較して最も近い話者クラスタの特徴量を するHMMを選択し、選択したHMMを用いて音声 識を行うことによって行われる。

特開平11-175090号公報(段落0012,0026-0037) S.S.Chen, E.Eide, M.J.F.Gales, R.A.Gopinath, D.Kan vesky, and P. Olsen, "Automatic Transcription of Broa dcast News", Speech Communication, 2002, Vol.37, pp.69 -87 D.Liu and F.Kubala, "OnLine speaker clustering", Proc. International Conference on Acoustics, Speech,  and Signal Processing(ICASSP), 2004, Vol.1, pp.333-386

 以上の特許文献1及び非特許文献1、2の開示 項は、本書に引用をもって繰り込み記載さ ているものとする。以下に本発明による関 技術の分析を与える。
 第1の問題点は、リアルタイム性が要求され る用途に適さないということである。その理 由は、非特許文献1のような最小距離法によ 分類では、まず最初に距離最小の発話対を 出すために、その分類対象となる全発話デ タを取得し、任意の2発話データ間の距離を 算しなければならないからである。すなわ 、1発話データが入力される度にこのような 任意の2発話データ間の距離を計算する方法 は、とてもオンライン処理として動作させ ことはできず、予め決められた発話データ 対するオフライン処理(事前処理)にしか適さ ない方法であると言える。

 第2の問題点は、大量の発話を扱う場合に 、メモリ使用量や処理時間が膨大化するとい うことである。その理由は、非特許文献1の うな最小距離法による分類では、分類対象 なる全発話データから、任意の2発話データ の距離を計算して保持する必要があり、従 て発話数の2乗に比例するメモリ領域と計算 時間が必要となるからである。

 第3の問題点は、貪欲的かつ決定論的な分 類を行っているため、分類誤りが生じやすく 、またその誤りが後の分類に悪影響を及ぼし やすいということである。その理由は、非特 許文献1や非特許文献2に記載されている方法 は、段階的に、その時点でもっとも近いク スタ対、あるいはもっとも近い発話データ クラスタとを統合するという貪欲探索戦略 採っており、発話データの集合全体を俯瞰 て最適な分類を見出すことができないから ある。

 第4の問題点は、オンラインで順次入力さ れる発話を分類する場合に、ある時点での分 類結果をそれ以前の分類結果に反映させる簡 単な手段がないということである。その理由 は、非特許文献2に記載されている方法では 先にも述べた通り決定論的な分類を行って り、その分類結果を後に修正する機構を持 ないためである。仮に非特許文献2に記載さ ている方法で過去の分類結果を修正しよう すると、非特許文献1に記載されている方法 と殆ど同じ方法となると考えられ、オンライ ン動作で行うには適さなくなる。

 第5の問題点は、発話データの詳細な構造 を考慮した正確な分類ができないということ である。その理由は、非特許文献1や非特許 献2に記載されている方法では、発話データ 各クラスタへの分布に単一正規分布を仮定 、特徴ベクトルの平均や分散のような単純 統計量でクラスタを表現しているためであ 。発話データの分布にこのような単純なモ ルを仮定したのでは、小単位(例えば、母音 や子音といった音素)のレベルでの詳細な分 構造を扱うことができず、分類精度におの と限界が生じる。

 なお、特許文献1に記載されている話者ク ラスタリング処理装置の場合、複数K個のク スタを生成する処理は事前処理であるため 順次入力される発話データに応じて最適な ラスタを生成するといったクラスタリング 理自体をオンライン処理として動作させよ といったことは全く考慮されていない。

 そこで、本発明の目的は、オンライン動 が可能で、リアルタイム性が要求される用 に使用できる音声分類装置、音声分類方法 および音声分類用プログラムを提供するこ にある。

 また、本発明は、多数の発話を扱わなけ ばならない状況でも現実的なメモリ使用量 処理時間で各発話を分類できるようにする とを目的とする。また、本発明は、各発話 分類する際に、分類誤りを低く抑えること できるようにすることを目的とする。また 本発明は、オンラインで順次入力される発 を分類する際に、過去の分類結果を検証し 類誤りを修正できるようにすることを目的 する。また、本発明は、音声の詳細な構造 考慮して、発話をより正確に分類できるよ にすることを目的とする。

 本発明による音声分類装置においては、 声信号を音声の類似性に基づきクラスタに 類する音声分類装置であって、ある音声信 がどのクラスタに属するかを確率的に求め ための確率モデルに基づいて、逐次入力さ る音声信号のうち直近に入力された1つの音 声信号について、各クラスタに属する確率を 計算する発話分類確率計算手段と、発話分類 確率計算手段が計算した各確率を用いて、逐 次、確率モデルを規定するパラメータを推定 するパラメータ更新手段とを備え、発話分類 確率計算手段は、パラメータ更新手段によっ て逐次推定された最新のパラメータによって 規定される確率モデルに基づいて各確率を計 算する。

 本発明による音声分類方法においては、 声信号を音声の類似性に基づきクラスタに 類するための音声分類方法であって、ある 声信号がどのクラスタに属するかを確率的 求めるための確率モデルに基づいて、逐次 力される音声信号のうち直近に入力された1 つの音声信号について、各クラスタに属する 確率を計算し、確率を用いて、逐次、確率モ デルを規定するパラメータを推定し、逐次推 定されたパラメータによって規定される確率 モデルに基づいて、少なくとも次に入力され る音声信号について各クラスタに属する確率 を計算する。

 本発明による音声分類用プログラムにお ては、音声信号を音声の類似性に基づきク スタに分類するための音声分類用プログラ であって、コンピュータに、ある音声信号 どのクラスタに属するかを確率的に求める めの確率モデルに基づいて、逐次入力され 音声信号のうち直近に入力された1つの音声 信号について、各クラスタに属する確率を計 算する確率計算処理、および確率計算処理で 計算した各確率を用いて、逐次、確率モデル を規定するパラメータを推定するパラメータ 更新処理を実行させ、確率計算処理で、逐次 推定された最新のパラメータによって規定さ れる確率モデルに基づいて各確率を計算させ る。

 本発明によれば、オンライン動作が可能 、リアルタイム性が要求される用途に使用 きる。

第1の実施例による音声分類装置の構成 例を示すブロック図である。 第1の実施例による音声分類装置の動作 例を示すフローチャートである。 話者データ記憶手段102に記憶される話 データのデータ構造の一例を示す説明図で る。 生成モデルのグラフ構造を示す説明図 ある。 第2の実施例による音声分類装置の構成 例を示すブロック図である。 最短距離法を用いた音声分類装置の構 例を示すブロック図である。 最短距離法を用いた音声分類装置の他 構成例を示すブロック図である。

符号の説明

 101 発話入力手段
 102 話者データ記憶手段
 103 発話分類確率計算手段
 104 新規話者登録手段
 105 更新対象発話選択手段
 106 発話分類確率更新手段
 107 パラメータ更新手段
 108 パラメータ記憶手段
 109 発話分類確率記憶手段
 110 クラスタ数決定手段
 51 入力装置
 52 音声分類用プログラム
 53 データ処理装置
 54 記憶装置
 541 話者データ記憶部
 542 パラメータ記憶部
 543 発話分類確率記憶部

 本発明の実施の形態について説明する。 発明によれば、1つの態様において、音声信 号を音声の類似性に基づきクラスタに分類す る音声分類装置が提供される。この音声分類 装置は、ある音声信号がどのクラスタに属す るかを確率的に求めるための確率モデルに基 づいて、逐次入力される音声信号のうち直近 に入力された1つの音声信号について、各ク スタに属する確率を計算する発話分類確率 算手段(例えば、発話分類確率計算手段103)と 、発話分類確率計算手段が計算した各確率を 用いて、逐次、確率モデルを規定するパラメ ータを推定するパラメータ更新手段(例えば パラメータ更新手段107)とを備え、発話分類 率計算手段は、パラメータ更新手段によっ 逐次推定された最新のパラメータによって 定される確率モデルに基づいて各確率を計 する。かかる構成により、本発明の音声分 装置は、オンライン動作が可能であり、リ ルタイム性が要求される用途にも利用可能 ある。また、本発明は、多数の発話を扱わ ければならない状況でも現実的なメモリ使 量や処理時間で各発話を分類可能とし、さ に、各発話を分類する際に、分類誤りを低 抑えることを可能としている。そして、オ ラインで順次入力される発話を分類する際 、過去の分類結果を検証し分類誤りを修正 きるようにすることを目的とする。また、 発明は、音声の詳細な構造を考慮して、発 をより正確に分類できるようにしている。

 本発明に係る音声分類装置は、別の態様 おいて、過去の所定回以内に入力された音 信号について、パラメータ更新手段によっ 逐次推定される最新のパラメータによって 定される確率モデルに基づいて、音声信号 各クラスタに属する確率を再計算する発話 類確率更新手段(例えば、発話分類確率更新 手段106)を備え、パラメータ更新手段は、発 分類確率更新手段が計算した各確率を用い 、確率モデルを規定するパラメータを推定 てもよい。

 また、本発明に係る音声分類装置は、さ に別の態様において、入力された音声信号 いずれのクラスタにも属さない場合を仮定 て、音声信号が属する新規クラスタを規定 た確率モデルを作成する新規クラスタ登録 段(例えば、新規話者登録手段104)と、新規 ラスタ登録手段によって作成された確率モ ルを用いた計算結果に基づくパラメータ更 手段によるパラメータの推定結果から、新 クラスタを追加するか否かを決定するクラ タ数決定手段(例えば、クラスタ数決定手段1 10)とを備えていてもよい。

 本発明に係る音声分類装置において、確 モデルが、状態とクラスタとを1対1に対応 せた隠れマルコフモデルであってもよい。

 本発明に係る音声分類装置において、確 モデルが、音素の種類の数に応じた混合数 持つガウス混合分布に関連づけられた隠れ ルコフモデルであってもよい。

 本発明に係る音声分類装置は、さらに別 態様において、過去の所定回以内に入力さ た音声信号について、パラメータ更新手段 よって逐次推定される最新のパラメータに って規定される確率モデルに基づいて、音 信号が各クラスタに属する確率を再計算す 発話分類確率更新手段(例えば、発話分類確 率更新手段106)を備えた音声分類装置であっ 、過去の所定回以内に入力された音声信号 各々に対して、発話分類確率更新手段に各 ラスタに属する確率を再計算させることの 否を判定する更新対象発話選択手段(例えば 更新対象発話選択手段105)を備えていてもよ い。

 本発明に係る音声分類装置において、更 対象発話選択手段は、その時点における計 済みの各クラスタに属する確率に関するエ トロピーに基づいて、該音声信号について 計算させることの要否を判定してもよい。

 本発明に係る音声分類装置において、新 クラスタ登録手段は、属すべきクラスタが 知の音声信号が予め用意されている場合に 音声信号が属すべきクラスタを規定した確 モデルを作成してもよい。

 また、本発明による音声分類方法は、音声 号を音声の類似性に基づきクラスタに分類 るための音声分類方法であって、
 ある音声信号がどのクラスタに属するかを 率的に求めるための確率モデルに基づいて 逐次入力される音声信号のうち直近に入力 れた1つの音声信号について、各クラスタに 属する確率を計算し、
 確率を用いて、逐次、確率モデルを規定す パラメータを推定し、
 逐次推定されたパラメータによって規定さ る確率モデルに基づいて、少なくとも次に 力される音声信号について各クラスタに属 る確率を計算する、
 上記工程を含む。

 本発明に係る音声分類方法において、過 の所定回以内に入力された音声信号につい 、パラメータ更新手段によって逐次推定さ る最新のパラメータによって規定される確 モデルに基づいて、音声信号が各クラスタ 属する確率を再計算し、再計算した各確率 用いて、確率モデルを規定するパラメータ 推定してもよい。

 本発明に係る音声分類方法において、入 された音声信号がいずれのクラスタにも属 ない場合を仮定して、音声信号が属する新 クラスタを規定した確率モデルを作成し、 成された確率モデルを用いた計算結果に基 くパラメータ更新手段によるパラメータの 定結果から、新規クラスタを追加するか否 を決定してもよい。

 本発明に係る音声分類方法において、確 モデルが、状態とクラスタとを1対1に対応 せた隠れマルコフモデルであってもよい。

 本発明に係る音声分類方法において、確 モデルが、音素の種類の数に応じた混合数 持つガウス混合分布に関連づけられた隠れ ルコフモデルであってもよい。

 本発明に係る音声分類方法において、過 の所定回以内に入力された音声信号の各々 対して、各クラスタに属する確率を再計算 せることの要否を判定してもよい。

 本発明に係る音声分類方法において、そ 時点における計算済みの各クラスタに属す 確率に関するエントロピーに基づいて、該 声信号について再計算させることの要否を 定してもよい。

 本発明に係る音声分類方法において、属 べきクラスタが既知の音声信号が予め用意 れている場合に、音声信号が属すべきクラ タを規定した確率モデルを作成してもよい

 また、本発明による音声分類用プログラ は、音声信号を音声の類似性に基づきクラ タに分類するための音声分類用プログラム あって、コンピュータに、ある音声信号が のクラスタに属するかを確率的に求めるた の確率モデルに基づいて、逐次入力される 声信号のうち直近に入力された1つの音声信 号について、各クラスタに属する確率を計算 する確率計算処理、および確率計算処理で計 算した各確率を用いて、逐次、確率モデルを 規定するパラメータを推定するパラメータ更 新処理を実行させ、確率計算処理で、逐次推 定された最新のパラメータによって規定され る確率モデルに基づいて各確率を計算させる 。

 本発明に係る音声分類用プログラムにお て、コンピュータに、過去の所定回以内に 力された音声信号について、逐次推定され 最新のパラメータによって規定される確率 デルに基づいて、音声信号が各クラスタに する確率を再計算する確率再計算処理を実 させ、パラメータ更新処理で、確率再計算 理で計算した各確率を用いて、逐次、確率 デルを規定するパラメータを推定させても い。

 本発明に係る音声分類用プログラムにお て、コンピュータに、入力された音声信号 いずれのクラスタにも属さない場合を仮定 て、音声信号が属する新規クラスタを規定 た確率モデルを作成する処理、および新規 ラスタが規定された確率モデルを用いた計 結果に基づくパラメータの推定結果から、 規クラスタを追加するか否かを決定する処 を実行させてもよい。

 本発明に係る音声分類用プログラムにお て、確率モデルが、状態とクラスタとを1対 1に対応させた隠れマルコフモデルであって よい。

 本発明に係る音声分類用プログラムにお て、確率モデルが、音素の種類の数に応じ 混合数を持つガウス混合分布に関連づけら た隠れマルコフモデルであってもよい。

 本発明に係る音声分類用プログラムにお て、コンピュータに、過去の所定回以内に 力された音声信号の各々に対して、各クラ タに属する確率を再計算させることの要否 判定する判定処理を実行させてもよい。

 本発明に係る音声分類用プログラムにお て、判定処理で、その時点における計算済 の各クラスタに属する確率に関するエント ピーに基づいて、該音声信号について再計 させることの要否を判定させてもよい。

 本発明に係る音声分類用プログラムにお て、コンピュータに、属すべきクラスタが 知の音声信号が予め用意されている場合に 音声信号が属すべきクラスタを規定した確 モデルを作成する処理を実行させてもよい

 上記態様の本発明の効果を以下に説明す 。

 第1の効果は、順次入力される発話データ を逐次的に分類するといったオンライン動作 ができることにある。その理由は、発話分類 確率計算手段が発話の生成モデルを規定する パラメータに基づいて発話データを分類する とともに、パラメータ更新手段が発話データ の分類結果に基づいてパラメータを逐次的に 更新するためである。

 第2の効果は、多数の発話データが入力さ れても現実的なメモリ使用量や処理時間で発 話データを分類できることにある。その理由 は、発話分類確率計算手段および発話分類確 率更新手段が直近の所定数の発話データにつ いてのみ分類を行い、パラメータ更新手段が その所定数の発話データに関する分類結果の みを用いてパラメータを更新するためである 。

 第3の効果は、探索の誤りに起因する分類 誤りを低く抑えられることにある。その理由 は、発話分類確率計算手段および発話分類確 率更新手段が、最小距離のような局所的な基 準ではなく発話の生成モデルに基づいて広域 的に最適な分類結果を離散的ではなく確率的 な形式で算出するためである。

 第4の効果は、オンライン動作において過 去の分類結果を検証して分類誤りを修正でき ることにある。その理由は、発話分類確率更 新手段が、過去に入力され分類された所定数 の発話データについて、パラメータ更新手段 が求めた最新のパラメータに基づいて再分類 するためである。

 第5の効果は、音声の内部構造の複雑さに 起因する分類誤りを低く抑えられることにあ る。その理由は、話者(または環境)から発せ れた発話を、単一ガウス分布のような単純 モデルではなく、ガウス混合分布のような 雑なモデルでモデル化することにより、音 のような詳細なレベルでの話者(または環境 )の違いを表現できるためである。

 以下、本実施例について図面を参照して 明する。図1は、第1の実施例による音声分 装置の構成例を示すブロック図である。図1 示す音声分類装置は、発話入力手段101と、 者データ記憶手段102と、発話分類確率計算 段103と、新規話者登録手段104と、更新対象 話選択手段105と、発話分類確率更新手段106 、パラメータ更新手段107と、パラメータ記 手段108と、発話分類確率記憶手段109と、ク スタ数決定手段110とを備える。

 なお、本実施例では、声の類似性に基づ て発話を話者ごとに分類するための音声分 装置を例に示すが、本発明は、話者の分類 みならず、同じ話者の音声でも背景に重畳 る雑音の類似性に基づいて分類したり、使 する回線や音響機器(ボーカルマイクや携帯 電話機等)の類似性に基づいて分類するとい ように、音声信号をその音声信号が有する らかの特徴量の類似性に基づいて分類する 途に適用可能である。

 発話入力手段101は、発話データを入力す 。ここで、発話データとは、有限の長さに り出された音声信号であって、本音声分類 置に入力される音声信号の入力単位となる ータである。なお、発話データは、必ずし 同じ長さに切り出された音声信号でなくて よい。また、発話入力手段101は、外部から 力される発話データを受け取った際に、図 しない音響分析手段を用いて分類に必要な 徴量を抽出してもよい。特徴量は、例えば パワーやメルケプストラム係数(MFCC)、およ それらの変化率といった特徴パラメータを 徴ベクトルの時系列のような形式で抽出す ばよい。個々の特徴ベクトルは一般にフレ ムと呼ばれている。なお、特徴量は、元の 声信号(発話データ)そのものであってもよ 。尚、発話入力手段101は、連続的に音声信 が入力されるような場合には、所定の条件( 量や時間)に従って区切ることにより、入力 される音声信号を発話データに分割する機能 を有していてもよい。

 話者データ記憶手段102は、既知の話者の 話データが事前に取得可能な場合に、それ 発話データを話者毎に対応づけた話者デー として記憶する。話者データ記憶手段102は 例えば、話者毎に割り振られたユニークなI D(以下、話者IDという。)と、その話者の発話 ータ(またはその特徴量)とを対応づけて記 する。なお、同じ話者でも異なる環境にお る発話を異なる発話として分類する場合に 、話者データ記憶手段102は、既知の話者お び環境の組み合わせ毎に、発話データを記 しておけばよい。すなわち、話者データ記 手段102は、予めどのクラスタに分類される が既知である発話データ(またはその特徴量) と、そのクラスタを識別するためのユニーク なクラスタIDとを対応づけて記憶しておけば い。

 ここで、クラスタとはデータ解析手法の1 つであるクラスタリング分析におけるクラス タをいい、具体的には、複数のデータ(ここ は、複数の発話データ)をその特徴の類似性 基づいて部分集合に分類した際の各部分集 をいう。

 発話分類確率計算手段103は、逐次入力さ る発話データに対し、パラメータ記憶手段1 08に記憶されているパラメータ値に基づいて その発話データがいずれのクラスタに属す かを確率の形で計算することによって、逐 的に発話データを分類する。発話分類確率 算手段103は、具体的には、パラメータ記憶 段108に記憶されている現在のパラメータ値 よって規定される、発話データの分布を仮 した確率モデルである生成モデルを用いて 入力された発話データが各クラスタに属す 確率をそれぞれ求めることによって、その 話データがどのクラスタに属するかを求め 。一般に、生成モデルとは、観測されたデ タの背景に存在すると考えられるデータ生 の機構を数理的に説明するモデルであって 特にここでは、ある音声信号(発話データ) どのクラスタに属するかを確率的に求める めの計算式または計算条件を規定するもの( 報)である。具体的には、ある発話データが 各クラスタに属する確率を求めるための計算 式または計算条件を示す情報である。なお、 生成モデルの具体例については後述する。

 新規話者登録手段104は、新規の話者から せられた発話が入力された場合を想定して 規クラスタを登録する。新規話者登録手段1 04は、入力された発話データが既存のいずれ クラスタにも属さない場合を想定して、新 クラスタの追加に対応した確率モデルを作 する。なお、新規クラスタを確定させるか かはクラスタ数決定手段110によって決定さ る。また、新規話者登録手段104は、話者デ タ記憶手段102に話者データ(既知の話者毎の 発話データ)が登録されている場合に、1話者 つき1クラスタとして、話者データで示され る話者毎の発話データから生成モデルのパラ メータを推定し、パラメータ記憶手段108に記 憶する。

 更新対象発話選択手段105は、過去に入力 れた所定数の各発話データが再分類によっ 異なるクラスタに移る可能性がいかほどか すなわち再分類の計算が省略可能か否かを 定し、その結果を発話分類確率更新手段106 通知する。すなわち、発話分類確率更新手 106に再分類させる対象とする発話データを 択する。

 発話分類確率更新手段106は、パラメータ 憶手段108に記憶されているパラメータ値を いて、過去に入力された発話データについ 、各々いずれのクラスタに属するかを確率 形で計算することによって、過去に分類さ た発話データを再分類する。なお、発話分 確率更新手段106は、更新対象発話選択手段1 05によって選択された発話データについての 再分類を行えばよい。

 パラメータ更新手段107は、入力済みの発 データの分布を仮定した生成モデルを規定 るモデルパラメータを逐次更新する。パラ ータ更新手段107は、発話分類確率計算手段1 03および発話分類確率更新手段106による分類 果に基づき、現時点でのクラスタ数および の近辺のいくつかのクラスタ数を想定した で、それぞれのクラスタ数について、生成 デルを簡便に算出するために必要な十分統 量を算出し、さらに生成モデルのパラメー 値を推定する。

 パラメータ記憶手段108は、現時点におけ クラスタ数に対応する生成モデルのパラメ タ値および十分統計量を記憶する。なお、 ラメータ記憶手段108にクラスタ数も記憶す ようにしてもよい。

 発話分類確率記憶手段109は、発話分類確 計算手段103および発話分類確率更新手段106 よる分類結果(具体的には、各クラスタへの 分類確率)を記憶する。発話分類確率記憶手 109は、発話分類確率計算手段103によって算 された新規の分類結果を記憶し、また、発 分類確率更新手段106によって算出された再 類の分類結果を、それまでの分類結果に上 きする。発話分類確率記憶手段109は、新規 者登録手段104によって登録される新規クラ タを含んだ場合における分類結果も合わせ 記憶するようにしてもよい。

 クラスタ数決定手段110は、入力済みの発 データに対して最適なクラスタ数(ここでは 、話者数)を推定する。クラスタ数決定手段11 0は、パラメータ更新手段107が想定したいく かのクラスタ数について、パラメータ更新 段107による生成モデルのパラメータ値の推 結果から最適なクラスタ数を決定する。ま 、クラスタ数決定手段110は、決定したクラ タ数に対応する十分統計量およびパラメー 値をパラメータ記憶手段108に記憶させる。

 次に、本実施例の動作について説明する 図2は、本実施例による音声分類装置の動作 例を示すフローチャートである。図2に示す うに、音声分類装置は、始めにパラメータ 憶手段108および発話分類確率記憶手段109に けるそれぞれの記憶領域を初期化し、クラ タ数Nを0にセットする(ステップA1)。次に、 規話者登録手段104は、話者データ記憶手段10 2に話者データ(話者と対応づけられた発話デ タ)が記憶されているか否かを確認し(ステ プA2)、記憶されている場合には、1話者分の 話データにつき1クラスタとして、その話者 の発話データから得られる特徴量に対応させ た新規クラスタを登録する(ステップA3)。新 話者登録手段104は、1話者毎にクラスタ数Nを 1増やすとともに、話者毎の発話データに基 き、各話者の発話データがその話者に対応 るクラスタに属するような生成モデルを作 する。具体的には、生成モデルにおける新 クラスタを規定し、新規クラスタに対応さ た話者の発話データから十分統計量を求め その話者の発話データが新規クラスタに属 るようなパラメータ値を推定することによ て、クラスタ数=話者数となる生成モデルを 成する(確定させる)。そして、十分統計量 ともに推定したパラメータの値をパラメー 記憶手段108に記憶させる。

 図3は、話者データ記憶手段102に記憶される 話者データのデータ構造の一例を示す説明図 である。図3に示すように、話者データ記憶 段102には、例えば、既知の話者毎に割り当 られた話者IDとその話者の発話データ(また その特徴量)と発話数とを対応づけて記憶し おけばよい。ここで、X i,j は、話者IDがiの話者がj番目に発話した際の 話データを意味している。X i,j =(x i,j,1 ,x i,j,2 ,・・・,x i,j,T )のような特徴ベクトルx i,j,t の時系列である。なお、生成モデルのパラメ ータと十分統計量については後述する。

 次に、発話入力手段101は、入力される発 データを順次受け取り、音響分析手段によ 特徴ベクトル系列に変換する。以後は、入 される発話データがなくなった時点で終了 なる(ステップA4)。発話データが入力された 際に、クラスタ数Nが0であった場合には(ステ ップA5のNo)、新規話者登録手段104が、その発 データに対し新規クラスタを登録する(ステ ップA6)。すなわち、話者データ記憶手段102に 一切データが登録されておらず、発話入力手 段101に最初の発話データが入力されたときに は、その最初の発話データは新規話者登録手 段104に送られる。新規話者登録手段104は、ク ラスタ数N=1とし、ステップA3と同様の処理に り、入力された発話データから十分統計量 求めて、その発話データが新規クラスタに するようなパラメータ値を推定することに って、クラスタ数をN=1とする生成モデルを 成する。そして、十分統計量とともに推定 たパラメータの値をパラメータ記憶手段108 記憶させる。

 クラスタ数Nが1以上であった場合には(ス ップA5のYes)、発話分類確率計算手段103が、 ラメータ記憶手段108に記憶されている生成 デルのパラメータおよび十分統計量を読み し(ステップA7)、入力された発話データ(1発 データ)がどのクラスタに属するかを確率の 形式で計算する(ステップA8)。

 ここで、本実施例で使用する生成モデル ついて説明する。本実施例では、図4に示す ようなグラフ構造を備えた隠れマルコフモデ ル(HMM)と呼ばれる確率モデルを使用する。図4 は、本実施例における生成モデルのグラフ構 造を示す説明図である。グラフの中央部分に 縦に並んだノードは状態と呼ばれ、本実施例 では1状態が1クラスタに該当する。このモデ では、まず左端の初期状態から中央部分の ずれかの状態に遷移し、その状態で幾度か 自己遷移を繰り返し、最後に右端の終状態 遷移して動作を終了する。中央の状態では 自己遷移を含めて遷移を1回行うたびに、所 定の確率分布(例えば、ガウス混合分布)に従 て特徴ベクトルxが1つ出力される。

 上述したモデル(HMM)におけるパラメータは π i ,a i ,b ij ij ij (i=1,・・・,N;j=1,・・・,M)である。ここに、N HMMの状態数であり、本実施例におけるクラ タ数と一致する。また、Mはガウス混合分布 混合数であって、例えば音素の数とすれば い。なお、音素の数のままでは混合数が大 すぎる場合には、分布構造が似ている音素 まとめるような音素の種類の数としてもよ 。例えば、母音と子音の数にまとめてもよ し、母音と破裂音や摩擦音や鼻音といった 音の種類の数にまとめてもよい。なお、本 施例において、混合数は状態によらず一律 するが、状態毎に異なる混合数を設定する とも可能である。

 π i は初期状態から状態iに遷移する確率、すな ちクラスタiに属する発話データが出現する 率である。a i は状態iから終状態に遷移する確率であって 1発話データの平均継続フレーム数に相当す 。b ij は状態iから出力される特徴ベクトルの分布( なわち、混合ガウス分布)における第jガウ 分布に関する重み係数である。μ ij ij は同じく第jガウス分布に関する平均ベクト 、分散共分散行列をそれぞれ表す。f(x|μ,σ) 平均ベクトルμ、分散共分散行列σのガウス 分布(正規分布)である。一般に上記パラメー はn個の特徴ベクトル系列(すなわちn個の発 データ)から推定することができる。推定方 法は、最尤推定や事後確率最大(MAP)推定、ベ ズ推定等が考えられるが、例えば最尤推定 場合は、期待値最大化(EM)法と呼ばれる以下 の数(1),数(2)および数(3)の反復解法でパラメ タ推定が可能である。

 ここに、T k はk番目の発話データの継続フレーム数、x kt はk番目に入力された発話データの第tフレー の特徴ベクトルである。特に、数(1)におけ 第1式のγ ki は、k番目に入力された発話データが状態iに する確率、すなわちk番目の発話データがク ラスタiに属する確率を意味している。なお 数(1)、数(3)をそれぞれEM法におけるEステッ 、Mステップと呼ぶ。また、数(2)の各量は本 施例で使用するモデルに関する十分統計量 ある。

 ただし、上記数(1)~(3)の反復解法はオフライ ン処理(バッチ処理)であり、本発明の目的と るところではない。本実施例では、最初の 話データX 1 から最新の発話データX n までを、X 1 ,・・・,X n-δ とX n-δ+1 ,・・・,X n に分けて扱い、以下の数(4)および数(5)と上記 数(3)とを用いた反復解法を実行することによ ってオンライン処理を可能にする。

 数(4)については、計算式そのものは数(1)と 一だが、計算の範囲が最近入力されたδ個 発話データ(k=n-δ+1,・・・,n)に限れられてい 点が異なる。数(5)については、十分統計量 3項の和として算出している。ここに第1項 話者データ記憶手段102に蓄積された既知の 者の発話データから算出される十分統計量 あって、以降入力される発話データが増え も更新する必要のない定数である。第2項は 最近のδ個の発話データよりも古い発話デ タに関する十分統計量であって、数(4)によ 更新を受けない量である。ただし1つの発話 ータが入力される毎にn-δ+1番目の発話デー に関する項(1つ前の発話データX n-1 の入力時に計算済み)が加算される。第3項は 数(4)の結果を用いて逐次更新される量であ 。

 上述したパラメータ推定法は一般化EM(GEM )の一つの実現形態であり、最尤推定の目的 である尤度最大化を、少なくとも尤度の単調 非減少という形で補償することが数学的に証 明できる。

 なお、MAP推定については、パラメータの 前分布に関するパラメータ、すなわち超パ メータを予め設定することによって、上記 (1),数(2)および数(3)と類似の反復解法に基づ くパラメータ再推定式が導出できる。また、 ベイズ推定についても、事前分布に関する超 パラメータを予め設定することによって、上 記数(1),数(2)および数(3)と類似の、事後分布 超パラメータ再推定式が導出できる。なお 導出の詳細は、文献「H.Attias, "Inferring parame ters and structure of latent variable models by vari ational Bayes.", Proc. 15th Conf. on Uncertainty in  Artificial Intelligence, 1999」に開示されている

 さて、発話分類確率計算手段103は、ステッ A8において、最新の発話データ(k=n)について 上記数(4)による計算を行い、その発話データ がクラスタi(i=1~N)に属する確率γ ki を求め、その結果を発話分類確率記憶手段109 に記憶させる。また、発話分類確率更新手段 106はステップA9において、最新の発話(k=n)以 のδ-1個の発話データについて上記数(4)によ 計算を行い、それらの発話データ(最新以外 のδ-1個の発話データ)がそれぞれクラスタiに 属する確率γ ki (k=n-δ+1,・・・,n-1)を求め、その結果を発話分 類確率記憶手段109に反映(上書き)する。ただ 、この計算に先立ち、更新対象発話選択手 105が再計算の要否を判定し、発話分類確率 新手段106は、更新対象発話選択手段105が再 算の必要ありと判断した発話データについ のみ再計算を行うものとする。

 更新対象発話選択手段105が再計算の要否を 定する際の指標としては、例えば、γ ki ×logγ ki と定義することができる。これは、発話デー タがクラスタに属する確率のエントロピーを 符号反転させたものであるが、その発話デー タが特定のクラスタに帰属する確率が高けれ ば値が大きくなり、逆に多くのクラスタにつ いて確率が一様であれば値が低くなる。すな わち、発話データが、クラスタの中心付近に 位置する場合には上記指標の値が高くなり、 複数のクラスタの境界付近に位置する場合は 値が低くなる。よってこの指標が所定のしき い値よりも低い発話データ、すなわち帰属す るクラスタが未確定な発話データのみについ て計算を行うことにより、効率的に再分類を 行うことが可能となる。

 次に、パラメータ更新手段107は、発話分 確率計算手段103および発話分類確率更新手 106の計算結果に基づき、数(5)および数(3)を いてパラメータを更新する(ステップA10)。 テップA8~A10までの処理は適当な収束判定(ス ップA11)を行いつつ、複数回反復してもよい 。

 次に、新規話者登録手段104は、パラメー 記憶手段108に記憶されている生成モデルの ラメータおよび十分統計量を読み出し(ステ ップA12)、ステップA6と同様の処理により、ク ラスタ数をN+1に増やした場合の生成モデルを 作成する(ステップA13)。新規話者登録手段104 、例えば、入力された発話データがいずれ クラスタにも属さないことを仮定して新規 ラスタを追加し、その発話データに関する 分統計量を求めて、その発話データが新規 ラスタに属するようなパラメータ値を推定 ることによって、クラスタ数をN+1に増やし 場合の生成モデルを作成する。

 次に、発話分類確率計算手段103は、ステ プA8と同様の処理により、新規話者登録手 104により推定された生成モデルのパラメー および十分統計量を読み出し、入力された 新の発話データ(すなわち第n番目の発話デー タ)が新規クラスタを含む各クラスタに属す 確率を計算する(ステップA14)。また、発話分 類確率更新手段106が、第n番目の発話データ 除く直前のδ-1個の発話データについても、 テップA10と同様の処理により、それらの発 データ(最新以外のδ-1個の発話データ)が新 クラスタを含む各クラスタに属する確率を 計算する(ステップA15)。そして、パラメー 更新手段107が、発話分類確率計算手段103お び発話分類確率更新手段106の計算結果に基 き、パラメータを更新する(ステップA16)。な お、ステップA14~A16までの処理についても適 な収束判定(ステップA17)を行って、複数回反 復してもよい。

 最後に、ステップA8~A11までの処理で得ら たクラスタ数N(入力時点のまま)のモデルと ステップA14からA17までの処理で得られたク スタ数N+1のモデルとを比較し、入力済みの 話データをよりよく記述できているモデル 選択し、そのモデルを規定するパラメータ パラメータ記憶手段108に記憶させる(ステッ プA18)。

 モデルを選択する方法は、入力済みの発 データへのモデルの適合度(例えば、尤度) 、モデルの規模(例えば、モデルパラメータ )とを勘案して総合的に決めることが望まし い。具体例としては、赤池情報量基準(AIC)や 述長最小(MDL)基準等よく知られているデー 解析の手法を用いればよい。例えば、各々 モデルに関してAIC値またはMDL値をその定義 基づいて計算し、AIC値最大またはMDL値最小 モデルを選択すればよい。なお、MDL値の計 法は、例えば、文献「韓太舜、小林欣吾著 ”韓情報と符号化の数理”、岩波書店 岩波 講座 応用数学[対象11]、1994年、第8章」に開 されている方法を用いればよい。

 なお、本実施例では、選択対象となるモ ルはクラスタ数Nのモデルとクラスタ数N+1の モデルの2種類としたが、より多くの種類の ラスタ数(例えば、N-1やN+2等)から選択できる ようにすることも可能である。また、各クラ スタで規定されたガウス混合分布の混合数M 選択対象に入れることも可能である。なお 選択候補とするクラスタ数、およびそのク スタ数における各クラスタに属する発話デ タは、各発話データのそれまでに算出され 各クラスタへの分類確率に基づく所定の基 に従って決定すればよい。

 なお、本実施例において、話者データ記 手段102は、既知の話者の発話データが存在 る場合に機能するものであって、本手段が くても本実施例は成立する。同様に、更新 象発話選択手段105は、発話分類確率更新手 106が所定数全ての発話データを対象にして よいため、本手段がなくても本実施例は成 する。また、発話分類確率更新手段106はδ=1 と設定した場合は動作しないので不要となる が、その場合においても本実施例は成立可能 である。

 次に、本実施例の効果について説明する 本実施例では、発話分類確率計算手段103が デルパラメータによって規定される生成モ ルを用いて、逐次入力される発話データを 率的に分類するとともに、パラメータ更新 段107が発話分類確率計算手段103による分類 果に基づいて逐次モデルパラメータを更新 るので、現実的なメモリ使用量と処理時間 、正確に発話データを分類することができ 。すなわち、順次入力される発話データに しオンライン動作での分類が可能である。 らに、発話分類確率更新手段106がパラメー 更新手段107によって更新された最新のモデ パラメータを用いて直近の所定数の発話デ タについて再分類を行うので、過去の分類 果を検証して分類誤りを修正するような処 についてもオンライン動作で行うことが可 である。

 また、発話データの分布の生成モデルと て、ガウス混合分布と関連づけた確率モデ である隠れマルコフモデルを仮定している で、最小距離のような局所的な基準による 類や、正規分布と関連づけた生成モデルと べて、分布の異なる種々の音素から成り立 音声信号を詳細な分布構造で表現する(モデ ル化)することができ、結果、探索の誤りに 因する分類誤りを低く抑えることができる

 また、本実施例では、話者データ記憶手 102に記憶された既知話者の発話データを用 て生成モデルを作成するように構成されて るため、話者データ記憶手段102に多くの話 の発話データを蓄積しておくことにより分 の精度を高めることができる。さらに、本 施例では、更新対象発話選択手段105が過去 発話の分類結果から再分類の要否を判断す ように構成されているので、発話分類確率 新手段106が再分類の計算を効果的に行うこ ができ、比較的高速に分類処理を行うこと できる。

 また、本実施例では、新規話者登録手段1 04が新規の話者が発生したことを想定して、 ラスタ数を増やした場合の生成モデルを作 し、クラスタ数決定手段110がクラスタ数を やした場合の分類結果と既存のクラスタ数 よる分類結果とを比較してクラスタ数を決 している。このような動的なクラスタリン を行うことにより、適用範囲を不要に限定 ることなく、常に最適なクラスタ数におけ 分類をオンライン処理で行うことができる

 すなわち、確率モデルに基づいて分類確 を計算してクラスタリングを行うとともに その分類確率に基づいてモデルパラメータ 更新する、というように情報(確率モデルと 分類確率)を相互利用するように構成してい ので、クラスタリングの処理の高速化およ 高精度化といった本発明の目的を達成する とができる。

実施例2.
 次に、本発明の第2の実施例について図面を 参照して説明する。図5は、第2の実施例によ 音声分類装置の構成例を示すブロック図で る。本実施例は、第1の実施例における各手 段の動作をプログラムにより実現した場合に 、そのプログラムを読み込んで動作するコン ピュータの構成例である。図5に示すように 本実施例による音声分類装置は、入力装置51 と、音声分類用プログラム52と、データ処理 置53と、記憶装置54とを備えたコンピュータ によって実現される。

 入力装置51は、例えば、外部で発せられ 音声の音声信号を入力するマイクロフォン ある。なお、入力装置51は、コンピュータが 通信ネットワークに接続されている場合には 、図示しない通信端末から送信される所定の 条件に従って区切られた音声信号を受信する 受信装置であってもよい。

 音声分類用プログラム52は、第1の実施例 おける発話分類確率計算手段103、新規話者 録手段104、更新対象発話選択手段105、発話 類確率更新手段106、パラメータ更新手段107 およびクラスタ数決定手段110の動作を記述 たプログラムである。音声分類用プログラ 52は、CPU等のデータ処理装置53に読み込まれ 、データ処理装置53の動作を制御する。すな ち、データ処理装置53は、音声分類用プロ ラム52に従って動作する。

 記憶装置54は、話者データ記憶部541と、 ラメータ記憶部542と、話者分類確率記憶部54 3とを含む。なお、話者データ記憶部541は、 1の実施例における話者データ記憶手段102の 憶領域に相当する。また、パラメータ記憶 542は、パラメータ記憶手段108の記憶領域に 当する。また、話者分類確率記憶部543は、 話分類確率記憶手段109の記憶領域に相当す 。なお、話者データ記憶部541は、予め話者 ータが記憶されている記憶領域であるが、 ラメータ記憶部542および話者分類確率記憶 543は、音声分類用プログラム52によって割 当てられる記憶領域である。

 データ処理装置53は、音声分類用プログ ム52の制御により、話者データ記憶部541に記 憶されたデータを読み込みながら、また、パ ラメータ記憶部542および話者分類確率記憶部 543に必要に応じてデータを書き込んだり、そ れらに記憶されたデータを読み込みながら、 入力装置51から逐次入力される発話データに し、第1の実施例における発話分類確率計算 手段103、新規話者登録手段104、更新対象発話 選択手段105、発話分類確率更新手段106、パラ メータ更新手段107、およびクラスタ数決定手 段110による処理と同一の処理を実行する。

 本発明は、話者や環境ごとに音響モデル 適応化させて高精度な音声認識を行う音声 識装置全般に適用可能である。また、音声 号から話者等を検索する検索装置にも適用 きる。例えば、長時間の音声をテキスト化 たり発言者のラベルを付与したりする書き こし支援システム(議事録作成システム)に ける発言者検索装置や、大量の映像や音声 ータにテキストや話者のインデックスを自 的に付与して検索の手がかりに用いるよう 映像・音声検索システムに適用することが 能である。

 以上本発明を上記実施例に即して説明した 、本発明は、上記実施例にのみ限定される のではなく、本願特許請求の範囲の各請求 の発明の範囲内で当業者であればなし得る あろう各種変形、修正を含むことは勿論で る。
 本発明の全開示(請求の範囲を含む)の枠内 おいて、さらにその基本的技術思想に基づ て、実施形態ないし実施例の変更・調整が 能である。また、本発明の請求の範囲の枠 において種々の開示要素の多様な組み合わ ないし選択が可能である。