近藤玲史 (〒01 東京都港区芝五丁目7番1号 日本電気株式会社内 Tokyo, 〒1088001, JP)
日本電気株式会社 (〒01 東京都港区芝五丁目7番1号 Tokyo, 〒1088001, JP)
KONDO, Reishi (7-1 Shiba 5-chome, Minato-k, Tokyo 01, 〒1088001, JP)
| 音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報を記憶する非音声情報記憶手段と、 第2の音声の特徴を表す第2の音声特徴量を受け付ける音声特徴量受付手段と、 前記第1の音声の特徴を表す第1の音声特徴量と、前記受け付けられた第2の音声特徴量と、の差である特徴量差を算出する特徴量差算出手段と、 前記算出された特徴量差と、前記記憶されている第1の非音声情報と、に基づいて、前記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する非音声情報生成手段と、 を備える情報処理装置。 |
| 請求項1に記載の情報処理装置であって、 前記非音声情報生成手段は、前記記憶されている第1の非音声情報を、予め定められた情報変更規則に従って変更することにより前記第2の非音声情報を生成するように構成された情報処理装置。 |
| 請求項2に記載の情報処理装置であって、 前記非音声情報生成手段は、前記算出された特徴量差が、予め設定された情報変更条件を満足する場合に、前記記憶されている第1の非音声情報を、その情報変更条件に対応付けられた前記情報変更規則に従って変更することにより前記第2の非音声情報を生成するように構成された情報処理装置。 |
| 請求項3に記載の情報処理装置であって、 前記非音声情報生成手段は、前記算出された特徴量差が、前記情報変更条件としての第1の情報変更条件を満足する場合に、前記記憶されている第1の非音声情報を、前記情報変更規則としての第1の情報変更規則に従って変更し、一方、前記情報変更条件としての第2の情報変更条件を満足する場合に、前記記憶されている第1の非音声情報を、前記情報変更規則としての第2の情報変更規則に従って変更するように構成された情報処理装置。 |
| 請求項4に記載の情報処理装置であって、 前記非音声情報生成手段は、前記算出された特徴量差が、前記第1の情報変更条件及び前記第2の情報変更条件の両方を満足する場合に、前記第1の情報変更規則及び前記第2の情報変更規則の一方を無作為に選択し、当該選択した情報変更規則に従って、前記記憶されている第1の非音声情報を変更するように構成された情報処理装置。 |
| 請求項4又は請求項5に記載の情報処理装置であって、 前記非音声情報生成手段は、前記算出された特徴量差が、前記第1の情報変更条件を満足する場合において、予め設定された入替条件が成立しているとき、前記記憶されている第1の非音声情報を、前記第2の情報変更規則に従って変更するように構成された情報処理装置。 |
| 請求項1乃至請求項6のいずれか一項に記載の情報処理装置であって、 前記第1の音声特徴量を編集するための情報であってユーザにより入力された情報である編集情報を受け付ける編集情報受付手段を備え、 前記音声特徴量受付手段は、前記第1の音声特徴量と、前記受け付けられた編集情報と、に基づいて前記第2の音声特徴量を生成し、当該生成した第2の音声特徴量を受け付けるように構成された情報処理装置。 |
| 請求項1乃至請求項7のいずれか一項に記載の情報処理装置であって、 前記第1の音声特徴量は、前記第1の音声を構成する音声素片毎に抽出された特徴量を含み、 前記第2の音声特徴量は、前記第2の音声を構成する音声素片毎に抽出された特徴量を含む情報処理装置。 |
| 請求項8に記載の情報処理装置であって、 前記非音声情報生成手段は、前記第2の音声のうちの、前記第1の音声が有する音韻列と一致する音韻列を有する部分と対応づけられた前記第2の非音声情報を生成するように構成された情報処理装置。 |
| 請求項2乃至請求項9のいずれか一項に記載の情報処理装置であって、 前記非音声情報生成手段は、前記算出された特徴量差の大きさが大きくなるほど、前記第1の非音声情報を変更する程度を大きくするように構成された情報処理装置。 |
| 請求項1乃至請求項10に記載の情報処理装置であって、 前記第1の音声特徴量及び前記第2の音声特徴量のそれぞれは、音の高さを表すピッチ周波数、音の長さを表す時間長、及び、音の大きさを表すパワー、の少なくとも1つを含む情報処理装置。 |
| 請求項1乃至請求項11に記載の情報処理装置であって、 前記非音声情報は、画像を表す画像情報、複数の画像を含む映像を表す映像情報、及び、外部の装置の動作を制御する制御信号、の少なくとも1つを含む情報処理装置。 |
| 音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報が記憶装置に記憶させれている場合に、 第2の音声の特徴を表す第2の音声特徴量を受け付け、 前記第1の音声の特徴を表す第1の音声特徴量と、前記受け付けられた第2の音声特徴量と、の差である特徴量差を算出し、 前記算出された特徴量差と、前記記憶されている第1の非音声情報と、に基づいて、前記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する、情報処理方法。 |
| 請求項13に記載の情報処理方法であって、 前記記憶されている第1の非音声情報を、予め定められた情報変更規則に従って変更することにより前記第2の非音声情報を生成するように構成された情報処理方法。 |
| 記憶装置を備える情報処理装置に、 音声と異なる態様にてユーザに情報を伝達するための非音声情報であって第1の音声と対応づけられた非音声情報である第1の非音声情報を前記記憶装置に記憶させる非音声情報記憶処理手段と、 第2の音声の特徴を表す第2の音声特徴量を受け付ける音声特徴量受付手段と、 前記第1の音声の特徴を表す第1の音声特徴量と、前記受け付けられた第2の音声特徴量と、の差である特徴量差を算出する特徴量差算出手段と、 前記算出された特徴量差と、前記記憶されている第1の非音声情報と、に基づいて、前記第2の音声と対応づけられた非音声情報である第2の非音声情報を生成する非音声情報生成手段と、 を実現させるためのプログラム。 |
| 請求項15に記載のプログラムであって、 前記非音声情報生成手段は、前記記憶されている第1の非音声情報を、予め定められた情報変更規則に従って変更することにより前記第2の非音声情報を生成するように構成されたプログラム。 |
本発明は、音声情報に基づいて、音声と なる態様にてユーザに情報を伝達するため 非音声情報を生成する情報処理装置に関す 。
ユーザにより入力された音声情報を受け け、受け付けた音声情報が表す音声の特徴 表す音声特徴量を抽出し、抽出した音声特 量に基づいて、画像を表す画像情報を音韻 に選択する情報処理装置が知られている。 して、この情報処理装置は、選択した画像 報が表す画像を、受け付けた音声情報が表 音声と同期させて出力する。
これによれば、情報処理装置は、音声情 を入力したユーザが有する感情を反映した 像を出力することができる。従って、音声 報を入力したユーザ以外のユーザは、その 声情報が表す音声とともに、その音声情報 入力したユーザが有する感情を反映した画 を見ることができる。
ところで、上記音声情報を入力したユー が、情報処理装置によって選択された画像 報を編集し、その後、上記入力した音声情 のうちの、この編集した画像情報に対応す 部分を変更した音声情報を入力する場合を 定する。この場合、上記情報処理装置は、 更後の音声情報に基づいて再び画像情報を 択し直す。従って、ユーザが画像情報に対 て行った編集の結果は、情報処理装置が新 に選択した画像情報に反映されなくなって まう。
即ち、ユーザが、既に画像情報に対して行
ていた編集と同様の編集を、音声情報を変
する毎に行う必要が生じる場合があるとい
問題があった。このような問題は、画像情
以外の情報であって音声と異なる態様にて
ーザに情報を伝達するための非音声情報を
音声情報に基づいて生成する情報処理装置
おいても同様に生じる。
即ち、上記情報処理装置においては、音声
報を変更した場合に、ユーザが非音声情報
編集するための情報を入力する手間が煩雑
あるという問題があった。
このため、本発明の目的は、上述した課 である「音声情報を変更した場合に、ユー が非音声情報を編集するための情報を入力 る手間が煩雑であること」を解決すること 可能な情報処理装置を提供することにある
かかる目的を達成するため本発明の一形態
ある情報処理装置は、
音声と異なる態様にてユーザに情報を伝達
るための非音声情報であって第1の音声と対
応づけられた非音声情報である第1の非音声
報を記憶する非音声情報記憶手段と、
第2の音声の特徴を表す第2の音声特徴量を
け付ける音声特徴量受付手段と、
上記第1の音声の特徴を表す第1の音声特徴
と、上記受け付けられた第2の音声特徴量と
の差である特徴量差を算出する特徴量差算
手段と、
上記算出された特徴量差と、上記記憶され
いる第1の非音声情報と、に基づいて、上記
第2の音声と対応づけられた非音声情報であ
第2の非音声情報を生成する非音声情報生成
段と、
を備える。
また、本発明の他の形態である情報処理方
は、
音声と異なる態様にてユーザに情報を伝達
るための非音声情報であって第1の音声と対
応づけられた非音声情報である第1の非音声
報が記憶装置に記憶させれている場合に、
第2の音声の特徴を表す第2の音声特徴量を
け付け、
上記第1の音声の特徴を表す第1の音声特徴
と、上記受け付けられた第2の音声特徴量と
の差である特徴量差を算出し、
上記算出された特徴量差と、上記記憶され
いる第1の非音声情報と、に基づいて、上記
第2の音声と対応づけられた非音声情報であ
第2の非音声情報を生成する、方法である。
また、本発明の他の形態であるプログラム
、
記憶装置を備える情報処理装置に、
音声と異なる態様にてユーザに情報を伝達
るための非音声情報であって第1の音声と対
応づけられた非音声情報である第1の非音声
報を上記記憶装置に記憶させる非音声情報
憶処理手段と、
第2の音声の特徴を表す第2の音声特徴量を
け付ける音声特徴量受付手段と、
上記第1の音声の特徴を表す第1の音声特徴
と、上記受け付けられた第2の音声特徴量と
の差である特徴量差を算出する特徴量差算
手段と、
上記算出された特徴量差と、上記記憶され
いる第1の非音声情報と、に基づいて、上記
第2の音声と対応づけられた非音声情報であ
第2の非音声情報を生成する非音声情報生成
段と、
を実現させるためのプログラムである。
本発明は、以上のように構成されること より、音声情報を変更した場合に、ユーザ 非音声情報を編集するための情報を入力す 手間を軽減することができる。
以下、本発明に係る、情報処理装置、情 処理方法、及び、プログラム、の各実施形 について図1~図10を参照しながら説明する。
<第1実施形態>
図1に示したように、第1実施形態に係る情
処理装置1は、バスBSを介して互いに接続さ
た中央処理装置(CPU;Central Processing Unit)10と
記憶装置(メモリ及びハードディスク駆動装
(HDD))20と、入出力インタフェース部30と、を
備える。なお、記憶装置20は、着脱可能な記
媒体(例えば、磁気ディスク、半導体メモリ
又は光ディスク等)に情報を記憶するように
成されていてもよい。
情報処理装置1は、記憶装置20に記憶され いるプログラムをCPU10が実行することによ 、後述する機能を実現するように構成され いる。
入出力インタフェース部30には、入力装置40
と、出力装置50と、が接続されている。
入力装置40は、キーボード及びマウスを含
。入出力インタフェース部30は、ユーザが入
力装置40を操作することにより入力装置40に
力された情報を受け付けるように構成され
いる。
出力装置50は、ディスプレイ及びスピー を含む。入出力インタフェース部30は、CPU10 より生成された画像情報に基づいて、文字 び図形等からなる画像をディスプレイに表 (出力)するように構成されている。また、 出力インタフェース部30は、CPU10により生成 れた音声情報に基づいて、音声をスピーカ ら出力させるように構成されている。
図2は、上記のように構成された情報処理 装置1の機能を表すブロック図である。この 能は、情報処理装置1のCPU10が記憶装置20に記 憶されているプログラムを実行することによ り、実現される。
この情報処理装置1の機能は、非音声情報 記憶部(非音声情報記憶手段、非音声情報記 処理工程、非音声情報記憶処理手段)61と、 声特徴量受付部(音声特徴量受付手段、音声 徴量受付工程)62と、特徴量差算出部(特徴量 差算出手段、特徴量差算出工程)63と、非音声 情報生成部(非音声情報生成手段、非音声情 生成工程)64と、音声合成部65と、出力情報生 成部66と、を含む。
非音声情報記憶部61は、第1の音声(本例で は、「これわてすとです」という音声)と対 づけられた非音声情報である第1の非音声情 を、その第1の音声の特徴を表す第1の音声 徴量と対応付けて予め記憶装置20に記憶させ ている。非音声情報は、音声と異なる態様に てユーザに情報を伝達するための情報である 。本例では、非音声情報は、顔を含む画像を 複数含む映像を表す映像情報である。第1の 音声情報は、図3の(A)に示した映像を表す映 情報である。
また、第1の音声特徴量は、図4の(A)に示 たように、第1の音声を構成する音声素片毎 抽出された、ピッチ周波数、時間長、及び パワーを含む。ピッチ周波数は、音の高さ 表す情報である。時間長は、音の長さを表 情報である。パワーは、音の大きさを表す 報である。
音声特徴量受付部62は、第2の音声の特徴 表す第2の音声特徴量を受け付ける。第2の 声特徴量は、図4の(A)に示したように、第2の 音声を構成する音声素片毎に抽出された、ピ ッチ周波数、時間長、及び、パワーを含む。 本例では、音声特徴量受付部62は、ユーザが 力装置40を介して入力した第2の音声特徴量 受け付ける。
なお、本例では、音声素片は音節である なお、音声素片は、ダイフォン(二単音)で ってもよい。二単音は、例えば、子音及び 音からなる音(例えば、/ka/(カ))、及び、母音 及び母音からなる音(例えば、/ai/(アイ))であ 。
特徴量差算出部63は、非音声情報記憶部61 により記憶されている第1の音声特徴量と、 声特徴量受付部62により受け付けられた第2 音声特徴量と、の差である特徴量差を算出 る。具体的には、特徴量差算出部63は、音声 素片毎に、第2の音声特徴量から第1の音声特 量を減じた値を特徴量差として算出する。 徴量差は、ピッチ周波数、時間長、及び、 ワーのそれぞれに対して算出される(図4の(A )を参照)。
非音声情報生成部64は、特徴量差算出部63 により算出された特徴量差と、非音声情報記 憶部61により記憶されている第1の非音声情報 と、に基づいて、上記第2の音声と対応づけ れた非音声情報である第2の非音声情報を生 する。
具体的には、非音声情報生成部64は、第2 音声の音声素片毎に、特徴量差算出部63に り算出された特徴量差が、予め設定された 報変更条件を満足するか否かを判定する。 音声情報生成部64は、情報変更条件を表す情 報変更条件情報を、図4の(B)に示したように 記憶装置20に記憶させている。
情報変更条件情報は、ピッチ周波数、時間
、及び、パワーのそれぞれの閾値を含む情
である。
本例では、情報変更条件は、ピッチ周波数
10Hz以上増加し、且つ、パワーが3dB以上増加
する、という条件である。
そして、非音声情報生成部64は、算出さ た特徴量差が上記情報変更条件を満足する 合に、非音声情報記憶部61により記憶させら れている第1の非音声情報を、その情報変更 件に対応付けられた情報変更規則に従って 更することにより第2の非音声情報を生成す 。本例では、情報変更規則は、顔を傾ける を定めた規則である。
一方、音声合成部65は、音声特徴量受付 62により受け付けられた第2の音声特徴量と 予め記憶装置20に記憶され且つ音声素片を表 す音声素片情報と、に基づいて第2の音声を す第2の音声情報を生成する(即ち、音声合成 処理を行う)。
出力情報生成部66は、非音声情報生成部64 により生成された第2の非音声情報と、音声 成部65により生成された第2の音声情報と、 、第2の音声の音声素片毎に同期させて合成 た出力情報(音声及び映像からなる動画を表 す動画情報)を生成する。
これにより、出力装置50は、出力情報生 部66により生成された出力情報が表す音声を スピーカから出力するとともに、その出力情 報が表す映像をディスプレイに表示させる。
次に、上記のように構成された情報処理装
1の作動について説明する。
先ず、非音声情報記憶部61が、「これわて
とです」という第1の音声の特徴を表す第1の
音声特徴量(図4の(A)を参照)と、第1の音声と
応付けられた第1の非音声情報(図3の(A)を参
)と、を対応付けて記憶装置20に記憶させて
る場合を想定する。
更に、ユーザが、第2の音声特徴量を、入 力装置40を介して入力した場合を想定する。 の第2の音声特徴量は、第1の音声特徴量の ちの、音韻「わ」に対応する部分の、ピッ 周波数を20Hzだけ高くし且つ時間長を30msecだ 長くし且つパワーを5dBだけ大きくした音声 徴量である。更に、この第2の音声特徴量は 、第1の音声特徴量のうちの、音韻「で」に 応する部分の、ピッチ周波数を20Hzだけ低く た音声特徴量である。加えて、この第2の音 声特徴量は、第1の音声特徴量のうちの、末 の音韻「す」に対応する部分の、ピッチ周 数を30Hzだけ低くし且つパワーを10dBだけ大き くした音声特徴量である。
この場合、音声特徴量受付部62は、入力 れた第2の音声特徴量を受け付ける(音声特徴 量受付工程)。そして、特徴量差算出部63は、 図4の(A)に示したように、特徴量差を算出す (特徴量差算出工程)。この結果、音韻「わ」 に対応する特徴量差のみが上記情報変更条件 を満足している。従って、非音声情報生成部 64は、第1の非音声情報が表す映像のうちの音 韻「わ」に対応する部分における映像内の顔 を傾けさせるように映像を変更する処理を行 う。そして、非音声情報生成部64は、処理後 非音声情報を第2の非音声情報として取得( 成)する(非音声情報生成工程)。
このようにして、図3の(B)に示したように 、第1の非音声情報が表す映像が、音韻「わ に対応する部分にて、顔が傾けられるよう 変更された映像が、第2の音声と同期させら ながら出力装置50により出力される。
以上、説明したように、本発明による情 処理装置の第1実施形態によれば、情報処理 装置1は、算出された特徴量差と、第1の非音 情報と、に基づいて第2の非音声情報を生成 する。これにより、例えば、情報処理装置1 、ユーザによって編集された非音声情報を 1の非音声情報として記憶していた場合、情 処理装置1は、その第1の非音声情報を特徴 差に応じて変化させた情報を第2の非音声情 として生成することができる。従って、第1 の非音声情報を第2の非音声情報に反映させ ことができる。
この結果、ユーザが第1の非音声情報を編 集するために既に入力した情報と同様の情報 を、第2の非音声情報を生成するために、ユ ザが再び入力する手間を省くことができる 即ち、音声情報を変更した場合に、ユーザ 非音声情報を編集するための情報を入力す 手間を軽減することができ、ユーザの利便 を向上させることができる。
また、第1の非音声情報に基づくことなく 第2の非音声情報を生成する場合と比較して 情報処理装置1の処理負荷を軽減することが きる。
更に、第1実施形態は、音声特徴量(第1の 声特徴量及び第2の音声特徴量)が、音声素 毎に抽出された特徴量を含むように構成さ ている。これにより、情報処理装置1は、音 素片毎に変化する第2の非音声情報を生成す ることができる。この結果、ユーザに、人間 の実際の行動により一層近い行動を表す情報 を伝達することができる。
なお、上記第1実施形態の変形例は、第2 音声のうちの、第1の音声が有する音韻列と 致する音韻列を有する部分と対応づけられ 第2の非音声情報を生成するように構成され ることが好適である。即ち、この変形例にお いて、特徴量差算出部63は、共通する(同一の )音韻列を有する部分の特徴量差のみを算出 るとともに、非音声情報生成部64は、その部 分と対応づけられた第2の非音声情報のみを 成する。
具体的には、図5に示したように、第1の 声が「これわてすとですよね」であり且つ 2の音声が「これわてすとですといわれまし 」である場合、情報処理装置1は、「これわ てすとです」の部分(音韻系列同一区間SR)の 徴量差のみを算出し、その部分と対応づけ れた第2の非音声情報のみを生成する。
これによれば、特徴量差に基づいて、第2 の音声に対応する感情を表す行動を正確に特 定することができる。この結果、ユーザに、 人間の実際の行動により一層近い行動を表す 情報を伝達することができる。
また、上記第1実施形態においては、情報 変更規則は、顔を傾ける旨を定めた規則であ ったが、顔を横に向ける旨を定めた規則であ ってもよく、頬の色をより赤くする旨を定め た規則であってもよく、目の開度を小さくす る(目をつぶる)旨を定めた規則であってもよ 。
更に、上記第1実施形態においては、非音 声情報は、顔を含む画像を複数含む映像を表 す映像情報であったが、人間及び/又は動物 上半身又は全身の画像を複数含む映像を表 映像情報であってもよい。また、非音声情 は、ロボットの動作を制御する制御信号で ってもよい。
<第2実施形態>
次に、本発明の第2実施形態に係る情報処理
装置1について説明する。第2実施形態に係る
報処理装置1は、上記第1実施形態に係る情
処理装置1に対して、特徴量差が複数の情報
更条件のいずれかを満足する場合に、その
足された情報変更条件に対応付けられた情
変更規則に従って第1の非音声情報を変更す
る点において相違している。従って、以下、
かかる相違点を中心として説明する。
複数の情報変更条件は、第1の情報変更条件
~第4の情報変更条件からなる。
非音声情報生成部64は、第1の情報変更条件~
第4の情報変更条件のそれぞれを表す第1の情
変更条件情報~第4の情報変更条件情報を、
4の(B)及び図7に示したように、記憶装置20に
憶させている。更に、非音声情報生成部64
、図6に示したように、第1の情報変更条件~
4の情報変更条件のそれぞれと対応付けて第1
の情報変更規則~第4の情報変更規則を記憶装
20に記憶させている。
第1の情報変更条件は、上記第1実施形態 係る情報変更条件と同一の条件である。即 、第1の情報変更条件は、図4の(B)に示したよ うに、ピッチ周波数が10Hz以上増加し、且つ パワーが3dB以上増加する、という条件であ 。更に、第1の情報変更条件に対応付けられ 第1の情報変更規則は、図6に示したように 顔を左右方向に傾ける(首を傾げる)旨を定め た規則である。なお、本例では、首を傾げる ことは、疑問を有する旨を表す感情を表した 行動である。
また、第2の情報変更条件は、図7の(A)に したように、ピッチ周波数が5Hz以上増加し 且つ、時間長が10msec以上増加する、という 件である。更に、第2の情報変更条件に対応 けられた第2の情報変更規則は、図6に示し ように、口を大きく開く(口の開度を大きく る)旨を定めた規則である。なお、本例では 、口を大きく開くことは、嬉しさを表す感情 を表した行動である。
また、第3の情報変更条件は、図7の(B)に したように、ピッチ周波数が10Hz以上減少し 且つ、パワーが3dB以上増加する、という条 である。更に、第3の情報変更条件に対応付 けられた第3の情報変更規則は、図6に示した うに、目を大きく開く(目の開度を大きくす る)旨を定めた規則である。なお、本例では 目を大きく開くことは、怒りを表す感情を した行動である。
また、第4の情報変更条件は、図7の(C)に したように、ピッチ周波数が5Hz以上減少し 且つ、時間長が10msec以上減少し、且つ、パ ーが3dB以上減少する、という条件である。 に、第4の情報変更条件に対応付けられた第4 の情報変更規則は、図6に示したように、顔 下に向ける(顔をうつむける)旨を定めた規則 である。なお、本例では、顔を下に向けるこ とは、恥ずかしさを表す感情を表した行動で ある。
非音声情報生成部64は、第2の音声の音声 片毎に、特徴量差算出部63により算出され 特徴量差が、上記第1の情報変更条件~第4の 報変更条件の少なくとも1つを満足するか否 を判定する。
そして、非音声情報生成部64は、算出さ た特徴量差が上記第1の情報変更条件~第4の 報変更条件の少なくとも1つを満足する場合 、非音声情報記憶部61により記憶させられ いる第1の非音声情報を、当該満足された情 変更条件の1つに対応付けられた情報変更規 則(例えば、特徴量差が第1の情報変更条件を 足する場合には、第1の情報変更規則)に従 て変更することにより第2の非音声情報を生 する。
次に、上記のように構成された情報処理装
1の作動について説明する。
先ず、非音声情報記憶部61が、「これわて
とです」という第1の音声の特徴を表す第1の
音声特徴量(図8を参照)と、第1の音声と対応
けられた第1の非音声情報と、を対応付けて
憶装置20に記憶させている場合を想定する
更に、ユーザが、第2の音声特徴量を、入 力装置40を介して入力した場合を想定する。 の第2の音声特徴量は、第1の音声特徴量の ちの、音韻「わ」に対応する部分の、ピッ 周波数を20Hzだけ高くし且つ時間長を30msecだ 長くし且つパワーを5dBだけ大きくした音声 徴量である。更に、この第2の音声特徴量は 、第1の音声特徴量のうちの、音韻「で」に 応する部分の、ピッチ周波数を20Hzだけ低く た音声特徴量である。加えて、この第2の音 声特徴量は、第1の音声特徴量のうちの、末 の音韻「す」に対応する部分の、ピッチ周 数を30Hzだけ低くし且つパワーを10dBだけ大き くした音声特徴量である。
この場合、音声特徴量受付部62は、入力 れた第2の音声特徴量を受け付ける(音声特徴 量受付工程)。そして、特徴量差算出部63は、 図8に示したように、特徴量差を算出する(特 量差算出工程)。この結果、音韻「わ」に対 応する特徴量差が上記第1の情報変更条件及 上記第2の情報変更条件を満足している。従 て、非音声情報生成部64は、予め設定され 優先順位に従って、第1の情報変更規則を選 する。
次いで、非音声情報生成部64は、選択し 第1の情報変更規則に従って、第1の非音声情 報を変更することにより第2の非音声情報を 成する。具体的には、非音声情報生成部64は 、第1の非音声情報が表す映像のうちの音韻 わ」に対応する部分における映像内の顔を けさせるように映像を変更する処理を行う
更に、上記仮定に従えば、末尾の音韻「 」に対応する特徴量差が上記第3の情報変更 条件を満足している。従って、非音声情報生 成部64は、第3の情報変更規則に従って、第1 非音声情報を変更することにより第2の非音 情報を生成する。具体的には、非音声情報 成部64は、第1の非音声情報が表す映像のう の末尾の音韻「す」に対応する部分におけ 映像内の顔の目を大きく開かせるように映 を変更する処理を行う。
そして、非音声情報生成部64は、処理後 非音声情報を第2の非音声情報として取得(生 成)する(非音声情報生成工程)。
このようにして、第1の非音声情報が表す 映像が、音韻「わ」に対応する部分にて、顔 が傾けられるように変更され、且つ、末尾の 音韻「す」に対応する部分にて、目が大きく 開かれるように変更された映像が、第2の音 と同期させられながら出力装置50により出力 される。
以上、説明したように、本発明による情 処理装置の第2実施形態によれば、第1実施 態に係る情報処理装置1と同様の作用及び効 を奏することができる。更に、上記第2実施 形態によれば、複数の感情のそれぞれを表す 行動(例えば、表情、及び、動作等)を表す情 を、第2の非音声情報によってユーザに伝達 される情報に含ませることができる。これに より、ユーザに、人間の実際の行動に近い行 動を表す情報を伝達することができる。
なお、上記第2実施形態の変形例において 、非音声情報生成部64は、特徴量差算出部63 より算出された特徴量差の大きさが大きく るほど、第1の非音声情報を変更する程度を きくするように構成されていてもよい。
例えば、非音声情報生成部64は、第1の情 変更規則に従って第1の非音声情報を変更す る場合に、第1の音声特徴量と第2の音声特徴 との差の大きさが大きくなるほど、顔を大 く傾けるように映像を変更する処理を行う 同様に、非音声情報生成部64は、第2の情報 更規則に従って第1の非音声情報を変更する 場合に、第1の音声特徴量と第2の音声特徴量 の差の大きさが大きくなるほど、口をより きく開くように映像を変更する処理を行う
同様に、非音声情報生成部64は、第3の情 変更規則に従って第1の非音声情報を変更す る場合に、第1の音声特徴量と第2の音声特徴 との差の大きさが大きくなるほど、目をよ 大きく開くように映像を変更する処理を行 。同様に、非音声情報生成部64は、第4の情 変更規則に従って第1の非音声情報を変更す る場合に、第1の音声特徴量と第2の音声特徴 との差の大きさが大きくなるほど、顔を大 く下に向けるように映像を変更する処理を う。
ところで、特徴量差の大きさが大きくな ほど、第2の音声に対応する感情の強さ(激 さ)を表す程度(例えば、首を傾げる角度、及 び、目を見開く大きさ等)が大きくなる。従 て、この変形例によれば、ユーザに、人間 実際の行動により一層近い行動を表す情報 伝達することができる。
また、上記第2実施形態において、非音声 情報生成部64は、特徴量差が第1の情報変更条 件及び第2の情報変更条件の両方を満足する 合、予め設定された優先順位に従って、情 変更規則を選択し、選択した情報変更規則 従って第1の非音声情報を変更するように構 されていた。
ところで、上記第2実施形態の他の変形例に
おいて、非音声情報生成部64は、特徴量差算
部63により算出された特徴量差が、第1の情
変更条件及び第2の情報変更条件の両方を満
足する場合に、第1の情報変更規則及び第2の
報変更規則の一方を無作為に選択するよう
構成されていてもよい。この場合、非音声
報生成部64は、選択した情報変更規則に従
て、第1の非音声情報を変更するように構成
れる。
これによれば、第2の非音声情報によって、
ユーザに、人間の実際の行動により一層近い
行動を表す情報を伝達することができる。
また、非音声情報生成部64は、特徴量差 出部63により算出された特徴量差が、3つ以 の情報変更条件を満足する場合に、満足さ ている情報変更条件に対応付けられた情報 更規則の1つを無作為に選択し、選択した情 変更規則に従って第1の非音声情報を変更す るように構成されていてもよい。
なお、上記第2実施形態の他の変形例にお いて、非音声情報生成部64は、算出された特 量差が、第1の情報変更条件を満足する場合 において、予め設定された入替条件が成立し ているとき、第1の非音声情報を、第2の情報 更規則に従って変更するように構成されて てもよい。例えば、入替条件は、算出され 特徴量差がいずれかの情報変更条件を満足 た回数が予め設定された閾値回数となった 合に成立する条件である。
人間は、哀しいときに笑うこともある。 ち、実際の人間の行動は、意外性を有して る。従って、この変形例によれば、第2の非 音声情報によって、ユーザに、人間の実際の 行動により一層近い行動を表す情報を伝達す ることができる。
<第3実施形態>
次に、本発明の第3実施形態に係る情報処理
装置1について説明する。第3実施形態に係る
報処理装置1は、上記第1実施形態に係る情
処理装置1に対して、第1の音声特徴量を編集
するための編集情報を受け付け、受け付けた
編集情報と第1の音声特徴量とに基づいて第2
音声特徴量を生成する点において相違して
る。従って、以下、かかる相違点を中心と
て説明する。
情報処理装置1の機能は、図9に示したよう
、編集情報受付部(編集情報受付手段)67を含
。
編集情報受付部67は、第1の音声特徴量を編
するための情報であってユーザにより入力
れた情報である編集情報を受け付ける。
音声特徴量受付部62は、上記第1の音声特徴
と、編集情報受付部67により受け付けられ
編集情報と、に基づいて第2の音声特徴量を
成する。音声特徴量受付部62は、その生成
た第2の音声特徴量を受け付ける。
この第3実施形態によっても、第1実施形 に係る情報処理装置1と同様の作用及び効果 奏することができる。
<第4実施形態>
次に、本発明の第4実施形態に係る情報処理
装置について図10を参照しながら説明する。
第4実施形態に係る情報処理装置1の機能は
非音声情報記憶部61と、音声特徴量受付部62
、特徴量差算出部63と、非音声情報生成部64
と、を含む。
非音声情報記憶部61は、音声と異なる態 にてユーザに情報を伝達するための非音声 報であって第1の音声と対応づけられた非音 情報である第1の非音声情報を記憶装置20に 憶させる。
音声特徴量受付部62は、第2の音声の特徴を
す第2の音声特徴量を受け付ける。
特徴量差算出部63は、第1の音声の特徴を表
第1の音声特徴量と、音声特徴量受付部62に
り受け付けられた第2の音声特徴量と、の差
である特徴量差を算出する。
非音声情報生成部64は、特徴量差算出部63に
より算出された特徴量差と、非音声情報記憶
部61により記憶されている第1の非音声情報と
、に基づいて、第2の音声と対応づけられた
音声情報である第2の非音声情報を生成する
これによれば、情報処理装置1は、算出さ れた特徴量差と、第1の非音声情報と、に基 いて第2の非音声情報を生成する。これによ 、例えば、情報処理装置1が、ユーザによっ て編集された非音声情報を第1の非音声情報 して記憶していた場合、情報処理装置1は、 の第1の非音声情報を特徴量差に応じて変化 させた情報を第2の非音声情報として生成す ことができる。従って、第1の非音声情報を 2の非音声情報に反映させることができる。
この結果、ユーザが第1の非音声情報を編 集するために既に入力した情報と同様の情報 を、第2の非音声情報を生成するために、ユ ザが再び入力する手間を省くことができる 即ち、音声情報を変更した場合に、ユーザ 非音声情報を編集するための情報を入力す 手間を軽減することができ、ユーザの利便 を向上させることができる。
また、第1の非音声情報に基づくことなく 第2の非音声情報を生成する場合と比較して 情報処理装置1の処理負荷を軽減することが きる。
この場合、
上記非音声情報生成手段は、上記記憶され
いる第1の非音声情報を、予め定められた情
報変更規則に従って変更することにより上記
第2の非音声情報を生成するように構成され
ことが好適である。
この場合、
上記非音声情報生成手段は、上記算出され
特徴量差が、予め設定された情報変更条件
満足する場合に、上記記憶されている第1の
非音声情報を、その情報変更条件に対応付け
られた上記情報変更規則に従って変更するこ
とにより上記第2の非音声情報を生成するよ
に構成されることが好適である。
この場合、
上記非音声情報生成手段は、上記算出され
特徴量差が、上記情報変更条件としての第1
の情報変更条件を満足する場合に、上記記憶
されている第1の非音声情報を、上記情報変
規則としての第1の情報変更規則に従って変
し、一方、上記情報変更条件としての第2の
情報変更条件を満足する場合に、上記記憶さ
れている第1の非音声情報を、上記情報変更
則としての第2の情報変更規則に従って変更
るように構成されることが好適である。
これによれば、複数の感情のそれぞれを す行動(例えば、表情、及び、動作等)を表 情報を、第2の非音声情報によってユーザに 達される情報に含ませることができる。こ により、ユーザに、人間の実際の行動に近 行動を表す情報を伝達することができる。
この場合、
上記非音声情報生成手段は、上記算出され
特徴量差が、上記第1の情報変更条件及び上
記第2の情報変更条件の両方を満足する場合
、上記第1の情報変更規則及び上記第2の情報
変更規則の一方を無作為に選択し、当該選択
した情報変更規則に従って、上記記憶されて
いる第1の非音声情報を変更するように構成
れることが好適である。
これによれば、第2の非音声情報によって 、ユーザに、人間の実際の行動により一層近 い行動を表す情報を伝達することができる。
この場合、
上記非音声情報生成手段は、上記算出され
特徴量差が、上記第1の情報変更条件を満足
する場合において、予め設定された入替条件
が成立しているとき、上記記憶されている第
1の非音声情報を、上記第2の情報変更規則に
って変更するように構成されることが好適
ある。
人間は、哀しいときに笑うこともある。 ち、実際の人間の行動は、意外性を有して る。従って、上記のように構成することに り、第2の非音声情報によって、ユーザに、 人間の実際の行動により一層近い行動を表す 情報を伝達することができる。
この場合、
上記情報処理装置は、
上記第1の音声特徴量を編集するための情報
であってユーザにより入力された情報である
編集情報を受け付ける編集情報受付手段を備
え、
上記音声特徴量受付手段は、上記第1の音声
特徴量と、上記受け付けられた編集情報と、
に基づいて上記第2の音声特徴量を生成し、
該生成した第2の音声特徴量を受け付けるよ
に構成されることが好適である。
この場合、
上記第1の音声特徴量は、上記第1の音声を
成する音声素片毎に抽出された特徴量を含
、
上記第2の音声特徴量は、上記第2の音声を
成する音声素片毎に抽出された特徴量を含
ことが好適である。
人間の感情を表す行動は、音声素片毎に 化し得る。従って、上記構成のように、音 特徴量に、音声素片毎に抽出された特徴量 含ませることにより、情報処理装置は、音 素片毎に変化する第2の非音声情報を生成す ることができる。この結果、ユーザに、人間 の実際の行動により一層近い行動を表す情報 を伝達することができる。
この場合、
上記非音声情報生成手段は、上記第2の音声
のうちの、上記第1の音声が有する音韻列と
致する音韻列を有する部分と対応づけられ
上記第2の非音声情報を生成するように構成
れることが好適である。
これによれば、特徴量差に基づいて、第2 の音声に対応する感情を表す行動を正確に特 定することができる。この結果、ユーザに、 人間の実際の行動により一層近い行動を表す 情報を伝達することができる。
この場合、
上記非音声情報生成手段は、上記算出され
特徴量差の大きさが大きくなるほど、上記
1の非音声情報を変更する程度を大きくする
ように構成されることが好適である。
特徴量差の大きさが大きくなるほど、第2 の音声に対応する感情の強さ(激しさ)を表す 度(例えば、首を傾げる角度、及び、目を見 開く大きさ等)が大きくなる。従って、上記 ように構成することにより、ユーザに、人 の実際の行動により一層近い行動を表す情 を伝達することができる。
この場合、
上記情報処理装置は、
上記第1の音声特徴量及び上記第2の音声特
量のそれぞれは、音の高さを表すピッチ周
数、音の長さを表す時間長、及び、音の大
さを表すパワー、の少なくとも1つを含むこ
が好適である。
この場合、
上記非音声情報は、画像を表す画像情報、
数の画像を含む映像を表す映像情報、及び
外部の装置の動作を制御する制御信号、の
なくとも1つを含むことが好適である。
また、本発明の他の形態である情報処理方
は、
音声と異なる態様にてユーザに情報を伝達
るための非音声情報であって第1の音声と対
応づけられた非音声情報である第1の非音声
報が記憶装置に記憶させれている場合に、
第2の音声の特徴を表す第2の音声特徴量を
け付け、
上記第1の音声の特徴を表す第1の音声特徴
と、上記受け付けられた第2の音声特徴量と
の差である特徴量差を算出し、
上記算出された特徴量差と、上記記憶され
いる第1の非音声情報と、に基づいて、上記
第2の音声と対応づけられた非音声情報であ
第2の非音声情報を生成する、方法である。
この場合、上記情報処理方法は、上記記 されている第1の非音声情報を、予め定めら れた情報変更規則に従って変更することによ り上記第2の非音声情報を生成するように構 されることが好適である。
また、本発明の他の形態であるプログラム
、
記憶装置を備える情報処理装置に、
音声と異なる態様にてユーザに情報を伝達
るための非音声情報であって第1の音声と対
応づけられた非音声情報である第1の非音声
報を上記記憶装置に記憶させる非音声情報
憶処理手段と、
第2の音声の特徴を表す第2の音声特徴量を
け付ける音声特徴量受付手段と、
上記第1の音声の特徴を表す第1の音声特徴
と、上記受け付けられた第2の音声特徴量と
の差である特徴量差を算出する特徴量差算
手段と、
上記算出された特徴量差と、上記記憶され
いる第1の非音声情報と、に基づいて、上記
第2の音声と対応づけられた非音声情報であ
第2の非音声情報を生成する非音声情報生成
段と、
を実現させるためのプログラムである。
この場合、
上記非音声情報生成手段は、上記記憶され
いる第1の非音声情報を、予め定められた情
報変更規則に従って変更することにより上記
第2の非音声情報を生成するように構成され
ことが好適である。
上述した構成を有する、情報処理方法、 は、プログラム、の発明であっても、上記 報処理装置と同様の作用を有するために、 述した本発明の目的を達成することができ 。
以上、上記各実施形態を参照して本願発 を説明したが、本願発明は、上述した実施 態に限定されるものではない。本願発明の 成及び詳細に、本願発明の範囲内において 業者が理解し得る様々な変更をすることが きる。
例えば、上記各実施形態においては、非 声情報は、視覚を介してユーザに情報を伝 するための情報であったが、視覚以外の感 (例えば、触覚又は嗅覚等)を介してユーザ 情報を伝達するための情報であってもよい
また、上記各実施形態においてプログラ は、記憶装置に記憶されていたが、コンピ ータが読み取り可能な記録媒体に記憶され いてもよい。例えば、記録媒体は、フレキ ブルディスク、光ディスク、光磁気ディス 、及び、半導体メモリ等の可搬性を有する 体である。
また、上記各実施形態の他の変形例とし 、上述した実施形態及び変形例の任意の組 合わせが採用されてもよい。
なお、本発明は、日本国にて2008年10月21 に出願された特願2008-270407の特許出願に基づ く優先権主張の利益を享受するものであり、 当該特許出願にて開示された内容のすべてが 本明細書に含まれるものとする。
本発明は、音声情報に基づいて、その音 情報と同期させて出力するための画像情報 映像情報、又は、制御信号等を生成する情 処理装置等に適用可能である。
1 情報処理装置
10 CPU
20 記憶装置
30 入出力インタフェース部
40 入力装置
50 出力装置
61 非音声情報記憶部
62 音声特徴量受付部
63 特徴量差算出部
64 非音声情報生成部
65 音声合成部
66 出力情報生成部
67 編集情報受付部
BS バス
SR 音韻系列同一区間
Next Patent: SCREENING METHOD OF ANTI-LUNG OR ESOPHAGEAL CANCER COMPOUNDS
