Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUTOMATIC VOICE RECOGNITION DEVICE
Document Type and Number:
WIPO Patent Application WO/2009/087250
Kind Code:
A1
Abstract:
The invention relates to an automatic voice recognition device including at least one training phase, in which a first MFCC coefficient characteristics extraction module (12) is connected to an MAP adaptation module (13) connected to a normalisation module (14) which is, in turn, connected to a supervector calculation module (15).

Inventors:
GARCÍA GOMAR, Marta (Edgar Neville, 4Ciudad de la Imagen, Pozuelo de Alarcón, E-28223, ES)
FERNÁNDEZ PAZOS, Ramón José (Edgar Neville, 4Ciudad de la Imagen, Pozuelo de Alarcón, E-28223, ES)
Application Number:
ES2008/070002
Publication Date:
July 16, 2009
Filing Date:
January 10, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
AGNITIO, S.L. (Edgar Neville, 4Ciudad de la Imagen, Pozuelo de Alarcón, E-28223, ES)
GARCÍA GOMAR, Marta (Edgar Neville, 4Ciudad de la Imagen, Pozuelo de Alarcón, E-28223, ES)
FERNÁNDEZ PAZOS, Ramón José (Edgar Neville, 4Ciudad de la Imagen, Pozuelo de Alarcón, E-28223, ES)
International Classes:
G10L17/00; G10L17/04
Foreign References:
EP0964388A21999-12-15
ES2286943A12007-12-01
Other References:
BIMBOT F ET AL.: "A tutorial on text-independent speaker verification.", EURASIP JOURNAL ON APPLIED SIGNAL PROCESSING, vol. 2004, no. 4, 1 April 2004 (2004-04-01), HINDAWI USA, pages 430 - 451, XP055007011, DOI: doi:10.1155/S1110865704310024
KENNY P. ET AL.: "Feature normalization using smoothed mixture transformations", INTERSPEECH 2006-ICSLP, September 2006 (2006-09-01), PITTSBURGH, PENNSYLVANIA, pages 25 - 28
Attorney, Agent or Firm:
ELZABURU MÁRQUEZ, Alberto de (C/ Miguel Angel 21, Madrid, E-28010, ES)
Download PDF:
Claims:

REIVINDICACIONES

1. Dispositivo de reconocimiento automático de voz que comprende al menos una fase de adaptación MAP en la fase de registro y/o reconocimiento, incluyendo un primer módulo (12) de extracción de características de coeficientes MFCC conectado con un módulo de adaptación (13) MAP; caracterizado porque el módulo de adaptación (13) MAP está conectado eléctricamente y en cascada a un módulo de normalización (14).

2. Dipositivo de acuerdo a la reivindicación 1 ; caracterizado porque el módulo de normalización (14) está adaptado para utilizar cualquier técnica de cómputo de distancias de las señales de salida del módulo de adaptación MAP (13) tales como distancia euclídea, distancia mahalanobis, distancia Kullback-Leibler o similar.

3. Un programa de ordenador para reconocimiento automático de voz almacenado en un medio legible por ordenador que comprende líneas de códigos ejecutables en el medio legible por ordenador está adaptado para realizar secuencias de acciones relativas a una fase de registro y/o reconocimiento incluyendo una primera etapa (12) de extracción de características de coeficientes MFCC y una segunda etapa de adaptación (13) MAP; caracterizado porque códigos de programa legible por ordenador relativos a una etapa de normalización (14) reciben señales desde la etapa de adaptación (13) MAP.

Description:

DISPOSITIVO DE RECONOCIMIENTO AUTOMáTICO DE VOZ OBJETO DE LA INVENCIóN

[0001] La presente invención se refiere, en general, al campo técnico del reconocimiento automático de locutor. ESTADO DE LA TéCNICA

[0002] Es conocido en el estado de la técnica, que en el reconocimiento de locutor se basa en la utilización del habla de un locutor, característica influenciada tanto por la estructura física del tracto vocal del locutor como por las características de comportamiento del locutor. [0003] El reconocimiento de locutor comprende, al menos, procedimientos de registro y de reconocimiento.

[0004] La fase de registro comprende la generación de un modelo estadístico que represente al locutor a registrar a partir del habla disponible del mismo.

[0005] La fase de reconocimiento incluye la identificación y verificación de una muestra de voz.

[0006] La identificación es la tarea de buscar en una base de datos una referencia que coincida con la muestra de voz a reconocer y previamente grabada y almacenada. Para realizar dicha tarea, se obtiene un conjunto de características de la muestra de voz y se comparan con características iguales de todas las referencias de la base de datos.

[0007] La verificación trata de confirmar la identidad declarada del locutor, al comparar la muestra de voz suministrada con muestras registradas con anterioridad.

[0008] Un procedimiento de extracción de características de una muestra de voz es conocido en el estado de la técnica, donde se describe que en dicho procedimiento se eliminan los silencios de una muestra de voz, se extraen los coeficientes cepstrales en escala de frecuencia MEL, MFCC, son coeficientes para la representación del habla basados en la percepción auditiva humana, donde las bandas de frecuencia están espaciadas logarítmicamente para modelar la respuesta auditiva humana más apropiada que las bandas espaciadas linealmente de una transformada discreta de Fourier, DFT.

[0009] Como salida de dicho proceso se obtienen unos parámetros aproximadamente incorrelados entre ellos, siendo representados por un vector de característica x y dimensión D.

[0010] A partir de dichos parámetros, cada locutor estará representado por un modelo de mezclas de Gausianas, GMM. Cada modelo es la representación que se utiliza para caracterizar a un individuo en el sistema de reconocimiento automático de locutor.

[0011] El modelo que representa al locutor se obtiene mediante el método de adaptación de modelos independientes de locutor a los distintos locutores, máximum a posterior MAP.

[0012] En el sistema de reconocimiento de locutor conocido, el grado de verosimilitud o score de la voz de entrada frente al modelo de un locutor se obtiene mediante el cálculo de una relación de verosimilitud de los parámetros extraídos de la voz de entrada frente el modelo del locutor previamente generado y frente a un modelo universal UBM.

[0013] En el reconocimiento automático de locutor es necesaria la normalización de las puntuaciones, a saber, scores o verosimilitudes obtenidas frente a los modelos de los locutores.

[0014] La normalización de las distribuciones de verosimilitudes de diferentes locutores se utiliza para encontrar umbrales independientes de locutor para el proceso de decisión, realizando una transformación de las puntuaciones del proceso de reconocimiento de locutor con el objetivo de compensar las posibles diferencias que puedan existir en el rango de puntuaciones del conjunto de locutores. [0015] La normalización utilizada es, en general, la TNorm, Test- Normalization, que trata de compensar la variabilidad en la verificación utilizando una cohorte fija de impostor.

[0016] Donde a partir de un conjunto de vectores de características, extraídos de una locución de test y un modelo de locutor, la locución de test se enfrenta a un conjunto de modelos de otros locutores, es decir, a un conjunto de impostores, cohorte, para obtener una serie de puntuaciones. A partir de estas puntuaciones de impostor se estiman la media y la varianza y se normaliza la puntuación inicial.

[0017] Después del proceso de normalización, las puntuaciones para cada modelo estarán alineadas y se podrán comparar unas con otras.

[0018] La cohorte a utilizar para normalizar cada modelo consiste entre 20 y 50 modelos diferentes. Estos modelos pertenecientes a la cohorte han de tener características similares a las características del locutor registrado en el sistema.

[0019] Adicionalmente, existe el problema de que las variables significativas de los modelos para elegir la cohorte adecuada no siempre están claras.

[0020] Una desventaja de la utilización de la adaptación MAP en el estado de la técnica conocido es que su efectividad decrece cuando se dispone de locuciones de longitudes de audio diferentes o substancialmente heterogéneas, conocido a partir de la solicitud de patente internacional PCT/ES2007/070094.

[0021] Como consecuencia, otra desventaja del reconocimiento automático de locutor a partir de una muestra de voz, es que la cantidad de habla neta disponible en el audio utilizado para generar un modelo estadístico de la voz de un locutor y/o la cantidad de habla neta disponible en el audio de entrada o a examen para identificar afecta sobremanera al rendimiento y la fiabilidad del procedimiento. Cuanto mayor es el habla neta disponible tanto para el entrenamiento como para el reconocimiento, más fiable es el resultado obtenido.

CARACTERIZACIóN DE LA INVENCIóN

[0022] La presente invención busca resolver o reducir uno o más de los inconvenientes expuestos anteriormente mediante un procedimiento automático de reconocimiento de voz como es reivindicado en la reivindicación 1. Realizaciones de la invención son establecidas en las reivindicaciones dependientes.

[0023] Un objeto de la invención es utilizar en cualquier procedimiento de reconocimiento automático de locutor comprendiendo, al menos, una etapa de adaptación de máximum a posteriori, una etapa de normalización para eliminar el efecto de la variabilidad de longitudes de audio disponibles a la entrada de dicha etapa. La referida etapa de normalización ha de estar conectada en cascada a la salida de la etapa previa de adaptación de máximum a posteriori.

[0024] Otro objeto de la invención es utilizar un procedimiento para

homogenizar sustancialmente locuciones de audio de longitudes heterogéneas después de aplicar el procedimiento de adaptación de máximum a posteriori tanto en la en la etapa de registro como, en sistemas más recientes, en la etapa de reconocimiento. [0025] Aun otro objeto de la invención es incrementar el rendimiento y fiabilidad del procedimiento de reconocimiento automático de locutor que utiliza técnicas de adaptación de máximum a posteriori como parte del referido procedimiento de reconocimiento.

[0026] Todavía otro objeto de la invención es independizar la selección de la cohorte de normalización para un modelo de locutor deseado de la longitud de audio de la locución almacenada previamente y utilizada para generar su modelo a registrar en el sistema.

[0027] Aun otro objeto de la invención es reducir la carga de cálculo de computación necesario para alcanzar un resultado en el reconocimiento de locutor, es decir, se reducen los requisitos físicos relativos al ordenador en el cual se ejecutará el procedimiento de reconocimiento automático de locutor, aumentando la velocidad de obtención del referido resultado.

[0028] Todavía otro objeto de la invención es incrementar el rendimiento global del procedimiento de reconocimiento mediante el incremento del rendimiento de cada etapa de adaptación de máximum a posteriori, sin incrementar substancialmente la complejidad global del procedimiento de reconocimiento automático de locutor y sin renunciar a parte del habla neta disponible con el propósito de la homogeneización del habla neta en cada una de las locuciones. BREVE ENUNCIADO DE LAS FIGURAS

[0029] . Una explicación más detallada de la invención se da en descripción que sigue y que se basa en las figuras adjuntas:

[0030] la figura 1 muestra en un diagrama de bloques un módulo de adaptación MAP conectado en cascada a un módulo de normalización de acuerdo a la invención,

[0031] la figura 2 ilustra una representación según unos ejes cartesianos de una salida del módulo de adaptación MAP de acuerdo a la invención, y

[0032] la figura 3 ilustra una representación según unos ejes cartesianos de una salida del módulo de normalización de distancia de acuerdo a la invención, dónde dos supervectores de dimensión 2, esto es, GMMs compuestos por una sola media que modelan un espacio de características de dos dimensiones, se han utilizado como ejemplo en las referidas figuras 2 y 3.

DESCRIPCIóN DE LA INVENCIóN

[0033] El reconocimiento de locutor se apoya en técnicas basadas en modelos de mezclas gausianas, Gaussian Mixture Model GMM y adaptación MAP, al menos, en la fase de registro. [0034] Recientemente se han desarrollado sistemas basados en características distintas a los coeficientes MFCC pero derivadas de éstos. Las nuevas características son los vectores de medias resultantes de una etapa de adaptación MAP.

[0035] En estos sistemas, por tanto, la extracción de características a partir de la locución disponible tanto para la fase de registro/entrenamiento como para la fase de reconocimiento, incluye una fase de adaptación.

[0036] La figura 1 ilustra en un diagrama de bloques una etapa de adaptación MAP 13 conectada eléctricamente a una primera etapa de extracción 12 de coeficientes cesptrales en escala de frecuencia MeI, MFCC. Resumiendo, ambas están conectadas en cascada.

[0037] Los datos 11 recibidos a la entrada de la primera etapa de extracción 11 son proporcionados a través de una salida de la primera etapa 12 de extracción de características de coeficientes MFCC a una entrada de la primera etapa de adaptación 13 MAP que, a su vez, está conectada mediante una conexión 15 eléctrica con una primera etapa de normalización 14 para normalizar las señales de salida de la etapa MAP 13.

[0038] Los coeficientes MFCC generados a la salida de la primera etapa 12, son coeficientes que representan el habla basados en la percepción auditiva humana, como se ha comentado anteriormente. Para cada trama de voz entregada a la entrada de la etapa 12 se genera a su salida un vector de coeficientes MFCC, que representan la energía de la señal, la velocidad y/o aceleración, que representan la evolución temporal de los fonemas al pasar de unos a otros, en otras palabras, el número de coeficientes MFCC caracteriza la

envolvente espectral de las ventanas de la muestra de voz que representan.

[0039] La etapa 13 de adaptación MAP incluye la utilización de información a priori sobre la distribución de los parámetros del modelo. Esta información a priori utilizada para realizar la adaptación se genera a partir de los parámetros del modelo independiente del locutor. El nuevo espacio de características está representando por los supervectores de medias resultantes de realizar la adaptación MAP a partir de un modelo universal UBM.

[0040] La etapa 14 de normalización puede utilizar, en general, cualquier técnica de normalización de longitudes de las señales de salida del módulo MAP 13 tales como del módulo, distancia euclídea, distancia mahalanobis, distancia Kullback-Leibler o distancia KL o similares; todas ellas son técnicas de medidas de distancia entre modelos de mezclas de guassianas conocidas.

[0041] La figura 2, muestra una representación en un espacio plano y en unos ejes cartesianos las señales de salida de la etapa 13 MAP antes de proceder a su normalización.

[0042] La figura 3 representa, en el mismo espacio plano, según unos ejes cartesianos, unas señales normalizadas de salida 16 del módulo de normalización 14.

[0043] Habiendo identificado que la cantidad de habla neta disponible para una voz afecta a la distancia entre SuperVector de medias generado vía adaptación MAP y el supervector de medias definido para el modelo universal, se hace necesaria una normalización a distancia unidad.

[0044] A continuación se describe un procedimiento de normalización de la distancia utilizando para llevarlo acabo la distancia Mahalanobis o lo que es lo mismo, el límite superior de la distancia Kullback-Leibler o distancia KL.

[0045] Dado un vector de medias resultante de 1024 gaussianas modelando el espacio de vectores MFCC de dimensión 38, el cálculo de la distancia entre un modelo A y el UBM se realiza aplicando la siguiente ecuación que representa el límite superior de la distancia KL

[0046] d A→mM = μ ^ , es el vector de medias del modelo A M- UBM es e l vector de medias del modelo universal UBM 1 < i < M siendo M el número de gaussianas 1 < c < C siendo C el número de coeficientes de los vectoresMFCC ω es el peso de cada una de las gaussianas i del modelo A y del UBM (solóse adaptan medias)

^ ' es la matriz de covarianzas del UBM y del modelo A (sólo se adaptan medias)

[0047] En este ejemplo de cálculo de distancia, la distancia representa una distancia euclídea ponderada por la varianza y el peso de las gaussianas.

[0048] Teniendo en cuenta que la covarianza y los pesos son idénticos para el modelo A y el modelo universal UBM, la normalización a distancia unidad de cada uno de los vectores de media se puede resumir en la siguiente ecuación

[0050] Con esta normalización a distancia unidad se elimina la componente afectada por la cantidad de audio utilizada para la adaptación sin afectar al rendimiento y a la fiabilidad de un procedimiento equivalente que no realice un procedimiento de normalización de distancia cuando utiliza la técnica de adaptación MAP como parte de sus algoritmos en un procedimiento de reconocimiento automático de locutor tal como el conocido a partir del estado de la técnica descrito. [0051] Otra ventaja de la normalización de la distancia utilizada en la adaptación MAP es que la selección de la cohorte de normalización para un modelo de locutor concreto tampoco se verá afectada por la longitud de audio utilizada para entrenar los distintos modelos involucrados.

[0052] En las figuras 2 y3 se describe gráficamente el procedimiento. En esta gráfica se ha utilizado como ejemplo dos supervectores de dimensión 2.

[0053] Se ha de tener en cuenta que la realización de la invención se puede realizar por medio de un programa de ordenador que está cargado en una

memoria interna de una computadora comprendiendo unidades de entrada y salida así como medios de procesamiento.

[0054] El ordenador comprende líneas de códigos ejecutables adaptados para realizar secuencias de acciones descritas en la anterior realización cuando son ejecutadas en la computadora. En particular, el programa de ordenador es almacenado en un medio legible por ordenador tal como CD-ROM, DVD, or similar.

[0055] La realización y ejemplo establecido en esta memoria se presenta como la mejor explicación de la presente invención y su aplicación práctica y para permitir de ese modo que un experto en la técnica ponga en práctica y utilicen la invención. No obstante, el experto en la técnica reconocerá que la descripción y ejemplo anterior ha sido presentados con el propósito de ilustrar y solamente como ejemplo.