Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SPEECH RECOGNITION PROCESS AND DEVICE
Document Type and Number:
WIPO Patent Application WO/1996/033486
Kind Code:
A1
Abstract:
The invention discloses a speech recognition process and device by means of which, in the reference signal are predefined a plurality of intervals corresponding to each formant, and comprising a first step whereby is determined the maximum value of the signal in a plurality of frequency bands wherein is divided the first interval, and a second step to calculate a parameter indicating the dissimilarity between the power of the speech signal and the reference signal. The acoustic characteristics of the speech signal and of the reference signal are compared without having to compare the two full spectra between each other.

Inventors:
ESPAR FIGUERAS ORIOL (ES)
Application Number:
PCT/ES1996/000088
Publication Date:
October 24, 1996
Filing Date:
April 17, 1996
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ESPAR FIGUERAS ORIOL (ES)
International Classes:
G10L15/10; (IPC1-7): G10L9/02
Foreign References:
US3428748A1969-02-18
CA1246745A1988-12-13
US3919481A1975-11-11
GB1020527A1966-02-16
Download PDF:
Claims:
REIVINDICACIONES
1. Procedimiento para el cálculo de la distancia o disimilitud entre una señal de voz y una señal de referencia, para ser utilizado en un sistema de reconocimiento del habla, caracterizado por el hecho de que en la señal de referencia están predefinidos una pluralidad de primeros intervalos correspondientes a cada formante o frecuencia de resonancia, procedimiento que comprende para cada formante las etapas de: a. determinar el valor máximo (mi; m2) de la señal de voz de entre los valores de energía que presenta dicha señal en una pluralidad de bandas de frecuencia prefijadas, en las que está dividido el primer intervalo de frecuencias; b. calcular, para cada banda de frecuencias, un parámetro indicador de la disimilitud entre la energía de la señal de voz, normalizada respecto al valor máximo (mi; m2) obtenido en la etapa a) , y la señal de referencia.
2. Procedimiento según la reivindicación 1, caracterizado por el hecho de que cada primer intervalo comprende un segundo intervalo que define las frecuencias en que debe situarse el formante de la señal de voz para que dicha señal de voz corresponda al formante de una unidad fonética del habla a reconocer, y por el hecho de que la etapa a) comprende además determinar el valor máximo (m3; m4) de energía de la señal de voz de entre los valores de energía que presenta dicha señal de voz en cada una de la pluralidad de bandas prefijadas en las que está dividido el segundo intervalo de frecuencias; restar a los valores máximos (mi, m3, m2, m4) correspondientes al primer y al segundo intervalo, un valor de atenuación (rlm); la etapa b) comprende calcular, para cada banda de frecuencias, la diferencia en valor absoluto, entre el valor de energía de la señal de voz, normalizado respecto al máximo (mi; m2) del primer intervalo obtenido en la etapa a) , y el valor de la señal de referencia; comprendiendo además el procedimiento las etapas: c. multiplicar los valores obtenidos en la etapa b) por cero cuando, en una banda de frecuencias, el valor de energía de la señal de voz (bc(n)) es inferior al valor máximo atenuado (mxl; mx2 ) de la señal de voz, si la banda n se encuentra en el primer intervalo, y cuando el valor de energía de la señal de voz es inferior al valor máximo atenuado (mxl, mx2; mx3 , mx4) de la señal de voz del primer y del segundo intervalo, si la banda se encuentra en el segundo intervalo, d. sumar las diferencias restantes de la etapa c); e. dividir la suma realizada en la etapa anterior por el número de bandas que no se han multiplicado por cero en la etapa c), obteniéndose la distancia referida a un solo formante; y comprendiendo además, el procedimiento, una etapa que consiste en sumar los valores obtenidos en la etapa e) de todos los formantes considerados, que constituyen la señal de voz, obteniéndose así la distancia o disimilitud entre la señal de voz y la señal de referencia.
3. Procedimiento según la reivindicación 2, caracterizado por el hecho de que el valor de atenuación (rlm) de la etapa a) está comprendido entre 3 y 48 dB.
4. Procedimiento según la reivindicación 2, caracterizado por el hecho de que, dependiendo del formante de la unidad fonética a reconocer, el segundo intervalo comprende un pluralidad de subintervalos, de manera que, el máximo del citado segundo intervalo (mx3; mx ) se determina de entre los valores máximos de cada uno de los subintervalos citados.
5. Dispositivo para la realización del procedimiento descrito en la reivindicación 2, caracterizado por el hecho de que comprende un primer circuito electrónico combinacional (3) que realiza, para todos los formantes, las operaciones correspondientes a la etapa a); una pluralidad de segundos circuitos electrónicos combinacionales (2), cada uno de los cuales realiza las operaciones correspondientes a las etapas b) y e), dependiendo el número de circuitos (2) del número de bandas de frecuencia prefijadas; una pluralidad de primeros circuitos electrónicos sumadores (SUM2, SUM4), cada uno de los cuales realiza la suma correspondiente a la etapa d) ; una pluralidad de segundos circuitos electrónicos sumadores (SUMÍ, SUM3) que suma el número de bandas restantes de la etapa c), tal como se indica en la etapa e); una pluralidad de circuitos electrónicos (INV1, INV2) para la determinación del número inverso correspondiente a la suma obtenida en los segundos circuitos electrónicos sumadores (SUMÍ, SUM3) ; una pluralidad de circuitos electrónicos multiplicadores (MUL1, MUL2) que multiplican los números inversos obtenidos por las sumas obtenidas en los primeros circuitos electrónicos sumadores (SUM2, SUM4) , con lo cual se realiza, para todos los formantes, la división correspondiente a la etapa e) ; y un tercer circuito electrónico sumador (SUM5) que realiza la suma de los valores obtenidos en la etapa e) de todos los formantes considerados, que constituyen la señal de voz, obteniéndose así la distancia o disimilitud (D) entre la señal de voz y la señal de referencia.
6. Dispositivo según la reivindicación 5, caracterizado por el hecho de que el primer circuito electrónico combinacional (3) comprende una pluralidad de puertas lógicas AND y NOT (4) que realizan la selección de los valores de la señal de voz (bc(n)) en cada una de las bandas de frecuencia prefijadas, según se encuentren en el primer intervalo o en el segundo intervalo de frecuencias, de cada formante, de la señal de referencia; una pluralidad de terceros circuitos electrónicos combinacionales (BMAX1, 5 BMAX2, BMAX3, BMAX4 ) que determinan el valor máximo de entre los valores seleccionados por las puertas lógicas AND y NOT (4); y una pluralidad de circuitos electrónicos Testadores (RES1, RES2, RES3, RES4) en valor absoluto que restan el valor de atenuación (rlm), a los valores máximos (mi, m2, 10 m3, m4) obtenidos por los terceros circuitos electrónicos combinacionales. Dispositivo según la reivindicación 6, caracterizado por el hecho de que los terceros circuitos 15 electrónicos combinacionales (BMAX1, BMAX2, BMAX3, BMAX4 ) comprenden una pluralidad de puertas lógicas AND (5) y OR (6), y una pluralidad de cuartos circuitos electrónicos combinacionales (7) que realizan la selección de los bits adecuados de los valores de la señal de voz (bc(n)) en cada 20 una de las bandas de frecuencia prefijadas, para determinar el valor máximo (mi; m2; m3; m4 ) .
7. Dispositivo según la reivindicación 7, caracterizado por el hecho de que los cuartos circuitos 25 combinacionales (7) comprenden una pluralidad de puertas lógicas AND (8, 11, 13), NOT (9, 10) y OR (12) para determinar los valores de los coeficientes cmn según las ecuaciones: + . >b.1 maaxxb1n) c2n=c1n(b2maxb2n + b2maxb2n) c3n=c2n(b3maxb3n + b3maxb3n) c n=c3n(b maxbAn + b maxbAn) *& 35.
8. Dispositivo según la reivindicación 5, caracterizado por el hecho de que el segundo circuito electrónico combinacional (2) comprende una primera puerta lógica AND (15) para determinar si la banda de frecuencias considerada se encuentra o no dentro del segundo intervalo de frecuencias; una pluralidad de primeros circuitos electrónicos multiplexores (MUX1, MUX2) y una pluralidad de circuitos electrónicos comparadores (CMP1, CMP2) para realizar la eliminación de las bandas de frecuencia cuyo valor de la señal de voz es inferior al valor máximo (mi; m2) de la señal de voz atenuada, siendo dicho valor máximo (mi; m2) el correspondiente al primero o al segundo intervalo, según en cual de estos intervalos se encuentre la banda de frecuencias considerada, estando conectados dichos circuitos multiplexoreε (MUX1, MUX2) a los circuitos comparadores (CMP1, CMP2) correspondientes y estando el circuito comparador (CMP1) correspondiente al segundo intervalo conectado a la primera puerta AND (15); una puerta OR (17) que detecta si la banda considerada es útil para el cálculo de la distancia, al recibir un "1" de alguno de los circuitos electrónicos comparadores (CMP1, CMP2), directamente cuando la banda de frecuencias está comprendida dentro del primer intervalo y, a través de la primera puerta AND (15), cuando la banda de frecuencias está comprendida dentro del segundo intervalo; un segundo circuito electrónico multiplexor (MUX3) y un primero (RES5) y un segundo (RES6) circuitos electrónicos restadores en valor absoluto para realizar el cálculo de las diferencias entre los valores de la señal de voz y de la señal de referencia, para cada una de la bandas de frecuencia prefijadas, estando conectado el segundo circuito multiplexor (MUX3) al primer circuito restador (RES5) en valor absoluto y estando conectado el segundo circuito restador (RES6) en valor absoluto al primer circuito restador (RES5) en valor absoluto; una segunda puerta lógica AND (18), conectada al segundo circuito restador (RES6) en valor absoluto, que, en el caso de que la puerta OR (17) presente un "1" en su salida, permite el paso del valor de la diferencia; una pluralidad de terceras puertas AND (20, 24), tantas como formantes se consideren, conectadas a la segunda puerta AND (18), que presentan en su salida el valor de la diferencia, en aquella puerta AND (20; 24) asociada al formante que se está tratando, si la puerta OR (17) presenta un "1" en su salida; una pluralidad de cuartas puertas AND (19, 22), tantas como formantes se consideren, conectadas a la puerta OR (17), una de las cuales, la correspondiente al formante que se está tratando, presenta un "1" en su salida, en el caso de que la puerta OR presente también un "1" en su salida; y una pluralidad de puertas NOT (21, 23) para diferenciar las puertas AND (19, 20; 22, 24) correspondientes a cada uno de los formantes considerados.
Description:
PROCEDIMIENTO Y DISPOSITIVO PARA RECONOCIMIENTO DEL HABLA.

La presente invención se refiere a un procedimiento para el cálculo de la distancia o disimilitud entre una señal de voz y una señal de referencia, para ser utilizado por un sistema de reconocimiento del habla, y al dispositivo para la realización del mismo.

ANTECEDENTES DE LA INVENCIÓN

En cualquier sistema de reconocimiento del habla es necesario determinar los parámetros acústicos que se utilizan para determinar la distancia o disimilitud entre dos señales distintas, la señal de voz y las distintas señales de referencia. Si se quiere que el sistema de reconocimiento del habla sea independiente del locutor y que soporte el habla continua, se deben extraer y comparar las características acústicas de las diferentes unidades fonéticas que se utilizan.

Los sistemas actuales de reconocimiento del habla presentan el inconveniente de que son dependientes del locutor y necesitan que el locutor haga una pequeña pausa al pronunciar cada una de las palabras.

Además, los sistemas actuales presentan también el inconveniente de que requieren grandes cantidades de memoria para almacenar toda la información, además de ser poco exactos y muy sensibles al ruido de fondo. Esto se debe a que los citados sistemas se basan en la comparación de espectros o en la comparación de coeficientes de predicción lineal (LPC) o de coeficientes cepstrales, los cuales son parámetros dependientes del tiempo.

Con la intención de obtener las características acústicas de la señal de voz, es conocido que la energía de la misma se encuentra concentrada alrededor de las frecuencias de resonancia del conducto bucal, las cuales reciben el nombre de formantes. Es conocido también que las frecuencias de los primeros formantes son parecidas en una misma unidad fonética, para cualquier locutor. En consecuencia, las frecuencias de los primeros formantes son el parámetro característico de la señal de voz, el cual permite realizar el reconocimiento de cada unidad fonética.

Para eliminar las características peculiares de cada locutor y los efectos del ruido, no se evalúa la totalidad de la señal, sino que se realiza la evaluación de las bandas de frecuencia correspondientes a los formantes en los que está concentrada la energía de la señal de voz.

Además, se realiza la evaluación de las bandas de frecuencia de cada formante por separado, ya que las diferencias de energía entre las bandas de frecuencia de cada formante no es un parámetro independiente del locutor. De esta manera, en lugar de realizar una comparación entre espectros de señales, se realiza una comparación entre los formantes de la señal de voz y los formantes de la señal de referencia.

DESCRIPCIÓN DE LA INVENCIÓN

Entonces, el objetivo de la presente invención es el de proporcionar un procedimiento y un dispositivo para la realización del mismo, que permitan comparar, lo más exactamente posible, las características acústicas de la señal de voz, con las características acústicas de las unidades fonéticas a reconocer.

Así, con el procedimiento y el dispositivo de la invención se consiguen resolver los inconvenientes citados anteriormente, proporcionándose además otras ventajas que se

96/33486

describirán.

El procedimiento para el cálculo de la distancia o disimilitud entre una señal de voz y una señal de referencia, para ser utilizado en un sistema de reconocimiento del habla, se caracteriza por el hecho de que en la señal de referencia están predefinidos una pluralidad de primeros intervalos correspondientes a cada formante o frecuencia de resonancia, procedimiento que comprende para cada formante las etapas de: a. determinar el valor máximo de la señal de voz de entre los valores de energía que presenta dicha señal en una pluralidad de bandas de frecuencia prefijadas, en las que está dividido el primer intervalo de frecuencias; b. calcular, para cada banda de frecuencias, un parámetro indicador de la disimilitud entre la energía de la señal de voz, normalizada respecto al valor máximo obtenido en la etapa a), y la señal de referencia.

El procedimiento permite comparar las características acústicas de la señal de voz con las características acústicas de las señales de referencia (unidades fonéticas) a reconocer.

De este modo, el procedimiento evalúa las diferencias de energía de los formantes del espectro de la señal de referencia y del espectro de la señal de voz a analizar, realizándose una comparación de los formantes de la señal de voz con los formantes de las señales de referencia y no una comparación entre espectros de señales como se realiza en los sistemas actuales.

Además, cada primer intervalo comprende un segundo intervalo que define las frecuencias en que debe situarse el formante de la señal de voz para que dicha señal de voz corresponda al formante de una unidad fonética del habla a reconocer, y la etapa a) comprende además determinar el valor máximo de energía de la señal de voz de entre los valores de

energía que presenta dicha señal de voz en cada una de la pluralidad de bandas prefijadas en las que está dividido el segundo intervalo de frecuencias; restar a los valores máximos correspondientes al primer y al segundo intervalo, un valor de atenuación; la etapa b) comprende calcular, para cada banda de frecuencias, la diferencia en valor absoluto, entre el valor de energía de la señal de voz, normalizado respecto al máximo del primer intervalo obtenido en la etapa a), y el valor de la señal de referencia; comprendiendo además el procedimiento las etapas: c. multiplicar los valores obtenidos en la etapa b) por cero cuando, en una banda de frecuencias, el valor de energía de la señal de voz es inferior al valor máximo atenuado de la señal de voz, si la banda se encuentra en el primer intervalo, y cuando el valor de energía de la señal de la señal de voz es inferior al valor máximo atenuado de la señal de voz del primer y del segundo intervalo, si la banda se encuentra en el segundo intervalo, d. sumar las diferencias restantes de la etapa c); e. dividir la suma realizada en la etapa anterior por el número de bandas que no se han multiplicado por cero en la etapa c) , obteniéndose la distancia referida a un solo forman-te; y comprendiendo además, el procedimiento, una etapa que consiste en sumar los valores obtenidos en la etapa e) de todos los formantes considerados, que constituyen la señal de voz, obteniéndose así la distancia o disimilitud entre la señal de voz y la señal de referencia. Así, se utilizan las bandas de frecuencia que son útiles para reconocer una unidad fonética determinada. Estas bandas de frecuencia dependen de la señal de voz y de las se.ñales de referencia a comparar, con lo que no se comparan dos espectros completos, sino que sólo se comparan las bandas de frecuencia correspondientes a los formantes de la

señal de voz y de la señal de referencia.

Preferiblemente, el valor de atenuación de la etapa a) está comprendido entre 3 y 48 dB.

Dicho valor de atenuación es el valor máximo de atenuación que puede tener una banda de frecuencias para ser utilizada por el procedimiento.

Según una realización de la invención, dependiendo del formante de la unidad fonética a reconocer, el segundo intervalo comprende un pluralidad de subintervalos, de manera que, el máximo del citado segundo intervalo se determina de entre los valores máximos de cada uno de los subintervalos citados.

El dispositivo para el cálculo de la distancia o disimilitud entre una señal de voz y una señal de referencia, para ser utilizado en un sistema de reconocimiento del habla, se caracteriza por el hecho de que comprende un primer circuito electrónico co binacional que realiza, para todos los formantes, las operaciones correspondientes a la etapa a) ; una pluralidad de segundos circuitos electrónicos combinacionales, cada uno de los cuales realiza las operaciones correspondientes a las etapas b) y e), dependiendo el número de circuitos del número de bandas de frecuencia prefijadas. Comprende también una pluralidad de primeros circuitos electrónicos sumadores, cada uno de los cuales realiza la suma correspondiente a la etapa d); una pluralidad de segundos circuitos electrónicos sumadores que suma el número de bandas restantes de la etapa c), tal como se indica en la etapa e); una pluralidad de circuitos electrónicos para la determinación del número inverso correspondiente a la suma obtenida en los segundos circuitos electrónicos sumadores; una pluralidad de circuitos electrónicos multiplicadores que multiplican los números inversos obtenidos, por las sumas obtenidas en los primeros circuitos electrónicos sumadores, con lo cual se realiza, para todos los formantes, la división

correspondiente a la etapa e); y un tercer circuito electrónico sumador que realiza la suma de los valores obtenidos en la etapa e) de todos los formantes considerados, que constituyen la señal de voz, obteniéndose así la distancia o disimilitud entre la señal de voz y la señal de referencia.

Con el dispositivo descrito se consigue la realización de todas las etapas del procedimiento citado anteriormente. La única operación que presenta una cierta dificultad es la división, pero como se puede observar, el problema se resuelve mediante una multiplicación de un número por el inverso de otro.

Solamente se requieren como mínimo 6 bits para la codificación de cada banda de frecuercias de cada espectro de cada señal de referencia, con lo que los requerimientos de memoria, en el dispositivo, son mínimos.

Además, con el dispositivo descrito se consigue una velocidad de cálculo elevada, ya que todos los cálculos se realizan al mismo tiempo, en un sólo ciclo. Preferentemente, el primer circuito electrónico combinacional comprende una pluralidad de puertas lógicas AND y NOT que realizan la selección de los valores de la señal de voz en cada una de las bandas de frecuencia prefijadas, según se encuentren en el primer intervalo o en el segundo intervalo de frecuencias, de cada formante, de la señal de referencia; una pluralidad de terceros circuitos electrónicos combinacionales que determinan el valor máximo de entre los valores seleccionados por las puertas lógicas AND y NOT; y una pluralidad de circuitos electrónicos Testadores en valor absoluto que restan el valor de atenuación, a los valores máximos obtenidos por los terceros circuitos electrónicos co bmacionales .

El primer circuito electrónico realiza el cálculo de los valores máximos de cada una de las zonas del espectro de la señal de voz.

Ventajosamente, los terceros circuitos electrónicos combinacionales comprenden una pluralidad de puertas lógicas AND y OR, y una pluralidad de cuartos circuitos electrónicos combinacionales que realizan la selección de los bits adecuados de los valores de la señal de voz en cada una de las bandas de frecuencia prefijadas, para determinar el valor máximo.

Los terceros circuitos combinacionales se basan en las siguientes ecuaciones para realizar la determinación del valor máximo:

donde b m max es el bit m del valor máximo que se quiere obtener y b m n es el bit de la banda de frecuencia n.

Como se puede deducir de estas fórmulas, los valores de la señal de voz en cada una de las bandas de frecuencia se representan en código binario y están formados por seis bits. Así, los terceros circuitos implementan la obtención del valor máximo de entre "n" bandas de frecuencia.

Los cuartos circuitos combinacionales comprenden una pluralidad de puertas lógicas AND, NOT y OR para determinar los valores de los coeficientes c m n según las ecuaciones:

_ n_ , max- . n , , maxi- n c 0 "D 0 D 0 + D 0 D 0 c 1 n =c 0 n ( b 1 max b 1 n + b-^b-, 0 ) c 2 n =c 1 n ( b 2 max b 2 n + b 2 ax b 2 n )

c 3 n =c 2 n (b 3 max b 3 n + b 3 max b 3 n ) c 4 n =c 3 n (b max b 4 n + b 4 max b n )

También preferentemente, el segundo circuito electrónico combinacional comprende una primera puerta lógica AND para determinar si la banda de frecuencias considerada se encuentra o no dentro del segundo intervalo de frecuencias; una pluralidad de primeros circuitos electrónicos multiplexores y una pluralidad de circuitos electrónicos comparadores para realizar la eliminación de las bandas de frecuencia cuyo valor de la señal de voz es inferior al valor máximo de la señal de voz atenuada, siendo dicho valor máximo el correspondiente al primero o al segundo intervalo, según en cual de estos intervalos se encuentre la banda de frecuencias considerada; estando conectados dichos circuitos multiplexores a los circuito comparadores correspondientes y estando el circuito comparador correspondiente al segundo intervalo conectado a la primera puerta AND. Además, el segundo circuito electrónico comprende también una puerta OR que detecta si la banda considerada es útil para el cálculo de la distancia, al recibir un "1" de alguno de los circuitos electrónicos comparadores, directamente cuando la banda de frecuencias está comprendida dentro del primer intervalo y, a través de la primera puerta AND, cuando la banda de frecuencias está comprendida dentro del segundo intervalo; un segundo circuito electrónico multiplexor y un primero y un segundo circuitos electrónicos restadores en valor absoluto para realizar el cálculo de las diferencias entre los valores de la señal de voz y de la señal de referencia, para cada una de la bandas de frecuencia prefijadas, estando conectado el segundo circuito multiplexor al primer circuito restador en valor absoluto y estando conectado el segundo circuito restador en valor absoluto al primer circuito restador en valor absoluto.

Comprenden también una segunda puerta lógica AND, conectada al segundo circuito restador en valor absoluto, que, en el caso de que la puerta OR presente un "1" en su salida, permite el paso del valor de la diferencia; una pluralidad de terceras puertas AND, tantas como formantes se consideren, conectadas a la segunda puerta AND, que presentan en su salida el valor de la diferencia, en aquella puerta AND asociada al formante que se está tratando, si la puerta OR presenta un "1" en su salida; una pluralidad de cuartas puertas AND, tantas como formantes se consideren, conectadas a la puerta OR, una de las cuales, la correspondiente al formante que se está tratando, presenta un "1" en su salida, en el caso de que la puerta OR presente también ur "1" en su salida; y una pluralidad de puertas NOT para diferenciar las puertas AND correspondientes a cada uno de los formantes considerados.

BREVE DESCRIPCIÓN DE LOS DIBUJOS

Para mejor comprensión de cuanto se ha expuesto se acompañan unos dibujos en los que, esquemáticamente y tan sólo a título de ejemplo no limitativo, se representa un caso práctico de realización. En dichos dibujos, la figura 1 es un esquema del procedimiento, objeto de la invención; la figura 2 es un diagrama de bloques del dispositivo para realizar el procedimiento de la figura 1; la figura 3 es un diagrama de bloques de un circuito electrónico digital, mostrado en la figura 2, que comprueba dentro de que intervalo se encuentra cada banda crítica y calcula el valor máximo de la señal de voz en de cada uno de los intervalos; la figura 4 es un diagrama de bloques de un circuito electrónico digital, mostrado en la figura 3, que

realiza el cálculo del valor máximo citado en la descripción de la figura anterior; la figura 5 muestra un circuito electrónico combinacional utilizado por el circuito de la figura 4; y la figura 6 muestra un diagrama de bloques de un circuito electrónico combinacional que realiza la elección de las bandas críticas a considerar en el cálculo de las diferencias entre la señal de voz y la señal de referencia, mostrado en el diagrama de la figura 2.

DESCRIPCIÓN DE UNA REALIZACIÓN PREFERIDA

Co o se puede ver en la figura 1, el procedimiento para el cálculo de la distancia o disimilitud entre una señal de voz y una señal de referencia, para ser utilizado en un sistema de reconocimiento del habla, comprende una primera etapa El, para cada formante, en la que se determina el valor máximo mi; m2 de la señal de voz de entre los valores de energía bc(n) (n=banda considerada) que presenta dicha señal en una pluralidad de bandas de frecuencia prefijadas, en las que está dividido un primer intervalo de frecuencias, y en la que se determina un valor máximo m3; m4 de energía de la señal de voz de entre los valores de energía que presenta dicha señal de voz en cada una de una pluralidad de bandas prefijadas en las que está dividido un segundo intervalo de frecuencias, y se resta a los valores máximos mi, m3; m2, m4 correspondientes al primer y al segundo intervalo un valor de atenuación rlm.

Comprende además una segunda etapa E2, para cada formante, en la que se calcula, para cada banda de frecuencias, la diferencia en valor absoluto entre el valor de energía de la señal de voz, normalizado respecto al máximo mi; m2 del primer intervalo obtenido en la primera etapa El, y el valor de la señal de referencia. Comprende una tercera etapa E3 en la que se

multiplican los valores obtenidos en la segunda etapa E2 por cero cuando, en una banda de frecuencias, el valor de energía de la señal de voz bc(n) es inferior al valor máximo atenuado xl; mx2 de la señal de voz si la banda "n" se encuentra en el primer intervalo, y cuando el valor de energía de la señal de voz es inferior al valor máximo atenuado (mxl, mx2; mx3, mx4) de la señal de voz del primer y del segundo intervalo, si la banda "n" se encuentra en el segundo intervalo; una cuarta etapa E4 en la que se suman las diferencias restantes de la tercera etapa E3; una quinta etapa E5 en la que se divide la suma realizada en el etapa anterior E4 por el número de bandas que no se han multiplicado por cero en la tercera etapa E3 , obteniéndose la distancia referida a υ.n solo formante. Además, el procedimiento comprende una etapa E6 en la que se suman los valores obtenidos en la quinta etapa E5 de todos los formantes considerados, que constituyen la señal de voz, obteniéndose así la distancia o disimilitud entre la señal de voz y la señal de referencia. El procedimiento descrito anteriormente puede ser representado mediante la siguiente fórmula matemática:

fc- v[n]- Q* P[n]|.χ[k] [n]

donde

s = ∑ S?M í k ] χ t k H n ]

v[n] es el valor de energía en dB de la banda n de frecuencias de la señal de voz (es equivalente a bc(n)); C es el valor máximo en dB de la señal de voz analizada en las bandas de frecuencia del primer intervalo, el cual es equivalente a mi y m2; nl es el número de bandas de frecuencia utilizadas; bl[k] es el inicio de las bandas de frecuencia del primer intervalo (formante k); b2[k] es el final de las bandas de frecuencia del primer intervalo (formante k); bf[k][n] si es igual a uno, banda de frecuencias perteneciente al segundo intervalo (formante k) ;

G es el valor máximo en dB de la señal de voz analizada, en las bandas de frecuencia del segundo intervalo del formante k (es equivalente a m3 y m4); p[n] es el valor de la energía en dB de la banda n de frecuencia de la señal de referencia de la unidad fonética a comparar (es equivalente a la referencia bp(n));

Q es el valor máximo en dB de la señal de referencia, en las bandas de frecuencia del primer intervalo del formante k; X[k][n] si es diferente de cero, significa que el valor de la energía de la banda n de frecuencias se utilizará para el cálculo de la distancia o disimilitud entre la señal de referencia y la señal de voz. Así, el valor del presente parámetro varía dependiendo de las siguientes condiciones:

X[k][n]=l si n se encuentra en el primer intervalo de frecuencias y el valor de la señal de voz en la banda de frecuencias n es superior al valor máximo atenuado de la señal de voz en el primer intervalo, X[k][n]=l si n es tal que bf[k][n]=l y el valor de

la señal de voz en la banda de frecuencias n es superior al valor máximo atenuado de la señal de voz en el segundo intervalo,

X[k][n]=0 para los valores restantes de n; F es el número de formantes utilizados; rlm es la atenuación máxima en dB que puede tener una banda de frecuencias para ser utilizada en el cálculo de la distancia o disimilitud entre la señal de voz y la señal de referencia. Una realización óptima de la fórmula se obtiene cuando:

F=2 rlm=6 nlm=19

Se utiliza F=2 debido a que se considera que los dos primeros formantes son suficientes para conseguir el reconocimiento de un fonema.

El valor rlm=6 se ha obtenido experimentalmente. También se ha encontrado que la banda de frecuencias que va de 100 Hz a 6000 Hz es la óptima para realizar el reconocimiento. Si se utilizan las 19 bandas críticas normalizadas que hay dentro de este margen de frecuencias, la exactitud de la fórmula es máxima. Estas bandas críticas son las siguientes:

banda límite inferior(Hz) límite superior(Hz)

1 100 200

2 200 300

3 300 400

4 400 510

5 510 630

6 630 770

7 770 920

8 920 1080

H

9 1080 1270

10 1270 1480

11 1480 1720

12 1720 2000 13 2000 2320

14 2320 2700

15 2700 3150

16 3150 3700

17 3700 4400 18 4400 5300

19 5300 6400

La fórmula mostrada anteriormente puede imple entarse mediante un programa de ordenador o mediante un circuito electrónico combinacional. La implementación mediante un circuito combinacional se describe a continuación.

Como se puede ver en la figura 2, el dispositivo 1 para el calculo de la distancia o disimilitud entre una señal de voz y una señal de referencia, para ser utilizado por un sistema de reconocimiento del habla, comprende una pluralidad de bloques banda 2 que realizan la elección de las bandas críticas a considerar en el cálculo citado; un bloque máximo 3 que realiza el cálculo del valor máximo mi; m2; m3; m4 de cada uno de los intervalos de frecuencia considerados, así como el cálculo del valor máximo atenuado mxl; mx2; mx3 : mx4 de los mismos; un sumador SUMÍ que realiza la suma del número de bandas críticas consideradas para el primer formante; un sumador SUM2 que realiza la suma de las diferencias entre la señal de voz y la señal de referencia, para el primer formante; un sumador SUM3 que realiza la suma del número de bandas críticas consideradas para el segundo formante; un sumador SUM4 que realiza la suma de las diferencias entre la señal de voz y la señal de referencia, para el segundo formante; una tabla de números

inversos INV1 para el primer formante; una tabla de números inversos INV2 para el segundo formante; un multiplicador MUL1 que realiza la multiplicación entre la salida del sumador SUM2 de las diferencias entre la señal de voz y la señal de referencia, para el primer formante, y el número inverso obtenido en la salida de la tabla INV1, para el primer formante (esta operación es equivalente a realizar una división); un multiplicador MUL2 que realiza la multiplicación entre la salida del sumador SUM4 de las diferencias entre la señal de voz y la señal de referencia, para el segundo formante, y el número inverso obtenido en la salida de la tabla INV2, para el segundo formante; y un sumador SUM5 que realiza la suma de los valores obtenidos en la salida de cada uno de los multiplicadores MUL1 y MUL2. Como puede verse en la figura 3, el bloque máximo

3 comprende una pluralidad de puertas AND y NOT 4 que actúan a modo de filtro, de manera que, para cada banda crítica y según el valor de los coeficientes cbθ(n) y cbl(n), se obtiene la posición de dicha banda (primer intervalo del primer formante, segundo intervalo del primer formante, primer intervalo del segundo formante, o segundo intervalo del segundo formante) en el espectro de la señal de voz, dejándose pasar el valor de la señal de voz bc(n) en dicha banda crítica "n M ; un circuito electrónico combinacional BMAX1 que realiza el cálculo del valor máximo m4 (equivalente a G en la fórmula general, para el segundo formante) del segundo intervalo del segundo formante, de entre los valores de la señal de voz en las bandas críticas comprendidas dentro del segundo intervalo del segundo formante; un circuito electrónico combinacional BMAX2 que realiza el cálculo del valor máximo m3 (equivalente a G en la fórmula general, para el primer formante) del segundo intervalo del primer formante, de entre los valores de la señal de voz en cada una de las bandas críticas comprendidas dentro del segundo intervalo del primer formante; un

circuito electrónico combinacional BMAX3 que realiza el cálculo del valor máximo m2 (equivalente a C en la fórmula general, para el segundo formante) del primer intervalo del segundo formante, de entre los valores de la señal de voz en cada una de las bandas críticas comprendidas dentro del primer intervalo del segundo formante; un circuito electrónico combinacional BMAX4 que realiza el cálculo del valor máximo mi (equivalente a C en la fórmula general, para el primer formante) del primer intervalo del primer formante, de entre los valores de la señal de voz en cada una de las bandas críticas comprendidas dentro del pπmer intervalo del primer formante; un restador RES1 que realiza la resta entre el valor máximo m4 de la señal de voz obtenido en el segundo intervalo del segundo formante y el valor de atenuación rlm, obteniéndose el valor máximo atenuado mx4 de la señal de voz en el segundo intervalo del segundo formante; un restador RES2 que realiza la resta entre el valor máximo m3 de la señal de voz obtenido en el segundo intervalo del primer formante y el valor de atenuación rlm, obteniéndose el valor máximo atenuado mx3 de la señal de voz en el segundo intervalo del primer formante; un restador RES3 que realiza la resta entre el valor máximo m2 de la señal de voz obtenido en el primer intervalo del segundo formante y el valor de atenuación rlm, obteniéndose el valor máximo atenuado mx2 de la señal de voz en el primer intervalo del segundo formante; y un restador RES4 que realiza la resta entre el valor máximo mi de la señal de voz obtenido en el primer intervalo del primer formante y el valor de atenuación rlm, obteniéndose _el valor máximo atenuado mxl de la señal de voz en el primer intervalo del primer formante.

Así, en la salida del bloque máximo 3 se obtiene el valor máximo mi de la señal de voz en el primer intervalo del primer formante, el valor máximo m2 de la señal de voz en el primer intervalo del segundo formante, el valor máximo

atenuado mxl de la señal de voz en el primer intervalo del primer formante, el valor máximo atenuado mx2 de la señal de voz en el primer intervalo del segundo formante, el valor máximo atenuado mx3 de la señal de voz en el segundo intervalo del primer formante, y el valor máximo atenuado mx4 de la señal de voz en el segundo intervalo del segundo formante.

Como se puede ver en la figura 4, cada bloque BMAX BMAX1; BMAX2; BMAX3; BMAX4 comprende una pluralidad de puertas AND 5, una pluralidad de puertas OR 6 y una pluralidad de bloques CMAX 7, realizándose el cálculo del valor máximo de entre los valores que se encuentran en las entrada del bloque BMAX, bit a bit.

Como puede verse en la figura 5, un bloque CMAX 7 comprende una puerta AND 8 que realiza el producto lógico entre un coeficiente c Q 0 y un coeficiente c 0 l; una puerta NOT

9 que realiza el negado del coeficiente c 0 0; una puerta NOT

10 que realiza el negado del coeficiente c Q l; una puerta AND

11 que realiza el producto lógico entre el valor negado del coeficiente cbθ(n) y el valor negado del coeficiente c 0 l(n); una puerta OR 12 que realiza la suma lógica entre el valor obtenido en la salida de la puerta AND 8 y el valor obtenido en la salida de la puerta AND 11; y una puerta AND 13 que realiza el producto lógico entre el valor obtenido en la salida de la puerta OR 12 y un coeficiente c Q 2, obteniéndose en su salida el valor de un coeficiente c Q 3, necesario para realizar el cálculo del valor máximo en el bloque máximo 3.

Como se puede ver en la figura 6, cada bloque banda

2 comprende un primer circuito electrónico combinacional 14 que comprende, a su vez, un multiplexor MUX1 que selecciona, según el valor de un coeficiente cbθ(n), entre un valor máximo atenuado mx3 de la señal de voz en el segundo intervalo del primer formante y un valor máximo atenuado mx4 de la señal de voz en el segundo intervalo del segundo formante; un comparador CMP1 que realiza la comparación

entre el valor obtenido en la salida del multiplexor MUX1 y el valor de la señal de voz bc(n) en la banda crítica "n" considerada perteneciente al segundo intervalo del primer formante o al segundo intervalo del segundo formante, según el valor del coeficiente cbθ(n) citado anteriormente; una puerta AND 15 que realiza el producto lógico entre el valor de la salida "A>B" (0 ó 1) del comparador CMP1 y el valor del segundo coeficiente cbl(n), que deja pasar el valor obtenido en la salida "A>B" del comparador CMP1, en el caso de que la banda crítica se encuentre dentro del segundo intervalo del primer formante o dentro del segundo intervalo del segundo formante.

De este modo, el citado circuito electrónico combinacional 14 realiza la parte de la fórmula general:

X[k][n]=l si n es tal que bf[k][n]=l, es decir, la banda crítica tratada pertenece al segundo intervalo; y v[n]>G-rlm.

Además, cada bloque banda comprende también un segundo circuito electrónico combinacional 16 que comprende a su vez un multiplexor MUX2 que realiza la selección, según el valor del coeficiente cbθ(n), del valor máximo atenuado mxl de la señal de voz en el primer intervalo del primer formante y el valor máximo atenuado mx2 de la señal de voz en el primer intervalo del segundo formante; y un comparador CMP2 que realiza la comparación entre el valor obtenido en la salida del multiplexor MUX2 y el valor de la señal de referencia bp(n) de la banda crítica "n" considerada comprendida en el primer intervalo del primer formante o en el primer intervalo del segundo formante.

Dicho circuito electrónico combinacional realiza la parte de la fórmula general :

X[k][n]=l si n es tal que pertenece al primer

intervalo; y v[n]>(C-rlm).

El circuito 16 comprende también una puerta OR 17 que realiza la suma lógica entre la salida "A>B" (0 ó 1) del comparador CMP2 y la salida (0 ó 1) de la puerta AND 15, de manera que, como el segundo intervalo de cada formante se encuentra comprendido en el primer intervalo del formante correspondiente, en el caso de que la banda crítica se encuentre en el segundo intervalo de un formante, se tiene en cuenta el valor de salida del primer circuito electrónico 14 y el valor de salida del segundo circuito electrónico 16, mientras que si la banda crítica se encuentra dentro del primer intervalo, sólo se tiene en cuenta el valor de salida del segundo circuito electrónico 16, debido a la presencia de la puerta AND 15 en el primer circuito electrónico combinacional 14, que actúa a modo de filtro.

De este modo, la citada puerta OR 17 comprueba que se cumpla alguna de las dos condiciones evaluadas por el circuito 14 y el circuito 16. Si las dos o alguna de las dos condiciones se cumple, aparece en la salida de la puerta OR 17 un 1. En el caso de que no se cumpla ninguna de las dos condiciones se obtiene que:

x[k][n]=0.

Cada bloque banda 2 comprende también un multiplexor MUX3 que realiza la selección, dependiendo del valor del coeficiente cbθ(n), entre un valor máximo mi de la señal de voz en el primer intervalo del primer formante y un valor máximo m2 de la señal de voz en el primer intervalo del segundo formante; un restador RES5 que realiza la resta entre el valor de salida del multiplexor MUX3 y el valor de la señal de voz bc(n) en la banda crítica "n"; un restador RES6 que realiza la resta, en valor absoluto, entre el valor

obtenido en la salida del restador RES5, y el valor de la señal de referencia bp(n) en la banda crítica "n" considerada.

De este modo, mediante dichos elementos se realiza el cálculo de la parte de la fórmula general :

|C-v[n]-Q+p[n] |

Cada bloque banda comprende también una puerta AND 18 que realiza el producto lógico entre el valor obtenido (0 ó 1) en la salida del restador RES6 y el valor obtenido en la salida de la puerta OR 17 citada anteriormente.

Con dicha puerta se realiza el siguiente cálculo de la fórmula general:

|C-v[n]-Q+p[n] |«X[k][n]

Comprende también una puerta AND 19 que realiza el producto lógico entre el valor de salida obtenido en la puerta OR 17 y el valor del coeficiente cbθ(n), con la intención de obtener un 1 en la salida xl en el caso de que la banda crítica se tenga en cuenta en el cálculo de la diferencia entre la señal de voz y la señal de referencia, para el segundo formante; una puerta AND 20 que realiza el producto lógico entre el valor obtenido en la salida de la puerta AND 18 y el valor del coeficiente cbθ(n), con la intención de obtener en la salida pl el valor de la diferencia entre la señal de voz y la señal de referencia, en el caso de que la banda tratada se tenga en cuenta para la realización de dicho cálculo; una puerta NOT 21 que realiza el negado del valor del coeficiente cbθ(n); una puerta AND 22 que realiza el producto lógico entre el valor obtenido en la salida de la puerta NOT 21 y el valor obtenido en la salida de la puerta OR 17, con la intención de obtener un 1 en la salida xO en el caso de que la banda

crítica se considere para realizar el cálculo de la diferencia entre la señal de voz y la señal de referencia, para el primer formante; una puerta NOT 23 que realiza el negado del coeficiente cbθ(n); y una puerta AND 24 que realiza el producto lógico entre el valor de salida obtenido en la puerta NOT 23 y el valor obtenido en la salida de la puerta AND 18, con la intención de obtener en su salida pO el valor de la diferencia entre la señal de voz y la señal de referencia para el primer formante. El funcionamiento del dispositivo 1 para la realización del procedimiento para el cálculo de la distancia entre la señal de voz y la señal de referencia, para ser utilizado en un reconocimiento del habla, es el que sigue. En las entradas del bloque máximo 3 se encuentran los valores de la señal de voz bc(n) en cada una de las bandas críticas "n" consideradas, el coeficiente cbθ(n) y el coeficiente cbl(n) para cada banda, y el valor de atenuación rlm. De este modo, mediante la pluralidad de puertas AND y NOT 4 se realiza la selección de dichos valores según la zona en la que se encuentren las bandas críticas respectivas. Cada bloque BMAX BMAX1; BAMX2; BMAX3; BMAX4 implementa las siguientes ecuaciones:

Así, el bloque BMAX4 realiza el cálculo del valor máximo mi de la señal de voz de entre los valores de las bandas críticas comprendidas en el primer intervalo del

primer formante; el bloque BMAX2 realiza el cálculo del valor máximo m3 de la señal de voz de entre los valores de las bandas críticas comprendidas en el segundo intervalo del primer formante; el bloque BMAX3 realiza el cálculo del valor máximo m2 de la señal de voz de entre los valores de las bandas críticas comprendidas en el primer intervalo del segundo formante; y el bloque BMAX1 realiza el cálculo del valor máximo m4 de la señal de voz de entre los valores de las bandas críticas comprendidas en el segundo intervalo del segundo formante.

Una vez calculados dichos valores máximos mi, m2, m3, m4 se realiza el cálculo de los valores máximos atenuados mxl, mx2, mx3, mx4, de manera que el restador RES4 realiza el cálculo del valor máximo atenuado mxl de la señal de voz dentro del primer intervalo del primer formante; el restador RES2 realiza el cálculo del valor máximo atenuado mx3 de la señal de voz dentro del segundo intervalo del primer formante; el restador RES3 realiza el cálculo del valor máximo atenuado mx2 de la señal de voz dentro del primer intervalo del segundo intervalo; y el restador RES1 realiza el cálculo del valor máximo atenuado mx4 de la señal de voz dentro del segundo intervalo del segundo formante.

Cada bloque CMAX 7 comprendido en un bloque BMAX BMAX1; BMAX2; BMAX3; BMAX4 implementa las siguientes ecuaciones:

- n_ -. max-u, n , . max-^ n c 0 "D 0 D o D o D o c 1 n =c 0 n ( b 1 max b 1 n + b^b- j 11 ) c 2 n =c 1 n ( b 2 max b 2 n + b 2 max b 2 n ) c 3 n =c 2 n ( b 3 max b 3 n + b 3 max b 3 n ) c A n =c 3 n ( b A max b n + b max b n )

De este modo , en la sal ida del bloque máximo 3 se obtienen los cuatro valores máximos atenuados mxl , mx2 , mx3 , mx4 anteriores , as í como el valor máximo mi de la señal de

voz dentro del primer intervalo del primer formante y el valor máximo m2 de la señal de voz dentro del primer intervalo del segundo formante.

Todas los valores obtenidos en la salida del bloque máximo 3 pasan a la entrada de cada uno de los bloques banda 2. Además, cada bloque banda 2 tiene también como entradas un coeficiente cbθ(n) (donde n es el número de la banda considerada) y un coeficiente cbl(n) para dicha banda, el valor de la señal de voz bc(n) en la banda crítica "n" a tratar, y el valor de la señal de referencia bp(n) en la misma banda crítica "n" .

Así, cada uno de los bloques banda 2 determina si la banda crítica "n" que se está tratando se considera para realizar el cálculo de la diferencia entre la señal de voz y la señal de referencia. En el caso de que no se tenga en cuenta, en la salida de las puertas AND 19, AND 20, AND 22 y AND 24, el valor obtenido es cero.

En el caso de que la banda crítica se considere para el cálculo citado, según el formante que se esté tratando, aparece en la puerta AND 19 (segundo formante) /AND 22 (primer formante) un 1, mientras que en las puertas AND 20 (segundo formante) /AND 24 (primer formante) aparece la diferencia entre el valor de la señal de voz y el valor de la señal de referencia, en dicha banda crítica "n". El sumador SUMÍ realiza la suma de todos los valores obtenidos en la salida de la puerta AND 19 de cada uno de los bloques banda 2 , consiguiéndose el cálculo del número de bandas críticas utilizadas en el cálculo de la diferencia entre la señal de voz y la señal de referencia, para el segundo formante.

El sumador SUM2 realiza la suma de todos los valores obtenidos en la salida de la puerta AND 20 de cada uno de los bloques banda 2, consiguiéndose la suma total de las diferencias entre la señal de voz y la señal de referencia para el segundo formante.

El sumador SUM3 realiza la suma de todos los valores obtenidos en la salida de la puerta AND 22 de cada uno de los bloques banda 2, consiguiéndose el cálculo del número de bandas críticas utilizadas en el cálculo de la diferencia entre la señal de voz y la señal de referencia, para el primer formante.

El sumador SUM4 realiza la suma de todos los valores obtenidos en la salida de la puerta AND 24 de cada uno de los bloques banda 2, consiguiéndose la suma total de las diferencias entre la señal de voz y la señal de referencia para el primer formante.

De este modo, los sumadores SUMÍ y SUM3 implementan la siguiente parte de la fórmula:

^∑ n = 2 b ϊ (k] χ f k Hn]

mientras que los sumadores SUM2 y SUM4 implementan la siguiente parte de la fórmula general:

La tabla de números inversos INV1 obtiene en su salida el equivalente al inverso del valor obtenido en la salida del sumador SUMÍ, con la intención de convertir la división de la fórmula en una multiplicación por el inverso del que sería el valor divisor.

La tabla de números* inversos INV2 obtiene en su salida el equivalente al inverso del valor obtenido en la salida del sumador SUM3. Con dichas tablas conseguimos obtener el valor de

1/S de la fórmula general.

El valor obtenido en la salida de la tabla INV1 y el valor obtenido en la salida del sumador SUM2 se multiplica mediante el multiplicador MUL1, mientras que el valor obtenido en la salida de la tabla INV2 y el valor obtenido en la salida del sumador SUM4 se multiplica mediante el multiplicador MUL2.

El resultado de la multiplicación del multiplicador

MUL1 y el resultado de la multiplicación del multiplicador

MUL2 se suma mediante el sumador SUM5 para obtener en su salida el valor total de la diferencia o disimilitud D entre la señal de voz y la señal de referencia.

Cuanto más pequeño sea este valor, más cercana se encuentra la señal de voz a la señal de referencia con la que se compara. A pesar de que se ha hecho referencia a realizaciones concretas de la invención, es evidente para el experto en la materia que el procedimiento y el dispositivo descritos es susceptible de numerosas variaciones y modificaciones, y que todos los detalles mencionados pueden ser substituidos por otros técnicamente equivalentes, sin apartarse del ámbito de protección definido por las reivindicaciones adjuntas.

Es obvio que la fórmula general del procedimiento puede implementarse de múltiples formas.