Mauuary, Laurent (16 rue Yves-Marie Herviou, Servel, Lannion, F-22300, FR)
Martin, Arnaud (20 rue du Professeur Perrin, Lorient, Lorient, F-56100, FR)
Mauuary, Laurent (16 rue Yves-Marie Herviou, Servel, Lannion, F-22300, FR)
| 1. | Procédé de détection de parole dans un signal audio comportant une étape d'obtention d'une information d'énergie du signal audio, ladite information d'énergie étant utilisée pour détecter de la parole dans le signal audio, caractérisé en ce qu'il comporte en outre une étape d'obtention d'une information de voisement du signal audio, ladite information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio. |
| 2. | Procédé selon la revendication 1, caractérisé en ce que ladite information de voisement est obtenue à partir de valeurs de fréquence fondamentale calculées de manière périodique sur l'ensemble du signal audio. |
| 3. | Procédé selon la revendication 2, caractérisé en ce que le signal audio est composé de trames successives n, chaque trame n étant subdivisée en P soustrames m, m=P n+i avec i variant de 0 à P1, et en ce que l'étape d'obtention de ladite information de voisement comprend les sousétapes suivantes : calcul, pour chaque soustrame m, de la valeur médiane, med (m), d'un nombre prédéterminé de valeurs de fréquence fondamentale du signal audio ; calcul, pour chaque soustrame m, de la moyenne arithmétique Emed (ni) des valeurs absolues des différences entre une valeur médiane courante et la valeur médiane précédente, lesdites différences étant calculées pour les N soustrames précédant la soustrame courante m, ladite moyenne arithmétique étant obtenue selon l'équation suivante : où : N est la taille de la fenêtre arithmétique ; med (m) est la valeur médiane calculée pour la soustrame m ; md (d : entier naturel) désigne la dème soustrame précédant la soustrame courante m ; et m=P n+i avec i=0, 1,2,..., P1 ; ladite information de voisement calculée sur l'ensemble du signal audio <BR> <BR> <BR> <BR> étant constituée desdites moyennes arithmétiques gamed (m), chacune desquelles constituant un paramètre de voisement indicatif du degré de voisement du signal audio pour la soustrame m considérée. |
| 4. | Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que ladite information d'énergie du signal audio est obtenue pour chaque trame du signal audio, par un calcul du logarithme de la somme des amplitudes mises au carré des échantillons de la trame considérée. |
| 5. | Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'opération de détection de parole met en oeuvre l'utilisation combinée de deux critères de détection comprenant un premier critère basé sur ladite information d'énergie du signal audio, et un second critère basé sur ladite information de voisement du signal audio, et en ce que ledit second critère de détection est basé, pour chaque soustrame m du signal <BR> <BR> <BR> <BR> audio, sur la comparaison du paramètre de voisement Emed (m) associé à la soustrame m, avec un seuil de voisement prédéterminé. |
| 6. | Procédé selon la revendication 5, caractérisé en ce que le premier critère de détection permet de déterminer le caractère énergétique d'une trame du signal audio, et est déterminé selon la comparaison de la valeur d'un rapport critique avec un seuil prédéterminé, le rapport critique étant obtenu selon l'équation suivante : <BR> <BR> <BR> E(n)#(n)<BR> <BR> r(E(n))=<BR> <BR> <BR> #(n) où :// (n) et 2 (n) désignent respectivement la moyenne et l'écarttype estimés de l'énergie E (n) du bruit, et n est l'indice de la trame. |
| 7. | Procédé selon l'une quelconque des revendications 5 à 6, caractérisé en ce que les premier et second critères de détection sont mis en oeuvre dans une machine d'états finis comportant au moins les trois états suivants : "bruit ou silence","présomption de parole","parole", en fonction du résultat de détection de parole dans le signal audio ; le passage d'un état à un autre parmi ces trois états étant déterminé par le résultat d'évaluation desdits premier et second critères. |
| 8. | Dispositif de détection de parole dans un signal audio comportant des moyens d'obtention d'une information d'énergie du signal audio, ladite information d'énergie étant utilisée pour détecter de la parole dans le signal audio, caractérisé en ce qu'il comporte en outre des moyens d'obtention d'une information de voisement du signal audio, ladite information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio :. |
| 9. | Dispositif de détection selon la revendication 8, caractérisé en ce qu'il comporte des moyens aptes à mettre en oeuvre un procédé de détection de parole dans un signal audio, tel que revendiqué dans l'une quelconque des revendications 2 à 7. |
| 10. | Dispositif de reconnaissance vocale, caractérisé en ce qu'il comprend un dispositif de détection de parole selon la revendication 8 ou 9. |
Plus particulièrement, l'invention concerne un procédé de détection de parole dans un signal audio comportant une étape d'obtention d'une information d'énergie du signal audio, l'information d'énergie étant utilisée pour détecter de la parole dans le signal audio. L'invention concerne également un dispositif de détection de parole apte à mettre en oeuvre un tel procédé.
Le langage parlé est le mode de communication le plus naturel chez l'homme. Avec l'automatisation de la communication homme-machine, le rêve d'une interaction vocale entre l'homme et la machine est apparu très tôt.
Dans ce but, la recherche sur les systèmes de reconnaissance automatique de la parole (reconnaissance vocale) a débuté dès les années 50, et de nombreuses applications techniques utilisent maintenant de tels systèmes, comme la dictée vocale ou les services vocaux interactifs liés à la téléphonie. Depuis ses débuts, les problèmes techniques liés à la reconnaissance vocale n'ont cessé d'évoluer, avec notamment l'expansion de la téléphonie.
Un système de reconnaissance vocale se compose classiquement d'un module de détection de parole et d'un module de reconnaissance de parole. La fonction du module de détection est de détecter dans un signal d'entrée audio les périodes de parole, afin d'éviter au module de reconnaissance de chercher à reconnaître de la parole sur des périodes du signal d'entrée correspondant à des phases de silence. La présence d'un module de détection de parole permet par conséquent à la fois d'améliorer les performances et de réduire le coût du système de reconnaissance vocale.
Le fonctionnement d'un module de détection de parole dans un signal audio, implémenté le plus souvent sous forme logicielle, est classiquement représenté par une machine d'états finis (encore désignée par automate).
Typiquement, le changement d'états d'un module de détection fait intervenir un critère basé sur l'obtention et le traitement d'une information d'énergie relative au signal audio. Un tel module de détection de parole est décrit dans le document intitulé"Amélioration des performances des serveurs vocaux interactifs", de L. Mauuary, Thèse de doctorat, Université de Rennes 1, 1994.
Dans le contexte particulier de la reconnaissance vocale destinée à des applications téléphoniques, les enjeux techniques actuels sont liés à la reconnaissance d'un grand nombre de mots isolés (par exemple, pour un annuaire vocal), à la reconnaissance de la parole continue (c. -à-d., de phrases du langage courant) ou à la transmission/réception du signal en environnement bruité, par exemple dans le cadre de la téléphonie mobile.
Cependant, dans ce contexte, les performances des systèmes de détection actuels demeurent très insuffisantes, particulièrement lorsque les bruits environnants sont de courte durée, les erreurs de détection de parole pouvant alors entraîner des erreurs de reconnaissance vocale très perturbatrices pour l'utilisateur. D'autre part, les systèmes de détection actuels présentent une très grande sensibilité de réglage en fonction des conditions ou la nature de la communication téléphonique (téléphonie fixe, mobile, etc.).
L'objectif principal de la présente invention est de proposer un système de détection de parole dont l'efficacité dans un contexte bruité soit meilleure que celle des systèmes de détection conventionnels, et qui permette par conséquent, dans ce contexte, d'améliorer les performances du système de reconnaissance vocale associé. Le système de détection proposé est donc particulièrement adapté à une utilisation dans le cadre de la reconnaissance vocale téléphonique robuste aux bruits environnants.
A cet effet, l'invention concerne, selon un premier aspect, un procédé de détection de parole dans un signal audio comportant une étape d'obtention
d'une information d'énergie du signal audio, cette information d'énergie étant utilisée pour détecter de la parole dans le signal audio.
Conformément à l'invention, ce procédé est remarquable en ce qu'il comporte en outre une étape d'obtention d'une information de voisement du signal audio, cette information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio.
Selon un second aspect, l'invention concerne un dispositif de détection de parole apte à mettre en oeuvre un procédé de détection tel que défini succinctement supra. Conformément à l'invention, ce dispositif comporte en outre des moyens d'obtention d'une information de voisement du signal audio, cette information de voisement étant utilisée conjointement à l'information d'énergie pour la détection de parole dans le signal audio.
L'utilisation conjuguée de l'énergie du signal d'entrée et d'un paramètre de voisement permet d'améliorer la détection de la parole en réduisant les détections de bruit, et ainsi d'améliorer la précision globale du système de reconnaissance vocale. Cette amélioration s'accompagne d'une diminution de la dépendance du réglage du système de détection vis-à-vis des caractéristiques de la communication.
La présente invention s'applique au domaine général du traitement d'un signal audio. En particulier, l'invention peut s'appliquer, de manière non exhaustive : - à la reconnaissance de parole robuste à l'environnement acoustique, par exemple la reconnaissance dans la rue (téléphonie mobile), en voiture, etc. ; -à la transmission de parole, par exemple dans le cadre de la téléphonie ou bien la dans le cadre de la téléconférence/visioconférence ; - à la réduction de bruit ; ou - à la segmentation automatique de bases de données.
D'autres particularités et avantages de l'invention apparaîtront encore dans la description ci-après de modes préférés de réalisation, faite à l'appui des dessins annexés, sur lesquels :
- la figure 1 représente la structure générale d'un système de reconnaissance vocale dans lequel on peut incorporer la présente invention ; - la figure 2 représente une machine d'états illustrant le fonctionnement d'un module de détection de parole, connu de l'état de la technique ; - la figure 3 est une représentation graphique des valeurs d'un paramètre de voisement calculées, selon un mode de réalisation de l'invention, sur des fichiers audio de bases de données obtenues sur des réseaux RTC et GSM ; - la figure 4 illustre l'utilisation d'un nouveau critère de détection basé sur un paramètre de voisement calculé selon l'invention et appliqué à la machine d'états de la figure 2, selon un mode préféré de réalisation ; - la figure 5 est une représentation graphique des résultats obtenus par un module de détection conforme à l'invention, sur une base de données de fichiers audio enregistrés sur un réseau GSM ; - la figure 6 est une représentation graphique des résultats obtenus par un module de détection conforme à l'invention, sur une autre base de données de fichiers audio enregistrés sur un réseau RTC ; et - la figure 7 est une représentation graphique des résultats obtenus par un système de reconnaissance vocale intégrant un module de détection de parole selon l'invention, sur la base de données de fichiers audio enregistrés sur le réseau RTC.
On donne ci-après la définition de termes, utilisés dans le domaine de la reconnaissance vocale, qui seront utilisés dans la suite de la description.
Voisement-Un son voisé est un son caractérisé par la vibration des cordes vocales. Le voisement est une caractéristique de la majorité de sons de la parole, seules certaines plosives et fricatives ne sont pas voisées. De plus, la majorité des bruits ne sont pas voisés. Par conséquent, un paramètre de voisement peut apporter une information utile pour effectuer une discrimination dans un signal d'entrée, entre des sons énergétiques issus de la parole et du bruit énergétique.
Fréquence fondamentale ou aitch-La mesure de la fréquence fondamentale FO (au sens de l'analyse de Fourier) du signal de parole apparaît comme une estimation de la fréquence de vibration des cordes vocales. La
fréquence fondamentale Fo varie avec le sexe, l'âge, l'accent, l'état émotif du locuteur, etc. Ses variations peuvent être comprises entre 50 et 200 Hz.
Diverses méthodes de détection de la fréquence fondamentale sont connues de l'état de la technique et ne seront par conséquent pas détaillées dans le cadre de la présente description. De manière générale, on peut cependant définir deux classes de méthodes : celles qui sont applicables au domaine temporel et celles applicables au domaine fréquentiel. Les premières entraînent généralement un calcul de fonction d'autocorrélation, tandis que les secondes impliquent le calcul d'une transformée de Fourier ou un calcul de même nature.
En relation avec la figure 1, on va décrire un exemple de structure générale d'un système de reconnaissance de parole pouvant incorporer la présente invention. Le système de reconnaissance représenté comprend un module de détection de parole 14 désigné par DBP (Détection Bruit/Parole) et un module de reconnaissance vocale 12 (RECO).
Le module de détection de parole 14 détermine les périodes du signal d'entrée audio dans lesquelles la parole est présente.
Cette détermination est précédée par l'analyse du signal audio par un module d'analyse 11, de façon à en extraire des coefficients pertinents pour le module de détection 14 et pour le module de reconnaissance 12.
Selon un exemple particulier de réalisation, les coefficients extraits sont des coefficients cepstraux, encore appelés coefficients MFCC (Mel Frequency Cepstrum Coefficients). D'autre part, dans l'exemple décrit, les modules de détection (14) et de reconnaissance (12) fonctionnent simultanément.
Par ailleurs, dans cet exemple, le module de reconnaissance 12, utilisé pour la reconnaissance de mots isolés et de parole continue, est fondé sur une méthode connue, basée sur l'utilisation des chaînes de Markov. Cependant, d'autres méthodes de reconnaissance de la parole peuvent être utilisées dans le cadre de la présente invention.
Le module de détection 14 fournit l'information de début puis de fin de parole au module de reconnaissance 12. Lorsque toutes les trames de parole
ont été traitées, le système de reconnaissance de parole fournit le résultat de la reconnaissance via un module de décision 13.
De manière classique le fonctionnement des systèmes de détection de parole dans le bruit (DBP) est déterminé par un automate ou machine d'états finis. On peut utiliser par exemple un automate à deux états dans le cas le plus simple (utilisé par exemple pour la détection d'activité vocale), à trois états, à quatre états, ou encore à cinq états.
La décision est prise au niveau de chacune des trames du signal d'entrée, dont la cadence peut être par exemple de 16 millisecondes (ms). De manière générale, l'utilisation d'un automate ayant un grand nombre d'états finis permet une modélisation plus fine de la décision à prendre, par la prise en compte des considérations structurelles de la parole.
En référence à la figure 2, on va décrire un exemple de machine d'états (ou automate) destinée à gérer le fonctionnement d'un système de détection de parole dans le bruit. Dans ce système de détection, les changements d'états prennent en compte notamment une mesure de l'énergie du signal d'entrée.
Comme on le verra dans la suite de l'exposé en relation avec la figure 3, cet automate est modifié, conformément à un mode préféré de réalisation de l'invention, de manière à y incorporer un paramètre de voisement comme critère additionnel de changement d'états.
Dans cet exemple, il s'agit d'un automate à cinq états, décrit dans le document cité plus haut, intitulé"Amélioration des performances des serveurs vocaux interactifs", de L. Mauuary, Thèse de doctorat, Université de Rennes 1, 1994. Bien sûr, d'autres automates de détection peuvent être utilisés dans le cadre de la présente invention.
Dans l'exemple donné ici, les cinq états de l'automate sont définis comme suit : - état 1 :"bruit ou silence"; <BR> <BR> <BR> <BR> -état 2 :"présomption de parole";<BR> <BR> <BR> <BR> <BR> <BR> -état 3 :"parole"; -état 4 :"plosive non voisée ou silence" ; et -état 5 :"reprise possible de parole".
Les passages d'un état à un autre de l'automate sont conditionnés par un test sur l'énergie du signal d'entrée et par des contraintes structurelles de durée (durée minimum d'une voyelle et durée maximum d'une plosive).
Selon l'exemple représenté à la figure 2, le passage dans l'état 3 ("parole") détermine la frontière de début de la parole dans le signal d'entrée.
Le module de reconnaissance 12 prend en compte la frontière de début de parole avec une marge prédéterminée de sécurité sur cette frontière, par exemple 160 ms (10 trames de 16 ms chacune).
Le retour à l'état 1 de l'automate signifie la confirmation de la fin de parole. La frontière de fin de parole est donc déterminée lors du passage de l'état 3 ou 5 vers l'état 1 de l'automate. Le module de reconnaissance 12 prend en compte la frontière de fin de parole avec une marge prédéterminée de sécurité sur cette frontière, par exemple 240 ms (15 trames de 16 ms chacune).
L'état 1"bruit ou silence"est l'état initial de l'algorithme de décision. On fait ainsi l'hypothèse que la communication débute par une trame de bruit ou de silence. D'autre part, les variables"Durée Parole" (DP) et"Durée Silence" (DS) dont les valeurs représentent respectivement la durée de parole et la durée de silence, sont initialisées à 0.
L'automate de décision reste dans l'état 1 tant qu'aucune trame énergétique n'est reçue (condition"Non_C1"), c'est-à-dire une trame dont l'énergie est supérieure à un seuil de détection prédéterminé.
Lors de la réception de la première trame dont l'énergie est supérieure au seuil de détection (condition"C1"), l'automate passe dans l'état 2 "présomption de parole". Dans l'état 2, la réception d'une trame"non énergétique" (condition"Non_C1") provoque le retour à l'état 1"bruit ou silence".
L'automate passe dans l'état 3, lorsque les conditions C1 et C2 sont réalisées simultanément, c'est-à-dire lorsque l'automate est resté dans l'état 2 pour un nombre minimum"Parole Minimum"prédéterminé (condition C2) de trames successives énergétiques (condition C1) reçues. Il reste alors dans l'état 3 ("parole") tant que les trames sont énergétiques (condition C1).
En revanche, il passe à l'état 4"plosive non voisée ou silence", dès que la trame courante est non énergétique (condition"NonC1"). Dans l'état 4, la réception d'un nombre de trames successives non énergétiques (condition Non_C1) dont la durée cumulée est supérieure à"Silence Fin" (condition C3) confirme un état de silence et provoque le retour dans l'état 1"bruit ou silence".
La variable"Silence Fin"sert par conséquent à confirmer un état de silence dû à la fin de la parole. Par exemple, dans le cas de la parole continue, Silence Fin peut atteindre 1 seconde.
Si dans l'état 4"plosive non voisée ou silence", la trame courante est énergétique (condition C1), l'automate passe dans l'état 5"reprise possible de parole".
Dans l'état 5, la réception d'une trame non énergétique (condition Non_C1) le fait retourner dans l'état 1"bruit ou silence"ou dans l'état 4"plosive non voisée ou silence", selon que la durée de silence (Durée Silence-DS) est supérieure (C3) ou non (Non_C3) à un nombre prédéfini de trames (Silence Fin). La durée de silence représente le temps passé dans l'état 4"plosive non voisée ou silence"et dans l'état 5"reprise possible de parole".
Enfin, lorsque la condition"C1&C2" ("&"désigne le"et"logique) est vérifiée, c'est-à-dire si l'automate est resté durant un nombre minimum (Parole Minimum) de trames énergétiques dans l'état 5 ("reprise possible de parole"), il retourne alors dans l'état 3 ("parole").
Les trois états"présomption de parole" (2),"plosive non voisée ou silence" (4) et"reprise possible de parole" (5), permettent de modéliser les variations énergétiques du signal de parole.
Plus particulièrement, l'état"présomption de parole" (2) permet de ne pas détecter des bruits impulsifs énergétiques mais de très courte durée (c'est-à- dire pendant quelques trames). L'état"plosive non voisée ou silence" (4) modélise quant à lui les passages peu énergétiques dans un mot ou une phrase, tels que les silences intra-mot ou les plosives.
Comme illustré à la figure 2, conjointement aux conditions (C1, C2, etc.) déterminant le passage d'un état à un autre ou le maintien dans un état donné, un certain nombre d'actions (A1-A6) sont exécutées.
Ainsi, l'action A1 indique la durée du silence après la dernière trame de parole détectée, tandis que l'action A6 réinitialise la variable"Durée Silence" (DS) destinée à compter les silences, ainsi que la variable"Durée Parole" (DP).
Lors du retour de l'état 5 à l'état 4"plosive non voisée ou silence", l'exécution de l'action A3 permet de préciser le nombre de trames de silence après la dernière trame de parole de l'état 3 ("parole") afin de déterminer la frontière de fin de parole. Lors du retour de l'état 5 à l'état 1"bruit ou silence" les actions A3 et A6 sont effectuées.
Les actions A2 et A5, quant à elles, mettent à"1"respectivement les variables"Durée Parole" (DP) et"Durée Silence" (DS). Enfin, l'action A4 incrémente la variable DP.
Dans le module de détection dont le fonctionnement est illustré par la figure 2, la condition C1 de changement d'états est basé sur un critère de détection qui utilise une information d'énergie des trames du signal d'entrée : une information d'énergie d'une trame donnée du signal d'entrée est comparée à un seuil prédéterminé.
Comme cela sera exposé plus loin en liaison avec la figure 4, la machine d'états de la figure 1 est modifiée selon l'invention pour adjoindre à la condition C1 une autre condition (C4) basée sur un second critère de détection utilisant un paramètre de voisement.
Critèreénerqétique (conditionC1 ! Le système de détection de parole (14) comporte des moyens de mesure de l'énergie du signal d'entrée, utilisée pour définir le critère énergétique de la condition C1. Selon un mode de réalisation de l'invention, ce critère énergétique est basé sur l'utilisation des statistiques du bruit. On fait l'hypothèse classique selon laquelle le logarithme de l'énergie du bruit E (n) suit une loi normale de paramètres (, u, 9).
Dans cet exemple, E (n) est le logarithme de l'énergie à court-terme du bruit, c'est-à-dire le logarithme de la somme des carrés des échantillons d'une trame n considérée du signal d'entrée. Les statistiques du logarithme de l'énergie du bruit sont estimées lorsque l'automate est dans l'état 1"bruit ou silence".
La moyenne et l'écart-type sont respectivement estimés par les équations (1) et (2) qui suivent : <BR> <BR> <BR> <BR> <BR> )<BR> <BR> <BR> <BR> <BR> <BR> <BR> #(n)=#(n-1)+(1-#)(|E(n)-#(n-1)|-#(n-1)) (2) où : #(n) et #(n) désignent respectivement la moyenne et l'écart-type estimés de l'énergie du bruit E (n), n est l'indice de la trame, et A est un facteur d'oubli.
Ces estimations sont effectuées dans l'état 1"bruit ou silence"de l'automate. Par exemple, pour l'estimation de la moyenne, on peut choisir : X = 0, 99 ; ce qui correspond à une constante de temps de 1600 ms. Pour l'estimation de l'écart-type, on peut choisir : k = 0,995 ; ce qui correspond à une constante de temps de 3200 ms.
On considère le logarithme de l'énergie de chaque trame et on cherche à vérifier l'hypothèse selon laquelle l'automate est dans l'état"bruit ou silence", ce qui correspond à une absence de parole. La décision sera alors prise en fonction de l'écart du logarithme de l'énergie E (n) de la trame considérée n, par rapport à la moyenne estimée du bruit, c'est-à-dire selon la valeur du rapport critique r (E (n)) défini comme suit : <BR> <BR> <BR> <BR> <BR> <BR> )<BR> <BR> <BR> o (n) Le rapport critique est alors comparé à un seuil de détection prédéfini : r (E (n)) > Seuil de détection (condition C1) (4) Typiquement des valeurs de seuil comprises entre 1.5 et 3.5 peuvent être utilisées.
Ce premier critère, fondé sur l'utilisation d'une information d'énergie E (n) du signal d'entrée est appelé"critère SB"dans la suite de la description.
Cependant, d'autres critères utilisant une information d'énergie du signal d'entrée peuvent être utilisés dans le cadre de la présente invention.
Comme exposé plus haut, le système de détection de parole dans le bruit selon l'invention comporte en outre des moyens de calcul d'un paramètre de voisement qui est associé à l'information d'énergie pour la détection de la
parole dans le bruit. Selon un mode de réalisation préféré de l'invention, ce paramètre est calculé comme suit.
Calcul d'un paramètre de voisement Le paramètre de voisement utilisé est estimé à partir de la fréquence fondamentale. Cependant, d'autres types de paramètre de voisement, obtenus selon d'autres procédés, peuvent être utilisés dans le cadre de la présente invention.
Dans le mode de réalisation décrit ici, la fréquence fondamentale est calculée à partir d'une méthode spectrale. Cette méthode recherche l'harmonicité du signal par inter-corrélation avec une fonction peigne dont on fait varier la distance entre les dents du peigne.
La méthode utilisée est proche de celle exposée dans le document "Comparison of pitch detection by cepstrum and spectral combination analysis", de P. Martin-Intemational Conference on Acoustics, Speech, and Signal Processing, pp. 180-183-1982.
Dans ce mode de réalisation, on calcule à intervalles de temps réguliers la période des harmoniques dans le spectre sur l'ensemble du signal d'entrée.
Selon une implémentation préférée, on calcule la période des harmoniques dans le spectre toutes les quatre millisecondes (ms) sur l'ensemble du signal d'entrée, c'est-à-dire même dans les périodes de non-parole.
Dans les périodes voisées du signal, la période des harmoniques dans le spectre est la fréquence fondamentale. Dans un but de simplification, on utilise, dans la suite de l'exposé, le terme de fréquence fondamentale pour désigner la période des harmoniques dans le spectre.
Dans ce mode de réalisation, on calcule alors la médiane entre la valeur courante de fréquence fondamentale et un nombre prédéterminé de valeurs précédentes de fréquence fondamentale. En pratique, dans l'implémentation choisie, on calcule la médiane entre la valeur courante de fréquence fondamentale et les deux valeurs précédentes. L'utilisation de la médiane permet notamment de supprimer certaines erreurs d'estimation de la fréquence fondamentale.
Chacune des trames n du signal d'entrée étant subdivisée en un nombre prédéfini de sons-trames m, on calcule une médiane, med (m), telle que définie ci-dessus, pour chacune des sous-trames m du signal d'entrée (signal audio).
On calcule ensuite, pour chacune des sous-trames m (ou segments de trame), la moyenne arithmétique embed (m) des valeurs absolues des différences entre une médiane courante et la médiane précédente, calculées pour les N sous-trames précédant la sous-trame considérée m. Cette moyenne arithmétique est calculée selon l'équation suivante : où : -N est (par conséquent) la taille de la fenêtre arithmétique (par exemple N = 1) ; mec/ (m) est la médiane calculée pour la sous-trame m ; et - m-d (d : entier naturel) désigne la deme sous-trame précédant la sous-trame courante m ; - m=P.n+i avec P définissant le nombre de sous-trames par trame n, et i=0, 1, 2,..., P-1.
Dans une implémentation préférée de l'invention, on considère des trames successives du signal d'entrée de longueur 16 ms, et on calcule une valeur de médiane toutes les 4 ms, c'est-à-dire pour chaque sous-trame de longueur 4 ms. Dans cette implémentation, on a : m = 4n +i avec i=0, 1,2, 3.
Avec une fenêtre arithmétique de taille N égale à 1, on obtient : Emed (m) =l med (m)-med (m-1) t (6) Cette moyenne, calculée sur les deux dernières valeurs de médiane, est un critère de la variation locale de la fréquence fondamentale. Si la fréquence fondamentale varie peu, la trame courante est supposée être une trame de parole. La moyenne arithmétique Emed (m) constitue par conséquent une estimation d'un degré de voisement.
La figure 3 est un tracé de courbes représentant la valeur du paramètre de voisement calculé selon l'équation (6) ci-dessus, en fonction du nombre de fichiers audio de différents types (parole, bruits impulsifs, bruits de fond). Plus
précisément, les courbes de la figure 3 représentent la moyenne du degré de voisement mesuré sur des bases de fichiers audio enregistrés sur des réseaux RTC et GSM.
On constate d'après la figure 3, que le paramètre de voisement dont les valeurs sont représentées sur les courbes permet de discriminer la parole des bruits impulsifs. En effet, en appliquant par exemple un seuil de 15 sur cette valeur du paramètre, on peut distinguer efficacement la parole des bruits impulsifs et du bruit de fond.
L'utilisation de ce paramètre de voisement, en complément de l'information d'énergie du signal d'entrée, pour discriminer la parole du bruit, est mis en oeuvre dans le module de détection (14) par l'automate de décision décrit plus haut en relation avec la figure 2. L'utilisation conjointe de l'énergie du signal d'entrée et du paramètre de voisement permet alors de définir un critère plus précis pour le déclenchement des transitions entre tout ou partie des états de l'automate.
La figure 4 illustre, à titre d'exemple, l'insertion du nouveau critère ci- dessus basé sur un paramètre de voisement selon l'invention dans la machine d'états de la figure 2.
Des expérimentations menées par les inventeurs ont montré que pour améliorer les performances du processus de reconnaissance de la parole, le processus de détection doit être moins sensible aux bruits impulsifs de courte durée, par conséquent l'apport de ce nouveau critère doit s'effectuer de préférence au début du processus de détection.
A ce titre, la présente invention peut donc s'appliquer également aux systèmes de détection dont la fonction est de détecter uniquement les débuts de parole.
Les meilleurs résultats de détection ont été obtenus avec l'intégration de ce nouveau critère au niveau de l'état 2"présomption de parole". Ainsi, à la figure 4 seuls les états 1,2 et 3 sont représentés, et une nouvelle condition, C4, correspondant à ce critère intervient dans le passage de l'état 2 "présomption de parole"à l'état 3"parole"et à l'état 1"bruit ou silence".
Dans le mode de réalisation représenté à la figure 4, la condition C4 est définie comme suit. domed (P-n + 3) < Se8 ned (7) dmed (P n+3) représente, pour une trame n considérée du signal d'entrée, la valeur de la moyenne (cf. équation (6) supra) correspondant à la dernière sous-trame (i=3).
Des tests de détection sur une partie bruitée d'une base de fichiers audio GSM utilisée ont permis de déterminer la valeur"10"comme valeur optimisée pourie seuil seul. Ce seuil peut être adapté aux conditions de bruit présent dans le signal d'entrée de manière à garantir une détection précise quel que soit l'environnement acoustique.
Dans la machine d'états de la figure 2, la combinaison de la nouvelle condition C4 avec la condition C1 permet ainsi d'obtenir un critère de détection double, basé sur une mesure de l'énergie du signal d'entrée et sur une mesure du voisement.
Comme on peut le voir sur la figure 4, dans l'exemple présenté il n'est possible de passer de l'état 2"présomption de parole"à l'état 3"parole", que si les conditions C1, C2 et C4 sont réalisées simultanément.
En liaison avec les figures 5,6 et 7, on va maintenant présenter des résultats expérimentaux obtenus avec un module de détection (fig. 1,14) utilisant un critère de voisement en complément du critère relatif à l'énergie du signal d'entrée. On va d'abord présenter les résultats obtenus avec le module de détection seul, d'une part, sur une base de données de fichiers audio enregistrés sur un réseau GSM (figure 5), d'autre part sur une base de données de fichiers audio enregistrés sur un réseau RTC (figure 6).
Enfin, on présentera (figure 7) les résultats obtenus, sur une base de données de fichiers audio enregistrés sur un réseau RTC, par un module de reconnaissance vocale (fig. 1,12-13), lorsqu'il est couplé avec un module de détection de parole (14) selon l'invention.
Les résultats présentés ont été obtenus avec les bases de données décrites ci-après et désignées respectivement par"GSMT"et"AGORA".
La base GSM_T est une base de laboratoire enregistrée sur un réseau GSM dans quatre environnements différents : intérieur, extérieur, véhicule à l'arrêt et véhicule roulant. Normalement chaque mot est répété une seule fois, excepté s'il y a un bruit important pendant la prononciation du mot. Les occurrences de chaque mot sont donc sensiblement identiques. Le vocabulaire est constitué de 65 mots. Les 29558 segments issus de la segmentation manuelle sont répartis en 85% de mots du vocabulaire, 3% de mots hors vocabulaire et 12% de bruits. La base GSMT est composée de deux sous- bases définies en fonction du rapport signal à bruit (RSB) de chaque fichier composant ces sous-bases.
La base AGORA est une base d'expérimentation d'une application de dialogue homme-machine, enregistrée sur un réseau commuté RTC. II s'agit donc d'une base de parole continue. La base AGORA est utilisée principalement comme une base de tests. Elle est composée de 64 enregistrements. Les 3115 segments de référence comprennent 12635 mots.
Le vocabulaire du modèle de reconnaissance est de 1633 mots. II n'y a pas de segments de mots hors vocabulaire pour cette base. Les segments de parole constituent 81% des segments de référence et les segments de bruits 19%.
Afin d'évaluer le module de détection (14) selon l'invention, on considère les résultats de la détection seule de parole, puis les résultats de cette détection dans le contexte de la reconnaissance vocale, en étudiant les résultats obtenus par le système de reconnaissance.
Les résultats de la détection seule sont étudiés en considérant le taux d'erreurs définitives en fonction du taux d'erreurs rejetables.
Les erreurs définitives générées par le module de détection sont composées des omissions de parole, des fragmentations d'un mot ou d'une phrase, et des regroupements de plusieurs mots ou plusieurs phrases. Ces erreurs sont dites"définitives"car elles provoquent des erreurs définitives au niveau du module de reconnaissance.
Les erreurs rejetables générées par le module de détection sont composées des insertions de bruit (ou détections de bruit). Une erreur rejetable peut être rejetée par un modèle de rejet incorporé dans le module de décision
(fig. 1,13) du module de reconnaissance. Dans le cas contraire, elle provoque une erreur de reconnaissance vocale.
L'approche consistant à évaluer le module de détection seul, permet de se placer dans un contexte indépendant de la reconnaissance vocale.
Les résultats du système de reconnaissance utilisant un module de détection selon l'invention sont étudiés en considérant trois types d'erreur dans le cas de la reconnaissance de mots isolés, et quatre types d'erreur dans le cas de la reconnaissance de parole continue.
Dans le cas de la reconnaissance de mots isolés, une erreur dite"de substitution"représente un mot du vocabulaire reconnu comme étant un autre mot du vocabulaire. Une erreur dite"de fausse acceptation"est une détection de bruit reconnue comme étant un mot. Une erreur dite"de rejet à tort"est le rejet d'un mot du vocabulaire par le modèle de rejet ou correspond à un mot non détecté par le module de détection. Pour simplifier la représentation, on étudie la somme pondérée des erreurs de substitution et des erreurs de fausse acceptation en fonction des erreurs de rejet à tort.
Dans le cas de la reconnaissance de parole continue, une erreur dite "d'insertion"concerne un mot inséré dans une phrase (ou requête), une erreur dite"d'omission"concerne un mot omis dans une phrase, une erreur dite"de substitution"concerne un mot substitué dans une phrase, et une erreur dite"de rejet à tort"concerne une phrase rejetée à tort par le modèle de rejet, ou non détectée par le module de détection. Ces erreurs de rejet à tort sont exprimées par un taux d'omission de mots dans les phrases. Les erreurs d'insertions, d'omissions et de substitutions sont représentées en fonction des erreurs de rejet à tort.
La figure 5 est une représentation graphique des résultats obtenus par un module de détection conforme à l'invention sur la base de données GSMT de fichiers audio enregistrés sur un réseau GSM.
Les courbes de la figure 5 représentent, pour chaque sous-base (bruitée et non bruitée) de la base GSMT, ! es résultats obtenus avec l'automate de détection de la figure 2 (condition C1 uniquement), et les résultats obtenus en utilisant l'automate de détection modifié selon la figure 4 (combinaison des
conditions C1 et C4). Les résultats sont exprimés en taux d'erreur rejetable par rapport au taux d'erreur définitive. Pour un taux d'erreur rejetable donné, plus le taux d'erreur définitive est faible, meilleures sont les performances obtenues.
Ainsi, les courbes 51 et 52 correspondent aux résultats obtenus avec la sous-base"non bruitée", c'est-à-dire correspondant à un rapport signal à bruit (RSB) supérieur à 18 décibels (dB). En revanche, les courbes 53,54 correspondent aux résultats obtenus avec la sous-base"bruitée", c'est-à-dire correspondant à un RSB inférieur à 18 dB.
D'autre part, les courbes 51,53 correspondent à l'utilisation seulement du critère"d'énergie"basé sur l'énergie du signal d'entrée (condition C1), tandis que les courbes 52,54 correspondent à l'utilisation conjointe du critère d'énergie et du critère de voisement (conditions C1 et C4).
Comme on peut le voir sur la fig. 5, les résultats obtenus sont meilleurs avec l'utilisation du critère double énergie-voisement (courbes 52,54), pour les deux sous-bases.
La figure 6 représente les résultats obtenus avec un module de détection conforme à l'invention sur la base de parole continue AGORA de fichiers audio enregistrés sur un réseau RTC.
A la fig. 6, la courbe 61 représente les résultats obtenus avec l'utilisation seule du critère d'énergie (condition C1) ; tandis que la courbe 62 représente les résultats obtenus avec l'utilisation conjointe du critère d'énergie et du critère de voisement (conditions C1 et C4). Là encore, on peut observer que les résultats sont nettement meilleurs avec l'utilisation du critère double énergie- voisement (courbe 62).
La figure 7 est une représentation graphique des résultats obtenus par un système de reconnaissance vocale intégrant un module de détection de parole selon l'invention, sur la base AGORA de fichiers audio enregistrés sur un réseau RTC. Ces résultats ont été obtenus en utilisant les seuils optimaux pour la reconnaissance.
Pour la reconnaissance, les résultats sont appréciés en comparant le taux de rejet à tort avec le taux d'erreurs d'omission, d'insertion et de substitution de mots.
A la fig. 7, la courbe 71 représente les résultats obtenus avec l'utilisation seule du critère d'énergie (condition C1) ; tandis que la courbe 72 représente les résultats obtenus avec l'utilisation conjointe du critère d'énergie et du critère de voisement (conditions C1 et C4).
On peut observer que les résultats (courbe 72) sur la reconnaissance vocale sont également meilleurs avec l'utilisation du critère double énergie- voisement pour le module de détection.
Bien entendu, la présente invention n'est nullement limitée aux modes de réalisation décrits ici, mais englobe, bien au contraire, toute variante à la portée de l'homme du métier.
Next Patent: APPARATUS FOR RECIPROCALLY POWERING ONE OR MORE WORKING TOOLS
