METHOD AND DEVICE FOR EXTRACTING ACOUSTIC PARAMETERS OF A VOICE SIGNAL

Title:

METHOD AND DEVICE FOR EXTRACTING ACOUSTIC PARAMETERS OF A VOICE SIGNAL

Document Type and Number:

WIPO Patent Application WO/2002/082424

Kind Code:

A1

Abstract:

The invention concerns a method for extracting acoustic parameters representing a voice signal, comprising: a step which consists in separating data representing a glottal excitation (b�0?, e�1?, e�2?, ..e�N?) and data representing a vocal tract resonance (a�1?, a�2?, ..a�P?) associated with each voice sample (s) of a voice signal; and a step which consists in estimating (606) in closed loop parameters of a filter associated with the vocal tract resonance. The invention also concerns corresponding devices (102) and a corresponding computer programme product.

More Like This:

JP2001051689	METHOD AND DEVICE FOR EXTRACTING CHARACTERISTIC FROM MIXTURE OF SIGNALS
JPS6365500	FRICTION PROPERTY DETECTOR
JP2012013837	SPEECH IDENTIFICATION DEVICE

Inventors:

SOUFFLET FREDERIC (FR)
GARNIER BRUNO (FR)

Application Number:

PCT/FR2002/001166

Publication Date:

October 17, 2002

Filing Date:

April 04, 2002

Export Citation:

Click for automatic bibliography generation Help

Assignee:

THOMSON LICENSING SA (FR)
SOUFFLET FREDERIC (FR)
GARNIER BRUNO (FR)

International Classes:

G10L15/02; G10L17/02; G10L19/04; G10L25/15; (IPC1-7): G10L15/02; G10L17/00

Foreign References:

US5577160A	1996-11-19
US5091948A	1992-02-25
US6047254A	2000-04-04

Other References:

TZENG F F: "AN ANALYSIS-BY-SYNTHESIS LINEAR PREDICTIVE MODEL FOR NARROWBAND SPEECH CODING", SPEECH PROCESSING 1. ALBUQUERQUE, APRIL 3 - 6, 1990, INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH & SIGNAL PROCESSING. ICASSP, NEW YORK, IEEE, US, vol. 1 CONF. 15, 3 April 1990 (1990-04-03), pages 209 - 212, XP000146441
M. HUNT: "Spectral Signal Processing for ASR", PROCEEDINGS 1999 IEEE AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING WORKSHOP, 12 December 1999 (1999-12-12) - 15 December 1999 (1999-12-15), Colorado, USA, XP002181776

Attorney, Agent or Firm:

Kohrs, Martin (46 quai Alphonse Le Gallo, Boulogne Cedex, FR)
Thomson, Multimedia (Martin 46 quai Alphonse Le Gallo, Boulogne Cedex, FR)

Download PDF:

View/Download PDF PDF Help

Claims:

REVENDICATIONS

1.

Procédé d\'extraction de paramètres acoustiques représentatifs d\'un signal vocal, comprenant une étape de séparation d\'une part des informations représentatives d\'une excitation glottale (bo, e,, e2,.. eN) et d\'autre part des informations représentatives d\'une résonance buccale (a,, a2,.. ap) associées à chaque échantillon (s) vocal dudit signal vocal, caractérisé en ce qu\'il comprend une étape d\'estimation (606) en boucle fermée des paramètres d\'un filtre associé à ladite résonance buccale.

2.	Procédé selon la revendication 1 caractérisé en ce qu\'il comporte en outre une étape (607) d\'estimation d\'une fonction d\'onde représentative de ladite excitation glottale à partir desdits paramètres de filtre précédemment estimés.

3.	Procédé selon la revendication 2 caractérisé en ce qu\'il comprend en outre une étape de reconnaissance du locuteur tenant compte de ladite fonction d\'onde représentative de ladite excitation glottale (boys el, e2,.. eN).

4.	Procédé selon l\'une quelconque des revendications 1 à 3 caractérisé en ce que ladite étape d\'estimation en boucle fermée est itérative, lesdits paramètres de filtre étant mis à jour à chaque itération.

5.

Procédé selon la revendication 4, caractérisé en ce que ladite étape d\'estimation en boucle fermée comprend une étape d\'estimation de la variation desdits paramètres, au moyen d\'une fonction (Erreur) tenant compte desdits paramètres et une étape (604) d\'interruption de ladite étape d\'estimation en boucle fermée lorsque le résultat de ladite fonction est inférieur à un seuil de fiabilité (g) prédéterminé.

6.	Procédé selon l\'une quelconque des revendications 4 à 5, caractérisé en ce que ladite étape d\'estimation en boucle fermée est interrompue lorsque le nombre d\'itérations (Iteration) effectuées atteint un nombre maximal (Maxlteration) d\'itérations prédéterminé.

7.	Procédé selon l\'une quelconque des revendications 1 à 6 caractérisé en ce qu\'il est mis en oeuvre dans le cadre d\'un procédé de reconnaissance vocale et/ou de reconnaissance de locuteur.

8.

Dispositif (102) d\'extraction de paramètres acoustiques représentatifs d\'un signal comprenant les moyens suivants : - module d\'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et - séparateur d\'informations représentatives d\'une excitation glottale et d\'informations représentatives d\'une résonance buccale associée audit vecteur ; caractérisé en ce qu\'il comprend en outre un estimateur en boucle fermée des paramètres d\'un filtre associé à ladite résonance buccale.

9.

Dispositif d\'extraction de paramètres acoustiques représentatifs d\'un signal comprenant les moyens suivants : - module d\'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et - séparateur d\'informations représentatives d\'une excitation glottale et d\'informations représentatives d\'une résonance buccale associée audit vecteur ; caractérisé en ce qu\'il comprend en outre : - au moins un estimateur des paramètres d\'un filtre associé à ladite résonance buccale ; les estimateurs étant cascadés de sorte que lesdits paramètres estimés par chacun desdits estimateurs hormis le dernier estimateur sont pris en compte par au moins un estimateur suivant.

10.

Produit programme d\'ordinateur de gestion de reconnaissance vocale comprenant des instructions de code de programme enregistré sur un support utilisable dans un ordinateur comprenant : - des moyens de programmation lisibles par ordinateur pour effectuer une étape de prise en compte d\'un vecteur acoustique représentatif d\'un signal vocal ; - des moyens de programmation lisibles par ordinateur pour effectuer une étape de séparation d\'informations représentatives d\'une excitation glottale et d\'informations représentatives d\'une résonance buccale associée audit vecteur ; et - des moyens de programmation lisibles par un microprocesseur pour effectuer une étape d\'estimation en boucle fermée des paramètres d\'un filtre associé à ladite résonance buccale.

Description:

PROCEDE ET DISPOSITIF D\'EXTRACTION DE PARAMETRES ACOUSTIQUES D\'UN SIGNAL VOCAL

La présente invention se rapporte au domaine des interfaces vocales.

Plus précisément, l\'invention concerne l\'extraction de paramètres acoustiques représentatifs d\'un signal vocal, notamment pour des applications d\'interface vocale, de reconnaissance vocale et/ou codage de la parole.

On connaît, dans l\'état de la technique, différents types de méthodes permettant d\'obtenir une modélisation utilisée pour la reconnaissance vocale. Aujourd\'hui, les méthodes les plus utilisées intégrant un résonateur sont d\'une part la méthode PLP (de l\'anglais "Perceptive Linear Prediction"ou prédiction perceptive linéaire) pour la reconnaissance non bruitée et d\'autre part la méthode dite RASTA-PLP, pour la reconnaissance bruitée, ou au travers de lignes téléphoniques qui distordent le signal. Ces techniques sont notamment décrites dans l\'article "Spectral Signal Processing for ASR"écrit par M. Hunt et paru dans le recueil"Proceedings 1999 IEEE Automatic Speech Recognition and Understanding Workshop, Colorado, USA, December 12-15"ainsi que dans l\'article"Perceptual linear predictive (PLP) analysis of speech"écrit par H. Hermansky et paru dans le numéro d\'avril 1990 de la revue Journal of Acoustical Society of America.

Ces techniques permettent d\'obtenir une modélisation par coefficients mettant en oeuvre, au cours du traitement acoustique, une séparation de l\'excitation glottale (correspondant à des coefficients modélisant la source vocale ou excitation glottale) et des résonances du conduit buccal (ou formants) (correspondant à des paramètres d\'un filtre symbolisant le conduit buccal). Cette séparation directe, quelle que soit la technique utilisée pour l\'obtenir (par exemple selon une méthode basée sur la covariance ou la méthode des moindres carrés), repose sur des hypothèses concernant l\'excitation et la source qui s\'avèrent souvent abusives.

Une des simplifications habituelles sur la structure de l\'excitation glottale consiste à considérer cette dernière comme étant nulle ou non corrélée avec la résonance, ce qui entraîne un couplage entre la hauteur des sons voisés et la mesure des formants. Ainsi, l\'hypothèse de découplage entre l\'entrée et la sortie du conduit vocal n\'est pas bonne, mme si dans la

pratique cette simplification conduit souvent à des résultats relativement corrects.

De plus, dans les techniques habituelles, on utilise des résonateurs modélisant la résonance buccale. Lorsqu\'une erreur est commise sur l\'excitation glottale, le résonateur est lui aussi erroné.

Un inconvénient de ces techniques de l\'art antérieur est donc que le résultat de la détermination de la résonance buccale n\'est pas optimal, ce qui limite la qualité et l\'efficacité de la reconnaissance vocale.

L\'invention selon ses différents aspects a notamment pour objectif de pallier cet inconvénient de l\'art antérieur.

Plus précisément, un objectif de l\'invention est de fournir un procédé et un dispositif d\'extraction acoustique d\'un signal vocal qui prennent en compte les principaux paramètres acoustiques (notamment excitation glottale et résonance buccale) sans hypothèse abusive, alors que selon l\'état de l\'art, la résonance buccale est généralement obtenue en supposant l\'excitation glottale non corrélée au signal, ce qui ne correspond à aucune réalité.

Un autre objectif de l\'invention est de conserver une mise en oeuvre relativement simple.

Ces objectifs sont atteints, selon l\'invention à l\'aide d\'un procédé d\'extraction de paramètres acoustiques représentatifs d\'un signal vocal, comprenant une étape de séparation d\'une part des informations représentatives d\'une excitation glottale et d\'autre part des informations représentatives d\'une résonance buccale associées à chaque échantillon vocal du signal vocal remarquable en ce qu\'il comprend une étape d\'estimation en boucle des paramètres d\'un filtre associé à la résonance buccale.

Ainsi, l\'invention repose sur une approche tout à fait nouvelle et inventive de l\'extraction acoustique d\'un signal vocal, qui permet d\'obtenir une bonne estimation de la résonance buccale sans hypothèse abusive concernant par exemple l\'excitation glottale.

A partir d\'une première détermination de la résonance buccale, obtenue en conservant dans un premier temps l\'hypothèse de non couplage entre excitation et signal, la boucle fermée permet notamment d\'affiner l\'estimation de l\'excitation glottale, en levant cette hypothèse. Ainsi, grâce à cette boucle fermée, on obtient une seconde estimation de la résonance

buccale qui permet elle-mme d\'affiner une seconde estimation de l\'excitation glottale et ainsi de suite.

Par ailleurs, la boucle fermée est relativement simple à mettre en oeuvre et ne nécessite pas de calculs complexes.

On note que la boucle fermée signifie ici que l\'un des paramètres (résonance buccale et/ou excitation glottale) au moins peut tre estimé plusieurs fois, le procédé étant mis en oeuvre dans un dispositif ou module comprenant effectivement un bouclage d\'une sortie vers une entrée et/ou une cascade de modules élémentaires, la sortie de chaque module élémentaire (qui n\'est pas le dernier module) étant reliée à l\'entrée du module suivant.

Selon un mode de réalisation particulier, le procédé est remarquable en ce qu\'il comporte en outre une étape d\'estimation d\'une fonction d\'onde représentative de l\'excitation glottale à partir des paramètres de filtre précédemment estimés.

De cette manière, l\'invention permet d\'estimer efficacement l\'excitation glottale.

L\'invention permet en outre de repérer sans ambiguïté les pics dans l\'excitation glottale et donc d\'identifier les sons voisés ainsi que la période correspondant aux formants présents dans le signal. Ainsi, les applications utilisant le procédé d\'extraction acoustique (comme par exemple les applications de type reconnaissance du locuteur et/ou repérage de l\'intonation ou de la prosodie d\'une phrase) peuvent utiliser des données fiables d\'excitation glottale et éventuellement de résonance buccale et sont donc plus efficaces.

En outre, l\'invention permet avantageusement (notamment dans des applications de type reconnaissance vocale au sens strict) une bonne insensibilité au timbre du locuteur (par exemple grave ou aigu), ce qui permet une indépendance du locuteur et empche ou réduit les perturbations dans le cas où plusieurs locuteurs utilisent un mme dispositif et/ou procédé.

Selon un mode de réalisation particulier, le procédé est remarquable en ce qu\'il comprend en outre une étape de reconnaissance du locuteur tenant compte de la fonction d\'onde représentative de l\'excitation glottale.

Ainsi, une application de type reconnaissance du locuteur peut tre mise en oeuvre, le procédé d\'extraction acoustique étant efficace quel

que soit le timbre du locuteur. En effet, la forme plus précise de l\'excitation glottale rend plus facile et plus fiable la détermination de la fréquence fondamentale ("pitch"en anglais) du locuteur (grâce notamment à des caractéristiques du signal plus claires).

Selon un mode particulier de réalisation, le procédé est remarquable en ce que l\'étape d\'estimation en boucle fermée est itérative, les paramètres de filtre étant mis à jour à chaque itération.

Ainsi, l\'invention permet d\'obtenir rapidement des paramètres acoustiques qui sont ensuite plus finement estimés après quelques itérations (typiquement trois ou quatre).

Selon un mode particulier de réalisation, le procédé est remarquable en ce que l\'étape d\'estimation en boucle fermée comprend une étape d\'estimation de la variation des paramètres, au moyen d\'une fonction tenant compte des paramètres et une étape d\'interruption de l\'étape d\'estimation en boucle fermée lorsque le résultat de la fonction est inférieur à un seuil de fiabilité prédéterminé.

Ainsi, l\'invention permet d\'optimiser le nombre d\'itérations. En général, lorsque le son n\'est pas voisé, l\'excitation glottale est similaire à un bruit blanc et une seule itération suffit alors que lorsque le son est voisé, quelques itérations permettent d\'obtenir une bonne estimation.

On économise donc des ressources en limitant le nombre d\'itérations dès qu\'un seuil de fiabilité a été atteint.

L\'invention détecte de façon avantageuse des sons voisés utilisables par exemple dans des procédés et/ou dispositifs de reconnaissance du locuteur.

En outre, l\'invention permet une reconnaissance vocale ne requérant pas une phase d\'apprentissage lourde et complexe.

Selon un mode particulier de réalisation, le procédé est remarquable en ce que l\'étape d\'estimation en boucle fermée est interrompue lorsque le nombre d\'itérations effectuées atteint un nombre maximal d\'itérations prédéterminé.

Cela permet de limiter le temps de calcul et les ressources nécessaires à une estimation Selon un mode particulier de réalisation, le procédé est remarquable en ce qu\'il est mis en oeuvre dans le cadre d\'un procédé de reconnaissance vocale et/ou de reconnaissance de locuteur.

En d\'autres termes, les procédés mettant en oeuvre le procédé d\'extraction de l\'invention peuvent tre multiples : - procédé de reconnaissance vocale basée notamment sur une bonne estimation des paramètres acoustiques ; et - procédé de reconnaissance de locuteur basée sur une estimation fiable de l\'excitation glottale entraînant une estimation correcte des formants.

L\'invention concerne également dans les mmes buts que précédemment un dispositif d\'extraction de paramètres acoustiques représentatifs d\'un signal comprenant les moyens suivants : - module d\'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et - séparateur d\'informations représentatives d\'une excitation glottale et d\'informations représentatives d\'une résonance buccale associée audit vecteur ; remarquable en ce qu\'il comprend en outre un estimateur en boucle fermée des paramètres d\'un filtre associé à la résonance buccale.

Ainsi, ce dispositif avec estimateur en boucle fermée permet une grande économie de ressources (surface de circuits si l\'implantation est purement matérielle et de mémoire programme dans le cas d\'une réalisation logicielle).

De mme, l\'invention concerne un dispositif d\'extraction de paramètres acoustiques représentatifs d\'un signal comprenant les moyens suivants : - module d\'extraction acoustique fournissant un vecteur acoustique représentatif du signal vocal ; et - séparateur d\'informations représentatives d\'une excitation glottale et d\'informations représentatives d\'une résonance buccale associée au vecteur ; remarquable en ce qu\'il comprend en outre : - au moins un estimateur des paramètres d\'un filtre associé à la résonance buccale ; les estimateurs étant cascadés de sorte que les paramètres estimés par chacun des estimateurs hormis le dernier estimateur sont pris en compte par au moins un estimateur suivant.

Ainsi, le dispositif comprenant des estimateurs en cascade permet d\'extraire des paramètres acoustiques avec un grand débit, des

blocs d\'informations indépendantes pouvant tre traitées dans des estimateurs distincts simultanément.

De mme, l\'invention concerne un produit programme d\'ordinateur de gestion de reconnaissance vocale comprenant des instructions de code de programme enregistré sur un support utilisable dans un ordinateur comprenant : - des moyens de programmation lisibles par ordinateur pour effectuer une étape de prise en compte d\'un vecteur acoustique représentatif d\'un signal vocal ; - des moyens de programmation lisibles par ordinateur pour effectuer une étape de séparation de paramètres représentatifs d\'une excitation glottale et de paramètres représentatifs d\'une résonance buccale associée au vecteur ; et - des moyens de programmation lisibles par un microprocesseur pour effectuer une étape d\'estimation en boucle fermée des paramètres d\'un filtre associé à la résonance buccale.

Les caractéristiques particulières et les avantages des dispositifs et du programme d\'ordinateur enregistré sur un support utilisable dans un ordinateur étant similaires à ceux du procédé d\'extraction acoustique, ils ne sont pas rappelés ici.

D\'autres caractéristiques et avantages de l\'invention apparaîtront plus clairement à la lecture de la description suivante d\'un mode de réalisation préférentiel, donné à titre de simple exemple illustratif et non limitatif, et des dessins annexés, parmi lesquels : - la figure 1 présente un synoptique général d\'un système comprenant un boîtier à commande vocale, dans lequel la technique de l\'invention peut tre mise en oeuvre ; - la figure 2 présente un synoptique du boîtier de reconnaissance vocale du système de la figure 1 ; - la figure 3 décrit un schéma électronique d\'un boîtier de reconnaissance vocale mettant en oeuvre le synoptique de la figure 2 ; - la figure 4 représente une modélisation d\'un signal vocal par le DAP des figures 2 et 3 ; - la figure 5 représente un exemple de signal vocal échantillonné conformément à l\'invention ; - la figure 6 représente un organigramme de reconnaissance vocale tel que mis en oeuvre par le DAP des figures 2 et 3 ;

- la figure 7 illustre un signal vocal avec mise en évidence des pics selon l\'état de l\'art ; et - la figure 8 illustre un signal vocal avec mise en évidence des pics conformément à l\'invention.

Le principe général de l\'invention repose sur l\'extraction acoustique d\'un signal vocal mettant en oeuvre une séparation d\'une excitation glottale et d\'une résonance buccale associées à un échantillon vocal. Alors que classiquement, selon l\'état de l\'art, on s\'affranchit de la détermination de l\'excitation glottale, le procédé comprend une étape d\'estimation en boucle fermée des paramètres d\'un filtre associé à ladite résonance buccale, ce qui permet d\'en déduire l\'excitation glottale.

En initialisant l\'excitation glottale par exemple à une valeur nulle, puis en itérant une fois l\'étape d\'estimation de la résonance buccale, on obtient une première estimation de l\'excitation glottale.

En prenant en compte cette première estimation de l\'excitation glottale, on obtient au cours d\'une seconde itération, une meilleure estimation de la résonance buccale. En réitérant plusieurs fois les estimations (typiquement trois ou quatre fois), on obtient des valeurs estimées de l\'excitation glottale et de la résonance buccale se rapprochant de plus en plus des valeurs optimales.

En effet, la boucle fermée permet d\'obtenir une bonne estimation non seulement de la résonance buccale utilisée habituellement pour des applications de type reconnaissance vocale mais aussi une bonne estimation de l\'excitation glottale. Ainsi, avec un procédé d\'extraction acoustique de mise en oeuvre relativement simple, non seulement on obtient de meilleurs résultats dans l\'obtention des paramètres de la résonance buccale lorsqu\'il est appliqué à un procédé de reconnaissance vocale mais encore on élargit le champ d\'application du procédé d\'extraction à de nombreuses autres applications telles que, par exemple, des applications liées : - à la reconnaissance du locuteur (qui est caractéristique à la fois de l\'excitation glottale et de la résonance buccale) ; - au repérage de l\'intonation (qui est caractéristique de la fréquence fondamentale et donc de l\'excitation glottale) ; et/ou - au repérage de la prosodie d\'une phrase (qui est caractéristique de la variation de l\'intonation au cours du temps et donc de l\'excitation glottale),

ces applications nécessitant une estimation relativement fine des paramètres de résonance buccale et/ou d\'excitation glottale.

La mise en oeuvre de ces applications est facilitée, notamment parce que l\'invention permet de repérer facilement la périodicité du signal en évitant un lissage des fréquences (alors que si on ne met pas en oeuvre l\'invention, on peut facilement estimer la fréquence fondamentale à deux ou trois fois sa valeur réelle).

On présente, en relation avec la figure 1, un synoptique général d\'un système comprenant un boîtier à commande vocale 102 mettant en oeuvre la technique de l\'invention.

On note que ce système comprend notamment : - une source vocale 100 pouvant notamment tre constituée d\'un microphone destiné à capter un signal vocal produit par un locuteur ; - un boîtier de reconnaissance vocale 102 ; - un boîtier de commande 105 destiné à piloter un appareil 107 ; - un appareil commandé 107, par exemple de type téléviseur ou magnétoscope.

La source 100 est reliée au boîtier de reconnaissance vocale 102, via une liaison 101 qui lui permet de transmettre une onde source analogique représentative d\'un signal vocal vers le boîtier 102.

Le boîtier 102 peut récupérer des informations 104 de contexte (telles que par exemple, le type d\'appareil 107 pouvant tre contrôlé par le boîtier de commande 105 ou la liste des codes de commandes) via une liaison 104 et émettre vers le boîtier de commande 105 des commandes via une liaison 103.

Le boîtier de commande 105 émet des commandes via une liaison 106 par exemple infra-rouge vers l\'appareil 107.

Selon le mode de réalisation considéré la source 100, le boîtier de reconnaissance vocale 102 et le boîtier de commande 105 font partie d\'un mme dispositif et ainsi les liaisons 101, 103 et 104 sont des liaisons internes au dispositif. Par contre, la liaison 106 est typiquement une liaison sans fil.

Selon une première variante de réalisation de l\'invention décrite à la figure 1, les éléments 100,102 et 105 sont en partie ou complètement séparés et ne font pas partie d\'un mme dispositif. Dans ce cas, les liaisons 101,103 et 104 sont des liaisons externes filaires ou non.

Selon une deuxième variante, la source 100, les boîtiers 102 et 105 ainsi que l\'appareil 107 font partie d\'un mme dispositif et sont reliés entre eux par des bus internes (liaisons 101,103,104 et 106). Cette variante est particulièrement intéressante quand le dispositif est, par exemple, un téléphone ou terminal de télécommunication portable.

La figure 2 présente un synoptique d\'un boîtier à commande vocale tel le boîtier 102 illustré en regard de la figure 2.

On note que le boîtier 102 reçoit de l\'extérieur l\'onde source analogique101 qui est traitée par un Décodeur Acoustico-Phonétique 200 ou DAP (appelé"front-end"en anglais). Le DAP 200 échantillonne à intervalles réguliers (typiquement toutes les 10ms) l\'onde source 101 pour produire des vecteurs réels ou appartenant à des livres de code (ou"codes books"en anglais), représentant typiquement des résonances buccales qui sont émises via une liaison 201 vers un moteur de reconnaissance 203.

A l\'aide d\'un dictionnaire 202, le moteur de reconnaissance 203 analyse les vecteurs réels qu\'il reçoit en utilisant notamment des modèles de Markov cachés ou HMM (de l\'anglais Hidden Markov Models) et des modèles de langage (qui représentent la probabilité pour qu\'un mot suive un autre mot). Des moteurs de reconnaissance sont notamment décrits en détail dans le livre"Statistical Methods for Speech Recognition"écrit par Frederick Jelinek, et paru aux éditions MIT Press en 1997.

Le moteur de reconnaissance 203 fournit des mots qu\'il a identifiés à partir des vecteurs reçus à un moyen de traduction de ces mots en commandes pouvant tre comprises par l\'appareil 107. Ce moyen utilise un procédé de traduction à intelligence artificielle qui lui-mme prend en compte un contexte 104 fourni par le boîtier de commande 105 avant d\'émettre une ou plusieurs commandes 103 vers le boîtier de commande 105.

La figure 3 illustre schématiquement un module ou dispositif de reconnaissance vocale 102 tel qu\'illustré en regard de la figure 1, et mettant en oeuvre le synoptique de la figure 2.

Le boîtier 102 comprend reliés entre eux par un bus d\'adresses et de données : - une interface vocale 301 ; - un convertisseur Analogique-Numérique 302 - un processeur 304 ; - une mémoire non volatile 305 ;

- une mémoire vive 306 ; et - une interface d\'entrées/sorties 307.

Chacun des éléments illustrés en figure 3 est bien connu de l\'homme du métier. Ces éléments communs ne sont pas décrits ici.

On observe en outre que le mot"registre"utilisé dans toute la description désigne dans chacune des mémoires mentionnées, aussi bien une zone de mémoire de faible capacité (quelques données binaires) qu\'une zone mémoire de grande capacité (permettant de stocker un programme entier ou l\'intégralité d\'une séquence de données de transactions).

La mémoire non volatile 305 (ou ROM) conserve dans des registres qui par commodité possèdent les mmes noms que les données qu\'ils conservent : - le programme de fonctionnement du processeur 304 dans un registre"prog"308 ; - une valeur réelle strictement positive s dans un registre 309 ; - une valeur P, représentant un ordre de modèle dans un registre 310 ; - une valeur N, représentant un nombre d\'échantillons dans un registre 311 ; et - une valeur Maxlteration représentant un nombre maximal d\'itérations à effectuer dans un registre 312.

La mémoire vive 306 conserve des données, des variables et des résultats intermédiaires de traitement et comprend notamment : - un registre 313 dans lequel sont conservées des valeurs de bo, et el, e2,. eN représentatives de l\'excitation glottale du signal reçu ; - un vecteur a,, a2,... ap représentant un résonateur dans un registre 314 ; - un vecteur s,, S2,... SN représentant un signal vocal dans un registre 315 ; et - un vecteur s\',, s\'2,... s\'N représentant un signal vocal estimé dans un registre 316 ; et - un compteur lteration dans un registre 317.

La figure 4 illustre une modélisation d\'un signal vocal traité par un DAP 200 tel qu\'illustré en regard de la figure 2 et la figure 3.

Typiquement, un producteur vocal 401 produit à partir d\'une excitation glottale e et d\'un résonateur buccal un signal analogique s qui est reçu par le DAP 200.

Ce signal analogique s après échantillonnage et conversion analogique/numérique devient une suite de vecteurs constitués chacun de N valeurs ou échantillons numériques 402, s (n) représentant le n"" échantillon (1< n< Nl Selon le modèle illustré conforme à l\'invention, à partir d\'une excitation glottale estimant l\'excitation e, constituée de N valeurs e (n), et d\'un résonateur estimé le modèle 403 produit un vecteur s\'404 constitué de N valeurs s\'{n) 404 (1< n< N) et qui est une estimation du vecteur s reçu.

Le mode d\'obtention de calcul de s\' (n) et donc d\'une valeur d\'erreur entre le signal reçu et le signal calculé selon le modèle va tre décrit selon les fondements exposés ci-après.

Un modèle de type ARMA est choisi. Un filtre ARMA est un filtre dont le comportement est décrit par la première équation récurrente décrite ci-après.

Selon cette première équation, le signal sRn) est égal à la somme de deux termes l\'un représentant le résonateur et l\'autre une excitation buccale : (équation 1) Dans cette équation, les valeurs de P et de R représentent des ordres de filtre dans les modèles utilisés.

Classiquement, en reconnaissance vocale, on suppose que le conduit vocal est un tube de section variable, mais on ne prévoit pas de bifurcation comme ce serait nécessaire, par exemple pour modéliser la cavité nasale. D\'autre part, on suppose que l\'excitation est soit un peigne de Dirac pour les sons voisés, soit un bruit blanc pour les sons non-voisés.

Il s\'agit ici d\'une approximation qui constitue une hypothèse simplificatrice abusive. L\'invention vise notamment à lever la partie de cette hypothèse qui concerne la forme de l\'excitation.

On peut avec une hypothèse simplificatrice justifiée sur l\'excitation buccale obtenir l\'équation suivante en prenant une valeur nulle pour R.

La première équation mentionnée précédemment devient alors (équation 2)

Une relation directe entre la fonction d\'autocorrélation et les coefficients est obtenue en multipliant les deux membres de la première équation par s (n-k) et en faisant la somme : (équation 3) soit sous forme matricielle : où (équation 4) (autocorrélation du signal de sortie pour 1 S S P) et (équation 5) (intercorrelation du signal d\'entrée pour 1 < i < P) Dans notre cas, le signal d\'entrée e (n) source, à l\'entrée du conduit buccal, est inconnu. Par contre, nous sommes en possession du signal de sortie son), qui est la production sonore suite de e (n) une fois convolué avec le conduit buccal. Au cours d\'une première étape, nous procédons de façon classique en supposant que le signal de sortie est un signal non-voisé, produit par un bruit blanc centré d\'écart type s. Dans ces conditions, les équations se simplifient et deviennent : (équation 6)

Ce système se résout alors, par exemple, par l\'algorithme de Durbin (dont on trouvera une description dans les articles suivants écrits par J. Durbin,"Efficient Estimation of Parameters in Moving-Average Models",

Biometrica, vol 46, parts 1 & 2,1959, pp 306-316 et"The Fitting of Time-Series", Rev. Inst. Intern. Statist., vol 28, no. 3,1960, pp. 233-243) Selon l\'invention, il est alors possible de recalculer l\'erreur de sortie (pour chaque valeur de n comprise entre 1 et N) par l\'équation : p erreur (n) = s (n)-E a i s (n-k) i=l (équation 7) Le modèle 403 décrit en regard de la figure 4 effectue le calcul de s\' (n) pour chaque valeur de n selon la relation suivante : (équation 8) L\'opérateur 405 effectue alors la soustraction s-s\' (ou plus précisément s (n)-s\' (n) pour toutes les valeurs de n allant de 1 à N) pour obtenir l\'erreur de sortie 406.

Cette erreur 406 permet alors de substituer le signal d\'entrée e (n) par le signal d\'erreur, erreur (n) dans l\'équation 3. Ensuite, les différentes intercorrélations res (iJ sont calculées selon la relation définie par l\'équation 5 dans le module 407.

Puis, le module de calcul 410 détermine les différentes valeurs de ai (paramètres du résonateur buccal) pour toutes les valeurs de i comprises entre 1 et P par utilisation d\'un algorithme de résolution du système d\'équations par triangularisation de l\'équation 3 dans laquelle on a injecté les dernières valeurs calculées de reSKi) pour i allant de 1 à P.

Ensuite, le modèle 403, l\'opérateur 405, les modules 407 et 410 calculent à nouveau respectivement s\', s-s\', rez (if et ai par itérations successives, jusqu\'à atteindre une erreur résiduelle considérée comme étant suffisamment faible, ou bien un nombre d\'itérations maximum prédéfinies.

Le module de calcul 410 fournit alors les valeurs de ai pour i allant de 1 à P (ou une fonction des valeurs ai telles que les cepstres) au moteur de reconnaissance 203.

En variante, le DAP 200 fournit à un module extérieur d\'autres valeurs telles que par exemple les valeurs d\'excitations glottales calculées par le modèle 403.

La figure 5 illustre une fentre d\'échantillonnage d\'un signal vocal.

Cet échantillonnage est effectué à l\'entrée du DAP 200 tel qu\'illustré en regard des figures 2 et 3.

On constate qu\'un signal vocal analogique 500 en entrée du DAP 200 est échantillonné dans une fentre de longueur (ou durée) L prenant en compte N échantillons régulièrement espacés dans le temps.

Pour chaque échantillon indicé de 1 à N suivant l\'axe des abscisses 502 représentant le temps t, le DAP enregistre sous forme numérique la valeur de l\'intensité du signal reçu 500 représenté par l\'axe des ordonnées 501.

Selon la figure 6 représentant un algorithme de reconnaissance tel qu\'implanté dans un DAP 200 tel qu\'illustré en regard des figures 2 et 3, un signal analogique de parole 402 est converti en une suite d\'échantillons numériques au cours d\'une opération 600.

Puis au cours d\'une opération 601 de fentrage, le DAP 200 prend en compte N échantillons au sein d\'une fentre 503 illustrée en regard de la figure 5.

Ensuite, au cours d\'une opération 602, le DAP 200 initialise le compteur d\'itération à zéro et calcule une première fois les valeurs des paramètres de résonance buccale ai correspondant aux N échantillons pris en compte comme indiqué en regard de la figure 4.

Puis, au cours d\'une opération 603, le DAP 200 effectue un calcul d\'erreur basé sur la variation des cepstres qui est une fonction des dernières valeurs ai obtenues.

Les ceptres sont obtenus à partir des coefficients a, calculés comme décrit plus haut de la manière suivante : ci =-ai Dans ces égalités, p est comme précédemment l\'ordre du filtre tout pôle, et n le nombre de coefficients cepstraux que l\'on souhaite retenir.

(le nombre n est habituellement compris entre 8 et 12).

Le calcul de l\'erreur se fait alors de la manière suivante : Si, à l\'itération précédente, les ceptres avaient pour valeurs c\', alors l\'erreur relative est calculée de la manière suivante :\' ci-c1 erreur = maximum i i pour 1 < i < n. ci

Si cette erreur est inférieure à un seuil fixé à l\'avance, par exemple 2% de variation relative, le cycle des itérations est stoppé. Dans le cas contraire, il se poursuit.

Une alternative pour calculer l\'erreur sans passer par le calcul des ceptres est décrit dans le document écrit par F. Itakura, intitulé"minimum prediction residual principle applied to speech recognition" (ou en français "Principe résiduel de prédiction minimum appliqué à la reconnaissance de langage") et publié dans la revue IEEE Transaction on Acoustical Speech and Signal Processing en février 1975.

Dans ce cas, si les coefficients du filtre tout pôle à l\'itération précédente prennent les valeurs a\'et à l\'itération actuelle les valeurs a, alors on calcule la valeur d suivante : avec R la matrice des coefficients/ de l\'équation 6 précédemment décrite.

Si la valeur absolue de ce résultat est inférieure à une valeur fixée à l\'avance, alors le processus d\'itérations est, comme ci-dessus, stoppé.

Ensuite au cours d\'un test 604, le DAP détermine si l\'erreur est inférieure à la valeur minimale s prédéterminée qui correspond à une variation faible des cepstres.

Dans la négative, au cours d\'un test 605, le DAP détermine si le nombre d\'itérations est supérieur à une valeur maximale Maxlteration prédéfinie.

Dans la négative, au cours d\'une opération 606, le DAP résout un système linéaire correspondant au modèle 403 décrit en regard de la figure 4, calcule les valeurs de ai et incrémente le compteur d\'itérations.

Ensuite, l\'opération 603 est réitérée.

Lorsque l\'un des tests 604 ou 605 est positif, la détermination itérative des paramètres acoustiques cesse et au cours d\'une opération 607, le DAP effectue un calcul cepstral, les cepstres étant obtenus en fonction des coefficients ai de résonance buccale. (On note que pour des applications de type reconnaissance vocale, on s\'intéresse notamment à la forme de la résonance buccale dans le spectre).

Les figures 7 et 8 illustrent une excitation glottale calculée sur le mot"quatre"selon l\'état de l\'art (figure 7) et selon l\'invention (figure 8).

Ces deux figures montrent l\'évolution de l\'excitation glottale calculée en fonction du temps (en ms selon l\'axe 702 des abscisses) et d\'une intensité (exprimée dans la mme unité selon l\'axe 701 des ordonnées). Les résultats obtenus peuvent ainsi tre directement comparés.

On constate que sur la figure 7, l\'excitation glottale 700 calculée à partir des techniques habituelles de l\'état de l\'art possède des pics 703, 704 de faible intensité.

Ainsi, l\'estimation de l\'excitation glottale n\'est pas correcte puisque le son analysé est voisé, ce qui signifie que l\'excitation réelle ayant produit le son analysé possède des pics importants.

En outre, deux pics successifs ne sont pas facilement identifiables. Il est ainsi difficile de retrouver une période dans le signal.

En revanche, on constate que selon la figure 8, l\'excitation glottale 700 calculée par un dispositif mettant en oeuvre l\'invention possède des pics 803,804 de forte intensité.

Ainsi, l\'estimation de l\'excitation glottale est bien meilleure que lorsque des techniques de l\'état de l\'art sont utilisées sans mise en oeuvre de l\'invention.

En outre, deux pics successifs sont très facilement identifiables.

On peut donc aisément mesurer une période 805 entre deux pics successifs 803 et 804. Ceci est intéressant puisqu\'on en déduit sans ambiguïté que : - le signal est non voisé si aucun pic n\'apparaît clairement ; et - le signal est voisé si des pics apparaissent clairement.

De plus, si le signal est voisé, on peut obtenir la fréquence des formants (par simple inversion des périodes présentes dans le signal) et leur intensité.

Bien entendu, l\'invention n\'est pas limitée aux exemples de réalisation mentionnés ci-dessus.

En particulier, l\'homme du métier pourra apporter toute variante dans l\'architecture du dispositif de reconnaissance vocale. L\'homme du métier pourra notamment considérer que le boîtier de reconnaissance vocale, le boîtier de commande et l\'appareil font partie d\'un mme dispositif ou sont séparés.

En outre, la mise en oeuvre de l\'invention n\'est pas limitée aux appareils tels que les téléviseurs, magnétoscopes ou terminaux de télécommunication ou aux télécommandes mais concerne tout type de

dispositif et/ou module utilisant ou pouvant utiliser un procédé d\'extraction acoustique des paramètres du signal vocal.

On note que l\'application de détermination des paramètres acoustiques ne se limite pas aux applications de type reconnaissance vocale mais s\'étend à toute autre application utilisant une estimation d\'excitation glottale et/ou de résonance buccale d\'un signal vocal, et notamment les applications de type reconnaissance de locuteur et/ou repérage de l\'intonation ou de la prosodie d\'une phrase.

En outre, la mise en oeuvre du procédé d\'extraction acoustique ne se limite pas aux cas des extracteurs acoustiques selon un mode de réalisation de type"LPC"décrit précédemment mais s\'étend à tout type de réalisation intégrant un résonateur (tel que"PLP"par exemple qui comprend, en sus du"LPC", des filtres passe-bas et de perception sur le signal avant extraction acoustique).

On notera que l\'invention ne se limite pas non plus à une implantation purement matérielle mais qu\'elle peut aussi tre mise en oeuvre sous la forme d\'une séquence d\'instructions d\'un programme informatique ou toute forme mixant une partie matérielle et une partie logicielle. Dans le cas où l\'invention est implantée partiellement ou totalement sous forme logicielle, la séquence d\'instructions correspondante pourra tre stockée dans un moyen de stockage amovible (tel que par exemple une disquette, un CD-ROM ou un DVD-ROM) ou non, ce moyen de stockage étant lisible partiellement ou totalement par un ordinateur ou un microprocesseur.

Previous Patent: ACTIVE NOISE CANCELLING HEADSET AND DEVICES WITH SELECTIVE NOISE SUPPRESSION

Next Patent: ADPCM SPEECH CODING SYSTEM WITH SPECIFIC STEP-SIZE ADAPTATION