Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD OF REDUCING THE RESIDUAL ACOUSTIC ECHO AFTER ECHO REMOVAL IN A “HANDS-FREE” DEVICE
Document Type and Number:
WIPO Patent Application WO/2008/049982
Kind Code:
A1
Abstract:
The method comprises, in the temporal domain, an echo cancellation processing (40) by subtracting from the signal picked up a reference signal delivered by an adaptive circuit for modelling the acoustic coupling between microphone (18) and loudspeaker (16). A processing for removing the residual echo (42) remaining after the echo cancellation, and a processing for reducing the noise (44) are operated in the frequency domain on successive frames of the signal. The residual echo removal processing comprises an estimation of the respective values of the power of the residual echo over a plurality frequency bands defined for successive frames of the signal, then the calculation and the application of a variable gain specific to each frequency band and to each frame, the respective gain being all the lower the higher the estimated relative power of the residual echo, for the frequency band considered, and vice versa. For each frequency band and for each frame, respective values of the power of the ambient noise present in the signal picked up are estimated a priori, and the relative levels of the power of the noise and of the power of the residual echo in the signal picked up are compared. The variable gain is dependent on the estimated relative power of the residual echo when the level of the latter is greater than that of the noise, and the estimated relative power of the noise in the converse case.

Inventors:
SEYDOUX HENRI (FR)
Application Number:
PCT/FR2007/001361
Publication Date:
May 02, 2008
Filing Date:
August 10, 2007
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
PARROT (FR)
SEYDOUX HENRI (FR)
International Classes:
H04M9/08
Domestic Patent References:
WO2000025441A12000-05-04
Foreign References:
US6442275B12002-08-27
Attorney, Agent or Firm:
DUPUIS-LATOUR, Dominique (14 boulevard Malesherbes, Paris, FR)
Download PDF:
Claims:
REVENDICATIONS

1. Un procédé de traitement d'un signal audio capté par le microphone (18) d'un dispositif "mains libres" (14) comportant également un haut- parleur (16) susceptible d'introduire par couplage acoustique avec le mi- crophone un écho acoustique parasite, le signal capté par le microphone comportant une composante utile de parole (32), une composante parasite d'écho acoustique (36) et une composante parasite de bruit ambiant (34), ce procédé comprenant, dans le domaine temporel : - un traitement d'annulation d'écho (40) opérant par soustraction au signal capté d'un signal de référence délivré par un circuit adaptatif de modélisation dudit couplage acoustique, ce procédé comprenant en outre, dans le domaine fréquentiel et sur des trames successives du signal : - un traitement de suppression de l'écho résiduel (42) subsistant après exécution du traitement d'annulation d'écho, comprenant : une estimation des valeurs respectives de la puissance de l'écho résiduel sur une pluralité de bandes de fréquences définies pour des trames successives du signal, et le calcul, et l'application, d'un gain variable propre à chaque bande de fréquence et à chaque trame, le gain respectif étant d'autant plus faible que, pour la bande de fréquence considérée, la puissance relative estimée de l'écho résiduel est élevée, et inversement ; et - un traitement de réduction du bruit (44) présent dans le signal après exécution du traitement d'annulation d'écho, procédé caractérisé : - en ce qu'il comprend en outre, pour chaque bande de fréquences et pour chaque trame : - une estimation a priori des valeurs respectives de la puissance du bruit ambiant présent dans le signal capté, et

- une comparaison des niveaux relatifs de la puissance du bruit et de la puissance de l'écho résiduel dans le signal capté,

- et en ce que le calcul dudit gain variable est opéré en fonction de la puissance relative estimée de l'écho résiduel lorsque le niveau de ce dernier est supérieur à celui du bruit, et en fonction de la puissance relative estimée du bruit dans le cas contraire.

2. Le procédé de la revendication 1 , comprenant en outre :

une estimation d'une probabilité de présence/absence de parole, et

- une pondération, par la probabilité estimée de présence/absence de parole, de la puissance relative estimée de l'écho résiduel, la valeur de la puissance étant d'autant plus réduite par cette pondération que la probabilité de parole est faible, et inversement.

3. Le procédé de la revendication 2, dans lequel la puissance relative estimée de l'écho résiduel est donnée, pour la bande de fréquences k défi- nie pour la trame /, par l'expression :

Puissance Echo _res(k, I) = — q r(f (k,l)) où :

E{»} représente l'espérance mathématique, E(A:,/) est la transformée de Fourier discrète du signal capté après soustraction du signal de référence par le traitement d'annulation d'écho, X(k,l) est la transformée de Fourier discrète du signal de référence utilisé pour le traitement d'annulation d'écho, et o r ^(k,l) représente la probabilité de présence de parole.

4. Le procédé de la revendication 1 , dans lequel le calcul dudit gain variable est opéré également en fonction d'une estimation a posteriori des valeurs respectives de la puissance de l'écho résiduel dans le signal capté.

5. Le procédé de la revendication 4, dans lequel le calcul dudit gain variable est opéré en fonction de l'estimation a posteriori des valeurs respectives de la puissance de l'écho résiduel dans le signal capté, aussi bien

lorsque le niveau de l'écho résiduel est supérieur à celui du bruit que dans le cas contraire.

Description:

Procédé de réduction de l'écho acoustique résiduel après suppression d'écho dans un dispositif "mains libres"

L'invention concerne de façon générale la réduction d'écho dans les dispositifs utilisant des signaux audio captés par un microphone, par exemple les téléphones, adaptateurs de type "mains-libres" et dispositifs analogues. En particulier, l'invention peut être avantageusement appliquée à un dispositif "mains libres" utilisable en association avec un téléphone portable, notamment un dispositif "mains libres" autonome adaptable de manière amovible dans un véhicule automobile. Plus précisément, l'écho peut résulter de deux phénomènes, de natures différentes. Le premier est l'écho dit "écho de ligne", cantonné à la voie de transmission et pour lequel on connaît diverses méthodes de filtrage ; le second est dit "écho acoustique", écho réellement capté par le microphone et dû au phénomène de réverbération de l'environnement du locuteur, typiquement la pièce où il se trouve ou bien l'habitacle d'un véhicule. C'est à l'élimination de ce dernier type d'écho (écho acoustique) que s'attache tout particulièrement la présente invention.

Cet écho acoustique constitue un élément perturbateur majeur du dispositif pouvant aller, souvent, jusqu'à rendre incompréhensible pour le locuteur distant (celui qui est à l'autre bout de la voie de transmission du si- gnal téléphonique) les paroles du locuteur proche (celui dont les paroles sont noyées dans l'écho acoustique.

Ces appareils comportent un microphone sensible destiné à capter la parole du locuteur proche, et un haut-parleur relativement puissant reproduisant la parole du locuteur distant au cours d'une conversation téléphoni- que. Toutefois, par couplage acoustique entre ces deux transducteurs, le microphone capte non seulement la voix du locuteur proche, mais également le bruit environnant et, surtout, l'écho acoustique, c'est-à-dire la réverbération du son reproduit par le haut-parleur - et ceci à un niveau d'autant plus élevé que microphone et haut-parleur sont proches et que la puissance acoustique restituée par le haut-parleur est élevée. Tel est typiquement le cas des systèmes embarqués dans un véhicule automobile,

où le niveau sonore du haut-parleur est relativement élevé pour couvrir les bruits environnants.

De plus, nombre de ces dispositifs sont réalisés sous la forme d'appareils autonomes, amovibles, comprenant dans un même boîtier à la fois le mi- crophone et le haut-parleur ainsi que les boutons de commande : la proximité (quelques centimètres) entre haut-parleur et microphone entraîne alors un niveau d'écho acoustique considérable, typiquement de l'ordre de vingt fois plus élevé que le signal de parole produit par le locuteur proche. En outre, outre l'écho acoustique, la distance importante entre microphone et locuteur entraîne dans ces dispositifs un niveau relatif de bruit élevé dans le signal capté, qui rend difficile l'extraction du signal utile noyé dans l'écho et dans le bruit. Ce bruit présente au surplus des caractéristiques spectrales non stationnaires, c'est-à-dire qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc., rendant encore plus difficile la mise au point d'algorithmes appropriés de traitement du signal. Pour ces raisons, l'élimination de l'écho acoustique est particulièrement difficile, notamment dans les environnement très bruités, typiques des véhicules automobiles, où le bruit ambiant vient se surajouter aux signaux de parole et d'écho captés par le microphone.

Il importe également que le traitement d'élimination de l'écho n'introduise pas de distorsion sensible dans le signal utile, et ne génère pas, ou le moins possible, de "bruit musical", qui est un type de bruit strident particulièrement perceptible et désagréable à l'audition.

Les dispositifs connus les plus performants mettent en œuvre dans de tels cas : (i) un module d'annulation d'écho, (ii) un module de suppression d'écho et (iii) un module de réduction de bruit. Le module dit d"'annulation d'écho" (écho cancellation) ou AEC (Acoustic Echo Canceller) exécute un algorithme qui modélise le couplage acoustique microphone/haut-parleur par une transformation linéaire entre le signal du locuteur distant (c'est-à-dire le signal destiné à être reproduit par le haut-parleur) et l'écho capté par le microphone. Cette transformation définit dynamiquement un filtre adaptatif, qui est alors appliqué au signal

incident provenant du locuteur distant. Le résultat de ce filtrage est alors soustrait du signal recueilli par le microphone, ce qui a pour effet d'annuler la majeure partie de l'écho acoustique.

Le module dit de "suppression d'écho" (écho suppression) a pour rôle de supprimer l'écho résiduel présent après traitement par le module d'annulation d'écho, en atténuant cet écho résiduel jusqu'au niveau du bruit de fond. à la différence de l'annulation d'écho qui est mise en œuvre essentiellement par soustraction de signaux, la suppression d'écho opère par un contrôle du gain. L'inconvénient est que la réduction du gain s'applique donc également à la composante utile du signal capté par le microphone (parole du locuteur proche), puisque ce gain est appliqué indistinctement au signal incident, considéré dans sa globalité.

Enfin, le module de réduction de bruit (noise réduction) vise à réduire le bruit de fond capté par le microphone tout en préservant la voix du locu- teur proche. Cette réduction de bruit est avantageusement opérée de façon dynamique et adaptative, en discriminant les périodes de silence de la conversation pour y identifier le bruit et caractériser le spectre de celui- ci, puis en opérant un débruitage sélectif avec une atténuation adaptée. Le WO-A-00/25441 décrit un dispositif mettant en œuvre les divers modu- les décrits ci-dessus.

Les dispositifs proposés jusqu'à présent ne donnent toutefois pas complètement satisfaction dans les configurations de double parole, en particulier dans le cas des appareils où la distance entre haut-parleur et microphone est très faible en comparaison de la distance entre locuteur proche et mi- crophone de sorte que, comme on l'a indiqué plus haut, lorsque le locuteur distant parie le niveau de l'écho produit est considérablement supérieur au niveau moyen de la parole du locuteur proche. Par ailleurs, le module d'annulation d'écho, qui est basé sur un filtre linéaire adaptatif, ne modélise pas parfaitement le couplage, et ne tient pas compte des non-linéarités introduites notamment au niveau de l'amplificateur et du haut-parleur, ni du bruit de fond électrique au niveau des circuits de conversion analogique/numérique. Ces divers phénomènes engendrent une instabilité dans l'algorithme d'annulation d'écho, qui doit se réadapter dans un temps très court.

L'écho résiduel après traitement par le module d'annulation d'écho peut ainsi atteindre un niveau relativement élevé, d'où l'importance de la tâche exécutée par le module de suppression de cet écho résiduel. La difficulté de concevoir un module d'annulation d'écho performant, combinée avec la nécessité d'un traitement de réduction de l'écho résiduel par un "post-processeur", est évoquée en particulier par C. Faller et J. Chen, Suppressing Acoustic Echo in a Spectral Envelope Space, IEEE Transactions on Speech and Audio Processing, Vol. 13, No. 5, pp. 1048- 1062, Sept. 2005. Pour éviter les difficultés précitées, et pour réduire la complexité de l'algorithme de réduction de l'écho acoustique, ces auteurs préconisent une alternative à la technique d'annulation d'écho à filtre adaptatif linéaire : au lieu d'essayer de modéliser le couplage acoustique, l'algorithme analyse l'enveloppe spectrale du signal d'écho et applique directement un traite- ment de modification spectrale tenant compte notamment de la sélectivité fréquentielle du système auditif humain.

La technique proposée par ce document présente cependant de sérieuses limitations dans le cas de signaux dont le niveau d'écho est très élevé et dans les environnement fortement bruités, typiques des adaptateurs mains-libres utilisés dans un habitacle d'automobile, pour lesquels les techniques mettant en œuvre dune modélisation du couplage acoustique avec filtre linéaire adaptatif se révèlent nettement plus performantes, avec une meilleure élimination de l'écho et une moindre distorsion du signal de parole. L'un des buts de l'invention est de proposer un procédé amélioré de suppression d'écho du type précité, c'est-à-dire utilisable en combinaison avec un module d'annulation d'écho à filtre adaptatif, qui permette de préserver, dans la mesure du possible, les composantes utiles du signal tout en réduisant de façon plus accentuée la composante d'écho résiduel. Et ceci sans introduire de distorsion sensible dans le signal utile, et sans générer, ou le moins possible, de bruit musical parasite. Un autre but de l'invention est de proposer un procédé amélioré de suppression d'écho qui puisse également assurer la réduction du bruit de fond, en discriminant la composante de bruit et la composante d'écho ré- siduel dans le signal capté, de manière à déterminer celle qui, compte te-

nu de son spectre, présente le caractère le plus dommageable par rapport à la composante utile de parole, et lui appliquer prioritairement le traitement de suppression.

Le procédé de l'invention est un procédé d'un type connu d'après le WO- A-00/25441 précité, c'est-à-dire comportant dans le domaine temporel un traitement d'annulation d'écho opérant par soustraction au signal capté d'un signal de référence délivré par un circuit adaptatif de modélisation dudit couplage acoustique. Le procédé comprend en outre, dans le domaine fréquentiel et sur des trames successives du signal, un traitement de suppression de l'écho résiduel subsistant après exécution du traitement d'annulation d'écho, et un traitement de réduction du bruit présent dans le signal après exécution du traitement d'annulation d'écho. Le traitement dans le domaine fréquentiel de suppression de l'écho résiduel comprend une estimation des valeurs respectives de la puissance de l'écho résiduel sur une pluralité de bandes de fréquences définies pour des trames successives du signal, ainsi que le calcul et l'application d'un gain variable propre à chaque bande de fréquence et à chaque trame, le gain respectif étant d'autant plus faible que, pour la bande de fréquence considérée, la puissance relative estimée de l'écho résiduel est élevée, et inversement.

De façon caractéristique, selon un premier aspect de l'invention, le traitement comprend en outre, pour chaque bande de fréquences et pour chaque trame, une estimation a priori des valeurs respectives de la puissance du bruit ambiant présent dans le signal capté, et une comparaison des ni- veaux relatifs de la puissance du bruit et de la puissance de l'écho résiduel dans le signal capté. Le calcul dudit gain variable est alors opéré en fonction de la puissance relative estimée de l'écho résiduel lorsque le niveau de ce dernier est supérieur à celui du bruit, et en fonction de la puissance relative estimée du bruit dans le cas contraire. De préférence, selon un second aspect de l'invention, le procédé comprend une estimation d'une probabilité de présence/absence de parole, et une pondération, par la probabilité estimée de présence/absence de parole, de la puissance relative estimée de l'écho résiduel, la valeur de la puissance étant d'autant plus réduite par cette pondération que la proba- bilité de parole est faible, et inversement.

Dans une forme de mise en œuvre avantageuse, la puissance relative estimée de l'écho résiduel est donnée, pour la bande de fréquences k définie pour la trame /, par l'expression :

où :

E{»} représente l'espérance mathématique,

E(k,l) est la transformée de Fourier discrète du signal capté après soustraction du signal de référence par le traitement d'annula- tion d'écho,

X(k,l) est la transformée de Fourier discrète du signal de référence utilisé pour le traitement d'annulation d'écho, et <l ref (k > 0 représente la probabilité de présence de parole.

Le calcul du gain variable peut être également opéré en fonction d'une estimation a posteriori des valeurs respectives de la puissance de l'écho résiduel dans le signal capté, et ceci aussi bien lorsque le niveau de l'écho résiduel est supérieur à celui du bruit que dans le cas contraire.

On va maintenant décrire un exemple de mise en œuvre de l'invention, en référence aux dessins annexés.

La figure 1 est un schéma général montrant les différents étages impli- qués dans le traitement du signal.

La figure 2 est un schéma plus détaillé montrant les différents blocs fonctionnels impliqués à la fois dans le module d'annulation d'écho et dans le module de réduction de bruit et de suppression d'écho résiduel combinées. 0

En référence à la figure 1 , on va toute d'abord décrire la structure générale d'un dispositif "mains-libres" qui, de manière en elle-même connue,

comprend des moyens d'annulation d'écho, de réduction d'écho et de réduction du bruit.

Un tel dispositif est destiné à supporter une conversation téléphonique entre deux personnes, à savoir un locuteur proche 10 et un locuteur distant 12. Le locuteur proche 10 est celui qui se trouve à proximité du dispositif "mains-libres" 14. Le locuteur distant 12 est celui avec lequel le locuteur proche est en conversation téléphonique.

Le dispositif 14 est typiquement un dispositif installé dans un véhicule automobile, à demeure ou de manière amovible. Il possède un haut-parleur 16 destiné à reproduire la parole du locuteur distant, et un microphone 18 destiné à capter la parole du locuteur proche 10. Le dispositif comporte également des moyens d'interfaçage, schématisés en 20, pour la transmission bidirectionnelle des signaux sur un réseau téléphonique, par exemple (mais de façon non limitative) une interface sans fil de type Blue- tooth (marque déposée du Bluetooth SIG, Inc) ou autre permettant de coupler le dispositif 14 au téléphone cellulaire portable du locuteur proche, par lequel ce dernier est lui-même en communication radiotéléphonique avec le locuteur distant. Le signal incident reçu sur l'entrée E du dispositif 14, qui comprend la composante de parole 22 du locuteur distant 12, est appliqué à un convertisseur numérique/analogique 28, puis en entrée d'un amplificateur audio 30 qui reproduit le signal sur le haut-parleur 16.

Le microphone 18, quant à lui, capte un signal acoustique qui sera une combinaison (i) de la parole 32 du locuteur proche 10, (ii) du bruit ambiant 34 régnant dans l'environnement de ce dernier (par exemple dans l'habitacle du véhicule automobile) et (iii) du signal 36 reproduit par le haut- parleur 16.

Le signal 36 est un signal d'écho indésirable du point de vue du microphone 18. Comme on l'a indiqué plus haut, compte tenu des niveaux de fonctionnement de l'amplificateur 30, et du couplage important tenant à la proximité entre haut-parleur 16 et microphone 18, lorsque le locuteur distant 12 parle, le niveau du signal 36 peut atteindre vingt fois celui du signal de parole 32 du locuteur proche 10. La réduction de l'écho acoustique est opérée, après numérisation du si- gnal du microphone 18 via l'étage de conversion analogique/numérique

38, au moyen de trois traitements successifs : (i) annulation d'écho 40, (ii) suppression d'écho 42 et (iii) réduction de bruit 44. Ces traitements sont mis en œuvre sous forme d'algorithmes appropriés exécutés par un microcontrôleur ou un processeur de traitement des si- gnaux incorporé au dispositif 14. Bien que, pour la clarté de l'exposé, ces trois traitements soient présentés sous forme de modules distincts, ils mettent en œuvre des éléments communs, et correspondent en fait à une pluralité de fonctions globalement exécutées par un même logiciel. Les différents blocs fonctionnels de ce logiciel, qui opèrent un traitement du signal à la fois dans le domaine temporel (annulation d'écho 40) et dans le domaine fréquentiel (suppression d'écho 42 et réduction du bruit 44) seront exposés en détail plus bas, en référence à la figure 2. Le premier module est le module d'annulation d'écho 40. Il n'a essentiellement pas d'effet sur la parole du locuteur proche 10 : la voix du locuteur proche est donc intacte après l'annulation d'écho 40. L'annulation d'écho consiste à définir de façon dynamique un filtre de compensation recevant en entrée un signal de référence 46 provenant du locuteur distant (signal sur l'entrée E du dispositif) de manière à soustraire du signal 48 capté par le microphone 18 un signal adapté représentatif du signal reçu, pour don- ner en sortie un signal débarrassé de l'écho parasite. Le filtre linéaire peut être caractérisé au moyen d'un algorithme de suppression d'écho tel qu'un algorithme de type APA (Affin Projection Algorithm), ou de type LMS {Least Mean Squares) ou NLMS (Normalized LMS). Un tel algorithme adaptatif perfectionné de type APA est par exemple dé- crit dans le FR-A-2 792 146 (Parrot SA).

Toutefois, pour plusieurs raisons (identification du filtre imparfaite, modélisation linéaire approximative, présence de non-linéarités,...) il est fréquent que de l'écho reste audible après traitement par le module d'annulation d'écho 40. Le module de suppression d'écho 42 a pour objet de supprimer cet écho résiduel, en atténuant le signal d'écho jusqu'au niveau du bruit de fond. L'invention porte en particulier sur cette réduction d'écho résiduel, dont la manière d'opérer sera exposée plus bas.

Enfin, le module de réduction du bruit 44 a pour rôle de réduire le bruit de fond 34 capté par le microphone, tout en préservant la parole 32 du locuteur proche.

Le traitement de débruitage proprement dit est réalisé dans le domaine fréquentiel, le passage entre domaines temporel et fréquentiel étant réalisé au moyen de transformées de Fourier rapides avec fenêtrage et recouvrement. Le débruitage met en œuvre une estimation de bruit et un calcul de gain pour chaque bande de fréquence : pendant les périodes identifiées comme des silences, le bruit capté est analysé dans ses différentes composantes fréquentielles de manière à déterminer l'énergie des composantes fréquentielles les plus bruitées et appliquer ensuite au signal bruité un gain faible, tout en laissant intactes les composant peu ou pas bruitées. Les valeurs de gain sont basées sur des modèles statistiques de la parole et du bruit et sur l'estimation de paramètres de ces modèles. Le signal ainsi traité, débarrassé de son écho et débruité, est finalement délivré sur la sortie S du dispositif, pour transmission au locuteur distant par l'interface 20.

L'invention propose une nouvelle technique de suppression de l'écho résiduel, plus performante que les techniques employées jusqu'à présent. Ces techniques présentaient en effet un certain nombre de limitations, notamment lorsque l'écho est difficilement prédictible et peut atteindre des niveaux maxima très élevés en raison notamment de la proximité matérielle entre microphone et haut-parleur. Le principe de base du suppresseur d'écho résiduel de l'invention consiste à utiliser une technique comparable à celle mise en œuvre pour la réduction du bruit. En d'autre termes, on assimile l'écho résiduel à un bruit et on lui applique un traitement de soustraction spectrale et de calcul d'un gain optimal sur chacune des composantes fréquentielles. La suppression d'écho résiduel selon l'invention consiste donc, pour une composante fréquentielle k et une trame (temporelle) indexée /, à calculer et à appliquer un gain G Echo _res(k,l) qui sera :

- faible lorsque les composantes fréquentielles contiennent beaucoup d'écho résiduel, et

- proche de l'unité, ou égal à l'unité, lorsque les composantes fréquen- tielles ne contiennent pas ou peu d'écho résiduel.

Ce traitement a pour effet de diminuer l'énergie des composantes fré- quentielles où l'écho résiduel est important et de laisser intactes celles qui n'en contiennent pas.

Pour pouvoir calculer le gain, il est nécessaire d'avoir une estimation des rapports signaux à bruit a priori et a posteriori, eux-mêmes nécessitant de connaître la puissance de l'écho résiduel. L'invention propose la méthode ci-après, avec les notations suivantes :

y(n) signal capté par le microphone (signal 48), e(«) signal capté, duquel on a soustrait l'écho estimé, echo_res(n) écho résiduel (après le traitement d'annulation d'écho), s(«) signal de parole du locuteur proche,

«(«) signal de bruit de l'environnement du locuteur proche,

*(") signal de référence (signal 46 utilisé pour le traitement d'annulation d'écho), n échantillon courant, h réponse impulsionnelle réelle (inconnue) de la partie linéaire du couplage ente le haut-parleur et le microphone, h réponse impulsionnelle estimée, mise à jour à l'aide de méthodes adaptatives. ® représente le produit de convolution

Avec les notations précédentes, le signal capté s'exprime sous la forme :

y(n) = s(ή) + echo{n) + «(«) . ( 1 )

En négligeant la partie non linéaire du couplage, on obtient la relation :

y(n) = s(n) + h ® x(n) + «(«) . (2)

De même, il est possible d'exprimer le signal capté duquel a été soustrait l'écho estimé :

e(n) = s(n) + (h -îi)®x(n) + n(n) . (3)

En prenant la transformée de Fourier discrète de l'expression (3), il vient :

E(k, I) = S(k, I) + a{k, l).X(k, I) + N(k, I) , (4)

k et I représentant respectivement la composante fréquentielle (bande de fréquences) et le numéro de la trame.

Cela revient à supposer que pour chaque bande de fréquence k l'écho résiduel est proportionnel au signal de référence, le paramètre a(k,l) correspondant à une atténuation. Tout se passe comme si l'écho résiduel était égal à la référence, atténuée de a(k,l) .

Si l'on multiplie (4) par X{k,l) et si l'on en prend l'espérance, notée £{•} :

E{E(kJ)J(kJ)}= {s(kJ)J(kJ)}+E\a(kJ)J((kJ).X(kJ)}^

Supposons que a(k,l) soit indépendant de la trame considérée, c'est-à- dire que l'on a a(k,l) = a(k) . Supposons de plus que les variables S(k,l) et X(k,l) et les variables N(k,l)et X(k,l) sont décorrélées. On les supposera également de moyenne nulle, hypothèse non restrictive pour des signaux de parole et du bruit. On obtient l'expression simplifiée (6) :

II est désormais possible de définir une estimation de la puissance de l'écho résiduel. NotonsEsp _ EX (k,l) = ε {E(k, l).X (k,l)}. Esp _ EX{k,l) est obtenu par lissage de la trame précédente :

Esp _ EX {k, /) = (1 - λ).Esp _ EX (k, I - 1) + λ. X(k, l).E(k, I) ,

λ étant le facteur de lissage. D'où :

Comme Echo _res{k,l) = a(k,l).X(k,l) , il vient :

Puissance _ Echo _ res(k, I) = E{ a(k, If .X(k, I)JC {k, I)]

Puissance _ Echo _ res(k, I) = E\ a(k, If \X(k, l)f }

D'où : (7)

La présence d'un bruit de fond dans le signal de référence X (dû au bruit ambiant capté côté locuteur distant et au bruit introduit par la voie de transmission) entraîne l'estimation d'un écho résiduel même lorsque le lo- cuteur distant ne parle pas, car l'espérance au numérateur ne peut être réellement nulle. Cependant, l'écho résiduel effectif introduit par ce bruit de fond coté locuteur distant n'est pas gênant.

Comme le processus de suppression d'écho résiduel par la méthode proposée entraîne une légère distorsion de la voix, il est préférable ne pas trop surestimer l'écho résiduel lorsque cela n'est pas nécessaire. C'est pourquoi, en pratique, il est souhaitable de pondérer l'expression (7) par la probabilité de présence de parole, qui vaut (1 -probabilité d'absence). L'expression devient :

où q ref (kj) représente la probabilité de présence de parole sur le signal de référence, pour la fréquence k et la trame /.

On obtient ainsi une estimation de la puissance de l'écho résiduel, qui se- ra ensuite utilisée dans le calcul des rapports signaux à écho a priori et a posteriori.

Selon un autre aspect, l'invention propose de calculer un gain global, au lieu de calculer deux gains séparément après traitement par le module d'annulation d'écho (l'un pour la suppression de l'écho résiduel, fonction

mise en œuvre par le module 42 et l'autre pour la réduction du bruit, fonction mise en œuvre par le module 44),.

Ce gain global, noté G(JcJ) , tiendra compte à la fois, pour une bande de fréquence k et une trame /, de la présence du bruit et de la présence de l'écho résiduel.

La figure 2 illustre les différentes fonctions mises en œuvre pour le calcul de ce gain G(k,l) .

Le principe de base de ce traitement est fondé sur les travaux décrits par : [1] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP- 32, No 6, pp. 1109-1121 , Dec. 1984, et

[2] Y. Ephraim et D. Malah, Speech Enhancement using a Minimum Mean-Square Error Log-Spectral Amplitude Estimator, IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-33, No 2, pp. 443-445, April 1985.

Comme indiqué plus haut, l'invention propose d'utiliser ces techniques, initialement conçues pour le débruitage, pour la suppression de l'écho résiduel après annulation d'écho. Essentiellement, le signal contenant l'écho résiduel est analysé en composantes fréquentielles indépendantes par une transformée de Fourier discrète. Un gain optimal est calculé et appliqué sur chacune de ces composantes puis le signal ainsi traité est recombiné dans le domaine temporel. Dans [1], le gain appliqué est nommé "gain STSA" (Short-Time Spec- tral Amplitude) et permet de minimiser la distance quadratique moyenne entre le signal estimé (à la sortie de l'algorithme) et le signal de parole original (non bruité). Dans [2], l'application d'un gain nommé "gain LSA" (Log-Spectral Amplitude) permet de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le loga- rithme de l'amplitude du signal de parole original. Ce second critère se montre supérieur au premier car la distance choisie est meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats. Dans tous les cas, l'idée essentielle est de diminuer l'énergie des compo- santés fréquentielles très parasitées en leur appliquant un gain faible, tout

en laissant intactes (par l'application d'un gain égal à 1 ) celles qui le sont peu ou pas du tout.

La mise en œuvre de ce traitement permet de calculer une valeur G(k,l) pour le gain LSA. Un algorithme de type "OM-LSA" (Optimally-Modified Log-Spectral Amplitude), permet d'améliorer le calcul du gain LSA à appliquer, en le pondérant par la probabilité conditionnelle de présence de parole, selon une technique décrite notamment par : [3] I. Cohen, Optimal Speech Enhancement Under Signal Présence Un- certainty Using Log-Spectral Amplitude Estimator, IEEE Signal Processing Letters, Vol. 9, No 4, April 2002.

Plus précisément, comme illustré figure 2, le traitement est opéré à partir, d'une part, du signal 48 capté par le microphone après annulation d'écho par le module 40 (AEC, Acoustic Echo Canceller) et, d'autre part, à partir du signal de référence 46 représentatif du signal reproduit par le haut- parleur.

Le passage dans le domaine fréquentiel de ces deux signaux 46, 48 est obtenu par une transformation de Fourier rapide FFT (blocs 50, 50'). Pour le débruitage, le signal est soumis à un traitement tel que celui décrit dans les références [1] et [2], avec estimation de la puissance du bruit dans les différentes bandes de fréquences et pour une trame de signal donnée (bloc 52) et détermination d'un rapport signal à bruit a priori (bloc 54). Ce signal permet également de calculer une probabilité d'absence de parole (bloc 56). Un traitement par un algorithme de recherche des moindres carrés LSA (bloc 58) permet, par rebouclage, d'obtenir un rapport si- gnal à bruit a posteriori (bloc 54) après pondération par la probabilité de présence de parole conditionnelle (bloc 60). On obtient ainsi, pour chaque composante fréquentielle (bande de fréquence) k de chaque trame indexée /, une valeur de rapport signal à bruit a priori et une valeur de signal à bruit a posteriori. Pour plus de détails sur ces algorithmes de réduction d'écho, on pourra se référer aux références [1] et [2] précitées. La référence [3] précitée indique, quant à elle, la manière de pondérer le gain par la probabilité conditionnelle de présence de parole. Si l'on désigne les rapports signal à bruit a priori et signal à bruit a posteriori respectivement par SNR_prio{k,l) et SNR_post(k,l) , la référence [3]

donne, pour l'expression du gain G _bruit(k,l) , en fonction des paramètres ξ{k,l) = SNR_pήo(k,l) et χ(k,l) = SNR_post(k,l) :

G _bmit(kJ) = G_bruit(ξ(kJ),r(kJ)) = (9)

avec v(k,l) = ^ k f r(k,l)

L'invention propose d'opérer un traitement semblable à celui que l'on vient de décrire, pour calculer un rapport non plus signal à bruit mais signal à écho (ici et dans la suite, par simplification, par "écho" on entendra bien évidemment l'écho résiduel, que l'on cherche à minimiser). Les rapports signal à écho a priori et signal à écho a posteriori sont notés respectivement SER_prio(k,l) et SER_post(k,l) . Ces rapports sont calculés par les blocs fonctionnels 52', 54', 56' et 58' de la figure 2, qui exé- cutent des algorithmes semblables à ceux des blocs homologues 52, 54, 56 et 58 décrits plus haut à propos du traitement du bruit. Ce calcul est opéré à partir des données produites par application d'une transformée de Fourier rapide FFT 50' au signal de référence 46. Les valeurs des rapports signal à écho a priori et a posteriori, et des rap- ports signal à bruit a priori et a posteriori sont ainsi connues, et appliquées conjointement à l'algorithme de calcul du gain LSA (bloc 62). Le gain OM-LSA est calculé par le bloc 64. Une transformation de Fourier inverse (bloc 66) restitue en sortie le signal du microphone, débruité et sans écho. L'invention propose, pour le calcul du gain global G(k,l) , c'est-à-dire du gain tenant compte à la fois de l'écho et du bruit, d'utiliser l'expression (9) ci-dessus donnée pour le calcul du bruit, mais en sélectionnant des paramètres ξ(k,l) et γ(k,l) dépendant à la fois des rapports signal à bruit et des rapports signal à écho. On peut notamment utiliser, en lieu et place des paramètres ξ(k,l) et γ(k,l) , les paramètres ξ\k,l) et γ\k,l) tels que :

ξ{k,l) = min(SER_prio(k,l),SNR_prio(k,l)) (10)

γ\k,l) = SER_post(k,l) (11 )

En effet, si l'écho résiduel est supérieur au bruit, le rapport signal à écho sera plus faible que le rapport signal à bruit ; on choisira donc le paramètre SER_prio(k,l) pour appliquer un gain qui réduira plutôt l'écho. Dans cette situation, en fait l'écho masque le bruit, et l'on cherchera alors à ramener l'écho au niveau du bruit. Inversement, si le bruit est supérieur à l'écho résiduel, le rapport signal à bruit est plus faible que le rapport signal à écho, et on choisira le paramètre SNR_pήo{k,l) pour appliquer un gain qui réduira plutôt le bruit. En d'autres termes, en prenant le minimum du SER_prio(kJ) e\ du SNR_prio(k,l) , on se place toujours dans le cas le plus favorable, car on cherchera toujours à réduire la composante parasite la plus dommageable.

Le même raisonnement pourrait être appliqué au paramètre γ(k,l) , en prenant le minimum des rapports signal à bruit et signal à écho a posteriori. Toutefois, en pratique, on constate que l'utilisation, dans tous les cas, du rapports signal à écho a posteriori introduit moins de bruit musical dans le signal restitué. On obtient donc la valeur du gain tenant compte de l'écho et du bruit :

avec v\k,l) = "^ .γ{k\l)