Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
STABILISATION OF THE AMPLIFICATION GAIN OF A MICROPHONE SIGNAL IN A TELEPHONY APPARATUS
Document Type and Number:
WIPO Patent Application WO/2012/052675
Kind Code:
A1
Abstract:
The present invention relates to the processing of sound data in a telephony and/or videophony apparatus comprising at least one microphone. The method according to the invention comprises regulating the amplification gain of at least one signal from the microphone. Said regulation comprises, in addition to taking into account a signal picked up by the microphone, taking into account a background noise signal picked up by the microphone.

Inventors:
LE TOURNEUR, Grégoire (19 rue de Ker Noël, Saint Quay Perros, F-22700, FR)
Application Number:
FR2011/052428
Publication Date:
April 26, 2012
Filing Date:
October 18, 2011
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRANCE TELECOM (6 place d'Alleray, Paris, F-75015, FR)
LE TOURNEUR, Grégoire (19 rue de Ker Noël, Saint Quay Perros, F-22700, FR)
International Classes:
H04M1/60; H04M9/08
Attorney, Agent or Firm:
FRANCE TELECOM R&D/PIV/BREVETS (FROGER Marie-Hélène, 38-40 rue du Général Leclerc, Issy Moulineaux Cedex 9, F-92794, FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé de traitement de données sonores dans un équipement de téléphonie et/ou de visiophonie comportant au moins un microphone, caractérisé en ce qu'il comporte :

une estimation d'énergie de signal capté par le microphone,

une estimation d'énergie de signal de bruit ambiant capté par le microphone,

une régulation de gain d'amplification d'au moins un signal issu du microphone, la régulation de gain comportant l'application d'une pondération inversement proportionnelle à l'énergie de signal de bruit ambiant capté par le microphone.

2. Procédé selon la revendication 1, caractérisé en ce que la régulation de gain comporte une stabilisation de gain dans des conditions de faible signal capté par le microphone.

3. Procédé selon la revendication 1, caractérisé en ce que la pondération est du type :

„ EnerMic

EnerMic + y.EnerBruitMic

EnerMic désigne l'énergie de signal capté par le microphone,

EnerBruitMic désigne l'énergie de signal de bruit ambiant capté par le microphone, et γ est une valeur positive.

4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce que la régulation de gain est mise en œuvre dans un traitement d'annulation d'écho.

5. Procédé selon la revendication 4, dans lequel l'équipement de téléphonie et/ou de visiophonie comporte en outre au moins un haut-parleur, caractérisé en ce que l'annulation d'écho comporte une stabilisation de gain dans des conditions de faible signal capté par le microphone et/ou de faible signal émis par le haut-parleur.

6. Procédé selon la revendication 5, caractérisé en ce qu'il comporte :

une estimation d'énergie de signal capté par le microphone,

une estimation d'énergie de signal émis par le haut-parleur, et

une estimation d'énergie de signal de bruit ambiant capté par le microphone,

la régulation de gain comportant l'application d'une pondération inversement proportionnelle à l'énergie de signal de bruit ambiant capté par le microphone et à l'énergie de signal émis par le haut-parleur.

7. Procédé selon la revendication 6, caractérisé en ce que la pondération est du type „ EnerMic

(jmic = , ou :

EnerMic + p.EnerHp + y.EnerBruitMic

EnerMic désigne l'énergie du signal capté par le microphone,

EnerHP désigne l'énergie du signal émis par le haut-parleur,

EnerBruitMic désigne l'énergie du signal de bruit ambiant capté par le microphone, et γ et β sont des valeurs positives.

8. Module de traitement de données sonores dans un équipement de téléphonie et/ou de visiophonie comportant au moins un microphone,

caractérisé en en ce qu'il comporte :

des moyens de connexion au moins au microphone de l'équipement et

des moyens de régulation de gain d'amplification pour la mise en œuvre du procédé selon l'une des revendications précédentes.

9. Module selon la revendication 8, caractérisé en ce qu'il comporte en outre des moyens de connexion au haut-parleur de l'équipement, pour une annulation d'écho avec une stabilisation de gain suivant le procédé selon l'une des revendications 4 à 7.

10. Equipement de téléphonie et/ou de visiophonie comportant au moins un microphone, caractérisé en ce qu'il comporte un module selon l'une des revendications 8 et 9.

11. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications 1 à 7, lorsque ce programme est exécuté par un processeur.

Description:
Stabilisation de gain d'amplification d'un signal de microphone

dans un équipement de téléphonie

La présente invention traite du domaine du traitement numérique de signaux audio.

Elle concerne en particulier la stabilisation des traitements pour l'annulation d'écho électrique ou acoustique, par exemple :

dans des terminaux (mobiles, ou encore fixes notamment pour de la voix sur IP (ou

« VoIP »)), large bande ou en bande étroite,

- ou encore dans des passerelles entre un réseau local et un réseau étendu (notamment pour de la VoIP),

ou autre.

L'annulation d'écho à base de filtrage adaptatif est une technique répandue en télécommunications, pour résoudre le problème de l'écho électrique dans des terminaux (problème issu des transformateurs de ligne 2 fils - 4 fils), ou pour résoudre le problème de l'écho acoustique (issu de la fonctionnalité dite « mains-libres » proposée dans les terminaux à haut-parleur intégré).

On a illustré sur la figure 1 le principe de l'annulation d'écho par filtrage adaptatif H[z], sur laquelle un microphone Mic capte un signal susceptible de comporter du son issu du haut-parleur HP et générant un écho, ici acoustique.

La réduction de l'écho par le filtre adaptatif n'est pas suffisante dans la plupart des cas, et une solution consiste à prévoir une variation de gain (module CTRL de la figure 2 illustrant l'annulation d'écho à base de filtrage adaptatif et variation de gain additionnelle).

Ce module de variation de gain possède deux fonctions principales :

la suppression de l'écho résiduel en sortie du filtre adaptatif, et

la suppression de l'écho lorsque le filtre adaptatif n'a pas encore convergé.

La suppression de l'écho résiduel se justifie comme suit : la réponse impulsionnelle réelle (acoustique ou électrique) n'est pas de longueur finie, et peut avoir des composantes non linéaires, ce qui ne permet pas au filtre adaptatif, de longueur finie, d'annuler parfaitement l'écho. Ce résidu est alors supprimé par un léger affaiblissement complémentaire.

La suppression de l'écho lorsque le filtre adaptatif n'a pas encore convergé permet avantageusement de faire en sorte que, après l'initialisation du filtre adaptatif (tous les coefficients sont mis à zéro), le signal en sortie du système n'est autre que le signal microphone, et lorsque le système est en mode réception, le signal microphone n'est autre que le signal d'écho.

On peut également noter que la variation de gain a pour effet de stabiliser la boucle d'écho (pour éviter notamment un effet Larsen), si le risque existe.

Pour que la variation de gain soit la plus performante possible en termes d'interactivité, il est nécessaire que cette dernière réagisse très rapidement. Cette condition est souvent incompatible avec l'usage de détecteurs d'activité vocale (ou « DAV »), ces derniers possédant leur propre temps de réaction qui crée un décalage préjudiciable à l'interactivité.

Il existe des techniques de calcul de variation de gain ne nécessitant pas de détecteurs DAV, qui sont basées sur des équations utilisant les estimés des énergies des signaux, et qui réagissent automatiquement, et de manière continue aux variations des signaux du système, comme par exemple :

Cette équation de principe de la variation de gain continue s'interprète comme suit :

en période de parole locale, le paramètre « EnerMic » a une valeur donnée "nominale", et le paramètre « EnerHP » a une valeur très faible : le gain variable G^ tend donc vers " 1 " et aucun affaiblissement du signal utile n'est nécessaire, ni appliqué,

en période d'écho seul, « EnerHP » a une valeur "nominale", « EnerMic » a une valeur inférieure à « EnerHP », et le gain G^ est adapté par le choix de la valeur du paramètre β, en période de double parole, « EnerHP » et « EnerMic » ont une valeur "nominale", le gain Gmic prend une valeur entre "0" et " 1 " , et permet un basculement continu en fonction du locuteur le plus "actif, sans jamais atténuer totalement un signal éventuel de « double parole ».

L'avantage de la variation de gain de ce type est de supprimer tout saut "brusque" dans la valeur de l'affaiblissement appliqué aux signaux, et donc de ne pas faire apparaître de "contraste de bruit" pour l'utilisateur. Bien entendu, les modules d'estimation d'énergie des signaux sont largement répandus et bien connus de l'homme de l'art. Cette technique de variation de gain continue, automatique et s 'adaptant très rapidement est très efficace, et donne de très bons résultats en termes d'interactivité dans une communication. Il n'y a pratiquement aucun effet audible de « commutation » sensible, et la transition entre les deux sens de transmission (émission et réception) se fait habituellement d'une manière entièrement naturelle et transparente. De plus, ce mécanisme autorise le fonctionnement en double parole de façon très naturelle, comme dans une conversation directe, de par l'usage des énergies de chaque sens.

Cette technique, déjà mise en œuvre par des logiciels de traitement sonore dans des terminaux, donne de très bons résultats subjectifs à l'usage.

Néanmoins, ce système atteint sa limite en mode dit de « silence ». Il s'agit d'un mode défini par l'absence d'activité vocale en émission et en réception. En effet, dans ce mode, la variable « EnerMic » est faible (de l'ordre de grandeur du bruit de fond), « EnerHp » est faible également, et la valeur du gain peut tendre vers « 1 », notamment si le niveau de bruit en émission est beaucoup plus élevé que le niveau de bruit en réception, ce qui se traduit par :

S≥ (EnerMic)≥ (EnerHp)

=>

_ (EnerMic) _ ^

m ic ~ (EnerMic) + β. (EnerHp) =

Ici, la valeur S définit un seuil en dessous duquel se situent les énergies des bruits respectifs au niveau du microphone et du haut-parleur, correspondant donc à une variation de gain en mode « silence ».

Dans ce cas, sans affaiblissement de gain dans la chaîne (gain proche de 1), il advient un risque d'instabilité de la régulation de gain avec en particulier un risque d'effet Larsen. De plus, la régulation de gain est totalement dépendante des deux niveaux de bruit (au microphone et au haut- parleur), ce qui permet difficilement un contrôle optimal du gain, dans toute circonstance.

La présente invention vient améliorer la situation. Elle propose à cet effet un procédé de traitement de données sonores dans un équipement de téléphonie et/ou de visiophonie comportant au moins un microphone. Le procédé comporte en particulier:

une estimation d'énergie de signal capté par le microphone,

- une estimation d'énergie de signal de bruit ambiant capté par le microphone,

une régulation de gain d'amplification d'au moins un signal issu du microphone, la régulation de gain comportant l'application d'une pondération inversement proportionnelle à l'énergie de signal de bruit ambiant capté par le microphone. Ainsi, l'amplification est mieux contrôlée au moins pendant les phases de faible signal capté par le microphone, en distinguant en particulier le bruit ambiant capté par le microphone, du signal utile, par exemple un signal de parole, capté par le microphone.

Avantageusement, la régulation de gain comporte alors une stabilisation de gain dans des conditions de faible signal capté par le microphone.

Dans un exemple de réalisation, il est possible d'estimer les énergies de ces signaux (par exemple en mesurant un niveau d'énergie moyen inférieur à un seuil sur une fenêtre de temps, pour le signal de bruit ambiant, et en mesurant un niveau d'énergie moyen supérieur à un seuil crête sur une fenêtre de temps, pour le signal utile).

Bien entendu, d'autres mesures sur les signaux peuvent être prévues pour pondérer l'amplification et stabiliser le gain (mesure du niveau de crête maximum et minimum sur le signal issu du haut- parleur, mesure de puissance, etc.).

Plus particulièrement, l'expression de la pondération est avantageusement construite pour empêcher une divergence de sa valeur notamment en cas de faible bruit ambiant. Par exemple, la pondération peut être du type :

„ EnerMic

EnerMic + y.EnerBruitMic

EnerMic désigne l'énergie de signal capté par le microphone,

EnerBruitMic désigne l'énergie de signal de bruit ambiant capté par le microphone, et γ est une valeur positive.

Ainsi, dans un mode de réalisation, la stabilisation du gain peut être mise en œuvre déjà pour les situations de faible signal, notamment de signal utile, capté par le microphone. Toutefois, avantageusement, dans un autre mode de réalisation possible, cette stabilisation peut s'appliquer aussi au traitement d'annulation d'écho, du type présenté précédemment.

Ainsi, dans le cas d'un équipement de téléphonie et/ou de visiophonie comportant en outre au moins un haut-parleur, le traitement d'annulation d'écho peut comporter une stabilisation de gain dans des conditions de faible signal capté par le microphone et/ou de faible signal émis par le haut- parleur.

En effet, le procédé au sens de ce mode de réalisation peut alors comporter :

- une estimation d'énergie de signal capté par le microphone,

une estimation d'énergie de signal émis par le haut-parleur, et

une estimation d'énergie de signal de bruit ambiant capté par le microphone,

la régulation de gain comportant l'application d'une pondération inversement proportionnelle à l'énergie de signal de bruit ambiant capté par le microphone et à l'énergie de signal émis par le haut-parleur.

La pondération dans ce mode de réalisation ne doit pas diverger en cas de faible signal au haut- parleur et/ou au microphone et peut alors être du type :

„ EnerMic

(j mic = , ou :

EnerMic + p.EnerHp + y.EnerBruitMic

- EnerMic désigne l'énergie du signal capté par le microphone,

EnerHP désigne l'énergie du signal émis par le haut-parleur,

EnerBruitMic désigne l'énergie du signal de bruit ambiant capté par le microphone, et γ et β sont des valeurs positives. La présente invention vise aussi un module de traitement de données sonores dans un équipement de téléphonie et/ou de visiophonie comportant au moins un microphone. Un tel module comporte en particulier :

des moyens de connexion au moins au microphone de l'équipement et

des moyens de régulation de gain d'amplification pour la mise en œuvre du procédé ci- avant.

Il est avantageux que le module comporte en outre des moyens de connexion à un haut-parleur de l'équipement, pour une annulation d'écho avec une stabilisation de gain suivant le procédé du mode de réalisation dans le cadre d'un traitement d'annulation d'écho ci-avant. La présente invention vise aussi un équipement de téléphonie et/ou de visiophonie comportant au moins un microphone. En particulier, l'équipement comporte un module du type ci-avant.

La présente invention vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ce programme est exécuté par un processeur.

D'autre avantages et caractéristiques de l'invention apparaîtront à la lecture de la description donnée ci-après à titre d'exemple et à l'examen des dessins annexés sur lesquels, outre les figures 1 et 2 commentées ci-avant :

la figure 3 illustre l'intégration d'un module de stabilisation dans un traitement d'écho préexistant,

la figure 4 illustre un exemple d'estimation de l'énergie d'un signal de microphone ou de haut-parleur,

la figure 5 illustre schématiquement un équipement comportant un module au sens de l'invention, et

- la figure 6 résume les étapes d'un exemple de procédé au sens de l'invention.

On a représenté sur la figure 5, à titre d'exemple, un équipement tel qu'un terminal téléphonique TER, comportant un microphone MIC et un haut-parleur HP, outre de tels moyens qui peuvent être classiquement prévus dans un combiné CB. En particulier, le microphone MIC et le haut-parleur HP peuvent être activés simultanément, notamment lorsqu'un utilisateur sélectionne le fonctionnement du terminal TER en mode dit de « mains libres ». Il peut se créer alors un couplage entre le microphone MIC et le haut-parleur HP, créant un effet d'écho qu'il convient de surmonter en prévoyant en particulier un module MOD comportant un filtre correctif H(z) comme représenté sur la figure 1 présentée ci-avant. Néanmoins, il convient de contrôler le gain d'amplification du microphone MIC comme décrit ci-avant, et notamment dans les conditions de faible énergie de bruit capté par le microphone et de faible énergie de signal émis par le haut-parleur.

Dans une première réalisation possible de l'invention, pour pallier les risques d'instabilité de la régulation de gain avec en particulier un effet Larsen possible pour de faibles énergies de bruit au microphone et au haut-parleur, on propose de tenir compte d'une énergie de bruit au niveau du microphone. Dans une réalisation particulière, on rajoute en particulier, au dénominateur de l'équation de variation de gain un terme proportionnel au niveau de bruit sur le microphone, comme suit :

EnerMic

EnerMic + fi.EnerHp + y.EnerBruitMic Ce terme additionnel au dénominateur « y. EnerBruitMic » n'a aucune influence sur le comportement dynamique du système en dehors du mode « silence », puisqu'il est négligeable devant les grandeurs EnerMic et EnerHp en présence de parole.

Les performances initiales sont donc préservées.

En mode de « silence », ce terme supplémentaire « y. EnerBruitMic » permet de garantir un minimum de variation de gain, et donc de stabiliser la régulation de gain. En effet, en mode « silence », le terme EnerMic est égal au terme EnerBruitMic (ou très proche), et l'équation du gain devient :

EnerBruitMic

. — '

(1 + γ). EnerBruitMic + β. EnerHp

Dans le cas où le bruit en mode réception est négligeable devant le bruit en mode émission, ce qui est le cas le plus défavorable pour la stabilité de la régulation, cette équation tend vers :

EnerBruitMic

(1 + γ). EnerBruitMic

Dans cette équation, le gain G mic peut prendre des valeurs inférieures à « 1 » selon le choix du terme pondérateur γ.

Par exemple, si γ = 3, alors G = ¼, ce qui correspond à 12 dB d'affaiblissement dans la chaîne.

Il convient de fixer préalablement les valeurs de paramètres β et γ. On prévoit à cet effet les étapes 61 et 62 représentées sur la figure 6 qui résume à titre d'exemple les étapes de cette première réalisation. A l'étape 63, une mesure de l'énergie du signal émis par le haut-parleur EnerHP est effectuée pour évaluer cette quantité (étape 64). De même, à l'étape 65, une mesure de l'énergie du signal capté par le microphone est effectuée pour évaluer :

l'énergie du signal de bruit capté par le microphone EnerBruitMic (étape 66), et l'énergie du signal capté par le microphone EnerMic (étape 67).

On déduit de ces quantités le gain G mic conformément à l'équation [1] ci-avant, à l'étape de fin 68. Ces quantités représentant des énergies de signaux peuvent être mesurées de façon connue en soi. On a représenté à titre d'exemple sur la figure 4 une fenêtre temporelle glissante donnant une moyenne de l'énergie du signal calculée sur cette fenêtre de temps. Si cette moyenne est inférieure au seuil S E , il est identifié qu'il s'agit d'une valeur moyenne d'énergie de bruit de signal de microphone et si, en revanche, la moyenne est supérieure au seuil, il est identifié qu'il s'agit d'un signal utile (de parole ou autre).

Bien entendu, il s'agit d'un exemple de réalisation susceptible de variantes. On peut prévoir par exemple un détecteur d'activité vocale pour distinguer le signal utile du bruit et/ou une mesure de signal crête (maximum/minimum).

On présente ci-après une autre application possible de cette technique de régulation (selon une deuxième réalisation possible de l'invention) qui trouve encore un intérêt dans un système à variation de gain intégrée, non modifiable, dont on voudrait renforcer ou garantir la stabilité, en toute circonstance d'environnement sonore. A cet effet, il est proposé de rajouter dans la chaîne de traitement un module de stabilisation STAB sur la voie du microphone comme représenté sur la figure 3, sur laquelle ce module de stabilisation STAB est indépendant du module de variation de gain CTRL. En particulier, le module de stabilisation STAB n'intervient que sur la voie du microphone Mic et, finalement, n'est connecté qu'au microphone.

Le traitement opéré est basé sur le même principe algorithmique en mettant en œuvre une équation similaire mais dans laquelle n'intervient plus nécessairement l'énergie du haut-parleur, comme suit :

EnerMic

EnerMic + y. EnerBruitMic

On relèvera dans cette expression que le terme d'énergie du signal émis par le haut-parleur n'intervient plus (contrairement à l'équation [1] présentée dans le cadre de la première réalisation décrite précédemment).

En mode « émission », le terme EnerBruitMic de l'équation [2] ci-dessus est négligeable devant le terme EnerMic, et le coefficient multiplicatif tend vers « 1 ». L'opération du module STAB est alors « transparente ».

En mode « silence », le paramètre γ permet de régler l'affaiblissement nécessaire à la stabilisation du gain, comme précédemment. En mode « réception » seule, le coefficient G stab (figure 3) rajoute de l'affaiblissement, ce qui diminue avantageusement encore le retour d'écho. En mode « double parole », le coefficient tend encore vers « 1 » et l'opération du module est là encore « transparente ».

Dans une telle application, il n'est fait nullement appel à des informations en provenance de modules spécifiques de détection d'activité vocale ou autres. Le temps de réaction est alors quasi- immédiat. L'effet de « commutation » sensible de l'art antérieur est alors supprimé et la transition entre les états se fait d'une manière entièrement continue, naturelle et transparente.

Ainsi, la présente invention offre avantageusement une stabilisation de variation de gain par adjonction d'un module réalisant une atténuation par estimation de l'énergie du microphone et de l'énergie du bruit de fond microphonique. Elle propose à cet effet une estimation de variation de gain par adjonction d'un terme proportionnel à l'énergie du bruit de fond microphonique dans l'équation globale de la variation de gain. Les caractéristiques dynamiques de la régulation habituelle ne sont aucunement altérées, notamment en modes « émission » (énergie d'un bruit de parole au microphone), « réception » (énergie d'un bruit de parole au haut-parleur) et « double parole » (énergie d'un bruit de parole au microphone et au haut-parleur). Avantageusement, la mise en œuvre de l'invention assure la stabilité de la régulation de gain en mode « silence » en particulier.

La présente invention s'applique notamment à une intégration dans les annuleurs d'écho acoustique et/ou électrique.