Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUDIO MICROPHONE/HEADSET COMBINATION COMPRISING MULTIPLE MEANS FOR DETECTING VOCAL ACTIVITY WITH SUPERVISED CLASSIFIER
Document Type and Number:
WIPO Patent Application WO/2017/207286
Kind Code:
A1
Abstract:
The headset supports a network of acoustic and non-acoustic detectors issuing respective signals (TopL, BotL, TopR, BotR, Acc) comprising a noise component and, if applicable, a component of speech of the wearer of the headset. A plurality of n distinct analysis processes (104, 106, 110, 112, 116, 118, 120, 126, 128, 130) for detecting vocal activity are carried out on the detected signals and/or combinations of these signals, processes which issue, at the output, a corresponding plurality of n elementary indicators quantifying respective different values of continuous speech presence probability. Means for classifying the observation vector formed by the n elementary indicators comparing these n elementary indicators with a set of successive predefined thresholds (144) classified according to a decision tree Boolean configuration (142), and generating in response a global indicator of the presence or absence of speech (Psupervised(k,l); VADsupervised(k,l)).

Inventors:
VITTE, Guillaume (64 rue Amelot, Paris, 75011, FR)
REMOND, Fabien (78 Avenue Larroumes, L'Hay-Les-Roses, 94240, FR)
RENARD, Nicolas (35 Rue de la Bienfaisance, Esc C 2ème étage, Paris, 75008, FR)
BRIOT, Alexandre (7 Passage des marais, Paris, 75010, FR)
Application Number:
EP2017/061931
Publication Date:
December 07, 2017
Filing Date:
May 18, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
PARROT DRONES (174-178 quai de Jemmapes, PARIS, 75010, FR)
International Classes:
G10L21/0364; G10L25/78; H04R1/10; H04R3/00
Other References:
WON-HO SHIN ET AL: "Speec/non-speech classification using multiple features for robust endpoint detection", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2000. ICASSP '00. PROCEEDING S. 2000 IEEE INTERNATIONAL CONFERENCE ON 5-9 JUNE 2000, PISCATAWAY, NJ, USA,IEEE, vol. 3, 5 June 2000 (2000-06-05), pages 1399 - 1402, XP010507610, ISBN: 978-0-7803-6293-2
CHOU P A: "OPTIMAL PARTITIONING FOR CLASSIFICATION AND REGRESSION TREES", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 13, no. 4, 1 April 1991 (1991-04-01), pages 340 - 354, XP000214961, ISSN: 0162-8828, DOI: 10.1109/34.88569
Attorney, Agent or Firm:
DUPUIS-LATOUR, Dominique et al. (10 Boulevard Haussmann, PARIS, 75009, FR)
Download PDF:
Claims:
REVENDICATIONS

1 . Un casque audio de type combiné micro-casque, comprenant :

- deux écouteurs d'oreille (10, 10') logeant chacun un transducteur de reproduction d'un signal audio ; et

- un réseau de détecteurs aptes à délivrer des signaux captés respectifs, chaque signal capté comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque, le réseau de détecteurs comprenant :

• une pluralité de détecteurs acoustiques (18, 18', 20, 20') de type microphonique placés à l'extérieur de la cavité acoustique ; et facultativement, au moins un détecteur non acoustique (22) de type physiologique, apte à capter des vibrations vocales non acoustiques transmises par conduction osseuse interne du porteur du casque,

caractérisé en ce qu'il comprend en outre :

- des moyens d'analyse des signaux captés (TopL, BotL, TopR, BotR, Acc) :

• recevant sur des entrées respectives les signaux captés et/ou des combinaisons desdits signaux délivrés séparément par chacun desdits détecteurs du réseau de détecteurs,

• opérant sur ces signaux et/ou combinaisons une pluralité de n traitements d'analyse distincts (104, 106, 1 10, 1 12, 1 16, 1 18, 120, 126, 128, 130) de détection d'activité vocale, et

délivrant en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant une probabilité à valeur continue de présence de parole,

l'ensemble des n indicateurs élémentaires formant un vecteur d'observation ; et

- des moyens classifieurs (142, 144) du vecteur d'observation, aptes à :

• comparer les n indicateurs élémentaires à valeur continue à un ensemble de seuils successifs prédéfinis (144) hiérarchisés selon une configuration booléenne d'arbre de décision (142), et à générer en réponse en sortie de l'arbre de décision un indicateur global de présence/absence de parole (148).

2. Le casque de la revendication 1 , dans lequel l'indicateur global de présence/absence de parole est un indicateur global quantifié (Psu ervised(k,l)), quantifiant une probabilité de présence de parole comprise entre deux ex- trema correspondant respectivement à une situation d'activité vocale avé- rée et à une situation d'absence d'activité vocale avérée.

3. Le casque de la revendication 2, comprenant en outre :

- un comparateur (1 50) à seuil (P1 ), recevant en entrée l'indicateur global quantifié de présence/absence de parole (1 48) et délivrant en sor- tie un indicateur global binaire (VADsu ervised(k,l)),de présence/absence de parole.

4. Le casque de la revendication 1 , dans lequel les signaux captés sont des signaux numérisés en trames successives avec, pour chaque trame, une décomposition en bins fréquentiels, et dans lequel les moyens d'analyse des signaux captés, les détecteurs d'activité vocale et les moyens classifieurs sont des moyens mis en œuvre pour chaque bin de chaque trame des signaux. 5. Le casque de la revendication 1 , dans lequel les moyens d'analyse comprennent des moyens d'analyse dans le domaine fréquentiel des signaux captés par tout ou partie des détecteurs acoustiques ou non- acoustiques du réseau de détecteurs, du groupe formé par : des moyens (1 02-1 1 8) d'analyse de cohérence spatiale entre signaux captés par cer- tains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (1 04, 1 1 0, 1 1 6) de quantification du déphasage entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (1 06, 1 1 8) d'estimation du rapport signal sur bruit des signaux captés et/ou combinaisons de signaux captés par cer- tains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens (1 20) probabilistes de détection d'activité vocale à partir des signaux captés par les détecteurs acoustiques ; et des moyens (1 26, 1 28) d'estimation du rapport signal sur bruit des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs.

6. Le casque de la revendication 1 , dans lequel les moyens d'analyse comprennent des moyens (1 30) d'analyse dans le domaine temporel des trames successives des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs.

7. Le casque de la revendication 1 , comprenant en outre :

- des moyens de réduction de bruit (156-192), recevant en entrée les signaux captés et/ou des combinaisons desdits signaux captés et opérant sur ces signaux et/ou combinaisons de signaux un traitement paramétrable fonction de la valeur de l'indicateur global de présence/absence de parole (Psu ervised(k,l) (148) ; VADSu ervised(k,l) (152)) délivré par les moyens classifieurs.

8. Le casque de la revendication 7, dans lequel ledit traitement paramétrable comprend un traitement d'estimation d'une densité spectrale de bruit (168), sélectivement mis en œuvre, ou non, en fonction d'une valeur booléenne de l'indicateur global de présence/absence de parole

(VADsupervised(k,l)).

Description:
Combiné audio micro/casque comprenant des moyens de détection d'activité vocale multiples à classifieur supervisé

L'invention concerne un ensemble de type "micro-casque", comprenant un casque audio, combiné avec un ensemble microphonique apte à capter la voix du porteur du casque.

Le casque comprend généralement deux écouteurs réunis par un arceau, chaque écouteur comprenant une coque fermée logeant un transducteur de reproduction sonore. Cette coque entoure l'oreille (casque "circum- aural") ou est en appui sur celle-ci (casque "supra-aural"), avec interposition d'un coussinet isolant. Il existe également des écouteurs de type dit "intra-auriculaire" ou "intra-conque" avec un élément à placer dans le conduit auditif et débordant dans le creux du pavillon de l'oreille au-delà du conduit auditif, sans coussinet entourant ou recouvrant l'oreille. Dans la suite, on fera indifféremment référence à des écouteurs réunis par un arceau, où le transducteur est logé dans une coque entourant l'oreille (casque "circum-aural") ou en appui sur celle-ci (casque "supra-aural") ou avec des écouteurs de type "intra-auriculaire" ou analogue.

Dans tous les cas, le casque peut être utilisé pour l'écoute d'une source audio (musique par exemple) provenant d'un appareil tel qu'un lecteur MP3, radio, smartphone, etc. auquel il est relié par une liaison filaire ou bien par une liaison sans fil, notamment de type Bluetooth. Grâce à l'en- semble microphonique, il est également possible, en complément de l'écoute de la source audio d'utiliser ce casque pour des fonctions de communication telles que des fonctions de téléphonie "mains libres" et/ou de fonctions de reconnaissance vocale. Le transducteur du casque reproduit alors la voix du locuteur distant avec lequel le porteur du casque (lo- cuteur proche) est en conversation.

Un tel ensemble combiné micro-casque est par exemple décrit dans les EP 2 518 724 A1 , EP 2 930 942 A1 et EP 2 945 399 A1 (tous trois au nom de Parrot).

Lorsque le microphone est utilisé par le porteur du casque, il convient que le niveau du bruit d'environnement (d'origine acoustique) présent sur le signal capté par l'ensemble microphonique soit le plus faible possible, de manière à préserver la qualité subjective de la voix du porteur du casque (locuteur proche) sur ce signal, afin de transmettre au locuteur distant un signal fidèle et intelligible au travers de la communication téléphonique. Le paramètre de référence pour évaluer cet impératif est le rapport signal sur bruit, ci-après "SNR", qui est le rapport du signal utile (correspondant à la voix du porteur du casque), sur le bruit qui l'entoure, d'origine essentiellement acoustique.

Il s'agit d'un paramètre important pour évaluer notamment l'efficacité d'un algorithme de débruitage appliqué au signal de voix du porteur du casque (locuteur proche). Un tel algorithme est mis en œuvre pour réduire le bruit d'environnement, d'origine acoustique, présent sur ce signal, mais doit aussi préserver la qualité subjective de la voix du porteur du casque, de façon à transmettre au locuteur distant un signal fidèle et intelligible dans toutes les conditions de bruit auxquelles le porteur du casque pourra être exposé.

En premier lieu, lors d'une conversation téléphonique, le réflexe consistant à parler plus fort dans un environnement bruyant (effet Lombard) agit déjà sur le niveau de la voix et sur le contenu fréquentiel de la voix (élévation de la hauteur et aplatissement du spectre) en fonction du bruit perçu.

De plus, divers effets psycho-acoustiques et de positionnement des capteurs microphoniques ont une influence notable sur le niveau du SNR. À cet égard, plusieurs configurations peuvent ainsi être utilement comparées.

La configuration la plus favorable est celle d'un "kit filaire", où le micro- phone est monté sur un fil reliant le casque au smartphone du porteur du casque. Ce placement est avantageux pour la captation de la voix car le microphone est alors positionné juste au-dessous du menton, donc près de la bouche, avec au surplus la possibilité pour le porteur du casque de rapprocher le microphone de sa bouche dans une situation bruyante. Cette configuration est comparable, du point de vue du SNR, à celle d'un téléphone porté contre la joue (smartphone avec microphone intégré). Pour une situation typique de communication téléphonique nomade, en contexte urbain, on observe généralement un SNR de l'ordre de +3 dB avec un téléphone porté contre la joue ou un kit filaire. Par comparaison, la configuration d'un combiné micro-écouteur de type "oreillette Bluetooth", où le microphone est alors proche de l'oreille, présente une dégradation du SNR, de l'ordre de -3 dB.

Une configuration encore plus défavorable est celle d'un casque sans fil fermé de type circumaural, où le microphone est situé sur l'oreillette et le casque isole les deux oreilles du porteur du casque. Le SNR est alors typiquement de l'ordre de -7 à -9 dB.

En effet, outre l'éloignement du microphone (introduisant une dégradation "géométrique" du SNR de l'ordre de 6 dB par rapport à un kit filaire), le comportement typique d'un porteur de casque, évalué sur un panel de personnes, montre que, d'une part, le niveau de voix, fort ou faible, qu'une personne adopte spontanément quand elle parle est modifié sensiblement lorsqu'elle porte un casque audio (par rapport à une situation où elle ne porte aucun casque) et que, d'autre part, ce niveau de voix dé- pend aussi du type de casque porté (circum-aural, supra-aural ou intra- auriculaire), plus ou moins isolant.

Dans le cas d'une oreillette Bluetooth, le niveau de voix du porteur du casque pendant la conversation téléphonique est assez peu affecté par le port de cet appareil, car une seule oreille est obstruée alors que la se- conde reste libre, ce qui permet au porteur du casque de percevoir à la fois le bruit environnant et sa propre voix de façon quasiment naturelle. En revanche, lorsque le porteur du casque porte un casque audio assez isolant du point de vue acoustique, il adopte généralement un niveau de voix notablement plus faible que la normale dans les situations bruyantes. Ainsi, dans un contexte urbain de rue passante, le niveau de voix adopté peut être si faible qu'il en devient quasiment imperceptible pour une personne se trouvant à proximité (par exemple à un mètre), car le porteur du casque se perçoit comme étant dans une "bulle" et n'a plus le réflexe d'élever le niveau de sa voix pour la placer au-dessus du bruit ambiant de façon à être bien compris. Cette dégradation "comportementale" du SNR peut être estimée à environ 4 à 6 dB de déficit acoustique dans les situations les plus typiques d'utilisation d'un casque nomade en contexte urbain.

Enfin, le niveau de voix du porteur du casque peut être affecté par le con- texte "social" dans lequel il se trouve : en effet, dans une situation de promiscuité (métro, bureau,...) le niveau de voix du porteur du casque est modulé, par discrétion ou politesse, pour éviter de ne pas trop gêner les personnes à proximité. Cette diminution naturelle du niveau de voix vient s'ajouter aux déficits décrits plus haut, ce qui peut aboutir à un SNR acoustique très dégradé, voisin de -10 dB, en entrée de l'algorithme de débruitage (on notera que cette dégradation "sociale" du SNR n'est pas spécifique à un casque audio, à la différence des deux autres dégradations mentionnées plus haut ("géométrique" et "comportementale"), mais elle vient aggraver un SNR déjà fortement dégradé).

De fait, à titre illustratif, le déficit cumulé de SNR est dans une situation typique compris entre 10 et 12 dB entre un système classique (kit filaire) et un casque fermé de type sans fil.

Le problème de l'invention est lié notamment à l'utilisation d'un casque d'écoute sans fil qui utilise une technologie Bluetooth pour son couplage avec un téléphone portable, car cette caractéristique rend impossible l'intégration du microphone au sein d'un câble comme cela se fait traditionnellement sur les casques filaires - donc sans bénéficier de ce placement avantageux pour la captation de la voix, et sans possibilité offerte au porteur du casque de rapprocher le microphone de sa bouche dans une situation bruyante.

Cette configuration fait dès lors apparaître une situation acoustique initiale dégradée, avec une dégradation "géométrique" du SNR acoustique de l'ordre de 6 dB environ, qui devra être rattrapée par l'algorithme de débruitage pour obtenir un niveau qualitatif de sortie similaire, voire supé- rieur, à celui d'un kit filaire.

D'autre part, le casque peut être muni d'un système dit de "contrôle actif de bruit" ou ANC (Active Noise Control), agissant sur le signal reproduit par les transducteurs du casque (que celui-ci soit ou non pourvu d'un microphone). Le principe de l'ANC consiste à capter la composante de bruit ambiant et à superposer, temporellement et spatialement, à cette composante de bruit une onde acoustique qui est idéalement la copie inversée de l'onde de pression de la composante de bruit. Il s'agit de créer de cette manière une interférence destructive avec la composante de bruit et réduire, idéalement neutraliser, les variations de pression de l'onde acous- tique parasite. Le EP 2 597 889 A1 (Parrot) décrit un casque muni d'un tel système ANC.

L'activation de l'ANC modifie le comportement du porteur du casque, en ce qu'il renforce l'effet "bulle" par une atténuation supplémentaire du bruit environnant perçu, avec une légère dégradation du SNR d'entrée par rapport au port d'un casque passif (sans ANC). Cette dégradation additionnelle reste toutefois modérée, de l'ordre de 1 dB environ, car l'activation de l'ANC a aussi pour effet secondaire d'atténuer le niveau perçu par le porteur du casque sur sa propre voix, en particulier dans les basses fréquences qui seront beaucoup moins sourdes, et de l'inciter à parler plus fort.

L'activation d'une autre technique, dite "anti-occlusion", ci-après "AOC", est également de nature à dégrader le SNR d'entrée par rapport au port d'un casque passif.

L'AOC (Active Occlusion Cancellation) est un mode de contrôle actif, différent de l'ANC, qui vise à effacer à la fois le phénomène d'occlusion entendu sur la voix et l'effet d'isolation du casque.

L'occlusion est le phénomène d'augmentation des basses fréquences, autour de 200 Hz, dans la perception de sa propre voix par l'utilisateur lors- que celui-ci porte un casque, la voix apparaissant beaucoup plus sourde qu'au naturel, ce qui crée une réelle gêne. En effet, en l'absence de casque, lorsque l'oreille n'est pas obstruée les sons de voix conduits par conduction osseuse au canal auditif sont très faiblement perçus, car ils sont évacués vers l'extérieur de l'oreille, qui présente l'impédance acous- tique la plus faible par rapport à celle de la membrane tympanique. En revanche, lorsqu'un casque est porté, ce casque obstrue totalement ou partiellement le canal auditif, c'est-à-dire qu'il introduit une impédance acoustique importante à l'extrémité externe du canal auditif : cette impédance entraine la mise en résonance au sein du canal auditif des sons transmis par conduction osseuse, et ainsi une amplification de la partie basse fréquence du signal de voix par rapport à une situation où le conduit auditif est ouvert, avec une élévation du niveau de l'ordre de 20 dB au-dessous de 500 Hz. Le porteur du casque perçoit alors sa voix de manière beaucoup plus sourde. Le but du traitement AOC est précisément de reproduire une perception des sons au plus proche du naturel, comme lorsqu'aucun casque n'est porté. En particulier, le porteur du casque souhaite parfois percevoir de manière naturelle sa propre voix, par exemple il souhaite pouvoir conver- ser avec le locuteur distant dans une conversation téléphonique "mains- libres", ou avec une personne physiquement présente près de lui, en percevant sa propre voix de la même manière que s'il ne portait pas de casque. Dans d'autres situations, le porteur du casque souhaite percevoir parfaitement son environnement afin d'entendre par exemple la circulation automobile, évaluer la distance des véhicules ou entendre un signal d'alarme, un message diffusé par le conducteur d'un transport en commun, etc.

En d'autres termes, l'activation de l'AOC a pour but de transformer virtuellement, par des moyens purement électroniques et numériques, un casque de type "fermé" pour simuler un casque "ouvert" avec suppression apparente du phénomène d'occlusion lorsque le porteur du casque parle et suppression active, à volonté, de l'isolation passive du casque.

En ce qui concerne le SNR, l'activation de la fonction AOC anti-occlusion induit une légère augmentation du niveau de voix du locuteur, de l'ordre de +1 à +2 dB. L'AOC efface en effet en partie l'effet "bulle" de l'ANC et remet le porteur du casque en contact avec son environnement, ce qui se traduit typiquement par une augmentation du SNR d'entrée, c'est d'ailleurs une raison pour laquelle le mode AOC, lorsqu'il est présent, est activé par défaut lors d'une communication téléphonique.

Toutefois, cette augmentation du niveau de voix du locuteur ne compense que très partiellement la dégradation "comportementale" du SNR décrite plus haut, et certains porteurs de casque préfèrent "rester dans leur bulle", c'est-à-dire en mode ANC sans AOC, et ne pas activer le mode AOC lors d'une communication téléphonique.

L'un dans l'autre, compte tenu des divers phénomènes exposés ci- dessus, on constate généralement, comme indiqué plus haut, un déficit cumulé du SNR compris entre -10 et -12 dB entre un système conventionnel dans la configuration la plus favorable (kit filaire) et un casque fermé de type sans fil tel que décrit plus haut, susceptible de mettre en œuvre des fonctions de type ANC/AOC. Un but général de l'invention est de proposer une technique permettant, avec un tel casque, d'améliorer le SNR du signal capté par l'ensemble microphonique du casque, tout en préservant la qualité subjective du signal de voix du porteur de ce casque, de façon à délivrer en sortie un signal fi- dèle et intelligible transmis pour la communication téléphonique à un interlocuteur distant. Il s'agit également d'obtenir cette amélioration du SNR quelle que soit la situation de bruit dans laquelle se trouve le porteur du casque (bruit de rue, métro, train, bureau...) prise en compte par l'algorithme de traitement ANC.

Plus particulièrement, les algorithmes de débruitage du signal recueilli par le microphone du casque et destiné à être transmis au locuteur distant mettent en œuvre un "détecteur d'activité vocale" ou VAD (Voice Activity Detector) destiné à discriminer les périodes où le porteur du casque parle (donc avec un débruitage adapté pour ne pas déformer la voix et lui con- server toute son intelligibilité), et celles où il ne parle pas (où l'on peut alors appliquer un débruitage beaucoup plus agressif).

De fait, dans nombre de situations cette détection d'activité vocale est difficile à opérer ou conduit à des résultats imprécis.

C'est d'ailleurs pour ces raisons que le résultat de l'analyse VAD n'est généralement pas donné sous forme binaire (parole présente ou parole absente), mais en termes de probabilité de présence de parole ou SPP (Speech Présence Probability), variant de façon continue sur un intervalle [0,1 ].

Plus précisément, la détermination de cette probabilité de présence de parole est effectuée sur d'étroites plages de fréquence, ou "bins fréquen- tiels", du signal recueilli, par exemple sur 256 bins fréquentiels d'une trame temporelle de signal après numérisation de celui-ci et analyse dans le domaine fréquentiel après transformation de Fourier. On dispose ainsi, pour une trame de signal donnée, de 256 valeurs de probabilité de pré- sence de parole différentes, correspondant chacune à l'analyse de présence/absence de parole effectuée pour un bin fréquentiel spécifique. De nombreuses techniques de détermination de probabilité de présence de parole ont été proposées, mais aucune ne permet d'obtenir des résultats de qualité constante quelles que soient les situations de bruit envi- ronnant susceptibles d'être rencontrées dans la réalité (la qualité des ré- sultats peut être notamment quantifiée en termes de taux de vrais positifs par rapport au taux de faux positifs).

Ainsi, l'article de WH Shin et al. "Speech/non-Speech Classification Using Multiple Features for Robust Endpoint Détection", 2000 IEEE International Conférence on Acoustics, Speech, and Signal Processing ICASSP '00 Proceedings, Istanbul, 5-9 juin 2000, Vol. 3, pp. 1399-1402 décrit un détecteur d'activité vocale mettant en œuvre un classifieur à arbre de décision (algorithme CART). La technique décrite par ce document est toutefois une technique simplifiée dans laquelle :

- la détection d'activité vocale délivre simplement un indicateur binaire de type "tout ou rien" (présence vs. absence de parole) ;

- l'arbre de décision est purement binaire, l'aiguillage vers une branche ou une autre de l'arbre se faisant selon que la valeur binaire délivrée par chaque pré-classifieur est 0 ou 1 ; et

- les différents traitements en amont de l'arbre de décision sont opérés par des méthodes différentes, mais sur un même signal d'entrée.

Le but de l'invention est de proposer une nouvelle technique de détection d'activité vocale permettant de pallier les différents inconvénients exposés ci-dessus, afin de pouvoir délivrer des résultats avec en toutes circons- tances une fiabilité très supérieure à ce qui a pu être obtenu jusqu'à présent.

Un autre but est de proposer un circuit amélioré de débruitage du signal, adapté pour utiliser spécifiquement les résultats du détecteur d'activité vocale de l'invention.

À cet effet, l'invention propose, plus précisément, un combiné microcasque comprenant, de manière en elle-même connue :

- deux écouteurs d'oreille logeant chacun un transducteur de reproduction d'un signal audio ; et

- un réseau de détecteurs aptes à délivrer des signaux captés respec- tifs, chaque signal capté comportant une composante de bruit et le cas échéant une composante de parole du porteur du casque, le réseau de détecteurs comprenant :

• une pluralité de détecteurs acoustiques de type microphonique placés à l'extérieur de la cavité acoustique ; et facultativement, au moins un détecteur non acoustique de type physiologique, apte à capter des vibrations vocales non acoustiques transmises par conduction osseuse interne du porteur du casque.

De façon caractéristique de l'invention, ce combiné micro-casque comprend en outre :

- des moyens d'analyse des signaux captés :

• recevant sur des entrées respectives les signaux captés et/ou des combinaisons desdits signaux délivrés séparément par chacun desdits détecteurs du réseau de détecteurs,

• opérant sur ces signaux et/ou combinaisons une pluralité de n traitements d'analyse distincts de détection d'activité vocale, et délivrant en sortie une pluralité correspondante de n indicateurs élémentaires quantifiant une probabilité à valeur continue de pré- sence de parole,

l'ensemble des n indicateurs élémentaires formant un vecteur d'observation ; et

- des moyens classifieurs du vecteur d'observation, aptes à :

• comparer les n indicateurs élémentaires à valeur continue à un en- semble de seuils successifs prédéfinis hiérarchisés selon une configuration booléenne d'arbre de décision, et à

générer en réponse en sortie de l'arbre de décision un indicateur global de présence/absence de parole.

En résumé, les moyens d'analyse de l'invention opèrent de telle manière que (à la différence notamment de l'algorithme de Shin et al. mentionné plus haut) :

- les entrées de l'arbre soient des valeurs de probabilités à valeur continue sur l'intervalle [0, 1 ], résultant d'une analyse d'un signal ;

- l'arbre de décision soit un arbre formé de seuils hiérarchisés, l'arbre étant parcouru en comparant à chaque embranchement la valeur de probabilité de présence, résultat de l'analyse opérée en amont, avec un seuil correspondant ; et

- les traitements préalables en amont de l'arbre de décision soient des traitements opérés sur des signaux d'entrée différents, en l'espèce des signaux délivrés par des micros différents du réseau de micros, ou des combinaisons différentes de ces micros du réseau, et non sur un même signal d'entrée par des méthodes différentes. De plus, selon diverses caractéristiques subsidiaires avantageuses de l'invention :

- l'indicateur global de présence/absence de parole est un indicateur global quantifié, quantifiant une probabilité de présence de parole comprise entre deux extrema correspondant respectivement à une situation d'activité vocale avérée et à une situation d'absence d'activité vocale avérée. Il peut notamment être prévu à cet effet un comparateur à seuil, recevant en entrée l'indicateur global quantifié de présence/absence de parole et délivrant en sortie un indicateur global bi- naire de présence/absence de parole ;

- les signaux captés sont des signaux numérisés en trames successives avec, pour chaque trame, une décomposition en bins fréquentiels, et dans lequel les moyens d'analyse des signaux captés, les détecteurs d'activité vocale et les moyens classifieurs sont des moyens mis en œuvre pour chaque bin de chaque trame des signaux ;

- les moyens d'analyse comprennent des moyens d'analyse dans le domaine fréquentiel des signaux captés par tout ou partie des détecteurs acoustiques ou non-acoustiques du réseau de détecteurs, du groupe formé par : des moyens d'analyse de cohérence spatiale entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens de quantification du déphasage entre signaux captés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens d'estimation du rapport signal sur bruit des signaux captés et/ou combinaisons de signaux cap- tés par certains détecteurs acoustiques prédéterminés du réseau de détecteurs ; des moyens probabilistes de détection d'activité vocale à partir des signaux captés par les détecteurs acoustiques ; et des moyens d'estimation du rapport signal sur bruit des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs ; - les moyens d'analyse comprennent des moyens d'analyse dans le domaine temporel des trames successives des signaux captés par le au moins un détecteur non acoustique du réseau de détecteurs ;

- le casque comprend en outre des moyens de réduction de bruit, recevant en entrée les signaux captés et/ou des combinaisons desdits si- gnaux captés et opérant sur ces signaux et/ou combinaisons de si- gnaux un traitement paramétrable fonction de la valeur de l'indicateur global de présence/absence de parole délivré par les moyens classi- fieurs. Le traitement paramétrable peut notamment comprendre un traitement d'estimation d'une densité spectrale de bruit, sélectivement mis en œuvre, ou non, en fonction d'une valeur booléenne de l'indicateur global de présence/absence de parole.

0 On va maintenant décrire un exemple de mise en œuvre de la présente invention, en référence aux dessins annexés où les mêmes références désignent d'une figure à l'autre des éléments identiques ou fonctionnel- lement semblables.

La Figure 1 est une vue de face d'un premier type de micro-casque au- quel est applicable l'invention, à savoir un micro-casque muni d'écouteurs de type circumaural.

La Figure 2 est une vue en perspective du micro-casque de la Figure 1 . La Figure 3 est une vue de côté du casque de la Figure 1 en position sur la tête d'un porteur de ce casque, montrant plus précisément l'orientation des axes de directivité du réseau de microphones par rapport à la bouche du porteur du casque.

La Figure 4 est une vue de face d'un second type de micro-casque auquel est applicable l'invention, à savoir un micro-casque de type sportif, muni d'écouteurs de type intra-auriculaire.

La Figure 5 est une vue de côté du casque de la Figure 4 en position sur la tête d'un porteur de ce casque, montrant plus précisément l'orientation des axes de directivité du réseau de microphones par rapport à la bouche du porteur du casque.

La Figure 7 est une vue générale, sous forme de schéma par blocs, mon- trant et explicitant la manière dont les signaux issus des divers détecteurs acoustiques (microphoniques) et non acoustiques (accélérométriques) du micro-casque sont analysés, pour produire un certain nombre d'indicateurs élémentaires combinés par un classifieur de type arbre de décision, afin d'obtenir en sortie un indicateur global, quantifié ou binaire, de pré- sence/absence de parole. La Figure 8 est un diagramme de type ROC (taux de vrais positifs en fonction du taux de faux positifs) illustrant l'efficacité procurée par le clas- sifieur de l'invention.

La Figure 9 illustre, sous forme de schéma par blocs, un réducteur de bruit utilisant les indicateurs globaux produits par l'arbre de décision de la Figure 7.

0

On va maintenant décrire un exemple de mise en œuvre de la technique de l'invention.

De façon générale, l'invention est mise en œuvre par des moyens principalement logiciels, au moyen d'algorithmes appropriés exécutés par exemple par des microcontrôleurs ou processeurs numériques de signal. Pour la clarté de l'exposé, les divers traitements appliqués seront décom- posés et schématisés par un certain nombre de blocs fonctionnels distincts présentés sous forme de circuits interconnectés, mais cette représentation n'a toutefois qu'un caractère illustratif, ces circuits comprenant des éléments communs et correspondant en pratique à une pluralité de fonctions globalement exécutées au sein d'un même logiciel.

Sur les Figures 1 à 3 on a représenté un combiné micro-casque comportant, de manière en elle-même classique, deux écouteurs 10, 10' réunis par un arceau de maintien 12. Chaque écouteur comprend une coque extérieure 14, 14' venant s'appliquer sur le contour de l'oreille du porteur du casque avec interposition d'un coussinet souple circumaural 16, 16' des- tiné à assurer une étanchéité satisfaisante, du point de vue acoustique, entre la région de l'oreille et l'environnement sonore extérieur.

Le micro-casque est muni d'un réseau formé d'une pluralité de microphones (ci-après également dénommés "détecteurs acoustiques"), dans l'exemple illustré au nombre de quatre, à savoir :

- un microphone 18 disposé en partie haute de l'écouteur gauche 10, délivrant un signal ci-après référencé TopL ;

- un microphone 18' situé en partie haute de l'écouteur droit 10', délivrant un signal désigné par la suite TopR ;

- un microphone 20 disposé en partie basse de l'écouteur gauche 10, délivrant un signal ci-après désigné BotL ; et - un microphone 20' situé en partie basse de l'écouteur droit 10', délivrant un signal ci-après désigné BotR.

Les microphones 18 et 20 disposés sur l'écouteur gauche 10 (et de même les microphones 18' et 20' disposés sur l'écouteur droit 10') sont disposés l'un par rapport à l'autre, à une distance de l'ordre de 2 à 3 cm, de manière que l'axe Δ passant par les deux points où se trouvent ces microphones 18 et 20 soit dirigé vers la bouche du porteur du casque, en formant avec la direction D idéale passant par cette bouche un angle aussi réduit que possible.

Les microphones 18, 18', 20 et 20' sont avantageusement des microphones omnidirectionnels, qui seront donc amenés à capter aussi bien les ondes acoustiques produites par la bouche du porteur du casque lorsque celui-ci parle, que le bruit ambiant parasite qu'il s'agira d'éliminer dans les meilleures conditions possibles pour rendre intelligible le signal utile de voix du porteur du casque.

Le combiné micro-casque comprend également au moins un détecteur physiologique 22 de type accélérométrique ou autre (ci-après également dénommés "détecteur non acoustique"), par exemple disposé au niveau du coussinet 16' de manière à être appliqué contre la joue ou la tempe du porteur du casque avec un couplage le plus étroit possible. Il s'agit de recueillir au moyen de ce détecteur un signal transmis directement par voie osseuse (et non par voie acoustique aérienne comme dans le cas des détecteurs microphoniques), qui présente la caractéristique d'être, par nature, très peu corrompu par le bruit environnant. De manière en elle- même connue, le signal ainsi recueilli par ce détecteur non acoustique 22 permet, après filtrage et combinaison avec les signaux captés par les détecteurs acoustiques constitués par les microphones 18, 18', 20 et 20', de délivrer au système de communication un signal de parole du locuteur proche (le porteur du casque) dont l'intelligibilité aura été grandement améliorée.

Cette technique, ainsi que d'autres avantages procurés par le capteur physiologique (en particulier la possibilité d'utiliser le signal qu'il délivre pour calculer une fréquence de coupure d'un filtre dynamique), sont exposés notamment dans le EP 2 518 724 A1 (Parrot), auquel on pourra se référer pour de plus amples détails. Les Figures 4 à 6 sont homologues des Figures 1 à 3 décrites ci-dessus, et montrent à titre illustratif un second type de micro-casque auquel est applicable l'invention, à savoir un micro-casque de type sportif, muni d'écouteurs de type intra-auriculaire. Les mêmes références y désignent des éléments identiques ou fonctionnellement semblables au microcasque muni d'écouteurs de type circumaural des Figures 1 à 3.

La configuration d'ensemble d'un tel micro-casque de type sportif est par exemple celle du casque Zik Sport qui a été récemment présenté par la société Parrot, Paris, France.

En référence à la Figure 7, on va maintenant décrire la manière dont les signaux issus des divers détecteurs acoustiques (microphoniques) et non acoustiques (accélérométriques) du micro-casque sont analysés selon la technique spécifique de l'invention, pour produire un certain nombre d'indicateurs élémentaires combinés par un classifieur de type arbre de décision, afin d'obtenir en sortie un indicateur global, quantifié ou binaire, de présence/absence de parole.

Les signaux TopL, BotL, TopR et BotR produits par les N = 4 détecteurs acoustiques (les microphones 18, 18', 20 et 20') sont soumis à un filtrage passe-haut (HPF, blocs 100) de manière à en éliminer les composantes parasites de plus basse fréquence.

Les signaux TopL, BotL, TopR et BotR peuvent être combinés en paires, de manière à réaliser un certain nombre d'analyses spécifiques tenant compte de la position géométrique particulière sur le casque des microphones de la paire considérée.

Ainsi, un bloc 102 combine les signaux issus des microphones TopL et BotL pour une analyse de cohérence axiale côté gauche (L). Il s'agit d'une paire "axiale" en ce sens qu'elle regroupe deux microphones situés sur un même écouteur du casque (l'écouteur gauche en l'espèce) et dont l'axe commun Δ est orienté vers la bouche du porteur du casque (cf. Figures 3 et 6).

Les signaux combinés de la paire axiale {TopL, BotL} sont soumis par exemple à un traitement de quantification du déphasage du signal capté, évalué entre le microphone TopL et le microphone BotL (bloc 104), et à un autre traitement d'estimation du rapport signal/bruit (bloc 106) sur cette paire axiale de microphones situés du côté gauche. En ce qui concerne le traitement opéré par le bloc 106, on pourra notamment se référer aux algorithmes décrits dans le WO 2007/099222 A1 (Parrot SA), qui sont basés sur une estimation du bruit via l'utilisation d'un algorithme MCRA (M ' \nima Controlled Recursive Averaging), moyennage récursif par contrôle des minima, par exemple décrit par I. Cohen et B. Berdugo, Noise Estimation by Minima Controlled Recursive Averaging for Robust Speech Enhancement, IEEE Signal Processing Letters, Vol. 9, No 1 , pp. 12-15, Jan. 2002), avec une hypothèse de bruit stationnaire pour déduire une probabilité de présence/absence de parole. Le SNR est cal- culé a posteriori comme le ratio de la norme du signal bruité capté par les microphones et de l'estimation du bruit délivré par l'algorithme MCRA. On pourra se référer au document précité pour de plus amples détails sur la manière d'opérer ce traitement.

Outre les paires axiales, il est également possible de considérer des paires "transverses" de microphones, correspondant à des microphones symétriques dont l'un se situe côté gauche et l'autre côté droit, par exemple la paire {TopL, TopR} et/ou la paire {BotL, BotR}.

Les signaux de ces paires, combinés par le bloc 108, font l'objet par exemple d'un traitement d'analyse de quantification du déphasage du si- gnal capté, évalué entre le côté gauche et le côté droit (bloc 1 10), et d'un autre traitement d'estimation du rapport signal/bruit (bloc 1 12) à partir des signaux recueillis par ces paires transverses.

Il est également prévu de combiner (bloc 1 14) les signaux de la paire axiale {TopR, BotR}, par un traitement de quantification du déphasage du signal capté, évalué entre le microphone TopR et le microphone BotR (bloc 1 16), et un autre traitement d'estimation du rapport signal/bruit (bloc 1 18) sur cette paire axiale de microphones situés du côté droit.

Les traitements de signal opérés côté droit par les blocs 1 16 et 1 18 sont les mêmes que ceux, décrits plus hauts, opérés côté gauche par les blocs 104 e 106.

Enfin, les signaux TopL, BotL, TopR et BotR issus des quatre microphones 18, 18', 20 et 20' sont également appliqués ensemble à un circuit 120 du type détecteur d'activité vocale probabiliste, par exemple mettant en œuvre un algorithme de type MCRA. Une telle détection, en elle-même connue, est basée sur l'estimation de l'énergie de la composante de bruit pseudo-stationnaire dans les signaux captés par les microphones, qui est évaluée par un algorithme du type MCRA.

En ce qui concerne le capteur physiologique (accéléromètre 22), après traitement par un filtre passe-haut 122, le signal délivré est soumis à divers traitements d'analyse (bloc 124) comprenant par exemple :

- un traitement d'estimation du rapport signal/bruit du signal accéléro- métrique dans les basses fréquences correspondant à la gamme de fonctionnement utile de l'accéléromètre, à savoir les fréquences inférieures à 1500 Hz (bloc 126) ;

- un traitement d'estimation du rapport signal/bruit du signal accéléro- métrique en bande étendue (bloc 128) ; et

- une analyse temporelle des trames successives (bloc 130).

En ce qui concerne le bloc 126, on notera que le traitement qu'il opère de mesure du SNR du signal accélérométrique est principalement une mesure de SNR vis-à-vis d'un bruit électrique, du fait que le bruit présent sur le signal accélérométrique est essentiellement un bruit de souffle électrique lié au capteur (bruit thermique) et à la numérisation du signal (bruit de quantification). Ce bruit électrique étant stationnaire, il est aisé d'obtenir une évaluation du SNR.

Toutefois, lorsque le bruit acoustique environnant est très élevé (par exemple un bruit de marteau-piqueur dans l'environnement immédiat du porteur du casque) et qu'il entraine une légère vibration physique de la joue du locuteur, on peut observer une composante de bruit acoustique parasite qui dépasse le bruit de souffle électrique. Pour tenir compte de cette éventuelle situation, l'algorithme d'évaluation du SNR prévoit de mettre à jour l'estimation du plancher de bruit pour tenir compte de l'élévation de ce même plancher de bruit en cas de bruit acoustique fort. On obtient ainsi en sortie du bloc 126 une détection d'activité dans la plage de fonctionnement de l'accéléromètre, à savoir pour des fréquences inférieures à 1500 Hz.

En ce qui concerne le bloc 128, le traitement qu'il opère tient compte du fait qu'il est possible d'étendre artificiellement la gamme de fonctionne- ment du capteur accélérométrique au-delà de la limite de 1500 Hz, dans une plage correspondant aux harmoniques de rang faible de la voix, par une technique d'extension de bande, notamment par l'application d'une fonction non linéaire de génération d'harmoniques.

Dans le cas présent, cette technique d'extension de bande est applicable car le niveau de bruit est faible sur le capteur, et l'on peut atteindre une extension typiquement jusqu'à une fréquence de 3 kHz. L'estimation du SNR est ensuite opérée de la même manière que précédemment dans le domaine des basses fréquences. On dispose ainsi d'un détecteur d'activité vocale supplémentaire, dont le domaine d'analyse est étendu dans le médium.

En ce qui concerne le bloc 130, on notera que le traitement qu'il effectue est une analyse opérée dans le domaine temporel, à la différence des analyses opérées par les blocs 104, 106, 1 10, 1 12, 1 16, 1 18, 120, 126 et 128, qui sont toutes opérées dans le domaine fréquentiel.

Cette analyse dans le domaine temporel répartit les trames de signal successives reçues en deux classes, selon que l'algorithme détecte :

i) un signal de parole voisé présent dans le signal capté (les signaux voisés sont ceux qui impliquent une vibration des cordes vocales, qui est transmise vers la joue, à la différence des signaux vocaux non voi- sés correspondant à des émissions sonores fricatives ou plosives), ou ii) du bruit seul ou bien un mélange de bruit et de signal de parole non voisé.

Cette discrimination en deux classes est en particulier utile dans les basses fréquences, où l'on peut observer un SNR très faible. L'absence de parole voisée permet à l'algorithme de mettre à jour son estimation de bruit de façon réactive, et sans risque sur la parole. Cette analyse est basée sur l'hypothèse que si l'on détecte des signaux vocaux dans les fréquences basses, il est très probable qu'on en retrouve également dans les fréquences plus élevées.

En résumé :

- on dispose d'un réseau de N détecteurs acoustiques et M détecteurs non acoustiques délivrant simultanément des signaux respectifs tous différents. Dans l'exemple illustré on a N = 4 détecteurs acoustiques, à savoir les microphones 18, 18', 20 et 20' délivrant les signaux TopL, BotL, TopR et BotR, et M = 1 détecteur non acoustique, à savoir le capteur physiologique accélérométrique 22 délivrant le signal Acc ; et

- sur ces N+M signaux on opère parallèlement n traitements d'analyse différents. Dans l'exemple illustré, on a n = 10 traitements différents, correspondant aux blocs 104, 106, 1 10, 1 12, 1 16, 1 18, 120, 126, 128 et 130.

On notera que ces n traitements d'analyse sont opérés distinctement et simultanément sur chaque bande de fréquence ou "bin" fréquentiel de chaque trame successive de signal (une trame comprenant typiquement 256 bins).

Ces n traitements différents produisent une batterie de n indicateurs élémentaires respectifs donnant chacun, pour le bin considéré, une valeur correspondante de probabilité de présence de parole (n détections d'activité vocale schématisées par les blocs 140).

On évalue ainsi, pour chaque bin de chaque trame, une pluralité d'indicateurs de présence/absence de parole différents, indicateurs :

- qui sont tous complémentaires, car ils sont établis chacun à partir de caractéristiques différentes et de traitements différents : analyse de cohérence axiale ou transversale de détecteurs acoustiques, estima- tions du SNR selon différentes techniques et à partir d'informations différentes, analyses d'un signal non acoustique selon plusieurs aspects différents, etc.,

- mais qui sont tous imparfaits, et ne peuvent donc être utilisés individuellement pour décider en toutes circonstances et avec un degré élevé de vraisemblance de la présence ou non d'un signal de parole à un instant donné dans un bin fréquentiel donné.

Dans l'exemple illustré, on a n = 10 informations différentes pour chaque bin fréquentiel de chaque trame temporelle, ces informations étant issues des signaux provenant de quatre microphones et d'un accéléromètre. Ces informations auront une fiabilité variable selon le contexte de bruit présent. En effet, certains détecteurs permettent de distinguer efficacement la voix d'un bruit directif par des propriétés de direction d'arrivée, d'autres détecteurs sont spécialisés pour détecter voix et bruit dans les basses fréquences à SNR faible, d'autres encore sont spécialisés pour séparer la voix d'un champ de bruits diffus, etc. De fait, les détecteurs s'appuient sur des hypothèses distinctes et leur pertinence est variable selon la situation de bruit et les hypothèses qui sont effectivement vérifiées.

Le but de l'invention est, à partir de ces n indicateurs élémentaires tous complémentaires et tous imparfaits, de produire un indicateur global unique de fiabilité élevée, c'est-à-dire présentant un très faible taux de faux positifs.

L'idée de base de l'invention consiste à appliquer concurremment ces n indicateurs élémentaires de probabilité de présence de parole à un classifieur supervisé de type arbre de décision 142, pour obtenir in fine un indicateur global unique de présence/absence de parole, pour chaque bin fréquentiel et chaque trame du signal recueilli.

L'arbre de décision 142 utilise comme information d'entrée le "vecteur d'observation" constitué des n indicateurs élémentaires de probabilité de présence de parole produits par les n traitements décrits plus haut. On notera que ces informations d'entrée sont obtenues par des traitements en eux-mêmes connus (traitements des blocs 102 à 130).

La classification supervisée par un arbre de décision 142 permet de réduire la détection de l'activité vocale à une cascade de comparaisons à des seuils 144 prédéfinis respectifs, la classification étant opérée entre deux classes (Classe 1 = voix absente ; Classe 2 = voix présente).

Ce procédé de classification supervisée peut également permettre de sélectionner parmi les n traitements d'analyse différents ceux qui sont les plus pertinents sur chaque bande de fréquence, évitant ainsi d'exécuter la totalité de ces traitements sur la totalité des bins fréquentiels. On peut ainsi obtenir des sous-ensembles classifieurs différenciés et spécialisés selon le domaine fréquentiel.

L'arbre de décision est une méthode, en elle-même bien connue dans d'autres domaines, basés sur un algorithme dans lequel une multiplicité de données d'entrées (dans le cas présent, les n indicateurs élémentaires de probabilité de présence de parole délivrés par les n détecteurs d'activité vocale 140 en sortie des n traitements d'analyse respectifs différents) sont comparées à des seuils respectifs hiérarchisés entre eux.

Un tel algorithme peut être formalisé par une équation booléenne comprenant une succession de termes (correspondant aux comparaisons des différents paramètres par rapport aux seuils respectifs) qui sont combinés par une suite de ET logiques, et dont le résultat est un résultat global unique.

Dans le cas présent, les différents seuils 144 de l'arbre de décision 142 sont des seuils déterminés préalablement à partir d'une base d'apprentis- sage comprenant notamment une base de bruits réels captés dans des conditions représentatives de l'usage possible du micro-casque. Des enregistrements sont réalisés avec l'ensemble des capteurs acoustiques et non acoustiques, puis mixés à des signaux de voix obtenus en l'absence de bruit (dans une salle anéchoïque) pour une diversité d'utilisateurs pos- sibles, et avec différents niveaux de SNR.

Une fois l'apprentissage statistique ainsi réalisé, les valeurs des seuils obtenues sont introduites dans l'arbre de décision, où ces seuils sont conservés dans une mémoire et figés.

On notera que l'on utilise un arbre de décision indépendant, et de profon- deur différente, pour chaque bin fréquentiel .

On dispose ainsi d'autant d'arbres de décision que de bins fréquentiels, par exemple 256 arbres indépendants dans le cas où chaque trame est divisée en 256 bins.

Chaque arbre de décision délivre en sortie 146 une valeur 148 d'indica- teur global de probabilité de présence de parole P supervis é e! {k,l) pour le bin / de la trame de rang k. La valeur P supervis é e! {k,l) de cet indicateur global (ci- après dénommé "indicateur global quantifié" de présence de parole) est une probabilité à valeur continue sur l'intervalle [0,1 ], la valeur 0 correspondant à une absence certaine de parole et la valeur 1 correspondant à une présence certaine de parole.

La valeur P supervis é e! {k,l) (probabilité à valeur continue) donnée par l'arbre de décision est appliquée à un comparateur à seuil 150 pour délivrer en sortie 152 une valeur binaire de probabilité de présence de parole, ci-après dénommée "indicateur global binaire" de présence de parole), ceci pour chaque bin de chaque trame successive. Le seuil P1 du comparateur est paramétrable (le paramètre étant prédéterminé et conservé dans une mémoire, ce paramètre étant éventuellement réajustable par le porteur du casque), typiquement P1 = 0,5. La Figure 8 illustre les performances du détecteur d'activité vocale de l'invention, basé sur une probabilité supervisée par classifieur à arbre de décision.

Cette Figure 8 et une représentation de type ROC (Receiver Operating Characteristic) quantifiant la performance sous forme d'une courbe caractéristique taux de vrais positifs/taux de faux positifs, la performance étant d'autant meilleure que l'aire sous la courbe est élevée (à comparer à une décision purement aléatoire, correspondant à la courbe A).

On a reporté sur ce diagramme ROC en B1 et B2 les résultats respectifs obtenus par deux détecteurs individuels d'activité vocale (correspondant à deux types de traitements distincts) opérant indépendamment, et en C le résultat obtenu par fusion de ces deux détecteurs au moyen du classifieur à arbre de décision selon l'invention.

Cet exemple, donné pour deux détecteurs élémentaires, montre une amé- lioration significative (forte diminution du taux de faux positifs) par rapport à l'un ou l'autre des détecteurs pris isolément. On comprendra que, pour un plus grand nombre de détecteurs (jusqu'à dix détecteurs dans l'exemple illustré Figure 7), cette amélioration sera d'autant plus élevée que le nombre de détecteurs élémentaires différents est important, cha- cun étant susceptible de prendre en compte une situation particulière d'environnement de bruit rencontrée par le porteur du micro-casque.

Sur la Figure 9, on a illustré une application particulière du détecteur d'activité vocale de l'invention à un traitement amélioré de débruitage du signal, adapté pour utiliser spécifiquement les résultats du détecteur d'acti- vité vocale de l'invention.

Le but du traitement illustré Figure 9 est d'améliorer le SNR d'un signal d'entrée y(t) 154, par exemple un signal microphonique destiné à être utilisé comme signal de locuteur proche dans le cadre d'une conversation téléphonique, tout en apportant beaucoup de soin à la préservation d'une qualité d'écoute subjectivement satisfaisante.

Le signal d'entrée y(t) est segmenté en trames temporelles successives (bloc 156), et chaque trame temporelle y(k) est analysée dans le domaine fréquentiel par transformation rapide de Fourier (bloc 158), pour donner une série de signaux y(k,l) correspondant à / bins fréquentiels, par exemple / = 256 bins, pour chaque trame de rang k. Le signal y(k,l) obte- nu fait l'objet (branche 160) d'un traitement d'évaluation de la norme du signal (bloc 162), dont la sortie 164 est appliquée à un estimateur de bruit (bloc 168).

De façon caractéristique, la probabilité supervisée estimée en sortie de l'arbre de décision (valeur P supervis é e! (k,l) à valeur continue 148 et valeur VAD S upervised(k,l) binaire 152 de probabilité de présence de parole) et appliquée au réducteur de bruit de la Figure 9 est utilisée en entrée d'un étage de réduction de type MMSE-OMLSA (Minimum Mean-Squared Er- ror - Optimally-Modified Log Spectral Amplitude) en lui-même de type connu, et par exemple décrit dans les WO 2007/099222 A1 (Parrot SA) ou EP 2 772 916 A1 (Parrot SA), auxquels on pourra se référer pour de plus amples détails.

Plus précisément, dans la structure classique de débruitage OM-LSA, une grandeur essentielle est l'estimation de la densité spectrale de puissance du bruit PSDNoise(k ), car cette densité est utilisée pour estimer le SNR a priori SNR_prio(k,l) et le SNR a posteriori SNR_post(k,l), grandeurs qui sont au cœur de l'algorithme OM-LSA (la densité spectrale de bruit intervenant au dénominateur de ces deux grandeurs).

Du fait de la fiabilité de la probabilité de parole supervisée obtenue par la mise en ouvre de l'invention, il est possible d'élaborer un nouveau modèle d'estimation de PSDNoise(k ). En effet, la précision accrue de la probabilité de présence de parole, issue des N+M détecteurs d'activité vocale et de leur fusion supervisée, par rapport à une probabilité de présence plus classique (monocanal ou déduite de capteurs acoustiques uniquement) remet en cause le calcul de PSDNoise(k ). Concrètement, on peut effectuer une mise à jour plus directe de PSDNoise(k ) sur la base de la probabilité supervisée, et ainsi éliminer certains mécanismes classiques de protection et de lissage, afin d'obtenir le maximum de fidélité et de détail dans l'estimation du bruit.

On commence par définir, pour chaque bin fréquentiel et chaque trame, un facteur de lissage a pS d(k,l) = α + (1 -a) * Psupervised (k,l), où Psupervised (k,l) est la probabilité supervisée à valeur continue et est un facteur de lissage fixe compris entre 0 et 1 (typiquement 0,85).

apsd est donc grand si la probabilité est élevée, ce qui permet de ne pas tenir compte de la norme courante du signal utile. A contrario, si la proba- bilité est faible, on met à jour l'estimation du bruit sur la norme courante, en appliquant la formule :

PSDNoise(k ) = a pS d(k,l) * PSDNoise (/ ,/-1 ) + (1 - a pS d(k,l) * Normlnput(k,l),

Normlnput(k ) étant la norme lissée de la transformée de Fourier du signal acoustique d'entrée lnput(t).

De façon caractéristique de l'invention, la valeur binaire de probabilité de présence de parole est également prise en compte. En ef- fet, cette valeur est très fiable (taux de faux positifs compris entre 1 % et 5 %), ce qui permet de réaliser une mise à jour intégrale de l'estimation du bruit sur la norme courante du signal d'entrée lorsque

= 0 (absence de parole). Ceci revient à forcer a pS d(k,l) à zéro dans la formule précédente. Ainsi, si = 0, alors a pS d(k,l) = 0 et PSDNoise{k,l) = Normlnput{k,l).

Cette modification simple a beaucoup d'impact, car concrètement les valeurs continues de P supe m S ec/(/ ,/) ne seront utilisées que lorsque le seuil P1 sera dépassé ; dans le cas inverse, on peut effectuer une mise à jour instantanée qui permet de récupérer tous les détails du bruit et de son "grain".

Il faut signaler qu'il peut toutefois être avantageux d'appliquer un lissage fréquentiel sur P supen // se c/(/ ,/) avant le calcul de de façon à renforcer encore la robustesse de ce détecteur (ceci n'ayant pas d'impact sur le caractère instantané de la mise à jour décrite ci-dessus).

La manière de procéder, particulière à l'invention, que l'on vient de décrire est schématisée sur la Figure 9 par le fait que, selon la valeur de l'indicateur global binaire on met en œuvre l'estimation du bruit de façon conventionnelle par calcul de la densité spectrale (sortie 170 du bloc 168), ou non, comme cela est schématisé par le commutateur 172 commandé par la valeur binaire = 0, alors le traitement du bloc 168 est remplacé par l'application du signal 164 directement issu du bloc 162 de calcul de la norme du signal utile. En effet, dans la mesure où l'algorithme retient l'hypothèse qu'il n'y a pas de parole dans le signal recueilli, il peut décider que le spectre du bruit cor- respond au spectre du signal d'entrée 164, et qu'il n'est pas nécessaire de procéder à une estimation de ce bruit par le bloc 168.

Les étapes suivantes du débruitage sont réalisées de manière en elle- même conventionnelle, avec un étage de calcul de gain OM-LSA (bloc 174) recevant d'une part le signal y(k,l) (branche 176) et d'autre part l'estimation du bruit PSDNoise(k ) calculée de la façon que l'on a décrite plus haut, c'est-à-dire en tirant avantageusement parti de l'indicateur global binaire en sus de l'indicateur quantifié Psupervised (k,l).

De façon en elle-même connue, un algorithme OM-LSA améliore le calcul du gain LSA (Log-Spectral Amplitude) en le pondérant par la probabilité de présence de parole, la réduction de bruit appliquée étant d'autant plus importante que la probabilité de présence de parole est faible, c'est-à-dire que le gain appliqué sera d'autant plus faible que la probabilité de présence de parole est faible.

On pourra se référer pour de plus amples détails à la description du EP 2 772 916 A1 (Parrot) qui décrit un procédé de débruitage mettant en œuvre un tel type de traitement de réduction du bruit avec un algorithme OM-LSA.

Une autre donnée d'entrée du traitement opéré par l'étage 174 de calcul du gain OM-LSA est un paramètre Gmin dénommé "dureté de débruitage", déterminé en fonction de critères subjectifs obtenus lors de tests d'écoute. Il peut être avantageux de disposer, comme illustré en 178, de deux réglages différents de dureté de débruitage, selon que la fréquence d'échantillonnage est de type narrowband à 8 kHz ou wideband à 16 kHz. Dans le premier cas (narrowband) l'expérience montre qu'un débruitage agressif, typiquement de -21 dB, est indispensable pour faire ressortir la voix d'une quantité de bruit élevée et valoriser l'intelligibilité, au prix d'une distorsion sur le timbre sur ce signal qui aura de toute façon une fidélité de restitution limitée par la fréquence d'échantillonnage moindre. Le pro- blême se pose de façon différente en mode wideband, car le signal d'entrée est naturellement de meilleure qualité et plus intelligible, même en présence de bruit, en raison de l'ajout de la partie des fréquences les plus élevées dans le domaine 4 khz-8 kHz, qui comporte souvent moins de bruit et apporte beaucoup de détails dans la voix. Dans ce mode, un dé- bruitage plus modéré, typiquement de -15 dB, est plus approprié, car les défauts introduits par le débruitage sur la fidélité du timbre seront moins bien tolérés par le locuteur distant qu'en mode narrowband.

Le gain GOMLSA(1<,I) calculé par l'étage 174 est appliqué à un étage 182 recevant le signal y(k,l) (branche 184), pour donner un signal débruité 1 86. Ce signal est soumis à une transformation rapide de Fourier inverse 188 pour reconstituer le signal 190 dans le domaine temporel, puis les trames initialement segmentées sont synthétisées (bloc 192) pour donner le signal de sortie 194 reflétant le signal initial d'entrée 154 après traitement de débruitage.