Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
ACQUISITION OF SPATIALISED SOUND DATA
Document Type and Number:
WIPO Patent Application WO/2014/076430
Kind Code:
A1
Abstract:
The invention relates to a data-processing method for determining at least one spatial coordinate of a sound source emitting a sound signal, in a three-dimensional space, said method including the following steps: obtaining (10) at least one first signal and one second signal from the sound signal, collected according to separate directivities by a first sensor and a second sensor; deducing (11) from the first and second signals an expression of at least one first spatial coordinate of the sound source, the expression comprising an uncertainty regarding said spatial coordinate; determining (12) additional information relating to the first spatial coordinate of the sound source, from a comparison between the respective features of the signals collected by the first and second sensors; and determining (13) the first spatial coordinate of the sound source on the basis of the expression and the additional information.

Inventors:
PALACINO JULIAN (FR)
NICOL ROZENN (FR)
Application Number:
PCT/FR2013/052749
Publication Date:
May 22, 2014
Filing Date:
November 15, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ORANGE (FR)
International Classes:
H04R3/00; G01S3/802
Domestic Patent References:
WO2012072798A12012-06-07
Foreign References:
US20100211387A12010-08-19
US20040032796A12004-02-19
US4042779A1977-08-16
Other References:
PULKKI ET AL: "Directional Audio Coding in Spatial Sound Reproduction and Stereo Upmixing", CONFERENCE: 28TH INTERNATIONAL CONFERENCE: THE FUTURE OF AUDIO TECHNOLOGY--SURROUND AND BEYOND; JUNE 2006, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 1 June 2006 (2006-06-01), XP040507936
J. DANIEL, REPRÉSENTATION DE CHAMPS ACOUSTIQUES, APPLICATION À LA TRANSMISSION ET À LA REPRODUCTION DE SCÈNES SONORES COMPLEXES DANS UN CONTEXTE MULTIMÉDIA, 2001
V. PULKKI: "Directional audio coding in spatial sound reproduction and stereo upmixing", PROC. OF THE AES 28TH INT. CONF, 2006
N. BARRETT; S. BERGE: "A new method for B-format to binaural transcoding", 40TH AES INTERNATIONAL CONFERENCE, 2010, pages 8 - 10
Attorney, Agent or Firm:
ORANGE/IMT/OLPS/IPL/PAT (FR)
Download PDF:
Claims:
REVENDICATIONS

1 . Procédé de traitement de données pour la détermination d'au moins une coordonnée spatiale d'une source sonore émettant un signal sonore, dans un espace tridimensionnel, le procédé comprenant les étapes suivantes :

- obtenir (10) au moins un premier signal et un deuxième signal à partir du signal sonore capté selon des directivités différentes par un premier capteur (51 ;71 ) et un deuxième capteur (52 ;73) ;

- déduire (1 1 ) des premier et deuxième signaux une expression d'au moins une première coordonnée spatiale de la source sonore, ladite expression comportant une incertitude sur ladite coordonnée spatiale ;

- déterminer (12) une information supplémentaire relative à la première coordonnée spatiale de la source sonore, à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs ;

- déterminer (13) ladite première coordonnée spatiale de la source sonore sur la base de l'expression et de l'information supplémentaire.

2. Procédé selon la revendication 1 , dans lequel, l'espace étant orienté selon trois axes x, y et z, les premier et deuxième capteurs sont des microphones cardioïdes (51 ;52), le premier microphone cardioïde étant situé à une première position de l'espace et orienté selon l'axe x dans un sens croissant et le deuxième microphone cardioïde étant situé à une deuxième position de l'espace et orienté selon l'axe x dans un sens décroissant, le procédé comprenant initialement :

- modifier la première ou la deuxième position en vue d'introduire un décalage selon l'axe y entre le premier microphone cardioïde et le deuxième microphone cardioïde,

dans lequel les premier et deuxième signaux correspondent aux signaux captés respectivement par les premier et deuxième microphones cardioïdes, et dans lequel l'information supplémentaire est le signe d'une différence entre des phases respectives des premier et seconds signaux.

3. Procédé selon la revendication 2, dans lequel un troisième signal scard3 capté par un troisième microphone cardioïde (53) orienté selon l'axe z dans un sens croissant est obtenu, dans lequel des première et deuxième coordonnées spatiales de la source sonore sont respectivement les coordonnées sphériques d'azimut Θ et d'élévation φ et dans lequel, le premier signal capté par le premier microphone cardioïde (51 ) étant noté scardi et le second signal capté par le second microphone cardioïde (52) étant noté scard2, les expressions des coordonnées sphériques d'azimut Θ et d'élévation φ sont données par :

*o( = card 1 card 2 (ί, θ, φ)

et dans lequel le signe de la coordonnée sphérique d'azimut Θ est donné par la différence de phases entre les premier et deuxième signaux.

4. Procédé selon la revendication 2, dans lequel des première et deuxième coordonnées spatiales de la source sonore sont respectivement les coordonnées sphériques d'azimut Θ et d'élévation φ , dans lequel, le premier signal capté par le premier microphone cardioïde (51 ) étant noté Scardi et le second signal capté par le second microphone cardioïde (52) étant noté scard2, l'expression de la coordonnée sphérique d'azimut Θ est donnée par :

*o( = card 1 card 2 (ί, θ, φ)

(W) - s

e = cos 1 [- card 2 (Ι,θ,φ)

s0 (t)2 - οοε φ

dans lequel la coordonnée sphérique d'élévation φ βεί fixée arbitrairement et dans lequel le signe de la coordonnée sphérique d'azimut Θ est donné par la différence de phases entre les premier et deuxième signaux.

5. Procédé selon la revendication 1 , dans lequel, l'espace étant orienté selon trois axes x, y et z, des première et deuxième coordonnées spatiales de la source sonore sont les coordonnées sphériques d'azimut Θ et d'élévation φ , les premier et deuxième capteurs sont des capteurs bidirectionnels (71 ;73), ledit premier capteur étant orienté selon l'axe x et captant le signal noté sbn et ledit deuxième capteur étant orienté selon l'axe y et captant le signal noté sbi2,

dans lequel un troisième capteur cardioïde (72) est dirigé selon l'axe z croissant et apte à capter un signal noté sCard3,

dans lequel les premiers et second signaux sont notés respectivement Scardvirti et sCardvirt2 et sont obtenus ar:

..

Scardvirt2(t>°>9 ~— ~ \Λ ^ '

s0(t)

s^i1 (t!e^) + syt!e^) + 4sLd3 (t!e^)

avec s0(t) , 2 dans lequel les expressions des coordonnées sphériques d'azimut Θ et d'élévation φ sont données par: fr = sin-1 [2 Scard3 (W) - 1]

s0(t,e,<t>)

Θ = COS"1 [Srd irt1 ^' 9'(l)^ ~ Srd irt2 ^' 9'(l)^]

S0 (t)2 - COS ())

dans lequel l'information supplémentaire est déterminée à partir d'une direction d'un vecteur d'intensité acoustique du signal sonore, ladite direction étant calculée à partir des signaux sbn et sbi2-

6. Procédé selon la revendication 1 , dans lequel, l'espace étant orienté selon trois axes x, y et z, les première et deuxième coordonnées spatiales sont les coordonnées sphériques d'azimut Θ et d'élévation φ , les premier et deuxième capteurs sont des capteurs bidirectionnels (71 ;73), ledit premier capteur étant orienté selon l'axe x et captant le signal noté sbn et ledit deuxième capteur étant orienté selon l'axe y et captant le signal noté sbi2, dans lequel les premiers et second signaux sont notés respectivement Scardvirti et sCardvirt2 et sont obtenus de la manière suivante :

Scardvirtl lt. O.W ~— U + T j ) . ς Scardvirt2 '

avec s0 (t) = s^M (t , θ, φ) + s=l2 (t, θ, φ) ;

dans lequel l'expression de la coordonnée sphérique d'azimut Θ est donnée par:

Θ = COS~1 [Srd irt1 ^' 9'(l)^ ~ Srd irt2 ^' 9'(l)^]

S0(t)2 - COS (|)

dans lequel la coordonnée sphérique d'élévation φ est fixée arbitrairement ; dans lequel l'information supplémentaire est déterminée à partir d'une direction d'un vecteur d'intensité acoustique du signal sonore, ladite direction étant calculée à partir des signaux sbn et sbi2-

7. Procédé selon l'une des revendications 5 et 6, dans lequel l'information supplémentaire est une deuxième expression de la coordonnée d'azimut Θ : ω étant une pulsation du signal sonore émis par la source,

Ιγ(ω) étant la composante selon la coordonnée y du vecteur d'intensité acoustique du signal sonore, donnée par : ly (œ) = -^ Re[S; (œ)Sbi1 (œ)] ;

2pc

lx(co) étant la composante selon la coordonnée x du vecteur d'intensité acoustique du signal sonore donnée par : lx (œ) = -LRe[S; (œ)Sbi2(œ)] ;

2pc S0(co), Sbi1(ffl) et Sbi2(co) désignant les transformées de Fourier des signaux So(t), Sbi1(t) et Sbi2(t) respectivement.

8. Procédé selon la revendication 1 , dans lequel des première et deuxième coordonnées spatiales de la source sonore sont des coordonnées sphériques d'azimut Θ et d'élévation φ, les premier et deuxièmes capteurs font partie d'un microphone ambisonique|[Mi], dans lequel, les signaux issus du microphone ambisonique sont un signal de pression bj0(t) et trois signaux de gradient de pression bj^t), b 1(t) et b]0(t) ; dans lequel le premier signal, noté sCardvirti, et le second signal, noté scardvirt2, et un troisième signal scardvirt3 sont obtenus à partir des signaux boo (t) , (t) , b^^ (t) et b;0(t) par : s Scardvirti i!t1'e^è -b°o(t)M 1 + hbW"(tt)V '

Scardvirt2(t>9,(|)) -

bio(t)

2 MO

dans lequel les expressions des coordonnées sphériques d'azimut Θ et d'élévation φ sont données par: è = sin-1[2Scardvirt3(t'9'^-1]

ε0(1,θ,φ)

Θ = COS~1 [Srdirt1^'9'(l)^~Srdirt2^'9'(l)^]

s0(t)2 -οοεφ

avec s0 = Μ ;

dans lequel l'information supplémentaire est déterminée à partir d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux bj,0(t) .b^t) et b 1(t).

Procédé selon la revendication 8, dans lequel l'information pplémentaire est une deuxième expression de la coordonnée sphérique 'azimut θ : ω étant une pulsation du signal sonore émis par la source,

ly(co) étant la composante selon la coordonnée y du vecteur d'intensité acoustique du signal sonore et étant donnée par :

1

Ιν(ω) = -Re Bio (ω)Β-](ω)

2pc

Ιχ(ω) étant la composante selon la coordonnée x du vecteur d'intensité acoustique du signal sonore et étant donnée par :

1

Ιχ(ω) = Re

2pc

Bj0(co), Β^ω) et Β^ω) désignant les transformées de Fourier des signaux bo0 (t) , b^(t) et b 1(t) respectivement.

10. Procédé selon la revendication 8 ou 9, dans lequel une expression supplémentaire est déterminée pour la coordonnée sphérique d'élévation :

ω étant une pulsation du signal sonore émis par la source,

l co) étant donné par :

lx(to) étant donné par : ω)

lz(to) étant donné par :

1

Ιζ(ω) Re Β^(ω)Β^(ω)

2pc

Bj0(ro), Β]1(ω),Βο1(ω) et Β^ω) désignant les transformées de Fourier des signaux b00 (t) , b^t) , b01 (t) et b 1 (t) respectivement ;

et dans lequel la coordonnée sphérique d'élévation est déterminée à partir de ladite expression ou de ladite expression supplémentaire. 1 1 . Produit programme d'ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par un ordinateur, pour l'exécution des étapes du procédé selon l'une quelconque des revendications 1 à 1 0. 12. Dispositif de traitement de données pour la détermination d'au moins une coordonnée spatiale d'une source sonore émettant un signal sonore, dans un espace tridimensionnel, le dispositif comprenant :

- une unité d'obtention (21 ) d'au moins un premier signal et un deuxième signal à partir du signal sonore capté selon des directivités différentes par un premier capteur et un deuxième capteur ;

- une unité de déduction (22) pour déduire des premier et deuxième signaux une expression d'au moins une première coordonnée spatiale de la source sonore, ladite expression comportant une incertitude sur ladite coordonnée spatiale ;

- une première unité de détermination (23) d'une information supplémentaire relative à la première coordonnée spatiale de la source sonore, à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs ;

- une seconde unité de détermination (24) de ladite première coordonnée spatiale de la source sonore sur la base de l'expression et de l'information supplémentaire.

13. Système d'acquisition de données sonores, comprenant une unité microphonique (30), ladite unité microphonique comprenant au moins un premier capteur (51 ;71 ) et un deuxième capteur (52 ;73) aptes à capter des signaux sonores selon des directivités différentes, ledit système comprenant en outre un dispositif de traitement de données (20) pour la détermination d'au moins une coordonnée spatiale d'une source sonore émettant un signal sonore, dans un espace tridimensionnel, le dispositif comprenant:

- une unité d'obtention (21 ) d'au moins un premier signal et un deuxième signal à partir du signal sonore capté par le premier capteur et le deuxième capteur ;

- une unité de déduction (22) pour déduire des premier et deuxième signaux une expression d'au moins une première coordonnée spatiale de la source sonore, ladite expression comportant une incertitude sur ladite coordonnée spatiale ;

- une première unité de détermination (23) d'une information supplémentaire relative à la première coordonnée spatiale de la source sonore, à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs ;

- une seconde unité de détermination (24) de ladite première coordonnée spatiale de la source sonore sur la base de l'expression et de l'information supplémentaire.

14. Système selon la revendication 13, dans lequel les premier et deuxième capteurs sont des microphones cardioïdes (51 ;52).

15. Terminal de télécommunication comprenant un système selon la revendication 13.

Description:
Acquisition de données sonores spatialisées

La présente invention concerne le domaine des technologies de prise de son et des technologies de traitement audio associées.

Elle concerne en particulier, mais non exclusivement, un procédé de traitement de données sonores issues d'une scène sonore tridimensionnelle capable d'extraire une information de position spatiale de sources sonores. Elle trouve des applications aussi bien pour la prise de son spatialisée dans le cadre de services conversationnels, que pour l'enregistrement de contenus audio 3D (par exemple concert, paysage sonore, etc).

Différentes méthodes de prise de son spatialisé sont connues. Certaines cherchent à saisir les informations exploitées par le système auditif (technologie binaurale par exemple) tandis que d'autres décomposent le champ acoustique de façon à restituer une information spatiale plus ou moins riche qui sera interprétée par l'auditeur (technologie ambisonique par exemple).

Une première méthode consiste en une prise de son stéréophonique. Les différences de phase et/ou de temps, et d'amplitude entre des signaux issus de deux microphones sont exploitées afin de recréer des stimuli constituant une approximation grossière de l'écoute naturelle. Ces signaux sont restitués sur une paire de haut-parleurs toujours placés face à l'auditeur et alignés sur le plan horizontal. Dans une telle configuration, toute information provenant de l'arrière de l'auditeur et toute notion d'élévation sont perdues. Afin d'enrichir l'arrière de la scène sonore, de nombreuses solutions ont été proposées. En particulier, de telles solutions consistent généralement en une augmentation du nombre de capteurs visant les directions recherchées. On peut également prévoir un matriçage des signaux stéréophoniques afin d'enrichir l'arrière de la scène sonore. De telles solutions ont donné naissance aux systèmes quadriphoniques, 5.1 et 7.1 .

Cependant, la prise de son stéréophonique est toujours limitée au plan horizontal frontal, ou horizontal dans le cas des extensions multicanaux de types 5.1 . En d'autres termes, dans le meilleur des cas, en coordonnées sphériques, elle n'est capable d'identifier que l'information d'azimut des sources sonores (les coordonnées des sources dans un plan horizontal x-y), sans pour autant pouvoir identifier leur information d'élévation.

Une deuxième méthode consiste en une prise de son binaurale. La technologie binaurale permet une captation et une restitution imitant une écoute naturelle, permettant notamment la localisation d'une source dans tout l'espace entourant l'auditeur, en utilisant uniquement deux microphones. Les microphones sont placés dans les oreilles d'une personne ou d'un mannequin afin d'enregistrer la scène acoustique et les indices acoustiques de la localisation naturelle.

La prise de son directe utilisant la technologie binaurale présente cependant différents inconvénients. En effet, lorsque la prise de son est effectuée sur une tête naturelle, la personne portant les microphones doit rester immobile, contrôler sa respiration et éviter de déglutir afin de ne pas détériorer la qualité de l'enregistrement. L'utilisation d'une tête artificielle est difficilement envisageable lorsque l'on recherche une utilisation discrète et portative. Au moment de la restitution, l'incompatibilité des fonctions de transferts relatives à la tête de l'auditeur (« Head Related Transfer Function » en anglais ou HRTF) entre le dispositif de captation et l'auditeur final tend à fausser la localisation des sources. D'autre part, lorsque l'auditeur final bouge la tête, l'ensemble de la scène sonore se déplace.

Ainsi, bien que la prise de son binaurale soit capable d'encoder l'information spatiale des sources dans tout l'espace tridimensionnel, un tel encodage est spécifique de la morphologie de la personne ou du mannequin qui a servi à l'enregistrement. Aucune solution satisfaisante n'a été proposée à ce jour afin de remédier à ces limitations. Un inconvénient supplémentaire est que l'enregistrement binaural ne peut être écouté que sur un équipement spécifique dédié tel qu'un casque ou un système de haut-parleurs associés à un prétraitement.

Une troisième méthode consiste en une prise de son ambisonique par captation du champ acoustique. Une telle technologie fut introduite dans le document US 4,042,779 pour les harmoniques sphériques du premier ordre, et son extension aux ordres supérieurs HOA fut décrite par exemple dans le document J. Daniel, « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Université Paris 6, Paris, 2001 . Ces documents permettent une acquisition plus ou moins précise de la scène sonore en fonction de l'ordre des harmoniques sphériques utilisées.

Cependant, une telle technologie présente l'inconvénient d'utiliser un grand nombre de capteurs, qui est fonction de l'ordre désiré. L'utilisation de la technologie ambisonique à l'ordre 1 a été largement exploitée en raison du faible nombre de capteurs requis (quatre microphones, voir US 4,042,779) pour sa mise en œuvre. Des signaux issus des quatre microphones sont dérivés par matriçage (encodage), les quatre signaux définissant le format B de la technologie ambisonique. Les signaux dérivés par matriçage correspondent aux signaux qui auraient été enregistrés par un microphone omnidirectionnel et trois microphones à gradient de vitesse orientés selon les axes x, y et z. Les quatre signaux dérivés sont enregistrés et peuvent ensuite être restitués à un auditeur en utilisant un système de haut-parleurs distribués de façon arbitraire grâce à une matrice de décodage. Les haut-parleurs ainsi choisis peuvent également être obtenus sous la forme de sources virtuelles pour une restitution binaurale utilisant les fonctions de transfert H RTF relatives à la position de chaque source.

Ainsi, la prise de son ambisonique est aussi capable d'encoder l'information spatiale des sources dans tout l'espace 3D mais elle présente l'inconvénient de nécessiter un nombre important de capteurs, à savoir au minimum 4, et potentiellement un nombre encore plus important lorsqu'une précision spatiale satisfaisante est recherchée.

II peut également être envisagé des post-traitements associés à la prise de son spatialisé, afin de remédier aux inconvénients détaillés ci-dessus.

En particulier, de tels traitements sont appliqués afin d'améliorer l'extraction de l'information spatiale. Jusqu'à présent, des post-traitements ont été appliqués à des signaux de type ambisonique, car ces derniers donnent accès à une représentation physique des ondes acoustiques.

Le document de V. Pulkki, « Directional audio coding in spatial sound reproduction and stereo upmixing », in Proc. of the AES 28th Int. Conf, Pitea, Sweden, 2006, propose une méthode pour extraire des signaux du format B les informations de localisation des sources. L'objectif d'une telle méthode est l'obtention d'une représentation plus compacte de la scène sonore tridimensionnelle (compression de l'information), dans laquelle les quatre signaux issus du format B sont ramenés à un unique signal monophonique accompagné d'un signal comportant des informations de localisation des sources sonores.

Un perfectionnement de cette méthode a été proposé dans le document de N. Barrett et S. Berge, « A new method for B-format to binaural transcoding », in 40th AES International conférence. Tokyo, Japan, 2010, p. 8- 10. Ce perfectionnement prévoit d'utiliser les informations de localisation pour spatialiser les sources sonores virtuelles en vue d'une restitution sur haut- parleurs ou transcodage binaural. Les sources sonores virtuelles sont ainsi re- spatialisées a posteriori conformément à leur position identifiée, dans le format de spatialisation associé au dispositif de restitution.

Toutefois, que ce soit la méthode précédente ou sa version perfectionnée, la position des sources est déterminée avec une ambiguïté (typiquement une ambiguïté angulaire de ±π/2 sur l'angle d'azimut dans le document de V. Pulkki), qui n'est pas résolue. La position de la source sonore n'est alors pas connue avec certitude.

La présente invention vient améliorer la situation.

Un premier aspect de l'invention concerne un procédé de traitement de données pour la détermination d'au moins une coordonnée spatiale d'une source sonore émettant un signal sonore, dans un espace tridimensionnel, le procédé comprenant les étapes suivantes :

- obtenir au moins un premier signal et un deuxième signal à partir du signal sonore capté selon des directivités différentes par un premier capteur et un deuxième capteur ;

- déduire des premier et deuxième signaux une expression d'au moins une première coordonnée spatiale de la source sonore, l'expression comportant une incertitude sur la coordonnée spatiale ;

- déterminer une information supplémentaire relative à la première coordonnée spatiale de la source sonore, à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs ;

- déterminer la première coordonnée spatiale de la source sonore sur la base de l'expression et de l'information supplémentaire.

Ainsi, la présente invention prévoit, à partir d'un nombre réduit de capteurs (au moins deux) de lever une incertitude sur une expression d'une coordonnée spatiale d'une source sonore, et ce, par la détermination d'une information supplémentaire qui exploite les caractéristiques des signaux reçus respectivement sur les capteurs. Par exemple, l'incertitude peut être due à une fonction cosinus inverse comme c'est le cas dans le document de V. Pulkki.

La présente invention permet ainsi d'améliorer la précision lors de la localisation de la source (détermination d'une coordonnée spatiale de la source). De plus, la présente invention est adaptable à toute unité microphonique comprenant les premier et deuxième capteurs. Ainsi, comme détaillé dans ce qui suit, les premier et deuxième capteurs peuvent être des microphones cardioïdes, des microphones bidirectionnels, ou être intégrés dans un microphone ambisonique d'ordre 1 ou d'ordre supérieur à 1 plus généralement.

Selon un mode de réalisation, l'espace étant orienté selon trois axes x, y et z, les premier et deuxième capteurs sont des microphones cardioïdes, le premier microphone cardioïde étant situé à une première position de l'espace et orienté selon l'axe x dans un sens croissant et le deuxième microphone cardioïde étant situé à une deuxième position de l'espace et orienté selon l'axe x dans un sens décroissant, le procédé peut comprendre initialement :

- modifier la première ou la deuxième position en vue d'introduire un décalage selon l'axe y entre le premier microphone cardioïde et le deuxième microphone cardioïde.

Les premier et deuxième signaux correspondent aux signaux sonores captés respectivement par les premier et deuxième microphones cardioïdes et l'information supplémentaire est le signe d'une différence entre des phases respectives des premiers et seconds signaux.

En décalant les microphones cardioïdes selon un axe perpendiculaire à l'axe d'orientation des microphones cardioïdes, l'invention permet l'introduction d'un retard entre les signaux captés par ces microphones, retard qui constitue une information supplémentaire à partir de laquelle il est possible de déterminer avec certitude la première coordonnée spatiale.

Des première et deuxième coordonnées spatiales de la source sonore peuvent être respectivement les coordonnées sphériques d'azimut Θ et d'élévation φ . Comme détaillé dans ce qui suit, les coordonnées spatiales peuvent être exprimées dans le domaine temporel ou dans le domaine fréquentiel. En complément, un troisième signal s car d3 capté par un troisième microphone cardioïde orienté selon l'axe z dans un sens croissant peut être obtenu. Le premier signal capté par le premier microphone cardioïde étant noté Scardi et le second signal capté par le second microphone cardioïde étant noté s C ard2, les expressions des coordonnées sphériques d'azimut Θ et d'élévation φ peuvent être données par :

card l card l (ί, θ, φ)

Le signe de la coordonnée sphérique d'azimut Θ est donné par la différence de phases entre les premier et deuxième signaux.

L'expression de la coordonnée sphérique d'azimut Θ présente une ambiguïté résultant de la fonction cosinus inverse. Cette ambiguïté est levée par exemple en exploitant la différence de phases entre les premier et deuxième signaux qui donne le signe de la coordonnée sphérique d'azimut Θ . Toutefois, l'invention n'est aucunement restreinte à la prise en compte de la différence de phase entre les premier et deuxième signaux : elle s'applique à toute information supplémentaire permettant d'identifier le demi-espace dans lequel est située la source sonore, ce qui permet de lever l'ambiguïté précitée.

Ainsi, la présente invention permet de déterminer complètement la direction de la source sonore (connaissance des coordonnées sphériques d'azimut Θ et d'élévation φ ) à partir de seulement trois capteurs, à savoir les trois microphones cardioïdes, tout en levant l'incertitude sur la coordonnée sphérique d'azimut Θ . A noter qu'aucune restriction n'est attachée aux coordonnées considérées : la présente invention est applicable en coordonnées cylindriques ou cartésiennes.

En variante, des première et deuxième coordonnées spatiales de la source sonore peuvent être respectivement les coordonnées sphériques d'azimut Θ et d'élévation φ , le premier signal capté par le premier microphone cardioïde étant noté s C ardi et le second signal capté par le second microphone cardioïde étant noté s car d2, l'expression de la coordonnée sphérique d'azimut Θ est donnée par :

* (0 = s cardl {t, θ, φ) + s card2 (t, θ, φ)

9

La coordonnée sphérique d'élévation φ peut être fixée arbitrairement et le signe de la coordonnée sphérique d'azimut Θ peut être donné par la différence de phases entre les premier et deuxième signaux.

Cette variante permet de diminuer le nombre de capteurs à uniquement deux microphones cardioïdes, au détriment de la précision liée à la coordonnée sphérique d'élévation φ , tout en levant l'incertitude sur la coordonnée sphérique d'azimut Θ .

Selon un mode de réalisation de l'invention, l'espace étant orienté selon trois axes x, y et z, des première et deuxième coordonnées spatiales de la source sonore peuvent être les coordonnées sphériques d'azimut Θ et d'élévation φ , les premier et deuxième capteurs peuvent être des capteurs bidirectionnels, le premier capteur étant orienté selon l'axe x et captant le signal noté s b ii et le deuxième capteur étant orienté selon l'axe y et captant le signal noté Sbi2- Un troisième capteur cardioïde peut être dirigé selon l'axe z croissant et être apte à capter un signal noté s car d3- Les premiers et second signaux peuvent être notés respectivement s car dvirti et s C ardvirt2 et être obtenus par:

Scardvirtl i 1 ' ^) ~ _ U + I ~~ †\ ) .

S cardvirt2 l t ' 0 . ( l ) ~ _ ~ U T j ) .

Les expressions des coordonnées sphériques d'azimut Θ et d'élévation φ peuvent être données par:

(H sin- 1 [2 Scard3 (W) - 1]

s 0 (W) Θ = cos "1 [ S rd irt1 ^' 9 ' ( l ) ^ ~ s rd irt2 ^' 9 ' ( l ) ^ ]

S 0 (t) 2 COS (|)

L'information supplémentaire pour lever l'ambiguïté peut être déterminée à partir d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux s b n et s b i2-

Ainsi, la présente invention est applicable lorsque le signal sonore est initialement capté par des microphones bidirectionnels. En effet, en obtenant les premier et deuxième signaux, des microphones cardioïdes virtuels sont synthétisés, ce qui permet de revenir à des expressions semblables au premier mode de réalisation pour les coordonnées sphériques d'azimut et d'élévation. En revanche, dans le cas de microphones bidirectionnels, il n'est pas possible d'introduire un retard, et l'invention prévoit alors la prise en compte d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux captés par ces microphones, afin de lever l'incertitude sur la détermination de la coordonnée sphérique d'azimut. A nouveau, trois capteurs seulement permettent une détermination complète de la direction de la source sonore.

En variante, l'espace étant orienté selon trois axes x, y et z, les première et deuxième coordonnées spatiales peuvent être les coordonnées sphériques d'azimut Θ et d'élévation φ , les premier et deuxième capteurs peuvent être des capteurs bidirectionnels, le premier capteur étant orienté selon l'axe x et captant le signal noté s b n et le deuxième capteur étant orienté selon l'axe y et captant le signal noté s b i2, les premiers et second signaux peuvent être notés respectivement s car dvirti et s car dvirt2 et peuvent être obtenus de la manière suivante :

S cardvirt2l t ' 0 . ( l ) ~— ~ U T j ) . avec s 0 (t) = S b n (t, θ, φ) + s= l2 (t, θ, φ) .

L'expression de la coordonnée sphérique d'azimut Θ peut être donnée par: Θ = cos "1 [ S rd irt1 ^' 9 ' ( l ) ^ ~ s rd irt2 ^' 9 ' ( l ) ^]

S 0 (t) 2 COS(|)

La coordonnée sphérique d'élévation φ est fixée arbitrairement et l'information supplémentaire peut être déterminée à partir d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux s b n et s b i2- Ainsi, il est possible de diminuer le nombre de capteurs à deux microphones bidirectionnels tout en levant l'incertitude sur la coordonnée sphérique d'azimut Θ, au détriment de la précision quant à la détermination de la coordonnée sphérique d'élévation φ .

En complément, l'information supplémentaire peut être une deuxième expression de la coordonnée sphérique d'azimut Θ :

ω étant une pulsation du signal sonore émis par la source,

l y (co) étant la composante selon la coordonnée y du vecteur d'intensité acoustique du signal sonore, donnée par : / (ω) =-^-Re[S; (œ)S bi2 (<ø)] ;

2pc

Ι χ (ω) étant la composante selon la coordonnée x du vecteur d'intensité acoustique du signal sonore, donnée par :

I x (œ)=-^-Re[S (œ)S bil (œ)];

2pc

S 0 (co), S bi1 (ffl) et S bi2 (co) désignant les transformées de Fourier des signaux s 0 (t), Sbi1(t) et Sbi2(t) respectivement. Ainsi, en obtenant une expression supplémentaire sur la coordonnée sphérique d'azimut Θ , il est possible de lever l'incertitude liée à la première expression comprenant la fonction cosinus inverse. En effet, bien que la fonction tangente inverse présente également une incertitude, la fonction tangente inverse et la fonction cosinus inverse permettent d'obtenir deux estimations de la coordonnée sphérique d'azimut Θ qui sont complémentaires. Par exemple, comme détaillé ultérieurement, l'utilisation d'un tableau permet de différencier quatre cas de figures, selon les intervalles dans lesquels se situent les deux estimations de la coordonnée sphérique d'azimut Θ . Une valeur désambiguïsée de la coordonnée sphérique d'azimut Θ peut être déterminée. En complément, il est possible de prendre en compte des facteurs liés à la scène sonore à étudier (nombre de sources, niveau de bruit, complexité) afin de choisir l'une ou l'autre des expressions désambiguïsées de la coordonnée sphérique d'azimut Θ .

Selon un mode de réalisation, des première et deuxième coordonnées spatiales de la source sonore peuvent être des coordonnées sphériques d'azimut Θ et d'élévation φ , les premier et deuxièmes capteurs peuvent faire partie d'un microphone ambisonique d'ordre 1 ou d'ordre supérieur à 1 plus généralement, les signaux issus du microphone ambisonique peuvent être un signal de pression bj, 0 (t) et trois signaux de gradient de pression b^t) , b ~1 (t) et b] 0 (t) .

Le premier signal, noté s C ardvirti , et le second signal, noté s C ardvirt2, et un troisième signal s car dvirt3 peuvent être obtenus à partir des signaux bj, 0 (t) . b^t^ b^t) et b]o (t) Par : s cardvirt1 ( W ) ; cardvirt2 (Ι,θ,φ) s cardvirt3 (W) .

Les expressions des coordonnées sphériques d'azimut Θ et d'élévation φ peuvent alors être données par: è = sin- 1 [2 Scardvirt3 (W) - 1]

s 0 (W)

Θ = COS "1 [ Scardvirt1 ^' 9 ' ( l ) ^ ~ Scardvirt2 ^' 9 ' ( l ) ^ ]

S 0 (t) 2 COS (|)

avec s 0 = b l {t) .

L'information supplémentaire peut être déterminée à partir d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux bj 0 (t) . b^t) et b ~1 (t) .

Ainsi, la présente invention est applicable lorsque les signaux sonores sont initialement captés par un microphone ambisonique à l'ordre 1 , tel que le microphone décrit dans le brevet US 4,042,779. En effet, en obtenant les premier et deuxième signaux, des microphones cardioïdes virtuels sont synthétisés, ce qui permet de revenir à des expressions semblables au premier mode de réalisation pour les coordonnées sphériques d'azimut et d'élévation. En revanche, dans le cas d'un microphone ambisonique à l'ordre 1 , il n'est pas possible d'introduire un retard, et l'invention prévoit alors la prise en compte d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux captés par ces microphones, afin de lever l'incertitude sur la détermination de la coordonnée sphérique d'azimut. Ainsi, la direction de la source sonore peut être déterminée sans incertitude, sans toutefois nécessiter l'introduction de microphones supplémentaires.

En complément, l'information supplémentaire peut être une deuxième expression de la coordonnée sphérique d'azimut Θ :

ω étant une pulsation du signal sonore émis par la source,

l œ) étant donné par :

Ι χ (ω) étant donné par : 1

Ι χ (ω) = Re

2pc

Β^ 0 (ω) , Β^ω) et Β^ω) désignant les transformées de Fourier des signaux boo (t) , b^ (t) et b ~1 (t) respectivement.

Ainsi, en obtenant une expression supplémentaire sur la coordonnée sphérique d'azimut Θ , il est possible de lever l'incertitude liée à la première expression comprenant la fonction cosinus inverse. En effet, bien que la fonction tangente inverse présente également une incertitude, la fonction tangente inverse et la fonction cosinus inverse permettent d'obtenir deux estimations de la coordonnée sphérique d'azimut Θ qui sont complémentaires. Par exemple, comme détaillé ultérieurement, l'utilisation d'un tableau permet de différencier quatre cas de figures, selon les intervalles dans lesquels se situent les deux estimations de la coordonnée sphérique d'azimut Θ . Une valeur désambiguïsée de la coordonnée sphérique d'azimut Θ peut être déterminée. En complément, il est possible de prendre en compte des facteurs liés à la scène sonore à étudier (nombre de sources, niveau de bruit, complexité) afin de choisir l'une ou l'autre des expressions désambiguïsées de la coordonnée sphérique d'azimut Θ .

En complément ou en variante, une expression supplémentaire peut être déterminée pour la coordonnée sphérique d'élévation :

ω étant une pulsation du signal sonore émis par la source,

l y (co) étant la composante selon la coordonnée y du vecteur d'intensité acoustique du signal sonore et étant donnée par :

Ι χ (ω) étant la composante selon la coordonnée x du vecteur d'intensité acoustique du signal sonore et étant donnée par :

1

Ι χ (ω) = -Re

2pc Ι ζ (ω) étant donné par :

I z (a>) = J-Re Β^ 0 * (ω)Β^ (ω) ;

..μυ

Β^ 0 (ω) , Β] 1 (ω) , Βο 1 (ω) et Β ~1 (ω) désignant les transformées de Fourier des signaux b 00 (t) , b^t) , b 01 (t) et b 1 (t) respectivement.

La coordonnée sphérique d'élévation peut être déterminée à partir de l'expression ou de l'expression supplémentaire.

Ainsi, comme pour la détermination de la coordonnée sphérique d'azimut, il est possible de privilégier l'une ou l'autre des expressions déterminées pour la coordonnée sphérique d'élévation. A nouveau, ce choix peut être fait en fonction de facteurs liés à la scène sonore à étudier, tels que le nombre de sources, le niveau de bruit, la complexité, etc.

Un deuxième aspect de l'invention concerne un programme d'ordinateur comprenant des instructions de code de programme enregistrées sur un support lisible par un ordinateur, pour l'exécution des étapes du procédé selon le premier aspect de l'invention.

Un troisième aspect de l'invention concerne un dispositif de traitement de données pour la détermination d'au moins une coordonnée spatiale d'une source sonore émettant un signal sonore, dans un espace tridimensionnel, le dispositif comprenant :

- une unité d'obtention d'au moins un premier signal et un deuxième signal à partir du signal sonore capté selon des directivités différentes par un premier capteur et un deuxième capteur ;

- une unité de déduction pour déduire des premier et deuxième signaux une expression d'au moins une première coordonnée spatiale de la source sonore, l'expression comportant une incertitude sur ladite coordonnée spatiale ;

- une première unité de détermination d'une information supplémentaire relative à la première coordonnée spatiale de la source sonore, à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs ;

- une seconde unité de détermination de la première coordonnée spatiale de la source sonore sur la base de l'expression et de l'information supplémentaire.

Un quatrième aspect de l'invention concerne un système d'acquisition de données sonores, comprenant une unité microphonique, l'unité microphonique comprenant au moins un premier capteur et un deuxième capteur aptes à capter des signaux sonores selon des directivités différentes, le système comprenant en outre un dispositif de traitement de données pour la détermination d'au moins une coordonnée spatiale d'une source sonore émettant un signal sonore, dans un espace tridimensionnel, le dispositif comprenant:

- une unité d'obtention d'au moins un premier signal et un deuxième signal à partir du signal sonore capté par le premier capteur et le deuxième capteur ;

- une unité de déduction pour déduire des premier et deuxième signaux une expression d'au moins une première coordonnée spatiale de la source sonore, ladite expression comportant une incertitude sur la coordonnée spatiale ;

- une première unité de détermination d'une information supplémentaire relative à la première coordonnée spatiale de la source sonore, à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs ;

- une seconde unité de détermination de ladite première coordonnée spatiale de la source sonore sur la base de l'expression et de l'information supplémentaire.

Selon un mode de réalisation, les premier et deuxième capteurs peuvent être des microphones cardioïdes. En variante, les premier et deuxième capteurs peuvent être des microphones bidirectionnels.

Un cinquième aspect de l'invention concerne un terminal de télécommunication comprenant un système d'acquisition de données sonores selon le quatrième mode de réalisation.

D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels:

- la figure 1 est un diagramme représentant les étapes générales d'un procédé de traitement de données selon un mode de réalisation;

- la figure 2 représente une structure générale d'un dispositif de traitement de données selon un mode de réalisation;

- la figure 3 illustre un système d'acquisition et de traitement de données sonores selon un mode de réalisation de l'invention ;

- la figure 4 illustre un terminal de télécommunication selon un mode de réalisation de l'invention ;

- la figure 5 illustre une unité microphonique selon un mode de réalisation de l'invention ;

- la figure 6 illustre les étapes du procédé selon un mode de réalisation de l'invention pour des signaux captés par l'unité microphonique de la figure 4 ;

- les figures 7a et 7b illustrent une unité microphonique selon un autre mode de réalisation de l'invention ;

- la figure 8 illustre les étapes du procédé selon un mode de réalisation de l'invention pour des signaux captés par l'unité microphonique des figures 6a et 6b.

La figure 1 est un diagramme illustrant les étapes générales d'un procédé de traitement de données selon un mode de réalisation de l'invention.

Le procédé permet la détermination d'au moins une coordonnée spatiale d'une source sonore émettant un signal sonore, dans un espace tridimensionnel. On entend par coordonnée spatiale toute coordonnée parmi un système de trois coordonnées permettant de repérer la source sonore dans l'espace tridimensionnel. Aucune restriction n'est attachée au système de coordonnées considérées. Par exemple, il peut s'agir des coordonnées sphériques, cartésiennes ou cylindriques.

A une étape 10, au moins un premier signal et un deuxième signal sont obtenus à partir du signal sonore capté selon des directivités différentes par un premier capteur et un deuxième capteur. On entend par capteur tout système microphonique d'acquisition de données sonores. Les capteurs considérés dépendent du système microphonique en question. De nombreux exemples de systèmes microphoniques sont présentés dans ce qui suit et l'invention s'applique ainsi à tout système microphonique. Les capteurs ayant des directivités différentes, ils captent deux signaux distincts, bien que ces signaux proviennent du même signal sonore émis par la source sonore.

A une étape 1 1 , une expression d'au moins une première coordonnée spatiale de la source sonore est déterminée à partir des premier et deuxième signaux, une telle expression comportant une incertitude sur la coordonnée spatiale. Comme évoqué dans la partie introductive, l'incertitude peut être une ambiguïté angulaire de ±π/2 sur l'angle d'azimut. C'est par exemple le cas lorsque la première coordonnée spatiale est exprimée sous la forme d'une fonction cosinus inverse. La présente invention permet de lever une telle incertitude.

A cet effet, à une étape 12, une information supplémentaire relative à la première coordonnée spatiale de la source sonore est déterminée à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs. Comme détaillé dans ce qui suit, la comparaison peut être une différence entre les phases des signaux captés par les premier et deuxième capteurs ou un d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux captés.

A une étape 13, la première coordonnée spatiale de la source sonore est déterminée, avec certitude, sur la base de l'expression et de l'information supplémentaire. Ainsi, le procédé selon l'invention permet de lever l'incertitude sur la première coordonnée spatiale par l'utilisation d'une information supplémentaire déterminée à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs. La précision de la localisation de la source sonore est ainsi améliorée. Des exemples de procédés selon l'invention seront détaillés dans ce qui suit, en référence aux figures 5 et 7.

La figure 2 présente une structure générale d'un dispositif de traitement de données 20 selon un mode de réalisation de l'invention. Le dispositif 20 comprend une unité d'obtention 21 d'au moins un premier signal et un deuxième signal à partir de signaux sonores captés selon des directivités différentes par un premier capteur et un deuxième capteur, ainsi qu'une unité de déduction 22 pour déduire des premier et deuxième signaux une expression d'au moins une première coordonnée spatiale de la source sonore, l'expression comportant une incertitude sur la coordonnée spatiale.

Le dispositif 20 comprend en outre une première unité de détermination 23 d'une information supplémentaire relative à la première coordonnée spatiale de la source sonore, à partir d'une comparaison entre des caractéristiques respectives des signaux captés par les premier et deuxième capteurs ainsi qu'une seconde unité de détermination 24 de la première coordonnée spatiale de la source sonore sur la base de l'expression et de l'information supplémentaire. La figure 3 illustre un système d'acquisition de signaux sonores selon un mode de réalisation de l'invention.

Le système comprend une unité microphonique 30 apte à capter des signaux sonores. Comme détaillé dans ce qui suit, l'unité microphonique 30 peut prendre diverses formes et comprendre plusieurs capteurs tels que des microphones cardioïdes et/ou bidirectionnels, ou qu'un microphone ambisonique. Aucune restriction n'est attachée à l'unité microphonique 30 considérée.

Le système d'acquisition comprend en outre le dispositif de traitement de données 20 décrit ci-avant. Dans ce qui suit, on fait l'hypothèse qu'il n'existe qu'une seule source sonore à chaque instant et par bande fréquentielle considérée. Ainsi, le traitement par le dispositif 20 s'effectue sur des fenêtres temporelles dont la taille est déterminée en fonction de l'écart des capteurs et en fonction d'un nombre d'échantillons fréquentiels souhaités. Selon l'invention, il est également possible d'ajouter des zéros (« zeropadding » en anglais) en fonction d'une discrétisation spectrale souhaitée.

Le système d'acquisition comprend en outre une unité d'encodage 32. A partir des directions des sources sonores déterminées grâce au dispositif de traitement de données 20, l'unité d'encodage 32 peut spatialiser des sources virtuelles selon le type d'encodage spatial d'une technologie de restitution considérée. Par exemple, dans le cas d'un rendu binaural sur casque ou sur haut-parleurs, les directions des sources déterminent les HRTF à utiliser pour spatialiser les sons, avec une possibilité de choix personnalisé des HRTF pour l'auditeur. Toujours dans le cas d'un rendu binaural sur casque ou sur haut- parleurs, la correction de la position relative à la tête est possible grâce à l'utilisation d'un système de suivi des mouvements de la tête (« head tracking » en anglais). Dans un autre mode de restitution, l'unité d'encodage 32 synthétise des signaux ambisoniques aux différents ordres pour une diffusion sur casque ou sur un ensemble de haut-parleurs ad doc dont les positions sont connues.

La figure 4 illustre un terminal de télécommunication 40 selon un mode de réalisation de l'invention. Le terminal de télécommunication 40 peut être un téléphone mobile (de type Smartphone par exemple), un PDA (pour « Personal Digital Assistant ») ou encore une tablette tactile par exemple. Le terminal de télécommunication peut intégrer le système décrit sur la figure 3, et comprend à cet effet un ensemble de capteurs 41 , correspondant à l'unité microphonique 30, un microprocesseur 42 et une mémoire 43.

La mémoire est apte à stocker un programme d'ordinateur comprenant des instructions de code de programme permettant l'exécution par le microprocesseur 42 des étapes du procédé selon l'invention. Le microprocesseur peut ainsi réaliser les fonctionnalités du dispositif 20, et éventuellement de l'unité d'encodage 32. La figure 5 illustre une unité microphonique 30 selon un premier mode de réalisation de l'invention. L'unité microphonique 30 comprend trois capteurs qui sont des microphones cardioïdes 51 , 52 et 53.

Les trois microphones 51 , 52 et 53 sont présentés dans un plan x,z comprenant l'origine O, de l'espace orienté par un repère orthonormé comprenant les trois axes x, y et z.

Le premier microphone cardioïde 51 est dirigé selon l'axe x vers des valeurs croissantes tandis que le deuxième microphone cardioïde 52 est dirigé vers des valeurs de x décroissantes. Le troisième microphone 53 est dirigé selon l'axe z vers des valeurs croissantes. Les directivités respectives des microphones 51 , 52 et 53, en fonction des directions de pointage, sont illustrées par des cardioïdes 54, 55 et 56 vues dans le plan (x,z).

En effet, la fonction de directivité M d'un microphone cardioïde est exprimée par la relation :

Μ(α) = ^ (1 + α) (1 ) avec cc = d, .d n (2)

où d s est un vecteur définissant la direction de la source sonore et d p le vecteur déterminant la direction de pointage du microphone.

Dans l'exemple de la figure 4, des directions de pointages d p1 , d p2 et d 3 respectives des trois microphones 51 , 52 et 53 peuvent être exprimées dans une base de coordonnées cartésiennes B r

Considérant que la direction de la source sonore est exprimée dans une base B s en coordonnées sphériques ou dans la base de coordonnées cartésiennes B n :

où les coordonnées sphériques sont définies par le rayon r, l'angle d'azimut Θ et l'angle d'élévation φ .

Des fonctions de directivité pour les trois microphones 51 , 52 et 53 peuvent alors s'exprimer de la manière suivante :

M card1 (e,(M = ^(1 + r.cos (^cos e) A

M card2 (e,(M = -(1 - r.cos (^cos e) B (5) Μ ∞Γά3 (θ,φ) = -1(1 + η 5 ίηφ) C

Par souci de simplification, il est considéré dans ce qui suit que r=1 , ce qui ne modifie pas la direction de pointage.

La figure 6 illustre un premier mode de réalisation particulier d'un procédé selon l'invention, mis en œuvre lorsque l'unité microphonique 30 est l'unité représentée sur la figure 5.

La source sonore dont la direction est pointée par le vecteur d s induit un signal s 0 (t) à l'origine O du repère. En considérant idéalement que les microphones 51 , 52 et 53 sont placés à l'origine O, les signaux s C ardi (t), s car d2(t) et s C ard3(t) captés respectivement par les microphones 51 , 52 et 53 sont :

S oa r dl (t) = M card1 (e,(MS 0 (t) A

°card2 (t) = M card2 (e,(«s 0 (t) B (6) card3 (t) = M card3 (e^)s 0 (t) C

A une étape 60, des premier, deuxième et troisième signaux sont obtenus par l'unité d'obtention 21 à partir des signaux s car di (t), s car d2(t) et s car d3(t) captés respectivement par les microphones 51 , 52 et 53. Dans cet exemple, les premier, deuxième et troisième signaux sont égaux aux signaux s car di (t), s car d2(t) et s car d3(t) respectivement.

A une étape 61 , l'unité d'obtention peut appliquer un fenêtrage aux premier, deuxième et troisième signaux. De préférence, et afin de minimiser les oscillations dans le domaine fréquentiel, une trame temporelle est fenêtrée par une fenêtre à transition douce.

A une étape 62, l'unité d'obtention 21 applique une transformée de Fourier aux premier, deuxième et troisième signaux. Ainsi, les opérations décrites dans ce qui suit agissent dans le domaine fréquentiel, fréquence par fréquence.

Dans ce qui suit, certaines expressions sont encore données dans le domaine temporel : la transformée de Fourier étant linéaire, ces expressions seraient similaires dans le domaine fréquentiel (à une convention de notation près, et en remplaçant t par une pulsation). Des relations de directivité 6A, 6B et 6C, l'unité de déduction 22 peut déduire à une étape 63 les expressions suivantes pour le signal acoustique s 0 (t) généré par la source sonore à l'origine O et pour les coordonnées spatiales Θ et φ :

s o (t) = s cai . dl (t, e, 0) + s cai . d 2 (t, e, <f>) (7) (en combinant 5A, 5B et 6)

^ = sin "1 [2 < » ( *' g ' ^ _ i] (8) (en combinant 5C et 6)

s o t, 0, φ) θ = cos """ θ ' ~ f ' θ ' ^ ] (9) (en combinant 5A et 5B) s 0 t) - cos ^

Ainsi des expressions des coordonnées spatiales Θ et φ sont obtenues uniquement à partir de la directivité des microphones 51 , 52 et 53 (les signaux captés respectivement par ces microphones).

L'expression de la coordonnée d'azimut Θ prend toutefois la forme d'un cosinus inverse, et la coordonnée d'azimut Θ est ainsi déterminée avec une incertitude de ±π/2.

La présente invention permet de lever une telle incertitude et utilisant une information supplémentaire telle que précédemment décrite. L'information supplémentaire est déterminée par la première unité de détermination 23 à une étape 64.

Dans l'exemple illustré aux figures 5 et 6, l'information supplémentaire est le signe d'une différence entre les phases respectives (ou retard) des premier et second signaux.

En effet, un décalage entre des positions respectives des microphones 51 et 52, perpendiculaire à la direction de pointage de ces microphones et dans le plan (x,y) (donc selon l'axe y) est introduit selon l'invention.

Le signal s C ardi capté par le premier microphone 51 décalé aux coordonnées cartésiennes (xi ,yi ,zi) est décrit par :

S ca r dl (t) = card1 (9^)S 0 (t - T 1 ) (10)

où ^ représente la différence de marche engendrée par la distance entre le microphone 51 et l'origine O, et qui peut s'exprimer par la relation : =-d s 1 (11)

c

où c est la célérité des ondes acoustiques et Ë^st un vecteur déterminant l'emplacement du microphone 51 en coordonnées cartésiennes dans la base B

considérant que la direction d s de la source sonore est exprimée dans la base s hérique B s ou dans la base cartésienneB c :

et 'ainsi : + y 1 r.cos())sine + z 1 r.sin())) (13)

De même, on obtient pour le deuxième microphone 52 :

(t) = M card2 (e^)s 0 (t-x 2 ) (14)

1

avec x 2 =— (x 2 r.cos())COse + y 2 r.cos())sine + z 2 r.sin())) (15)

Dans le domaine fréquentiel, les signaux ,(t)et s card2 (t) deviennent S card1 (co) et S card2 (co), où ω = 2πί désigne la pulsation, f êtant la fréquence associée au signal sonore émis par la source sonore.

Dans ce qui suit, la transformée de Fourier est notée FT[].

FT[s cardl (ί , θ, )] = S cardl {(D, θ, φ) = M cardl {e, </>)S 0 ( 16) FT[s card2 (ί , θ, φ)] = S card2 (ω, θ, φ) = M card2 (Θ, )S O (o)e ~ ^ ( 17) oùS 0 (ùï) =| l S , 0 (<w)|e S ° ( ' B) , 'z'désignant la phase du signal sonore à l'origine O.

Ainsi :

5 αΜ (ω,θ,Φ) = (18) Ξ^ω, θ,φ^ Μ^φ,φ^ω} ^ (19)

En notant ZS 1 (<¾) = ZS 0 (<¾) - ωτ ι (20)

e\ ZS 2 {œ) = ZS 0 {œ) - on 2 (21 )

On obtient : ZS, - ZS 2 = -ω^ - τ 2 ) (22)

En notant τ 12 = τ - τ 2 le retard temporel entre les signaux captés par les microphones 51 et 52, on obtient : τ η (ω) = --(Ζ8 ι - Ζ8 2 ) (23)

ω

A une étape 65, la seconde unité de détermination 24 détermine la coordonnée spatiale Θ sur la base de l'information supplémentaire (signe du retard ou différence de phase entre les signaux captés respectivement par les microphones 51 et 52) et de l'expression de Θ comportant une incertitude (expression (9)).

Le retard temporel τ 12 étant uniquement utilisé pour lever l'incertitude introduite par l'expression de la coordonnée d'azimut Θ (expression (9)), seul le signe du retard temporel τ 12 est utilisé en l'introduisant directement dans l'expression (9) : g _ (24)

η {ω)\ S 0 {a>) 2 - cos ^ Les figures 7a et 7b illustrent une unité microphonique 30 selon un deuxième mode de réalisation de l'invention. L'unité microphonique 30 comprend trois capteurs, à savoir un premier microphone bidirectionnel 71 , un second microphone bidirectionnel 73 et un microphone cardioïde 72. On entend par microphone bidirectionnel un microphone à gradient de pression.

Le premier microphone bidirectionnel 71 est placé sur l'axe x (voir figure 7a), le second microphone bidirectionnel 73 est placé sur l'axe y (voir figure 7b) et le microphone cardioïde 72 est orienté sur l'axe z vers les valeurs croissantes (voir figures 7a et 7b).

La directivité, en fonction des directions de pointage, du premier microphone bidirectionnel 71 est représentée sous forme de deux sphères orientées vers les x positifs et x négatifs et présentées dans le plan (x,z) sous les références 74.1 et 74.2 de la figure 7a, respectivement.

La directivité, en fonction des directions de pointage, du second microphone bidirectionnel 73 est représentée sous forme de deux sphères orientées vers les y positifs et y négatifs et présentées dans le plan (y,z) sous les références 76.1 et 76.2 de la figure 7b, respectivement.

La directivité du microphone cardioïde 72, en fonction des directions de pointage, est illustrée par une cardioïde 75 vue dans le plan (x,z) sur la figure 7a et dans le plan (y,z) sur la figure 7b.

La figure 8 illustre un deuxième mode de réalisation particulier d'un procédé selon l'invention, mis en œuvre lorsque l'unité microphonique 30 est l'unité représentée sur les figures 7a et 7b.

L'unité microphonique 30 permet ainsi l'obtention de signaux issus d'une paire de microphones bidirectionnels 71 et 73 placés perpendiculairement dans le plan horizontal (x,y). L'invention propose alors de reconstruire de façon virtuelle les signaux captés par les microphones cardioïdes 51 et 52 de la figure 5 afin d'obtenir des premier et seconds signaux comparables à ceux obtenus à l'étape 50 de la figure 5.

A cet effet, à une étape 80, l'unité d'obtention 21 détermine des premier et seconds signaux à partir du signal sonore Sbn capté par le premier microphone bidirectionnel 71 et du signal sonore Sbi2 capté par le second microphone bidirectionnel 73.

Les expressions des signaux Sbn et Sbi2, et du signal s car d3 capté par le microphone cardioïde 72, sont données par les formules suivantes :

s bil (t , θ, ) = s 0 (t) cos Θ cos φ A

s bi2 (t , θ, φ) = s 0 (t ) sin Θ cos φ B (25)

*o (

^3 = (1 + sin φ) C

2 Le premier signal s car dvirti et le second signal s car dvirt2 qui auraient été captés par deux microphones cardioïdes sont reconstruits de la manière suivante :

L'unité d'obtention 21 obtient ainsi des premier, deuxième et troisième signaux s car dvirti , s car dvirt2 et s car d3-

A une étape 81 , l'unité d'obtention 21 peut appliquer un fenêtrage aux premier, deuxième et troisième signaux. Comme précédemment expliqué, afin de minimiser les oscillations dans le domaine fréquentiel, une trame temporelle est fenêtrée par une fenêtre à transition douce.

A une étape 82, l'unité d'obtention 21 applique une transformée de Fourier aux premier, deuxième et troisième signaux. Ainsi, les opérations décrites dans ce qui suit agissent dans le domaine fréquentiel, fréquence par fréquence. A nouveau, certaines expressions sont encore données dans le domaine temporel : la transformée de Fourier étant linéaires, elles seraient similaires dans le domaine fréquentiel.

A une étape 83, l'unité de déduction 22 peut déduire des premier, deuxième et troisième signaux les expressions suivantes pour les coordonnées spatiales Θ et φ : c = sin- 1 [2 Scard3 (W) - 1] (29)

s 0 (W)

Q _ co3 -1 j- S ardvirtl (A ) ~ S cardvirtl (A ) j (30)

s 0 (t) 2■ COS

A nouveau, l'expression de la coordonnée spatiale Θ présente une incertitude due à la fonction cosinus inverse. Dans une telle configuration virtuelle, l'incertitude précitée ne peut être levée en introduisant un retard entre les microphones bidirectionnels 71 et 73. Toutefois, une information supplémentaire relative à d'une direction d'un vecteur d'intensité acoustique du signal sonore, la direction étant calculée à partir des signaux captés par les premier et second microphones bidirectionnels 71 et 73, peut être déterminée par la première unité de détermination 23, afin de lever l'incertitude sur l'expression (30).

L'intensité acoustique active est un vecteur lié à la pression et à la vitesse acoustique particulaire par la relation suivante, donnée dans le domaine fréquentiel :

I(co) Re (31 )

où Ρ * (ω) correspond au conjugué de la pression acoustique et les trois signaux V x (co) , V y (co) et V z (co) représentent les trois composantes du vecteur de vitesse particulaire.

On considère le cas d'une onde plane progressive dont la pression est décrite par la relation suivante (dans laquelle k définit le vecteur d'onde) :

-jk

Ρ(ω, Γ, θ, ) = Ρ 0 (ω)β (32)

La vitesse particulaire se déduit de la relation d'Euler :

où p est la masse volumique du milieu de propagation et c la célérité des ondes acoustiques.

'intensité acoustique est donnée par :

(34) Le vecteur intensité Ι(ω) est colinéaire au vecteur d'onde, c'est-à-dire que sa direction est identique à la direction de propagation du signal sonore. La direction du vecteur d'intensité Ι(ω) permet donc d'accéder à une estimation de la direction de la source sonore.

La projection V xy sur le plan horizontal (x,y) de la vitesse particulaire est exprimée par :

V xy (œ) =— [X(a>)ë x + Y(a>)ë y ] (35)

x y pc

où X et Y sont les signaux captés par les microphones bidirectionnels 71 et 73, respectivement.

Les signaux associés à la pression et aux composantes de la vitesse particulaire sont obtenus par la relation :

X(a>) = S bi1 (a>)

Y(œ) = S bi2 (œ)

Les composantes de l'intensité acoustique dans le plan (x,y) s'en déduisent de la façon suivante : I x (œ) = -L Re[s )S bi1 (œ)] (36)

2pc

I y (œ) = -^ Re[s )S bi2 (œ)] (37)

2pc

Le vecteur intensité étant colinéaire au vecteur d'onde, la tangente inverse du rapport entre les composantes de l'intensité acoustique des expressions (36) et (37) donne une estimation de la coordonnée spatiale Θ et ainsi :

l y (œ)

L'information supplémentaire est reliée à la coordonnée

spatiale Θ par une fonction tangente inverse ce qui introduit une incertitude droite-gauche, qui est complémentaire de l'incertitude due au cosinus inverse dans l'expression (30). La seconde unité de détermination peut alors, à une étape 85, utiliser de façon conjointe l'information supplémentaire et l'expression (30) afin de déterminer avec certitude la coordonnée spatiale Θ .

A cet effet, le tableau 1 ci-dessous illustre comment lever l'incertitude sur la coordonnée spatiale Θ .

Tableau 1

Les colonnes 2 et 3 du tableau 1 (regroupées sous « Θ estimé ») décrivent les différents cas de figure à l'issue des étapes 83 et 84, respectivement. La valeur réelle de la coordonnée spatiale Θ est donnée par la première colonne (« Θ réel »).

Les opérations à appliquer aux valeurs de la coordonnée spatiale Θ estimées à l'issue des étapes 83 et 84 sont décrites dans les colonnes 4 et 5 (regroupées sous « Opération à réaliser »). Théoriquement, les coordonnées spatiales Θ obtenues en effectuant les opérations des colonnes 4 et 5 sont les mêmes. Cependant, en pratique, en raison de la scène sonore à étudier et des conditions d'enregistrement (nombre de sources, niveau de bruit, complexité, etc), l'application de l'une ou l'autre des opérations décrites aux colonnes 4 et 5 peut donner une meilleure estimation de la coordonnée spatiale Θ et est donc à privilégier.

Selon un troisième mode de réalisation spécifique de l'invention, l'unité microphonique 30 peut être un microphone ambisonique d'ordre 1 , tel que le microphone décrit dans le brevet US 4,042,779 introduit précédemment. Plus généralement, l'unité microphonique peut être tout microphone ambisonique d'ordre supérieur à 1 .

Un microphone ambisonique d'ordre 1 ou d'ordre supérieur à 1 plus généralement est apte à délivrer quatre signaux bo 0 (t),b] 1 (t),b 1 (t) et b] 0 (t)

(dans le domaine temporel). Le signal bj, 0 (t) représente le signal de pression, tandis que les signaux b^ (t) , b 1 (t) et b] 0 (t) correspondent à trois microphones bidirectionnels selon les axes x, y et z respectivement.

Comme dans le second mode de réalisation présenté précédemment, les signaux captés par l'unité microphonique 30 sont utilisés par l'unité d'obtention 30 afin de synthétiser un dispositif microphonique virtuel en déduisant des premier, deuxième et troisième signaux correspondant à trois microphones cardioïdes virtuels.

Les premier, deuxième et troisième signaux, notés respectivement Scardvirti , s C ardvirt2 et s car dvirt3 sont obtenus par l'unité d'obtention 21 à partir des signaux ambisoniques à l'ordre 1 de la façon suivante : s cardvirt1 (W) = ¾ 1 + ¾ (39) s cardvirt2 (W) = ¾ i -¾ (40)

3 W) = ^(l + § b m 7(¾ (41 )

2 t)

Tout comme expliqué précédemment, l'unité d'obtention 21 peut fenêtrer les premier, deuxième et troisième signaux et leur appliquer une transformée de Fourier afin de passer dans le domaine fréquentiel. Les expressions suivantes pour le signal acoustique s 0 (t) généré par la source sonore à l'origine O et pour les coordonnées spatiales Θ et φ sont alors obtenues par l'unité de déduction 22:

s 0 (t) = b œ 1 (t) (42)

(ί, θ, φ)

φ = sin _1 [2- - 1] (43)

s o (t, 0, φ)

, θ, φ) -

6 . , . ^ , , -1 r virtcard ^

> = cos _1 [ ^ virtcard 2 (ι, θ, φ)

(44)

s 0 (t) cos φ

A nouveau, l'expression (44) de la coordonnée spatiale Θ présente une incertitude. Comme dans le deuxième mode de réalisation présenté précédemment, cette incertitude peut être levée en exploitant l'information supplémentaire liée à l'intensité acoustique dérivée des signaux du format B.

A cet effet, la première unité de détermination 23 détermine l'information supplémentaire liée à l'intensité acoustique dérivée des signaux du format B.

Les trois composantes de l'intensité acoustique sont calculées de la façon suivante :

1

I y (G>) = Re Bj 0 * (œ)B n 1 (co) (46)

2pc Ι ζ (ω) = Re Β^ * (ω)Β^ (ω) (47)

2pc

Il est alors possible de déterminer la direction de la source sonore (coordonnées s atiales Θ et φ ) grâce aux relations suivantes :

Ainsi, comme dans le deuxième mode de réalisation, la seconde unité de détermination 24 peut utiliser l'expression (44) et l'information supplémentaire de l'expression (48) pour déterminer la coordonnée spatiale Θ . A cet effet, le Tableau 1 détaillé précédemment peut être utilisé.

On remarque en outre que dans ce troisième mode de réalisation, la coordonnée spatiale d'élévation φ est déterminée à la fois par l'expression (43) et par l'expression (49). Ainsi, comme pour la coordonnée spatiale Θ , il est possible de privilégier l'une ou l'autre des méthodes d'estimation en fonction de la scène sonore à étudier (nombre de sources, niveau de bruit, complexité, etc) afin d'obtenir une meilleure localisation de la source sonore. Selon un quatrième mode de réalisation spécifique de l'invention, l'unité microphonique 30 peut comprendre uniquement deux capteurs, qui sont des microphones cardioïdes (par exemple uniquement les microphones 51 et 52 de la figure 5).

Ainsi, un premier microphone cardioïde est dirigé selon l'axe x vers des valeurs positives et le second microphone cardioïde est dirigé selon l'axe x vers des valeurs négatives.

Les directivités des premier et deuxième microphones cardioïdes sont données par les expressions (5A) et (5B), et les signaux captés par ces deux microphones (qui, comme dans le premier mode de réalisation, sont également les premier et second signaux obtenus par l'unité d'obtention 21 ) sont donnés par les expressions (6A) et (6B). Afin de déterminer la coordonnée spatiale d'azimut Θ , l'expression (9) est utilisée en fixant la coordonnée spatiale d'élévation φ à une valeur arbitraire φ 0 . De préférence, la coordonnée spatiale d'élévation φ est fixée au plus proche du plan horizontal (valeur de φ faible), afin de minimiser l'erreur de localisation.

L'incertitude sur la coordonnée spatiale d'azimut Θ due à l'expression (9) est résolue en décalant les premier et deuxième microphones cardioïdes sur l'axe y de façon à introduire un retard de la même manière que dans la premier mode de réalisation. L'information supplémentaire de l'expression (23) est alors utilisée afin d'obtenir l'expression (24) de la coordonnée spatiale d'azimut Θ , en fixant φ à φ 0 . Selon un cinquième mode de réalisation spécifique de l'invention, l'unité microphonique 30 peut comprendre uniquement deux capteurs, qui sont des microphones bidirectionnels (par exemple uniquement les microphones 71 et 73 des figures 7a et 7b).

Dans ce cinquième mode de réalisation, un dispositif microphonique virtuel est synthétisé par l'unité d'obtention 21 afin d'obtenir des premier et second signaux à partir des signaux captés par les microphones bidirectionnels (expressions (25A) et (25B)), les premier et second signaux étant sous la forme de signaux captés par des microphones cardioïdes (expressions (26) et (27)).

L'expression (28), quant à elle, est approximée par l'expression suivante :

A titre illustratif, cinq modes de réalisation ont été présentés ci-avant. Bien entendu, la présente invention ne se limite pas à ces exemples et s'étend à d'autres variantes, en fonction notamment des capteurs de l'unité microphonique 30.

Les résultats issus des cinq modes de réalisation présentés ci-avant permettent d'obtenir des estimations à chaque instant et pour chaque bande de fréquence d'au moins la coordonnée spatiale Θ . Afin d'éviter les sauts intempestifs des sources sonores dus aux erreurs de localisation, il est possible d'effectuer un lissage des résultats obtenus dans le domaine fréquentiel et dans le domaine temporel.