Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
LOCATING A MOVING ACOUSTIC SOURCE
Document Type and Number:
WIPO Patent Application WO/2023/156316
Kind Code:
A1
Abstract:
The invention relates to processing sound signals acquired by at least one microphone, in order to locate at least one sound source, emitting from a plurality of discrete positions at respective discrete points in time (k, k'), in a space comprising at least one reflective, planar, wall, comprising: - in order to obtain at least: * a first vector (I), determining a direction (DoA) of a direct first acoustic path between the source and the microphone, * at least a second vector (II) representing a second acoustic path from at least one specular reflection and arriving at the microphone, * at least one delay (III) of the second path at the microphone relative to the direct path, - exploiting at least one property of the specular reflection according to which a Euclidian distance between two positions of the source at two discrete points in time is equal to a Euclidean distance between two respective image positions of the source and deriving from one or a plurality of same reflections, respectively, at the two discrete points in time, in order to determine at least one position (d(k), d(k')) of the source relative to the microphone, respectively, at the plurality of discrete points in time (k, k'), on the basis of, for each point in time k: * the first vector (I) to determine a direction (DoA) of the direct path, and * both the delay (III) and the second vector (II) to associate a distance d(k) between the source and the microphone with said direction (DoA) of the direct path.

Inventors:
KITIC SRDAN (FR)
DANIEL JÉRÔME (FR)
Application Number:
PCT/EP2023/053424
Publication Date:
August 24, 2023
Filing Date:
February 13, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ORANGE (FR)
International Classes:
G01S5/22
Domestic Patent References:
WO2021074502A12021-04-22
WO2021074502A12021-04-22
Foreign References:
CN112858999A2021-05-28
US20090251996A12009-10-08
FR2011874A11970-03-13
Other References:
DANIEL JEROME ET AL: "Time Domain Velocity Vector for Retracing the Multipath Propagation", ICASSP 2020 - 2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), IEEE, 4 May 2020 (2020-05-04), pages 421 - 425, XP033794214, DOI: 10.1109/ICASSP40776.2020.9054561
SAKARI TERVOJUKKA PÂTYNENANTTI KUUSINENTAPIO LOKKI: "Spatial Décomposition Method for Room Impulse Response", JOURNAL OF THE AUDIO ENGINEERING SOCIETY, vol. 61, no. 1/2, 2013
Download PDF:
Claims:
REVENDICATIONS

[Revendication 1] Procédé de traitement de signaux sonores acquis par au moins un microphone, pour une localisation d'au moins une source sonore, émettant depuis une pluralité de positions distinctes à des instants respectifs distincts (k, k') , dans un espace comportant au moins une paroi réflectrice, plane, le procédé comportant :

- obtenir au moins, pour chaque instant k :

* un premier vecteur déterminant une direction (DoA) d'un premier trajet acoustique, direct entre la source et le microphone,

* au moins un deuxième vecteur représentant un deuxième trajet acoustique issu d'au moins une réflexion spéculaire, et arrivant au microphone,

* au moins un retard qu'a, au microphone, le deuxième trajet par rapport au trajet direct,

- exploiter au moins une propriété de la réflexion, spéculaire, selon laquelle une distance euclidienne entre deux positions de la source à deux instants distincts égale une distance euclidienne entre deux positions d'images respectives de la source et issues d'une ou plusieurs mêmes réflexions, respectivement auxdits deux instants distincts, pour déterminer au moins une position (d(k), d(k')) de la source relativement au microphone respectivement à ladite pluralité d'instants distincts (k, k'), en fonction, pour chaque instant k :

* du premier vecteur pour déterminer une direction (DoA) du trajet direct, et

* à la fois du retard et du deuxième vecteur pour associer une distance d(k) entre la source et le microphone à cette direction (DoA) du trajet direct.

[Revendication 2] Procédé selon la revendication 1 , comportant en outre :

- exploiter, outre ladite propriété de la réflexion spéculaire, une deuxième propriété géométrique selon laquelle une projection sur un axe choisi de ladite distance euclidienne entre deux positions de la source à deux instants distincts correspond à une projection sur le même axe choisi de la distance euclidienne entre deux positions d'images respectives de la source et issues d'une ou plusieurs mêmes réflexions, respectivement auxdits deux instants distincts.

[Revendication 3] Procédé selon la revendication 2, dans lequel l'axe choisi est parallèle ou perpendiculaire à ladite au moins une paroi.

[Revendication 4] Procédé selon l'une des revendications 2 et 3, dans lequel le microphone est de type ambisonique, et disposé de sorte que l'axe z de hauteur du microphone est parallèle à l'axe choisi.

[Revendication 5] Procédé selon l'une des revendications 2 à 4, dans lequel l'exploitation de ladite propriété de la réflexion spéculaire, combinée à l'exploitation de la deuxième propriété géométrique, génère un système surdéterminé d'équations dans lesquelles les positions de la source relativement au microphone, pour différents instants k, k', sont les inconnues.

[Revendication 6] Procédé selon l'une des revendications précédentes, dans lequel les signaux sonores sont acquis selon une succession dans le temps de trames, et dans lequel le premier vecteur le deuxième vecteur et le retard sont obtenus pour une pluralité de trames correspondant respectivement à des instants distincts ( , k') .

[Revendication 7] Procédé selon l'une des revendications précédentes, dans lequel au moins un paramètre parmi le premier vecteur , le deuxième vecteur et le retard est obtenu à partir de l'expression d'un vecteur vélocité généralisé, le procédé comportant :

- appliquer une transformée temps fréquences aux signaux acquis,

- à partir des signaux acquis, exprimer dans le domaine fréquentiel un vecteur vélocité généralisé, pour une pluralité d'instants distincts (k, k') , chaque vecteur vélocité généralisé pour un instant donné k caractérisant une composition entre : * le premier trajet acoustique, direct entre la source et le microphone, représenté par le premier vecteur , et prenant un délai entre l'émission d'un son par la source et la réception de ce son par le microphone, et

* au moins le deuxième trajet acoustique, représenté par le deuxième vecteur , et ayant le retard au microphone, par rapport au trajet direct.

[Revendication 8] Procédé selon la revendication 7, comportant :

- appliquer en outre une transformée inverse, des fréquences vers le temps, au vecteur vélocité généralisé pour obtenir, dans le domaine temporel, au moins un pic lié à une ou plusieurs réflexions sur une ou plusieurs parois, outre un pic lié à une arrivée du son selon ledit trajet direct (DoA), le pic lié à une ou plusieurs réflexions étant décalé du retard relativement au pic lié à l'arrivée du son selon le trajet direct.

[Revendication 9] Procédé selon l'une des revendications précédentes, dans lequel :

- un vecteur entre la source et le microphone, à un instant k, s'écrivant en fonction du premier vecteur , où d(k) est la distance euclidienne à l'instant k entre la source et le microphone,

- un vecteur entre une image de la source et le microphone, à un instant k, s'écrivant en fonction du deuxième vecteur : , où c est la vitesse du son, ladite propriété de réflexion spéculaire se traduit, pour deux instants distincts k et k', par une expression de type :

[Revendication 10] Procédé selon la revendication 9, dans lequel l'expression se développe en : avec : où la notation <x,y> désigne le produit scalaire entre deux vecteurs x et y.

[Revendication 11] Procédé selon les revendications 3 et 4, dans lequel ladite deuxième propriété géométrique se traduit par une expression de type ; , où :

- uz est un vecteur unitaire parallèle audit axe choisi,

- la notation <x,y> désigne le produit scalaire entre deux vecteurs x et y,

- est un vecteur entre la source et le microphone, à un instant k, s'écrivant en fonction du premier vecteur , où d(k) est la distance euclidienne à l'instant k entre la source et le microphone,

- est un vecteur entre une image de la source et le microphone, à un instant k, s'écrivant en fonction du deuxième vecteur : . où c est la vitesse du son, ladite expression se développant en : où : et désigne le produit scalaire

[Revendication 12] Procédé selon les revendications 10 et 11 , dans lequel les développements respectifs des expressions et génèrent un système d'équations bi- affines de type : dont la variable d est un vecteur colonne ayant des coefficients correspondant aux distances entre la source et le microphone à différents instants 1 , 2, ..., K : et où l'opérateur extrait des coefficients d'une diagonale et au-dessus de la diagonale de la matrice ddT en les concaténant en un vecteur colonne.

[Revendication 13] Procédé selon la revendication 12, comportant une résolution dudit système d'équations bi-affines par minimisation non linéaire d'une fonction de coût ℓ(.) , donnée par : sachant que où Ib et ub sont des limites inférieures et supérieures données aux distances

[Revendication 14] Procédé selon la revendication 13, dans lequel il est ajouté à ℓ(.) un terme de régularisation λr(d) pour exprimer la fonction coût globalement comme suit : le terme λr(d) permettant de régler au moins une structure de lissage appliquée aux coordonnées du vecteur d.

[Revendication 15] Procédé selon l'une des revendications 13 et 14, dans lequel il est appliqué une matrice diagonale diag( ψ ) de pondération dans la fonction de coût comme suit:

[Revendication 16] Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque lesdites instructions sont exécutées par un processeur d'un circuit de traitement.

[Revendication 17] Dispositif informatique comportant un circuit de traitement configuré pour mettre en œuvre le procédé selon l'une des revendications 1 à 15.

Description:
Description

Titre : Localisation d'une source acoustique en mouvement

[0001] La présente description relève du domaine de la localisation de sources acoustiques, notamment pour l'estimation de direction acoustique ou « DoA » (Direction of Arrivai) par un système microphonique compact (par exemple un microphone apte à capter des sons en représentation « ambiophonique » ou « ambisonique » ci-après).

[0002] Une application possible est par exemple la formation de voies ou (« beamforming », qui passe alors par une séparation spatiale de sources audio, afin notamment d'améliorer la reconnaissance de la parole (par exemple pour un assistant virtuel par interaction vocale). Un tel traitement peut aussi intervenir dans le codage audio 3D (préanalyse d'une scène sonore pour coder des signaux principaux de façon individuelle), ou encore permettre l'édition spatiale de contenu sonore immersif éventuellement en audio-visuel (à vocation artistique, radiophonique, cinéma, etc.). Elle permet aussi le suivi de locuteur en téléconférence ou la détection d'événements sonores (avec ou sans vidéo associée).

[0003] Il a été proposé dans le document WO-2021/074502 une approche utilisant le vecteur vélocité du son pour obtenir notamment la direction d'arrivée du son, son retard (donc la distance à la source), ainsi que les retards liés à des réflexions éventuelles sur des parois d'une salle et la détermination des positions de telles parois (possiblement des cloisons telles que des murs, le sol, le plafond, mais aussi des parois réfléchissantes telles que des tables, des écrans, etc.). Une telle réalisation permet de modéliser l'interférence entre l'onde directe et au moins une onde indirecte (issue de réflexion) et exploiter les manifestations de ce modèle sur l'intégralité du vecteur vélocité (sur sa partie imaginaire comme sur sa partie réelle).

[0004] Un perfectionnement de cette approche a été proposé dans le document FR2011874 en utilisant un vecteur vélocité modifié, dit « généralisé », et construit à partir du vecteur vélocité classique qui s'exprime généralement en fonction d'une composante au dénominateur qui est omnidirectionnelle. Le vecteur vélocité généralisé remplace alors le vecteur vélocité classique au sens du document WO- 2021/074502, avec alors une composante au dénominateur qui est différente d'une composante omnidirectionnelle. Cette composante différente peut en effet être plus « sélective » vers la direction d'arrivée du son.

[0005] Dans une forme de réalisation présentée dans ces documents, il est possible d'obtenir (à partir d'un capteur ambisonique par exemple) une succession de pics caractérisant une intensité ou une énergie acoustique, et liés chacun à une réflexion sur au moins une paroi, outre un pic lié à une arrivée du son selon le trajet direct (DoA) du son depuis la source.

[0006] Toutefois, dans certains cas d'application où la source sonore peut être mobile, il est recherché un procédé robuste de détermination de la distance entre la source et le microphone, au fur et à mesure des déplacements de la source, notamment lorsque l'orientation précise de la ou des parois causant la ou les réflexions à un instant donné n'est pas connue a priori.

[0007] La présente description vient améliorer cette situation.

[0008] Elle propose à cet effet de s'appuyer notamment sur les réflexions des parois, à différents instants distincts.

[0009] Elle vise alors un procédé de traitement de signaux sonores acquis par au moins un microphone, pour une localisation d'au moins une source sonore, émettant depuis une pluralité de positions distinctes à des instants respectifs distincts (k, k'), dans un espace comportant au moins une paroi réflectrice, plane, le procédé comportant :

- obtenir au moins, pour chaque instant k :

* un premier vecteur déterminant une direction (DoA) d'un premier trajet acoustique, direct entre la source et le microphone,

* au moins un deuxième vecteur représentant un deuxième trajet acoustique issu d'au moins une réflexion spéculaire, et arrivant au microphone,

* au moins un retard qu'a, au microphone, le deuxième trajet par rapport au trajet direct, - exploiter au moins une propriété de la réflexion, spéculaire, selon laquelle une distance euclidienne entre deux positions de la source à deux instants distincts égale une distance euclidienne entre deux positions d'images respectives de la source et issues d'une ou plusieurs mêmes réflexions, respectivement auxdits deux instants distincts, pour déterminer au moins une position (d (k) , d ( k') ) de la source relativement au microphone respectivement à ladite pluralité d'instants distincts (k, k'), en fonction, pour chaque instant k :

* du premier vecteur pour déterminer une direction (DoA) du trajet direct, et

* à la fois du retard et du deuxième vecteur , pour associer une distance d (k) entre la source et le microphone à cette direction (DoA) du trajet direct.

[0010] On entend par « au moins une source sonore, émettant depuis une pluralité de positions distinctes à des instants respectifs distincts » une source qui peut être mobile et occuper ainsi ces positions distinctes à ces instants respectifs. Alternativement, il peut s'agir de plusieurs sources ayant ces positions respectives distinctes.

[0011] On entend par « au moins une paroi » possiblement un ensemble de parois parallèles ou formant un angle quelconque entre elles (deux à deux). Ainsi, « ladite au moins une réflexion » peut concerner possiblement une pluralité de réflexions successives sur les parois de cet ensemble.

[0012] Il est démontré alors ci-après que, si les réflexions acoustiques en jeu peuvent être considérées comme spéculaires et si les parois considérées sont planes, alors la propriété précitée de conservation des distances euclidiennes (illustrée sur la figure 3a) permet d'obtenir la distance de la source au microphone à différents instants k et k', et ce à partir des observations :

- des directions d'arrivée de la source au microphone à ces différents instants (S1 , S2 sur la figure 3a), ainsi que

- des directions d'arrivée au microphone des images (S1 (w2) , S2 (w2) par exemple sur la figure 3a) issues des mêmes réflexions (sur la paroi (w2) par exemple sur la figure 3a) et respectivement associées aux positions (S1 , S2) de la source aux différents instants k et k', et des retards d'arrivée respectivement associés et

[0013] Le fait d'obtenir ces observations pour différents instants k, k', etc., et en exploitant possiblement plusieurs réflexions pour un même instant k (par exemple des réflexions individuelles sur différentes parois ou successivement sur plusieurs parois), permet par exemple, comme présenté plus loin dans un mode de réalisation, d'obtenir un système à plusieurs équations dont les solutions sont les distances d (k) , d (k') ... entre chaque position de la source à un instant k, k'... et le microphone.

[0014] Ainsi, il est possible de rassembler un nombre d'observations à ces différents instants, suffisant pour résoudre un tel système.

[0015] Dans une forme de réalisation, le procédé peut comporter en outre :

- exploiter, outre ladite propriété de la réflexion spéculaire, une deuxième propriété géométrique selon laquelle une projection sur un axe choisi de ladite distance euclidienne entre deux positions de la source à deux instants distincts correspond à une projection sur le même axe choisi de la distance euclidienne entre deux positions d'images respectives de la source et issues d'une ou plusieurs mêmes réflexions, respectivement auxdits deux instants distincts.

[0016] Cette conservation de la projection est illustrée sur la figure 3b. Combinée à la propriété de conservation des distances euclidiennes, elle permet d'obtenir encore plus d'équations et parfaire ainsi la détermination des distances d (k) , d (k') ...

[0017] Elle peut imposer toutefois des conditions géométriques qui ne sont pas réellement contraignantes en pratique.

[0018] Par exemple, l'axe choisi précité est parallèle ou perpendiculaire à ladite au moins une paroi.

[0019] Par exemple aussi, le microphone est de type ambisonique, et disposé préférentiellement de sorte que l'axe z de hauteur du microphone est parallèle à l'axe choisi.

[0020] Ces conditions géométriques reviennent tout simplement à considérer que le microphone est posé sur une paroi telle qu'une table par exemple (donc une paroi horizontale, perpendiculaire à l'axe z du microphone), dans un espace entouré de parois tels que des murs parallèles à l'axe z (mais non nécessairement parallèles aussi entre eux), et avec typiquement un sol et un plafond comme autres parois, lesquelles sont alors perpendiculaires à l'axe z.

[0021] Comme indiqué précédemment, l'exploitation de la propriété de la réflexion spéculaire, combinée à l'exploitation de la deuxième propriété géométrique (de projection sur l'axe z), peut générer un système d'équations dans lesquelles les positions de la source relativement au microphone, pour différents instants k, k' , sont les inconnues. En particulier, ce système d'équations peut, en général, être surdéterminé (avec donc plus d'équations que d'inconnues).

[0022] Concernant la prise en compte des différents instants k, k', etc., les signaux sonores peuvent être acquis selon une succession dans le temps de trames, et le premier vecteur , le deuxième vecteur et le retard peuvent être obtenus pour une pluralité de trames correspondant respectivement à des instants distincts (k, k').

[0023] En particulier, il est possible d'isoler « les bonnes trames », les plus utiles pour obtenir ces paramètres et déterminer par exemple un mouvement de la source entre les différents instants correspondant à ces trames.

[0024] Pour obtenir ces paramètres, différents modes de réalisation peuvent être prévus. Bien sûr, l'expression du vecteur vélocité peut être utilisée (comme décrit dans les documents présentés ci-avant). Néanmoins, d'autres techniques peuvent être exploitées, par exemple celle présentée dans :

Sakari Tervo, Jukka Pätynen, Antti Kuusinen, Tapio Lokki : « Spatial Decomposition Method for Room Impulse Response », Journal of the Audio Engineering Society, Vol.61 , No.1/2, 2013.

[0025] Dans ce document, les paramètres sont issues de réponses impulsionnelles de salles (« RIR » pour « Room Impulse Response »), enregistrées par une antenne de microphones simplement colocalisés (sans même utiliser d'ambiophonie ici). On comprendra ainsi qu'un microphone spécifiquement ambisonique n'est pas nécessaire pour la captation des sons, d'une part, et que la présente description ne se limite pas non plus à l'exploitation du vecteur vélocité pour obtenir les paramètres précités.

[0026] Néanmoins, dans une réalisation où l'on exploite un vecteur vélocité (et plus particulièrement un vecteur vélocité généralisé au sens du document FR2011874 pour de meilleurs résultats en général), au moins un paramètre parmi le premier vecteur , le deuxième vecteur et le retard peut être obtenu à partir de l'expression de ce vecteur vélocité (généralisé), le procédé comportant alors:

- appliquer une transformée temps fréquences aux signaux acquis,

- à partir des signaux acquis, exprimer dans le domaine fréquentiel un vecteur vélocité généralisé, pour une pluralité d'instants distincts ( k, k'), chaque vecteur vélocité généralisé pour un instant donné k caractérisant une composition entre :

* le premier trajet acoustique, direct entre la source et le microphone, représenté par le premier vecteur , et prenant un délai entre l'émission d'un son par la source et la réception de ce son par le microphone, et

* au moins le deuxième trajet acoustique, représenté par le deuxième vecteur et ayant le retard au microphone, par rapport au trajet direct.

[0027] Typiquement, la DoA de la source (c'est-à-dire le premier vecteur ) peut être obtenue par une autre technique que celle exploitant le vecteur vélocité. Pour l'obtention des retards , il est néanmoins plus confortable d'utiliser l'expression dans le domaine temporel du vecteur vélocité comme suit.

[0028] A cet effet, le procédé peut comporter :

- appliquer en outre une transformée inverse, des fréquences vers le temps, au vecteur vélocité (généralisé) pour obtenir, dans le domaine temporel, au moins un pic lié à une ou plusieurs réflexions sur une ou plusieurs parois, outre un pic lié à une arrivée du son selon le trajet direct (DoA), le pic lié à une ou plusieurs réflexions étant décalé du retard relativement au pic lié à l'arrivée du son selon le trajet direct.

[0029] Les pics de la figure 2 illustrent ces décalages temporels (τ1, τ2, etc.) relativement au délai entre l'émission d'un son par la source et la réception de ce son par le microphone.

[0030] Il est présenté ci-après des exemples de formalismes d'équations que le présent procédé propose de résoudre dans des modes de réalisation. On considère ci-après :

- un vecteur entre la source et le microphone, à un instant k, s'écrivant en fonction du premier vecteur , où d (k) est la distance euclidienne à l'instant k entre la source et le microphone,

- un vecteur entre une image de la source et le microphone, à un instant k, s'écrivant en fonction du deuxième vecteur : , avec . où c est la vitesse du son.

[0031] Alors la propriété précitée de réflexion spéculaire se traduit, pour deux instants distincts k et k', par une expression de type :

[0032] Cette expression peut se développer en : avec : où la notation <x,y> désigne le produit scalaire entre deux vecteurs x et y.

[0033] Ensuite, la deuxième propriété géométrique précitée (de conservation de la projection sur l'axe z) se traduit par une expression de type ; où est un vecteur unitaire parallèle à l'axe choisi précité, et cette expression se développe en : où : et désigne un produit scalaire de type .

[0034] Ensuite, les développements respectifs des expressions peuvent générer un système d'équations bi-affines de type : dont la variable d est un vecteur colonne ayant des coefficients correspondant aux distances entre la source et le microphone à différents instants 1 , 2, ..., K : et où l'opérateur vtriu dd T extrait des coefficients d'une diagonale et au-dessus de la diagonale de la matrice dd T en les concaténant en un vecteur colonne. [0035] Ce système d'équations bi-affines peut être résolu par minimisation non linéaire d'une fonction de coût l(.), donnée par : sachant que où Ib et ub sont des limites inférieures et supérieures données aux distances d (k) .

[0036] Il peut être ajouté au terme ℓ(.) un terme de régularisation λr(d) pour exprimer la fonction coût globalement comme suit :

Une telle expression avec le terme λr(d) permet avantageusement de régler au moins une structure de lissage appliquée aux coordonnées du vecteur d (on peut ainsi « lisser » la forme de déplacement de la source entre deux points, ou autre contraire souhaiter conserver une forme de mouvement saccadé par exemple).

[0037] Par ailleurs, il peut être appliqué une matrice diagonale diag(ψ ) de pondération dans la fonction de coût comme suit : , ce qui revient à pondérer les différentes équations du système Mf + q, par exemple pour favoriser le poids des observations à un instant donné par rapport à d'autres observations à un autre instant.

[0038] La présente invention vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ces instructions sont exécutées par un processeur d'un circuit de traitement. Elle vise aussi un support d'enregistrement non transitoire, lisible par un ordinateur, sur lequel est enregistre un tel programme. [0039] Elle vise aussi un dispositif informatique comportant un circuit de traitement configuré pour mettre en œuvre le procédé ci-avant.

[0040] D'autres caractéristiques, détails et avantages apparaîtront à la lecture de la description détaillée ci-après, et à l'analyse des dessins annexés, sur lesquels :

[0041] La figure 1 [Fig. 1] montre à titre illustratif différents paramètres pouvant intervenir pour l'estimation de la distance d'une source au microphone.

[0042] La figure 2 [Fig. 2] montre à titre illustratif les différents pics successifs que présente l'expression temporelle d'un vecteur vélocité (généralisé) après sa transformée inverse des fréquences vers le temps.

[0043] La figure 3a [Fig. 3a] illustre la propriété de conservation des distances euclidienne, précitée.

[0044] La figure 3b [Fig. 3b] illustre la deuxième propriété, précitée, de conservation de la projection sur l'axe choisi.

[0045] La figure 4 [Fig. 4] montre schématiquement un dispositif pour la mise en œuvre du procédé ci-avant, selon un mode de réalisation.

[0046] Comme présenté succinctement plus haut, la présente description propose d'estimer la distance et la direction d'arrivée (DoA) d'une source à différents instants, par exemple pour une source mobile. Le traitement relatif à la détermination de la DoA n'est pas impacté par la mobilité de la source. Néanmoins, il est plus difficile de déterminer par les méthodes conventionnelles de l'état de l'art la distance de la source au microphone pour une source mobile (sans connaître a priori l'orientation des cloisons qui l'entourent).

[0047] Il est proposé dans la réalisation détaillée exposée ci-après d'utiliser le vecteur vélocité comme dans l'approche des documents de l'art antérieur présentés ci-avant, et on estime d'abord l'empreinte des réflexions sur le vecteur vélocité généralisé, noté ci-après « GTVV » (pour « Generalized Time Domain Velocity Vector »), en utilisant les traitements décrits en particulier dans le document FR2011874. Il peut être effectué une pondération légèrement différente de celle décrite dans FR2011874, dans le domaine temps-fréquence avant de calculer le vecteur GTVV, comme détaillé plus loin dans un exemple optionnel possible mais le principe décrit dans ce document reste le même.

[0048] On estime la DoA de la source en observant le vecteur GTW au temps t=0 (comme dans le document précité). On détecte ensuite les DoAs et les retards relatifs de quelques réflexions acoustiques en sélectionnant une partie seulement des pics sur une séquence issue du vecteur GTW (par exemple, sa norme en fonction du retard, ou possiblement cette norme multipliée par le signe de la composante omnidirectionnelle). Bien entendu, cette réalisation est simple mais peut admettre des variantes plus sophistiquées pour réaliser l'inférence des paramètres. On retient ici qu'il est possible alors de manière générale de disposer d'un ensemble d'estimées des DoAs au cours du temps et de leurs retards associés, par exemple par trame de signal (éventuellement pas pour toutes les trames, mais pour certaines, tout au moins, qui permettent la suite du traitement).

[0049] L'identification des pics dans la succession de pics peut être effectuée en pratique selon deux traitements différents mais qui peuvent être combinés. Un premier traitement recherche la DoA de la source sonore elle-même. Ce traitement est le plus facile, car il ne nécessite pas d'identifier les pics de réflexions, leur nombre et les parois à l'origine de ces réflexions. Le deuxième traitement propose une analyse « complète » des pics issus des réflexions. Le deuxième traitement est alors dédié au suivi des sources images multiples, basé purement sur les DoAs observées, et adapté pour relever et utiliser aussi les retards relatifs observés. On entend ici par « sources images » les sources virtuelles générées par les réflexions sur les parois. Le résultat de ce deuxième traitement donne les séquences temporelles des couples (DoA, retard), avec des étiquettes correspondant aux réflexions individuelles estimées (i.e. les « trajectoires » des réflexions). Grâce à l'exploitation des retards liés à la réflexion, la mise en œuvre du deuxième traitement permet d'estimer par la suite une distance d entre la source et le microphone, à associer à la DoA de la source, et ce à différents instants distincts k, k', etc. On exploite à cet effet des propriétés géométriques présentées plus loin. On peut construire finalement un vecteur position de la source relativement au microphone à partir de la DoA de la source et de la distance séparant la source du microphone.

[0050] Dans une réalisation, il est en effet possible de construire un système d'équations bi-affines (dont la variable est le vecteur des distances), grâce aux trajectoires estimées des réflexions et de la source à différents instants. Ce système est généré en appliquant des principes acoustiques relativement à des conditions géométriques de la propagation du son dans l'espace.

[0051] Ensuite, on minimise une fonction de coût basée surce système d'équations, comme la somme des résidus carrés (ou absolus). Il s'agit d'une minimisation non- linéaire et non-convexe : on peut utiliser des méthodes connues mais adaptées au cas d'usage (par exemple, une descente de (sous-)gradient accélérée, ou autres).

[0052] Il peut être ainsi tiré parti de la représentation du vecteur GTW pour estimer au moins la DoA et la distance de la source au microphone, pour une source sonore en mouvement sans connaissance a priori des orientations des parois. Les trajectoires d'une source en mouvement et les réflexions correspondantes sont spatialement et temporellement liées, ce qui peut être utilisé pour déduire le retard absolu du signal source de propagation et, par conséquent, approximer la distance microphone-source.

[0053] L'objectif ci-après est d'exploiter l'empreinte du vecteur GTW afin d'estimer la position 3D d'une source sonore en mouvement, sans hypothèses a priori sur les orientations des parois réfléchissantes. Puisque la source est mobile, l'inférence doit être faite par exemple pour chaque trame d'une succession de trames. On entend par « trames » ici des paquets de données sonores acquises par un microphone (par exemple ambisonique), à des instants distincts. Ainsi, chaque trame acquise à un instant k donne une image sonore de laquelle peut être tirée la position courante de la source mobile à cet instant k. Plusieurs trames acquises à des instants distincts k, k, etc., devraient permettre de déterminer le mouvement de la source au cours de ces instants k, k', etc.

[0054] La source mobile fournit ainsi une « diversité spatiale » qui est alors exploitée pour faire face à la géométrie inconnue de l'environnement acoustique. Bien entendu, cette approche peut être reprise de façon similaire dans le cas où la source est fixe tandis que le microphone serait mobile, en raison de la symétrie des équations d'onde acoustique.

[0055] On rappelle ici l'équation 39 du document WO-2021/074502, donnant l'expression du vecteur vélocité noté en fonction des pics précités, liés aux réflexions et marqués par des fonctions Dirac positionnés à des retards τ n (soit δ(t - kτ n )) relativement au premier pic d'abscisse τ 0 correspondant à l'arrivée du son selon le trajet direct. Les autres termes SARC sont propres à des réverbérations et réflexions croisées et ne sont pas considérés :

[0056] Eq.39

[0057] La figure 1 rappelle l'orientation du vecteurs (associé à la source) et du vecteur associé à la réflexion sur une paroi réfléchissante tel que le sol dans l'exemple illustré. On relèvera que le vecteu peut être plus particulièrement associé à une source image (en traits fins, relativement à la source d'origine illustrée en traits forts) qui est disposée de « l'autre côté » de la paroi réfléchissante. La source d'origine (l'enfant au-dessus du sol) et la source image (l'enfant en dessous) sont représentées comme symétriques par rapport à la paroi (horizontale dans l'exemple illustré). Cette propriété de symétrie des sources est liée à la conservation des distances euclidiennes (entre par exemple deux sources d'origine, d'une part, et entre leurs deux sources images respectives, d'autre part). Cette propriété reste vraie dans l'approche acoustique considérant les réflexions comme spéculaires (ce qui est généralement le cas) sur des parois planes, et ce y compris pour des réflexions multiples. Cette propriété est utilisée et expliquée plus en détail plus loin, en référence à la figure 3a.

[0058] A chaque nouveau pic dans la succession de l'équation 39 du document WO-2021/074502, l'équation 40 du même document donne un nouveau retard τ new déterminé par rapport aux retards précédents :

[0059] Eq.40

[0060] Le vecteur vélocité généralisé au sens du document FR2011874 s'écrit de façon similaire : [0061] , et fait apparaitre ainsi, comme le montre l'exemple de la figure 2 :

- un premier pic en τ 0 , associé au trajet direct, le vecteur U0 s'obtenant par normalisation,

- autant de séries temporelles que de réflexions, chacune associée à l'interférence entre une réflexion et le son direct, et d'abscisses τ n + τ 0 ,

- et les séries à retards combinés notées SARC.

[0062] Concernant les paramètres β n (notés BETAn ci-après), partant de l'équation Eq.B6 de ce document FR2011874 en fin d'annexe, on retient simplement une relation particulière entre deux vecteurs successifs d'une série, notamment entre les deux premiers vecteurs V'(TAUn) et V'(2.TAUn), les plus saillants.

[0063] La représentation du vecteur GTW permet donc de déterminer directement la composante directe (sans réflexion) indiquant la DoA (et propre au vecteur U0), en évaluant simplement la séquence à v(t = 0). Ceci est donné par le premier pic en τ 0 en partant de la gauche dans l'exemple illustré sur la figure 2. Ensuite, les écarts entre pics permettent de déterminer quelques réflexions importantes par identification et sélection de pics, car l'indice de pic correspond à la différence de temps d'arrivée (TDoA) d'une réflexion donnée, notée :

[0064] τ n (1)

[0065] Il est donc possible d'obtenir la DoA sous la forme d'un vecteur unitaire, donné pour une trame d'indice k :

[0066] (2),

[0067] ainsi qu'une collection de paires :

[0068] (3)

[0069] correspondant aux réflexions détectées et à leurs différences de temps d'arrivée TDoA associées. [0070] La position de la source par rapport au réseau de microphones (qui peut correspondre à un microphone ambisonique) est donnée par le vecteur : [0071]

[0072] et, de même, la position de la nième source d'image est donnée par

[0073] v-V

[0074] avec , où c est la vitesse du son.

[0075] De la même manière, si la même réflexion est détectée dans une autre trame k', les expressions équivalentes pour les vecteurs de position et seraient obtenues.

[0076] On considère ici que les réflexions détectées, estimées et exploitées dans le modèle sont a priori spéculaires. Il est alors possible d'utiliser des arguments géométriques simples pour arriver à l'estimation d'une distance d(k), à la trame indexée par la variable k. En effet, les images sources sont obtenues à partir des positions des sources d'origine en appliquant certaines transformations rigides : des réflexions, des translations ou des rotations (selon l'ordre et la disposition des surfaces réfléchissantes). Les transformations rigides préservent en principe les distances euclidiennes.

[0077] Sur la figure 3a, on a illustré deux positions successives d'une source en S1 , puis S2, ainsi que la position du microphone M (supposée fixe dans cet exemple). On a illustré aussi les positions respectives des sources images successives par rapport à une première paroi w1 en S1 (w1) et S2 (w1) et par rapport à une deuxième paroi w2 en S1 (w2) et S2 (w2) . Comme on le voit en particulier pour les images S1 (w2) et S2 (w2) sur cette figure, la distance entre les positions respectives d'images S1 (w2) - S2 (w2) associées à une même paroi w2 est égale à la distance entre les positions respectives de source S1-S2. Cette figure illustre alors la conservation des distances euclidiennes entre positions de source et positions d'image.

[0078] Cette propriété de préservation de la distance se traduit par : [0079]

[0080] En développant cette expression en utilisant (4) et (5), on parvient à : [0081]

[0082] avec:

[0083] où <x,y> correspond au produit scalaire entre les vecteurs x et y.

[0084] Une qualité attrayante de l'hypothèse de préservation de la distance est qu'elle ne nécessite aucune hypothèse spécifique concernant la géométrie de l'environnement. Une hypothèse un peu plus contraignante, mais en pratique encore très plausible, est de considérer toutes les parois réfléchissantes comme étant soit horizontales (sols, plafonds, tables, etc.), soit verticales (murs, fenêtres, etc.). Une telle hypothèse devrait permettre néanmoins à des surfaces verticales de former des angles arbitraires entre elles, comme par exemple celui d'une porte relativement au mur qui la soutient.

[0085] Afin d'exploiter cette hypothèse, l'axe z du système de coordonnées locales du microphone ambiophonique doit être préférentiellement aligné sur l'axe z du système de coordonnées globales (de la salle). Cela est généralement vrai, car le microphone est le plus souvent placé sur une surface horizontale (par exemple, une table) ou il est monté sur un support vertical. Si tel est le cas, la projection de la magnitude du vecteur déplacement sur l'axe z, pour un indice quelconque n, est équivaut à la même projection de la magnitude du vecteur déplacement de la source correspondante soit : [0086]

[0087] avec :

[0088] En référence maintenant à la figure 3b, cette autre propriété géométrique (outre la conservation des distances euclidiennes, mais dérivant de celle-ci néanmoins) se traduit comme suit : la projection de la distance entre positions de source S1-S2 sur l'axe z (parallèle à l'axe du microphone M) est égale à la même projection de la distance entre positions d'image S1 (w2) - S2 (w2) associées à la même paroi w2. Plus précisément, la projection de la « magnitude » (amplitude positive) du vecteur de déplacement S1 -S2 est égale à la même projection du vecteur entre S1 (w2) et S2 (w2) . Le vocable « magnitude du vecteur » désigne ici une distance (donc positive).

[0089] Cette propriété est vérifiée géométriquement si les parois considérées sont parallèles ou perpendiculaires à l'axe z. En effet, si une paroi est verticale (parallèle à l'axe z) ou horizontale (perpendiculaire à l'axe z), les équations données ici ne changent pas car la magnitude projetée (illustrée par la référence Pz en trait fort sur la figure 3b) est toujours préservée dans les deux cas.

[0090] En développant l'équation (8) avec les équations (4) et (5), on obtient :

[0091]

[0092] avec : et désigne le produit scalaire [0093] Il convient de noter que la préservation de la distance n'est pas garantie en vertu de l'équation (8). Par conséquent, au lieu d'être utilisée indépendamment, cette condition complète plutôt celle donnée à l'équation (6). Les expressions (7) et (9) peuvent être écrites de manière compacte comme suit :

[0094]

[0095] ou , et

[0096] pour le modèle basé sur l'équation (7) ; ou

[0097] , et , pour le modèle basé sur l'équation (8).

[0098] L'opérateur extrait les coefficients de la diagonale ainsi que ceux qui sont au-dessus de la diagonale de la matrice dd T et concatène ses entrées en un vecteur colonne.

[0099] Finalement, le vecteur contient les distances estimées entre la source et le microphone d (k) pour chaque trame k appartenant à un ensemble de trames indexées de 1 à K. On précise ici que les trames ne sont pas nécessairement successives, c'est-à-dire qu'elles ne se suivent pas nécessairement immédiatement dans le temps. Par exemple, il peut s'agir de trames de durée T telles que la première indexée k=1 est émise à l'instant t, la deuxième k=2 est émise à t+4T, celle indexée k=3, émise à t+5T, celle indexée k=4, émise à t+7T, etc.

[0100] Il est possible d'obtenir la position de la source relativement au microphone M à différents instants de son déplacement, ces instants étant reflétés ici par l'indice de trame k. [0101] En assemblant au moins deux trames à différents instants k et /('appartenant à [1 , K] X [1 , K] et où une même réflexion a été observée sur une même paroi, on arrive à un système d'équations généralement surdéterminé (plus d'équations que de solutions), du type : [0102]

[0103] On note ci-après :

- M DP , q DP , les systèmes correspondant à la propriété de conservation des distances euclidiennes, et

- M HV , q HV , les systèmes correspondant à l'hypothèse des parois parallèles ou perpendiculaires à l'axe z du microphone.

[0104] Ainsi, il est possible de présenter les deux conditions géométriques à la fois simultanément en assemblant les deux systèmes en un même système combiné :

[0105]

[0106] Finalement, l'estimation du vecteur distance d se résume à un problème de régression basé sur le système non linéaire (12), comme suit :

[0107] sachant que où 0 < Ib < ub désignent les limites inférieures, respectivement supérieures, de l'estimation de la distance. Le terme dit « de fidélité » des données ℓ(-) est généralement un type de norme (au carré ou non), comme par exemple la somme des carrés (ℓ = ℓ 2 2 ), ou les valeurs absolues (ℓ= ℓ 1 ). La première solution conduit à un problème d'optimisation lisse, mais l'avantage de la norme ℓ 1 est qu'elle peut être plus robuste en ce qui concerne les erreurs possibles dans les paramètres du système (les DoA extraites et les retards relatifs). Une alternative pourrait être l'utilisation de normes dites « structurées » (par exemple ℓ 1,2 ) si les paramètres liés à certaines réflexions sont significativement plus erronés que les autres. Le terme de régularisation λr(d) peut être ajouté en option pour induire une structure supplémentaire dans le vecteur d, par exemple un lissage de la trajectoire de la source. Alternativement, on peut, en réglant ce terme, favoriser la détection d'un déplacement d'une source se déplaçant par « sauts » d'une position à l'autre, ce terme r(d) encourageant par exemple un vecteur d qui est n'est constant que par tronçons de trajet (et donc non lissé du fait de ces « sauts »).

[0108] Dans l'expression de la matrice ci-dessus : il est possible de pondérer relativement l'un des systèmes M DP ou M HV par rapport à l'autre M HV ou M DP afin par exemple d'accorder plus de poids à l'une des propriétés géométriques que l'autre, selon par exemple les conditions d'acquisition sonore.

[0109] Il est possible en outre de prévoir une combinaison linéaire de M DP et M HV , par exemple : M = M DP - M HV et q = q DP - q HV

[0110] Par ailleurs, il est possible d'appliquer encore une pondération dans l'équation (13) comme suit : ce qui revient à ajouter une matrice diagonale ψ visant à pondérer les différentes équations du système Mf + q. Cette pondération peut être produite par application de critères de confiance sur l'extraction des paramètres de retards, DoA, etc., par exemple, pour certaines trames ou pics identifiés dans ces trames. Par exemple, elle peut favoriser les trames dans lesquelles une attaque sonore est détectée (pour exploiter le son direct et les premières réflexions par exemple).

[0111] Le problème (13) est non-convexe, et une solution locale peut être trouvée en appliquant une méthode d'optimisation non-linéaire. En particulier, il peut être utilisé un algorithme de type « Fast Adaptive Shrinkage/Thresholding (FASTA) », en lui fournissant le (sous-)gradient approprié d'une fonction de coût.

[0112] Un avantage de la représentation temporelle du vecteur vélocité exploitée avec le traitement présenté ici est qu'il est possible de regrouper les réflexions individuelles dans le temps. En d'autres termes, en plus de suivre la DoA source, il est proposé ici de s'appuyer en outre sur la détermination des réflexions pour renforcer la détermination de la distance source/microphone au fil du temps.

[0113] Ainsi, l'algorithme de suivi décrit dans les documents de l'art antérieur cités ci-avant FR2011874 et WO-2021/074502, peut être modifié de sorte qu'il puisse traiter les observations sous forme de DoA et des retards relatifs associés. Une modification simple de ce traitement peut consister à fournir les mesures sous la forme de vecteurs mis à l'échelle ce qui permet au traitement de suivi de discriminer les réflexions de DoAs très similaires (cas par exemple d'une source près d'une paroi), en ajoutant possiblement une certaine "profondeur" aux observations. En pratique, deux instances du traitement de suivi peuvent être mises en œuvre :

- la première instance suit la source elle-même, et est donc chargée d'estimer la trajectoire d'une seule cible en utilisant la DoA obtenue à partir de v(t = 0) (position du premier pic relativement au temps initial t=0) ;

- la deuxième instance du traitement effectue le suivi multi-cibles des réflexions en utilisant les observations restantes (directions et retards relatifs obtenus à partir des pics restants de la séquence du vecteur vélocité GTW).

[0114] Enfin, il convient de remarquer que, lors de la définition des deux conditions géométriques susmentionnées, il est possible de considérer une paire de réflexions (à condition qu'elles soient toutes deux détectées à deux instants distincts k et k), au lieu de coupler les paramètres de la source et d'une seule réflexion. Par exemple, à partir de deux réflexions au moins, il serait possible de déterminer les paramètres liés à ces réflexions et d'en déduire la distance source-microphone. Cependant, le suivi des réflexions est généralement moins stable et moins précis que le suivi direct de la DoA de la source. Par exemple, certaines réflexions peuvent apparaître et disparaître en fonction de la position actuelle de la source, car elles peuvent devenir "invisibles" du microphone.

[0115] En outre, on a décrit ci-avant le cas d'une source qui peut être mobile et occuper ainsi des positions distinctes à des instants respectifs. Néanmoins, le traitement proposé ici peut aussi s'adapter au cas de plusieurs sources ayant ces positions respectives distinctes à ces différents instants. L'exploitation des réflexions, précitée, peut alors s'appliquer moyennant l'obtention d'une information permettant de distinguer les réflexions correspondant à chaque source (par exemple par analyse spectrale si les sources émettent dans des fréquences fondamentales différentes, ou autres).

[0116] Afin d'exploiter préférentiellement les premières réflexions et éviter les réflexions multiples, plus difficiles à exploiter, il est possible de pondérer les signaux reçus en privilégiant les attaques sonores, comme présenté en référence à la figure 5a des documents cités ci-dessus.

[0117] On a illustré sur la figure 4 un exemple de dispositif de traitement de signaux sonores, comportant un circuit de traitement agencé pour la mise en œuvre du procédé ci-avant. Un tel circuit de traitement peut comporter alors :

- une interface d'entrée IN pour recevoir des signaux SIG acquis par le microphone (pouvant comporter plusieurs pastilles piézoélectriques pour composer ces signaux, par exemple en contexte ambisonique),

- un processeur PROC coopérant avec une mémoire de travail MEM pour traiter ces signaux notamment pour élaborer l'expression du vecteur vélocité généralisé afin d'en tirer les paramètres souhaités d0, U0, etc., dont des valeurs peuvent être exploitées pour déterminer les distances d (1) , d (2) , ... , d (K) , entre la source et le microphone à délivrer également par l'interface de sortie OUT.

[0118] Un tel dispositif peut se présenter sous la forme d'un module de localisation d'une source sonore dans un environnement 3D, ce module étant connecté à un microphone (type antenne sonore, ou autre). Inversement, il peut s'agir d'un moteur de rendu sonore en fonction d'une position donnée d'une source dans un espace virtuel (comportant une ou plusieurs parois) en réalité augmentée.

[0119] De manière plus générale, l'objet de la présente description peut être utilisé dans de nombreuses applications telles que :

- le codage audio spatial,

- l'expérience immersive (à six degrés de liberté) en réalité augmentée,

- l'amélioration de la séparation des sources dans l'espace, - le suivi de sources multiples (actives simultanément ou non),

- l'assistance à la navigation de robots et la cartographie instantanée ou « SLAM » (pour « Simultaneous Localization and Mapping »), avec une extension possible des principes ci-avant aux signaux non acoustiques (par exemple des ondes radio).