Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND SYSTEM FOR DEVELOPING A HEAD-RELATED TRANSFER FUNCTION ADAPTED TO AN INDIVIDUAL
Document Type and Number:
WIPO Patent Application WO/2017/041922
Kind Code:
A1
Abstract:
Method for developing a head-related transfer function (Sj) adapted to an individual, with the help of a database (OHi) comprising 3D or 2D ear data (0i) and corresponding head-related transfer functions (Hi), the method comprising the steps consisting in: - performing a statistical analysis (S2) of the 3D or 2D ear space of the database; - performing a statistical analysis (S3) of the head-related transfer space of the database; - performing an analysis of the links (S4) between parameters of the statistical analysis of the 3D or 2D ear space and parameters of the statistical analysis of the head-related transfer function space; and - determining (S5), with the help of said analysis of the links and of said statistical analysis of the 3D or 2D ear space, a function (OHi) for calculating a head-related transfer function (S j) with the help of data representative of at least one ear.

Inventors:
GHORBAL SLIM (FR)
SEGUIER RENAUD (FR)
BONJOUR XAVIER (FR)
Application Number:
PCT/EP2016/065839
Publication Date:
March 16, 2017
Filing Date:
July 05, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
3D SOUND LABS (FR)
International Classes:
H04S7/00; G06F17/18; G06T17/00
Foreign References:
US20060067548A12006-03-30
US7209564B22007-04-24
Other References:
RODRIGUEZ SERGIO G ET AL: "HRTF Individualization by Solving the Least Squares Problem", 118TH AES CONVENTION, 6438, 28 May 2005 (2005-05-28) - 31 May 2005 (2005-05-31), XP040372767
MESHRAM ALOK ET AL: "P-HRTF: Efficient personalized HRTF computation for high-fidelity spatial sound", 2014 IEEE INTERNATIONAL SYMPOSIUM ON MIXED AND AUGMENTED REALITY (ISMAR), IEEE, 10 September 2014 (2014-09-10), pages 53 - 61, XP032676177, DOI: 10.1109/ISMAR.2014.6948409
TORRES-GALLEGOS EDGAR A ET AL: "Personalization of head-related transfer functions (HRTF) based on automatic photo-anthropometry and inference from a database", APPLIED ACOUSTICS, vol. 97, 7 April 2015 (2015-04-07), pages 84 - 95, XP029221944, ISSN: 0003-682X, DOI: 10.1016/J.APACOUST.2015.04.009
GUILLON PIERRE ET AL: "Head-Related Transfer Function Customization by Frequency Scaling and Rotation Shift Based on a New Morphological Matching Method", AES CONVENTION 125; OCTOBER 2008, AES, 60 EAST 42ND STREET, ROOM 2520 NEW YORK 10165-2520, USA, 1 October 2008 (2008-10-01), XP040508788
ZOTKIN D N ET AL: "HRTF personalization using anthropometric measurements", APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 2003 IEEE WO RKSHOP ON. NEW PALTZ, NY, USA OCT,. 19-22, 2003, PISCATAWAY, NJ, USA,IEEE, 19 October 2003 (2003-10-19), pages 157 - 160, XP010697926, ISBN: 978-0-7803-7850-6, DOI: 10.1109/ASPAA.2003.1285855
Attorney, Agent or Firm:
BRUNELLI, Gérald (FR)
Download PDF:
Claims:
REVENDICATIONS

1 . Procédé mis en œuvre par ordinateur d'élaboration d'une fonction de transfert relative à la tête (S-i) adaptée à un individu, à partir d'une base de données (OH-i) comprenant des données (O-i) d'oreilles 3D ou 2D et des fonctions de transfert (H-i) correspondantes relatives à la tête, le procédé comprenant les étapes consistant à: effectuer une analyse statistique menant à une réduction de dimension (S2) de l'espace des oreilles 3D ou 2D, de la base de données (OH-i) et représenter chaque oreille 3D ou 2D par un vecteur de paramètres statistiques dont les valeurs des composantes sont les valeurs des projections de chaque oreille dans l'espace des oreilles de dimension réduite;

effectuer une analyse statistique menant à une réduction de dimension (S3) de l'espace des fonctions de transfert relatives à la tête, de la base de données (OH-i) et représenter chaque fonction de transfert par un vecteur de paramètres statistiques dont les valeurs des composantes sont les valeurs des projections de chaque fonction de transfert dans l'espace des fonctions de transfert de dimension réduite;

effectuer une analyse des liens (S4) entre lesdits paramètres statistiques de l'espace des oreilles 3D ou 2D et lesdits paramètres statistiques de l'espace des fonctions de transfert relatives à la tête; et déterminer (S5), à partir de ladite analyse des liens et de ladite analyse statistique de l'espace des oreilles 3D ou 2D, une fonction de calcul (OHÎ) d'une fonction de transfert (S-i) relative à une tête à partir de données représentatives d'au moins une oreille.

2. Procédé selon la revendication 1 , comprenant en outre une étape consistant à mettre en correspondance dense (S1 ) des points relatifs à des positions respectives des oreilles de la base de données (OH-i);

3. Procédé selon la revendication 1 ou 2, comprenant, en outre, une étape de calcul (S6) d'une fonction de transfert (S-i) relative à la tête, adaptée à l'individu, à partir de ladite fonction de calcul (OH^) et d'au moins une photographie (U1 ) d'au moins une oreille de l'individu.

4. Procédé selon la revendication 3, dans lequel ladite étape de calcul (S6) d'une fonction de transfert (S-i) relative à la tête est itérative.

5. Procédé selon la revendication 4, dans lequel ladite étape itérative de calcul d'une fonction de transfert relative à la tête comprend :

- une première sous-étape itérative (S7) d'estimation d'au moins un paramètre de pose de l'individu lors de la ou lesdites photographies; et

- une deuxième sous-étape itérative (S8) d'estimation de paramètres statistiques optimisés représentant au moins une oreille de l'individu dans l'espace des oreilles.

6. Procédé selon l'une des revendications précédentes, dans lequel lesdites données (O-i) représentant des oreilles sont des nuages de points. 7. Procédé selon l'une des revendications précédentes, dans lequel on utilise lesdites étapes divulguées pour élaborer une fonction de transfert (SH), pour de hautes fréquences supérieures à un seuil, relative à la tête adaptée à l'individu, ledit procédé comprenant, en outre, une étape d'élaboration d'une fonction de transfert (SB), pour de basses fréquences inférieures audit seuil, relative à la tête adaptée à l'individu.

8. Procédé selon la revendication 7, dans lequel ladite étape d'élaboration d'une fonction de transfert (SB), pour de basses fréquences inférieures audit seuil, relative à la tête, adaptée à l'individu comprend les sous-étapes suivantes, consistant à: - échantillonner (S9) des plages de valeurs possibles de paramètres morphologiques humains d'une base de données (M-i) relatives à la morphologie humaine,

- déterminer (S1 0) un maillage de modèle paramétrique desdits paramètres morphologiques,

- calculer (S1 1 ) des fonctions de transfert gabarit de basses fréquences, associées audit maillage,

- estimer (S1 2) la valeur des paramètres morphologiques de l'individu à partir d'au moins une photo (U2) de l'individu de face ou de profil, et

- calculer (S1 3) une fonction de transfert (SB), pour de basses fréquences, relative à la tête, adaptée à l'individu à partir de la valeur estimée des paramètres morphologiques et desdites fonctions calculées de transfert gabarit de basses fréquences.

9. Procédé selon la revendication 8, dans lequel une fonction de transfert relative à la tête (S-i) de l'individu est élaborée à partir desdites fonctions de transfert (SH, SB), respectivement pour de hautes et basses fréquences et de ladite ou lesdites photos (U2) de l'individu de face ou de profil, comprenant les étapes consistant à: estimer (S14), à partir de ladite ou lesdites photos (U2) de l'individu de face ou de profil, la taille d'oreilles relativement au reste du corps de l'individu ;

mettre à l'échelle en fréquences (S1 5) les fonctions de transfert relatives à la tête (SH), pour les hautes fréquences; et

fusionner (S1 6) les fonctions de transfert (SH, SB), respectivement pour de hautes et basses fréquences, pour obtenir la fonction de transfert relative à la tête (S-i) de l'individu.

1 0. Système d'élaboration d'une fonction de transfert relative à la tête adaptée à un individu, à partir d'une base de données comprenant des données d'oreilles et des fonctions de transfert correspondantes relatives à la tête, comprenant un calculateur configuré pour mettre en œuvre le procédé selon l'une des revendications précédentes.

Description:
Procédé et système d'élaboration d'une fonction de transfert relative à la tête adaptée à un individu

L'invention porte sur un procédé et un système d'élaboration d'une fonction de transfert relative à la tête adaptée à un individu.

La présente invention a trait à la personnalisation des procédés de spatialisation sonore, aussi qualifiés d'écoute binaurale. Plus particulièrement, il s'agit d'une méthode d'individualisation des fonctions de transfert relatives à la tête ou "Head-Related Transfer Functions" en langue anglaise, d'acronyme HRTF, éléments piliers de l'audition tridimensionnelle de tout individu.

L'écoute binaurale est un domaine de recherche visant à comprendre les mécanismes permettant à l'être humain de percevoir l'origine spatiale des sons. Partant du postulat que cette origine est déterminée grâce à la morphologie de chacun, l'écoute binaurale stipule notamment que la position et la forme des oreilles d'un individu en sont des éléments déterminants. Ces dernières agissent en effet comme des filtres fréquentiels et directionnels sur les sons nous parvenant.

Si les relations entre la morphologie et l'audition ont de longue date été étudiées, on note depuis près d'un quart de siècle un intérêt croissant dans la communauté scientifique pour le problème de l'individualisation, c'est-à-dire de la prise en compte des spécificités propres à chacun.

En particulier, l'attention s'est portée sur l'individualisation des fonctions de transfert relatives à la tête ou HRTFs, représentations mathématiques de la coloration fréquentielle des sons que nous percevons. On entend par coloration fréquentielle, les variations de densité spectrale de puissance des signaux sonores. Les spectres des bruits blanc, rose ou encore gris en sont des exemples. Il est maintenant connu de nombreuses méthodes que l'on peut classer en deux grandes familles: les méthodes de synthèse, qui visent à calculer ou recréer des jeux ou ensembles d'HRTFs, et les méthodes adaptatives, qui cherchent à découvrir, parmi un ensemble donné et au prix éventuel de transformations mineures, la fonction de transfert la plus adaptée à un individu.

Parmi les méthodes de synthèse, on peut tout d'abord distinguer les calculs exacts des approches statistiques et probabilistes.

Développée depuis plus de vingt ans, la famille des méthodes aux éléments finis vise à modéliser puis résoudre le problème aux dérivées partielles posé par la propagation du son de la source aux tympans du sujet. Cette famille comprend notamment les variantes connues sous les appellations anglaises: "Direct Boundary Elément Method", d'acronyme DBEM, "Indirect Boundary Elément Method" d'acronyme IBEM, "ln_nite- Finite Elément Method" d'acronyme IFEM, ou " Fast-Multipole Boundary Elément Method" d'acronyme FM-BEM.

Réputées offrir des solutions exactes au problème traité, ces méthodes souffrent néanmoins de quelques handicaps notables. Tout d'abord, elles nécessitent la donnée d'un maillage 3D du sujet d'autant plus fin que l'on souhaite calculer les HRTFs dans les hautes fréquences, et que le temps de calcul devient rapidement prohibitif à mesure que l'on affine le maillage (et donc que l'on souhaite disposer de résultats fiables dans les hautes fréquences). On entend par hautes fréquences des fréquences supérieures à 4 kHz. Enfin, la modélisation physique du problème nécessite d'introduire beaucoup d'à priori et d'approximations. Ainsi, chaque surface se voit attribuer une impédance propre (traduisant les phénomènes d'absorption/réflexion) dont la valeur est empirique. De même, la chevelure est classiquement modélisée par une surface d'impédance différente de la peau, ne tenant donc pas compte de sa nature volumique.

Une approche alternative au calcul direct des HRTFs consiste, à partir d'un ensemble représentatif d'HRTFs réelles, d'en faire émerger les principaux modes de variation. C'est notamment ce que réalisent les travaux de Sylvain Busson

("Individualisation d'Indices Acoustiques pour la Synthèse Binaurale"; PhD thesis, Université de la Méditerranée-Aix-Marseille II, 2006.) sur les réseaux de neurones artificiels (RNA). L'idée développée est de réaliser une prédiction des HRTFs à partir de la mesure d'un nombre restreint d'entre- elles. Cela passe en particulier par l'utilisation conjointe d'une carte de Kohonen et d'une Classification Hiérarchique Ascendante, d'acronyme CHA, avant l'élection d'HRTFs représentatives. Par la suite, un réseau de neurone de type Multi Layer Perceptron en langue anglaise, d'acronyme MLP, à trois couches, est construit et les HRTFs représentatives de 44 sujets de la base CIPIC utilisés comme ensemble d'apprentissage. Bien que prometteuse, cette étude ne parvient pas à dégager de représentants universels, i.e. communs à tous les individus, ni ne présente de validation psychoacoustique des résultats. De plus, il est également nécessaire de disposer d'un moyen d'accès auxdits représentants.

Les méthodes statistiques pour la synthèse d'HRTFs peuvent, en variante, se fonder sur l'analyse en composantes principales, d'acronyme ACP.

Kistler et Wightman ("A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction"; The Journal of the Acoustical Society of America, 91 (3) :1 637-1 647, 1992) furent les premiers à proposer de décomposer les HRTFs selon cette méthode. L'ensemble des HRTFs est alors vu comme un sous- espace vectoriel de l'espace des mesures. La connaissance d'une base de ce sous-espace permet ensuite d'en atteindre n'importe quel représentant, i.e. n'importe quelle HRTF, par simple combinaison linéaire des vecteurs de base. C'est ce que permet l'ACP en fournissant une base orthonormée de l'espace engendré par les HRTFs d'apprentissage. La dernière étape de la résolution du problème d'individualisation consiste alors à faire le lien entre les paramètres morphologiques des individus et les coefficients de reconstruction par les vecteurs propres de la base. Pour cela, des régressions linéaires multiples sont classiquement utilisées. Partant des travaux de Kistler & Wightman, Xu et associés (Song Xu, Zhizhong Li, and Gavriel Salvendy: "improved method to individualize head-related transfer function using anthropométrie measurements"; Acoustical Science and Technology, 29(6) :388{390, 2008.) ont proposé de grouper les HRTFs des différents individus mesurés selon la direction (azimut, élévation) pointée avant d'effectuer l'ACP (une par groupe), espérant ainsi réduire l'erreur d'estimation.

Zhang et associés (R. A. Kennedy M. Zhang and T. D. Abhayapala; "Statistical method to identify key anthropométrie parameters in hrtf individualization"; In Joint Workshop on Hands-free Speech Communication and Microphone Arrays, 201 1 ) ont quant à eux proposés une méthode statistique d'estimation des paramètres anthropomorphiques les plus pertinents pour réaliser l'étape de régression.

En 2007, Vast Audio Pty Ltd a déposé un brevet (G. Jin, P. Leong, J. Leung, S. Carlile, and A. Van Schaik; "Génération of customized three dimensional sound effects for individuals", April 24 2007, US 7209564) inspiré par ces idées. En pratique, ce dernier décrit tout d'abord la création d'une base d'HRTFs et d'une base de paramètres morphologiques. Est ensuite invoquée l'utilisation d'une méthode d'analyse statistique pour décomposer en composantes élémentaires les espaces de paramètres et d'HRTFs, à la manière de ce que permet l'ACP. Par la suite, à l'aide d'une autre méthode d'analyse statistique, les liens entre les coefficients de reconstruction des paramètres morphologiques et ceux des HRTFs sont déterminés. Chaque variante proposée jusqu'à maintenant a généralement permis d'améliorer les résultats des méthodes antérieures sans toutefois offrir de rendu satisfaisant du point de vue psycho-acoustique, i.e. en conditions réelles. En particulier, le nombre et la localisation des paramètres morphologiques nécessaires sont très imprécis. De plus, dans le cas d'analyse simultanée de la morphologie et des HRTFs, la découverte des liens entre les coefficients des deux espaces est d'autant plus complexe que les données sont laissées brutes. Un autre type de méthode de synthèse, notable par son caractère innovant, est la reconstruction d'HRTFs selon une approche Bayesienne. Présentée par Hofman & Van Opstal (Paul M Hofman and A John Van Opstal. Bayesian; "reconstruction of sound localization eues from responses to random spectra", Biological cybernetics, 86(4):305-31 6, 2002), qui veut recréer des HRTFs potentielles à partir d'une analyse probabiliste des réponses des sujets étudiés à des stimuli bien précis. Plus particulièrement, l'idée est de faire écouter aux sujets des sons convolués par des filtres mimant les types de variations observables dans de véritables HRTFs et diffusés par un haut-parleur situé droit devant eux. La consigne donnée est de diriger le regard dans la direction dont semble leur provenir le son.

Bien qu'innovante, cette méthode présente toutefois de nombreuses contraintes jouant en sa défaveur comme le temps nécessaire à l'expérimentation ou l'impossibilité d'adresser les HRTFs hors du champ de vision, le sujet étant contraint à désigner du regard les directions d'où semblent leur provenir les sons.

Alors que les méthodes de synthèse citées précédemment visent à créer de tout nouveaux jeux d'HRTFs (sans parfois même en avoir jamais observé de réels, comme c'est le cas pour les méthodes aux éléments finis), les méthodes adaptatives visent, au contraire, à rester au plus près de l'existant. L'idée sous-jacente consiste en l'exécution des mesures sur de vrais sujets pour obtenir des jeux d'HRTFs au moins adaptés à une personne. Ils contiennent donc nécessairement suffisamment d'indices de localisation pour être utilisables, ce que les méthodes de synthèse ne peuvent promettre.

Les méthodes sélectives n'entraînent aucune altération des mesures; leur principe commun est l'élection d'un jeu d'HRTFs parmi plusieurs selon certains critères. Ces derniers sont le plus souvent psychoacoustiques, sans pour autant y être limités. Parmi les critères psycho-acoustiques, il convient en premier lieu de citer les travaux de Shimada et associés (Shoji Shimada, Nobuo Hayashi, et Shinji Hayashi; "A clustering method for sound localization transfer functions", Journal of the Audio Engineering Society, 42(7/8) :577-584, 1994). Partant d'une base conséquente d'HRTFs, ces derniers entendent réaliser des regroupements entre HRTFs similaires. Pour ce faire, ils opèrent une composition cepstrale de 1 6 coefficients. La distance euclidienne naturellement associée à cet espace à 1 6 dimensions permet alors le regroupement des HRTFs en classes (au nombre de 8). Des jeux d'HRTFs sont ensuite choisis aléatoirement au sein des classes et les sujets invités à élire le ou les classes qui leur offrent la meilleure impression d'externalisation et de directivité. Plus récemment, on peut se référer aux travaux de Tame et associés (Robert P Tame, Daniele Barchiese, et Anssi Klapuri; "Headphone virtualization : Improved localization and externalization of nonindividualized hrtfs by cluster analysis", in Audio Engineering Society Convention 133; Audio Engineering Society, May 2012.) ou encore ceux de Xie et associés (Bosun Xie et Zhaojun Tian; "Improving binaural reproduction of 5.1 channel surround sound using individualized hrtf cluster in the wavelet domain", in Audio Engineering Society Conférence : 55th International Conférence : Spatial Audio, Audio Engineering Society, August 2014.) qui utilisent respectivement des gaussiennes et une décomposition en ondelettes pour réaliser le regroupement des HRTFs.

Une fois la classe (ou cluster en langue anglaise) sélectionnée, une autre étape de sélection peut être ajoutée pour sélectionner un jeu bien précis. Là encore, de multiples méthodes ont été publiées. Ainsi, Y. Iwaya (Yukio Iwaya, "Individualization of head-related transfer functions with tournament-style liste ning test : Listening with other's ears", Acoustical science and technology, 27(6): 340-343, 2006.) décrit une procédure de sélection d'un jeu d'HRTFs parmi 32 disponibles en reprenant le principe des tournois d'échec. Une trajectoire sonore dans le plan horizontal est simulée par convolution d'un bruit rose avec les jeux d'HRTFs. Un bruit rose est un bruit dont la puissance sonore est constante pour une largeur de bande fréquentielle donnée dans un espace logarithmique (ex : même puissance émise sur la bande 40-60Hz que sur la bande 4000-6000Hz). 32 trajectoires sont donc obtenues et mises en compétitions. A chaque rencontre, le sujet déclare vainqueur l'une des deux trajectoires selon qu'elle ressemble le plus ou non à la trajectoire de consigne. Le jeu sortant vainqueur du tournoi est déclaré le plus adapté au sujet.

Une autre approche, de Seeber et associés (Bernhard U Seeber et Hugo Fastl; "Subjective sélection of non-individual head-related transfer functions", July 2003.), présente une sélection en deux étapes d'un jeu parmi 12. L'objectif affiché est d'être rapide sans entraînement préalable tout en fournissant un résultat minimisant l'impression de son intra-cranien. La première étape consiste à désigner les 5 jeux présentant un meilleur rendu en termes de spatialisation dans la zone frontale. La seconde consiste à en éliminer 4 selon qu'ils pèchent à reproduire différents comportements tels que le déplacement d'une source sonore à vitesse constante, à élévation constante ou encore à distance constante. Une dizaine de minutes est nécessaire à la réalisation de la procédure.

Enfin, on cite également les travaux de Martens (William L Martens; "Rapid psychophysical calibration using bisection scaling for individualized control of source élévation in auditory display"; in Proc. Int. Conf. on Auditory Display, pages 199-206, July 2002) connus comme bisection scaling. L'idée est de créer, à l'aide d'un test psycho-acoustique, une table de correspondance entre les directions réelles associées à un jeu d'HRTFs et les directions perçues par le sujet. En pratique, pour un azimut donné il faut trouver l'HRTF correspondant le mieux à la sensation d'une élévation à 45°. Les élévations extrémales (0° et 90°) étant supposées correctement perçues, une interpolation polynomiale du second ordre est ensuite opérée pour construire la table évoquée ci-avant. D'autres protocoles encore ont été proposés par la communauté scientifique mais aucun ne permet d'éviter les inconvénients inhérents à ce type de méthodologie. En effet, même si l'objectif n'est pas de trouver les HRTFs exactes du sujet (il faudrait faire appel aux méthodes de synthèse) mais de sélectionner ou de s'adapter au mieux à l'existant, il n'en reste pas moins que la qualité de la meilleure solution possible est toujours limitée par la variabilité des jeux d'HRTFs ouverts à la sélection. Ainsi, pour un protocole donné, les résultats sont d'autant meilleurs que la base de données d'entrée est importante. Or l'augmentation de cette dernière allonge de fait la durée de l'expérimentation, ce qui est d'autant plus gênant qu'elle repose sur la participation active du sujet.

Remettant au premier plan l'importance de la morphologie propre à chacun, Zotkin et associés (D.N. Zotkin, J. Hwang, R. Duraiswaini, et L.S. Davis; "Hrtf personalization using anthropométrie measurements", in Applications of Signal Processing to Audio and Acoustics, 2003 IEEE Workshop on, pages 157-160, Oct 2003.) décrivent l'oreille au travers de sept paramètres morphologiques mesurables sur une vue de profil de l'oreille. Ces paramètres permettent de définir une distance entre les individus qui est utilisée pour sélectionner le plus proche voisin dans la base CIPIC d'un sujet donné. On note que les HRTFs ainsi sélectionnées ont ensuite fait l'objet d'une modification pour les fréquences inférieures à 3 kHz. En effet, pour les basses fréquences (f <500Hz), un modèle Tête et Torse, d'acronyme HAT pour "Head-And-Torso" en langue anglaise est utilisé pour synthétiser les HRTFs. Entre 500 Hz et 3 kHz, un recollement affine est opéré pour passer progressivement des HRTFs de synthèse aux HRTFs sélectionnées.

En 2001 , la société Arkamys et le CNRS ont déposé un brevet (B.F. Katz and D. Schônstein, "Procédé de sélection de filtres hrtf perceptivement optimale dans une base de données à partir de paramètres morphologiques", WO201 1 128583) portant sur une méthode de sélection morphologique. L'idée est de constituer trois bases de données. La première contient les HRTFs d'un ensemble d'individus, la deuxième contient un jeu de paramètres morphologiques de ces individus et la troisième contient les préférences d'écoute de ces individus, i.e. pour chaque sujet, la classification qu'il fait des HRTFs de la première base. Une fois cela posé, une étude des corrélations entre les deuxième et troisième bases de données est réalisée pour classer les paramètres morphologiques par ordre d'importance. Du côté des HRTFs, une analyse dimensionnelle de l'espace est menée (par exemple une ACP) pour en obtenir une base dans laquelle elles deviennent représentables. Les liens entre K paramètres morphologiques les plus importants et les coordonnées des HRTFs dans l'espace précité sont alors calculés, établissant un lien entre morphologie et HRTFs. Etant donné un nouvel individu, la mesure des K paramètres morphologiques mis en lumière précédemment permet ensuite de se positionner dans l'espace des HRTFs. Le plus proche voisin présent en base est recherché et constitue le résultat de la personnalisation.

Le problème rencontré par les précédentes méthodes utilisant des paramètres morphologiques, à savoir, de définir leur nombre et leur localisation. En effet, la notion de hauteur d'une oreille, par exemple, n'a rien de naturel et sa mesure sera très dépendante de la subjectivité de l'expérimentateur qui devra avant toute chose déterminer si l'oreille doit être tournée et où se situent ses points les plus "bas" et "haut". Par ailleurs, se pose la question des critères de définition de la distance utilisée car c'est de cette dernière que dépend le résultat de la sélection.

Enfin viennent les méthodes de sélection adaptée, dont le représentant le plus explicite est sans doute la mise à l'échelle en fréquences ou "Frequency Scaling" en langue anglaise, introduite par Middlebrook (John C Middlebrooks, "Virtual localization improved by scaling nonindividualized external-ear transfer functions in frequency", The Journal of the Acoustical Society of America, 106(3) :1493-1510, 1999); cette opération repose sur l'idée que l'interaction d'une onde sonore de fréquence donnée avec un solide dépend des dimensions de ce dernier. En particulier, toute homothétie opérée sur l'objet doit s'accompagner, si l'on souhaite toujours observer la même interaction, d'une homothétie de rapport inverse sur la fréquence. Appliquée à l'individualisation, cette idée revient à dire qu'en connaissant les HRTFs d'un individu de référence (ou même d'un mannequin) et le rapport d'échelle ("scaling factor" en Ingue anglaise) entre la morphologie de cette référence et celle d'un sujet à individualiser, il est possible d'améliorer la sensation de localisation apportée à celui-ci par les HRTFs de référence en leur appliquant une mise à l'échelle de rapport inverse.

En parallèle à la mise à l'échelle en fréquences ou "Frequency Scaling", Maki et Furukawa (Katuhiro Maki et Shigeto Furukawa; "Reducing individual différences in the external-ear transfer functions of the mongolian gerbil; The Journal of the Acoustical Society of America, 1 18(4), 2005) ont montré que, partant de la donnée de l'angle entre un pavillon d'oreille de référence et un pavillon test, une rotation du système de coordonnées donnant la direction des HRTFs permet de réduire significativement les différences inter-individus. En d'autres termes, ce procédé utilise le fait, en le restreignant au pavillon d'oreille, qu'une rotation du sujet induit la même rotation au niveau des HRTFs mesurées. Ces approches, si utiles soient-elles, ne sauraient néanmoins constituer à elles seules des procédés complets de personnalisation. Cela reviendrait à réduire la variabilité des HRTFs à seulement 1 ou 2 paramètres. Toutefois, elles peuvent être vues comme de bons compléments à d'autres méthodes. En dépit de la multiplicité des approches connues visant à personnaliser l'écoute binaurale, aucune n'est encore parvenue à se détacher clairement des autres par son efficacité et sa simplicité. De plus, des problèmes peuvent en découler comme des temps de personnalisation prohibitifs ou un manque de fiabilité des solutions, si ce n'est les deux simultanément.

Un but de l'invention est d'élaborer une fonction de transfert relative à la tête (HRTF) adaptée à un individu avec une rapidité et une fiabilité améliorées.

Dans la suite de la description, l'expression "données d'oreilles", "espace des oreilles" ou "oreilles" signifie des photos 2D d'oreilles ou des oreilles 3D représentées par un nuage de points 3D décrivant la surface de l'oreille.

Aussi, il est proposé, selon un aspect de l'invention, un procédé d'élaboration d'une fonction de transfert relative à la tête ou HRTF adaptée à un individu, à partir d'une base de données comprenant des données d'oreilles 3D ou 2D et des fonctions de transfert correspondantes relatives à la tête, le procédé comprenant les étapes consistant à:

- effectuer une analyse statistique de l'espace des oreilles 3D ou 2D, de la base de données;

- effectuer une analyse statistique de l'espace des fonctions de transfert relatives à la tête, de la base de données; - effectuer une analyse des liens entre lesdits paramètres statistiques de l'espace des oreilles 3D ou 2D et lesdits paramètres statistiques de l'espace des fonctions de transfert relatives à la tête; et

- déterminer, à partir de ladite analyse des liens et de ladite analyse statistique de l'espace des oreilles 3D ou 2D, une fonction de calcul d'une fonction de transfert relative à une tête à partir de données représentatives d'au moins une oreille.

Ainsi, les relations entre HRTFs et données d'oreilles étant déterminées en amont, il est possible de les utiliser dans des applications temps réel. Par ailleurs, le caractère statistique des analyses permet de s'affranchir des simplifications introduites par les modèles physiques et des approximations qui en découlent. Bien entendu, une HRTF est liée à une direction de l'espace, et pour recréer un environnement virtuel auditif complet, il faut donc disposer d'HRTFs pour un nombre conséquent de directions, ce que permet de faire la présente invention pour un nombre quelconque de directions souhaitées. Selon un mode de mise en œuvre, le procédé comprend, en outre, une étape consistant à mettre en correspondance dense, ou "dense registration en langue anglaise, des points relatifs à des positions respectives des oreilles de la base de données. Dans un mode de mise en œuvre, le procédé comprend, en outre, une étape de calcul d'une fonction de transfert relative à la tête, adaptée à l'individu, à partir de ladite fonction de calcul et d'au moins une photographie d'au moins une oreille de l'individu. Ainsi, l'utilisation de la fonction de calcul permet la détermination de la fonction de transfert en un temps compatible avec une application temps réel.

Selon un mode de mise en œuvre, ladite étape de calcul d'une fonction de transfert relative à la tête est itérative. Dans un mode de mise en œuvre, ladite étape itérative de calcul d'une fonction de transfert relative à la tête comprend :

- une première sous-étape itérative d'estimation d'au moins un paramètre de pose de l'individu lors de la ou lesdites photographies; et

- une deuxième sous-étape itérative d'estimation de paramètres statistiques optimisés représentant au moins une oreille de l'individu dans l'espace des oreilles.

Ainsi, il est possible de reconstituer une oreille en 3D à partir d'une photographie qui ne nécessite pas que l'utilisateur prenne de précaution particulière lors de la prise du cliché. Selon un mode de mise en œuvre, lesdites données représentant des oreilles 3D sont des nuages de points.

Ainsi, la visualisation et l'étude des propriétés, notamment géométriques, des données sont facilitées.

Dans un mode de mise en œuvre, on utilise lesdites étapes divulguées pour élaborer une fonction de transfert, pour de hautes fréquences supérieures à un seuil, relative à la tête adaptée à l'individu, ledit procédé comprenant, en outre, une étape d'élaboration d'une fonction de transfert, pour de basses fréquences inférieures audit seuil, relative à la tête adaptée à l'individu.

Ainsi, chaque partie du spectre fréquentielle se voit adaptée en fonction des structures physiques qui l'impactent le plus.

Selon un mode de mise en œuvre, ladite étape d'élaboration d'une fonction de transfert, pour de basses fréquences inférieures audit seuil, relative à la tête adaptée à l'individu comprend les sous-étapes suivantes, consistant à: - échantillonner de plages de valeurs possibles de paramètres morphologiques humains d'une base de données relatives à la morphologie humaine,

- déterminer d'un maillage de modèle paramétrique desdits paramètres morphologiques,

- calculer des fonctions de transfert gabarit de basses fréquences, associées audit maillage,

- estimer la valeur des paramètres morphologiques de l'individu à partir d'au moins une photo de l'individu de face ou de profil, et

- calculer une fonction de transfert, pour de basses fréquences, relative à la tête, adaptée à l'individu à partir de la valeur estimée des paramètres morphologiques et desdites fonctions calculées de transfert gabarit de basses fréquences. Ainsi, la plupart des calculs est menée en amont, permettant l'utilisation du procédé au sein d'applications en temps réel.

Dans un mode de mise en œuvre, une fonction de transfert relative à la tête de l'individu est élaborée à partir desdites fonctions de transfert respectivement pour de hautes et basses fréquences et de ladite ou lesdites photos de l'individu de face ou de profil, comprenant les étapes consistant à:

- estimer, à partir de ladite ou lesdites photos de l'individu de face ou de profil, la taille d'oreilles relativement au reste du corps de l'individu; - mettre à l'échelle en fréquences les fonctions de transfert relatives à la tête, pour les hautes fréquences; et

- fusionner les fonctions de transfert, respectivement pour de hautes et basses fréquences, pour obtenir la fonction de transfert relative à la tête de l'individu.

Pour un individu, la photo d'une seule oreille, peut suffire, en supposant une symétrie des oreilles d'un individu, mais en variante, une meilleure précision est obtenue avec des photos des deux oreilles d'un individu. Il est également proposé, selon un autre aspect de l'invention, un système d'élaboration d'une fonction de transfert relative à la tête ou HRTF adaptée à un individu, à partir d'une base de données comprenant des données d'oreilles et des fonctions de transfert correspondantes relatives à la tête, comprenant un calculateur configuré pour mettre en œuvre le procédé selon l'une des revendications précédentes.

L'invention sera mieux comprise à l'étude de quelques modes de réalisation décrits à titre d'exemples nullement limitatifs et illustrés par les dessins annexés sur lesquels les figures 1 à 4 illustrent schématiquement le procédé selon l'invention.

Sur la figure 1 , une base de données OHi comprend des données Oi d'oreilles et des fonctions de transfert Hi correspondantes relatives à la tête. On entend par "correspondantes", le fait que pour cette base de données, on enregistre lors de sa conception, pour les individus servant à concevoir la base de données, les données représentatives des oreilles des personnes de la base, ainsi que leurs fonctions de transfert relatives à la tête, en gardant le lien entre les données d'oreilles et la fonction de transfert correspondant de la base de données.

Les données Oi d'oreilles peuvent être des nuages de points. Une étape S1 , optionnelle, permet de mettre en correspondance dense des points relatifs à des positions respectives des oreilles Oi de la base de données OH-i.

On entend par mise en correspondance dense, la spécification des correspondances entre les points constitutifs d'un nuage ou les pixels d'une image 2D d'oreille et ceux constitutifs d'un autre nuage ou d'une autre image 2D d'oreille. À titre d'exemple, si l'extrémité du lobe est représentée par le point 2048 sur une oreille et par le point 157 sur une autre, la spécification de cette équivalence de rôle constitue une mise en correspondance. On pourra parler de classe d'équivalence, tous les points d'une même classe jouant un rôle similaire au sein de leur oreille d'appartenance. Il est possible de n'utiliser qu'une oreille, en supposant une symétrie des oreilles d'un utilisateur.

Une étape S2 permet ensuite d'effectuer une analyse statistique de l'espace des oreilles O-i , de la base de données OH-i. Cette analyse statistique peut se faire aux moyen de techniques utilisant une base d'exemples d'oreilles et réalisant une réduction de dimension (analyse en composantes principales, analyse en composantes indépendantes, codage de type sparse ou parcimonieux, réseaux de neurones de type autoencodeurs). Ces techniques permettent de convertir la représentation d'une oreille 2D ou 3D (sous la forme d'un nuage de points ou de pixels dans une image) en un vecteur de paramètres statistiques de nombre restreint.

Une étape S3 permet d'effectuer une analyse statistique de l'espace des fonctions de transfert relatives à la tête H-i , de la base de données OH-i. Cette analyse statistique est du même type que celle décrite dans le paragraphe précédent. Elle permet donc de représenter les HRTF par un vecteur de paramètres statistiques de nombre restreint.

Une étape S4 permet d'effectuer une analyse des liens entre lesdits paramètres statistiques de l'espace des oreilles de l'étape S2 et lesdits paramètres statistiques de l'espace des fonctions de transfert relatives à la tête de l'étape S3.

Enfin, une étape S5 permet de déterminer, à partir de ladite analyse des liens de l'étape S4, et de ladite analyse statistique de l'espace des oreilles de l'étape S2, une fonction de calcul OHÎ d'une fonction de transfert Si relative à une tête à partir de données représentatives d'au moins une oreille.

Les analyses statistiques S2 et S3 doivent aboutir à la création de représentations paramétriques des oreilles et des fonctions de transfert relatives à la tête. En particulier, les données d'apprentissage de la base de données OHi doivent pouvoir être reconstruites à partir des sorties de l'analyse. Il est notamment possible d'utiliser, dans les étapes d'analyse S2 et S3, des analyses en composantes principales d'acronyme ACP.

A titre d'exemple, lorsque l'ACP est choisie pour réaliser la réduction de dimension, elle consiste à calculer, à partir d'une base d'exemples des données à analyser, les vecteurs propres qui représentent le mieux ces données au sens des moindres carrés. Les paramètres statistiques qui représentent la donnée à analyser (oreille 3D ou 2D ou fonction de transfert relative à la tête) ne sont ni plus ni moins que les coefficients de projection cette donnée projetée sur les vecteurs propres. Alternativement, tout type d'analyse dimensionnelle linéaire ou non, convient, pour autant qu'elle réponde à l'exigence de reconstruction précitée, comme les méthodes d'analyse en composantes indépendantes, d'acronyme ACI, ou de codage clairsemé ou "sparse-coding" en langue anglaise. L'analyse des liens de l'étape S4 entre les jeux de paramètres statistiques de l'espace des oreilles et les paramètres statistiques de l'espace des fonctions de transfert relatives à la tête, dans une configuration nominale, peut se faire par régression linéaire multivariée sur les valeurs des paramètres utilisés pour la reconstruction des données d'apprentissage de la base de données OHi.

Alternativement, toute méthode permettant de trouver les valeurs du jeu de paramètres des fonctions de transfert relatives à la tête à partir des valeurs du jeu de paramètres statistiques et assurant une bonne reconstruction des fonctions de transfert relatives à la tête de la base de données OH-i, comme des méthodes à base de réseaux de neurones, à base d'analyse en composantes multiples, d'acronyme ACM, ou de partitionnement en k-moyennes.

Comme illustré sur la figure 2, le procédé peut comprendre, en outre, une étape de calcul S6 d'une fonction de transfert Si relative à la tête, adaptée à l'individu, à partir de ladite fonction de calcul OHÎ et d'au moins une photographie Ui d'une oreille de l'individu. L'étape de calcul S6 d'une fonction de transfert Si relative à la tête peut être itérative, et comprendre une première sous-étape itérative S7 d'estimation d'au moins un paramètre de pose de l'individu lors de la ou lesdites photographies, et une deuxième sous-étape itérative S8 d'estimation de paramètres statistiques optimisés représentant au moins une oreille de l'individu dans l'espace des oreilles.

Bien entendu l'étape itérative de calcul S6 d'une fonction de transfert Si relative à la tête comprend alors également une sous-étape S6a d'initialisation ou mise à jour des paramètres statistiques de forme et des paramètres de pose, ainsi qu'une sous-étape S6b de test de convergence de l'étape de calcul S6 ou d'atteinte d'un nombre limite d'itérations.

Les première et deuxième sous-étapes itératives S7 et S8 comprennent bien sûr chacune un test de convergence de l'estimation respective ou d'atteinte d'un nombre limite d'itérations. Les paramètres de pose dont il est question font référence aux angles sous lesquels sont photographiées les oreilles des utilisateurs.

Les première et deuxième sous-étapes itératives S7 et S8 d'estimation font intervenir des modèles actifs d'apparence ou "active appearance models" en langue anglaise, d'acronyme AAM. Dans une configuration nominale, ils sont basés sur l'utilisation de matrices de régression.

En variante, il est possible d'utiliser toute méthode permettant de faire converger la projection en 2D du modèle vers les images 2D des utilisateurs comme des AAM basés sur des descentes de gradient, des algorithmes génétiques ou des simplex.

Comme illustré sur la figure 3, on utilise lesdites étapes divulguées pour élaborer une fonction de transfert S H , pour de hautes fréquences supérieures à un seuil, relative à la tête adaptée à l'individu, ledit procédé comprenant, en outre, une étape d'élaboration d'une fonction de transfert S B , pour de basses fréquences inférieures audit seuil, relative à la tête adaptée à l'individu. L'étape d'élaboration d'une fonction de transfert S B , pour de basses fréquences inférieures audit seuil, relative à la tête, adaptée à l'individu comprend les sous-étapes suivantes, consistant à:

- échantillonner S9 des plages de valeurs possibles de paramètres morphologiques humains d'une base de données M-ι relatives à la morphologie humaine,

- déterminer S10 un maillage de modèle paramétrique desdits paramètres morphologiques,

- calculer S1 1 des fonctions de transfert gabarit de basses fréquences (M{), associées audit maillage,

- estimer S12 la valeur des paramètres morphologiques de l'individu à partir d'au moins une photo U 2 de l'individu de face ou de profil, et

- calculer S13 une fonction de transfert S B , pour de basses fréquences, relative à la tête, adaptée à l'individu à partir de la valeur estimée des paramètres morphologiques et desdites fonctions calculées de transfert gabarit de basses fréquences.

Les fonctions de transfert gabarit de basses fréquences M[ sont calculées hors ligne et servent de base de référence de fonctions de transfert relatives à la tête en basses fréquences (fréquences inférieures à un seuil, par exemple 2 kHz).

Par exemple, il est possible d'utiliser un modèle boules de neige ou "snowbaN" en langue anglaise. En variante, tout modèle paramétrique à peu d'entrées et permettant d'obtenir un maillage de la tête et du torse convient, comme une modélisation de la tête et du torse par des ellipsoïdes de révolution.

Par exemple, les paramètres macroscopiques peuvent être la largeur des épaules et le diamètre de la tête. Le choix des paramètres est dicté par le choix du modèle utilisé pour le calcul des gabarits.

Comme illustré sur la figure 4, une fonction de transfert relative à la tête Si de l'individu est élaborée à partir desdites fonctions de transfert S H , S B , respectivement pour de hautes et basses fréquences et de ladite ou lesdites photos U 2 de l'individu de face ou de profil, comprenant les étapes consistant à:

estimer S14, à partir de ladite ou lesdites photos U 2 de l'individu de face ou de profil, la taille d'oreille de l'individu ;

- utiliser ladite taille d'oreille estimée de l'individu pour ajuster S1 5 les fonctions de transfert relatives à la tête S H à la bande de fréquences la plus adaptée selon la méthode de mise à l'échelle en fréquences ou "frequency scaling" en langue anglaise, pour les hautes fréquences;

fusionner S1 6 les fonctions de transfert S H , S B , respectivement pour de hautes et basses fréquences, pour obtenir la fonction de transfert relative à la tête Si de l'individu.

Les dimensions de l'oreille peuvent être normalisées, auquel cas il faut prévoir une remise à l'échelle du spectre fréquentiel généré pour l'oreille.

En effet, deux oreilles identiques à un facteur d'échelle près ont des HRTFs identiques à l'inverse de ce même facteur d'échelle près. Ceci est très important lorsque l'on travaille avec un modèle d'oreille normalisé et sans information, tout du moins en début d'algorithme, sur les dimensions réelles de l'oreille du sujet. Par conséquent, si le modèle reconstruit une oreille de 5 cm de haut là ou l'oreille du sujet en faisait 10 cm, il faudra comprimer les HRTFs par un facteur 0.5.

En variante, si les oreilles ne font pas l'objet de normalisation en taille, l'étape 1 5 de mise à l'échelle devient sans objet. La fusion des deux parties du spectre par leur sommation après application d'un filtre passe-haut et d'un filtre passe-bas respectivement au spectre de hautes fréquences et au spectre de basses fréquences.

Les étapes du procédé décrit ci-dessus peuvent être effectuées par un ou plusieurs processeurs programmables exécutant un programme informatique pour exécuter les fonctions de l'invention en opérant sur des données d'entrée et générant des données de sortie. Un programme informatique peut être écrit dans n'importe quelle forme de langage de programmation, y compris les langages compilés ou interprétés, et le programme d'ordinateur peut être déployé dans n'importe quelle forme, y compris en tant que programme autonome ou comme un sous-programme, élément ou autre unité appropriée pour une utilisation dans un environnement informatique. Un programme d'ordinateur peut être déployée pour être exécuté sur un ordinateur ou sur plusieurs ordinateurs à un seul site ou répartis sur plusieurs sites et reliées entre elles par un réseau de communication.

Le mode de réalisation préféré de la présente invention a été décrit. Diverses modifications peuvent être apportées sans s'écarter de l'esprit et de la portée de l'invention. Par conséquent, d'autres mises en œuvre sont dans la portée des revendications suivantes.