Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PROCESSING OF SOUND DATA ENCODED IN A SUB-BAND DOMAIN
Document Type and Number:
WIPO Patent Application WO/2011/045506
Kind Code:
A1
Abstract:
The invention relates to the processing of sound data encoded in a sub-band domain, for dual-channel playback of binaural or transaural® type, in which a matrix filtering is applied in order to go from a sound representation with N channels with N>0, to a dual-channel representation. This sound representation with N channels consists in considering N virtual loudspeakers surrounding the head of a listener, and, for each virtual loudspeaker of some at least of the loudspeakers: a first transfer function specific to an ipsi-lateral path from the loudspeaker (AVG) to a first ear (OG) of the listener, facing the loudspeaker, and a second transport function specific to a contra-lateral path from said loudspeaker (AVG) to the second ear (OD) of the listener, masked from the loudspeaker by the head of the listener. The matrix filtering applied within the meaning of the invention comprises a multiplicative coefficient ((C/I)AVG) defined by the spectrum, in the sub-band domain, of the second transfer function deconvolved with the first transfer function.

Inventors:
EMERIT MARC (FR)
NICOL ROZENN (FR)
PALLONE GREGORY (FR)
Application Number:
PCT/FR2010/052119
Publication Date:
April 21, 2011
Filing Date:
October 08, 2010
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRANCE TELECOM (FR)
EMERIT MARC (FR)
NICOL ROZENN (FR)
PALLONE GREGORY (FR)
International Classes:
H04S1/00; G10L19/00; G10L19/008
Foreign References:
US6442277B12002-08-27
US7505601B12009-03-17
Other References:
"ISO/IEC 23003-1:2006/FDIS, MPEG Surround", ITU STUDY GROUP 16 - VIDEO CODING EXPERTS GROUP -ISO/IEC MPEG & ITU-T VCEG(ISO/IEC JTC1/SC29/WG11 AND ITU-T SG16 Q6), XX, XX, no. N8324, 21 July 2006 (2006-07-21), XP030014816
INFORMATION TECHNOLOGY - MPEG AUDIO TECHNOLOGIES - PART 1: MPEG SURROUND, 21 July 2006 (2006-07-21)
Attorney, Agent or Firm:
FRANCE TELECOM R&D/PIV/BREVETS (FR)
Download PDF:
Claims:
Revendications

1. Procédé de traitement de données sonores encodées dans un domaine de sous- bandes, pour une restitution bi-canal de type binaurale ou transaurale®, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal,

ladite représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :

- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur (AVG) vers une première oreille (OG) de l'auditeur, face au haut-parleur, et une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur (AVG) vers la seconde oreille (OD) de l'auditeur, masquée du haut-parleur par la tête de l'auditeur,

le filtrage matriciel appliqué comportant un coefficient multiplicatif ((C/I)AVG) défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.

2. Procédé selon la revendication 1, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à M canaux, avec M>0, à une représentation bi- canal, en passant par une représentation intermédiaire sur lesdits N canaux, avec N>2, et dans lequel les coefficients de la matrice s'expriment, pour un trajet contra-latéral, au moins en fonction de gains de spatialisation respectifs des M canaux sur les N haut- parleurs virtuels situés dans un hémisphère autour d'une première oreille, et des spectres de fonction de transfert contra-latérale, relative à la deuxième oreille de l'auditeur, déconvoluée par la fonction de transfert ipsi-latérale, relative à la première oreille,

tandis que pour un trajet ipsi-latéral, les coefficients de la matrice s'expriment en fonction de gains de spatialisation des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille.

3. Procédé selon la revendication 2, dans lequel la représentation à N canaux comporte, par hémisphère autour d'une oreille, au moins un haut-parleur virtuel direct et un haut- parleur virtuel d'ambiance, les coefficients de la matrice s 'exprimant, dans un domaine de sous-bandes en transformée temps-fréquence (PQMF), par :

- pour les trajets d'un haut-parleur virtuel central vers l'oreille

gauche,

- pour les trajets d'un haut-parleur virtuel central vers l'oreille

droite,

- P ur les trajets contra-latéraux

vers l'oreille gauche ;

- pour les trajets contra-latéraux vers

l'oreille droite ;

- , Pour les trajets ipsi-latéraux vers l'oreille gauche ;

- , pour les trajets ipsi-latéraux vers l'oreille droite ;

où :

- g est un gain de répartition de mixage d'un canal de haut-parleur virtuel central vers des canaux de haut-parleurs directs gauche et droit,

- et représentent des gains relatifs à appliquer à un même premier signal

pour définir des canaux L et Ls respectivement des haut-parleurs virtuels gauche direct et gauche d'ambiance, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence,

- ou représentent des gains relatifs à appliquer à un même deuxième signal pour définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance, pour l'échantillon l de la bande de fréquence m en transformée temps- fréquence, - ou i. est l'expression du spectre de la fonction de transfert de type HRTF

contra-latérale, relative à l'oreille droite de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille gauche, pour un haut-parleur virtuel gauche, direct ou respectivement d'ambiance,

- ou est l'expression du spectre de la fonction de transfert de type HRTF

contra-latérale, relative à l'oreille gauche de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille droite, pour un haut-parleur virtuel droit, direct ou respectivement d'ambiance,

- sont des déphasages entre fonctions de transfert contra-latérale et

ipsi-latérale correspondant à des retards interauraux choisis, et

- sont des pondérations choisies.

4. Procédé selon l'une des revendications précédentes, dans lequel les coefficients de la matrice varient en fonction de la fréquence, selon une pondération d'un facteur choisi et inférieur à un, si la fréquence est inférieure à un seuil choisi, et de un sinon.

5. Procédé selon la revendication 4, dans lequel le facteur est de 0,5 environ et le seuil de fréquence choisi est de 500 Hz environ pour éliminer une distorsion de coloration. 6. Procédé selon l'une des revendications précédentes, dans lequel on applique en outre un gain choisi à deux signaux de voie gauche et de voie droite en représentation bi- canal, avant restitution, le gain choisi étant contrôlé pour limiter une énergie des signaux de voie gauche et de voie droite, au maximum, à une énergie de signaux des haut-parleurs virtuels.

7. Procédé selon la revendication 6, prise en combinaison avec l'une des revendications 4 et 5, dans lequel on applique un contrôle automatique de gain aux deux signaux de voie gauche et de voie droite, en aval de l'application du facteur de pondération variable en fréquence.

8. Procédé selon l'une des revendications 3 à 7, dans lequel le filtrage matriciel s'exprime selon un produit de matrices de type : ou :

- W l'm représente une matrice de traitement d'expansion de signaux stéréo vers M' canaux, avec M'>2, et

1 0 0 0 0 0

représente un traitement matriciel global

comportant :

* un traitement d'expansion de M' canaux vers lesdits N canaux, avec N>3, et

* un traitement de spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®, avec :

9. Procédé selon l'une des revendications précédentes, dans lequel le filtrage matriciel consiste à appliquer :

- un premier traitement (DOWNMIX) de sous-mixage des N canaux vers deux signaux stéréo, et

- un deuxième traitement (DBA) menant, lorsqu'il est exécuté conjointement avec le premier traitement, à une spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®.

10. Procédé selon la revendication 9, dans lequel on choisit une pondération (a) du deuxième traitement dans ledit filtrage matriciel.

11. Procédé selon la revendication 10, dans lequel le premier traitement est appliqué dans un codeur communiquant avec un décodeur, et le second traitement est appliqué dans ledit décodeur.

12. Procédé selon l'une des revendications 9 à 11, prises en combinaison avec la revendication 8, dans lequel la matrice :

s'écrit comme une somme de matrices avec :

- une première matrice représentant le premier traitement s 'exprimant par :

- et une deuxième matrice représentant le deuxième traitement s 'exprimant par , avec :

13. Programme d'ordinateur comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications précédentes, lorsque ce programme est exécuté par un processeur.

14. Module de traitement de données sonores encodées dans un domaine de sous- bandes, pour une restitution bi-canal de type binaurale ou transaurale®,

le module comportant des moyens pour appliquer un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal, ladite représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :

une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur (AVG) vers une première oreille (OG) de l'auditeur, face au haut-parleur, et

- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur (AVG) vers la seconde oreille (OD) de l'auditeur, masquée du haut-parleur par la tête de l'auditeur,

le filtrage matriciel appliqué comportant un coefficient multiplicatif ((C/I)AVG) défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.

15. Module selon la revendication 14, comportant en outre des moyens de décodage de type MPEG Surround®.

Description:
Traitement de données sonores encodées dans un domaine de sous-bandes

L'invention concerne un traitement de données sonores. Dans le contexte du traitement de données sonores dans un format multicanal (5.1 ou plus), on cherche à procurer un effet de spatialisation 3D appelé « Virtual Surround ». De tels traitements impliquent des filtres qui visent à reproduire un champ sonore aux entrées des conduits auditifs d'une personne. En effet, un auditeur est capable de localiser les sons dans l'espace avec une certaine précision, grâce à la perception des sons par ses deux oreilles. Les signaux émis par les sources sonores subissent des transformations acoustiques en se propageant jusqu'aux oreilles. Ces transformations acoustiques sont caractéristiques du canal acoustique s'établissant entre une source sonore et un point du conduit auditif de l'individu. Chaque oreille possède son propre canal acoustique, et ces canaux acoustiques dépendent de la position et de l'orientation de la source relativement à l'auditeur, de la forme de la tête et de l'oreille de l'auditeur, mais aussi de l'environnement acoustique (par exemple une réverbération due à un effet de salle). Ces canaux acoustiques peuvent être modélisés par des filtres appelés communément "Réponses Impulsionnelles de la tête" ou HRIR (pour "Head Related Impulse Responses" en anglais), ou encore "Fonctions de transferts de la tête" ou HRTF ("Head Related Transfer Functions" en anglais) selon que l'on en donne respectivement une représentation dans le domaine temporel ou encore fréquentiel. En référence à la figure 1, on a représenté un chemin "direct" CD d'une source HPl à l'oreille (gauche) OG de l'auditeur AU (vu de dessus), cette oreille OG étant située directement en regard de la source HPl. On a représenté aussi un chemin "croisé" CC entre une source HP2 et cette même oreille OG de l'auditeur AU, le chemin CC traversant la tête TET de l'auditeur AU car la source HP2 est disposée de l'autre côté du plan médian P par rapport à la source HP2. Dans un milieu sans réverbération (par exemple une chambre anéchoïque), en considérant que les visages humains sont symétriques, les fonctions HRTFs pour l'oreille gauche et pour l'oreille droite (dites ci-après respectivement "HRTF gauche" et "HRTF droite") sont identiques pour les sources qui se situent dans le plan médian (plan P qui sépare la moitié gauche de la moitié droite du corps comme illustré sur la figure 2). Les indices acoustiques exploités par le cerveau pour localiser les sons sont souvent classés en deux familles d'indices :

les indices dits "monauraux" concernant la localisation d'un son à partir d'une seule oreille, et

- les indices dits " interauraux" concernant la localisation d'un son par le cerveau en exploitant les différences entre les signaux perçus à l'oreille gauche et l'oreille droite.

On décrit ci-après des techniques connues de traitement de données sonores au format multi-canal (par exemple à plus de deux haut-parleurs) en vue d'une restitution sur deux haut-parleurs seulement, par exemple sur un casque avec un effet de spatialisation 3D.

On entend alors par les termes « restitution binaurale » l'écoute sur casque de contenus audio initialement au format multi-canal (par exemple au format 5.1 , ou d'autres formats délivrant plus de deux voies), ces contenus audio étant traités notamment avec un mixage des canaux pour délivrer seulement deux signaux alimentant, en configuration dite "binaurale", les deux mini haut-parleurs (ou "oreillettes") d'un casque classique stéréophonique). Ainsi, dans la transformation d'un format "multi- canal" vers un format "binaural", on cherche à offrir une qualité de spatialisation et d'immersion au casque proche ou équivalente à celle obtenue avec un système de restitution multi-canal comportant autant de haut-parleurs distants que de canaux. Par ailleurs, on entend par les termes « restitution transaurale® » l'écoute sur deux haut- parleurs distants de contenus audio initialement dans un format multi-canal. Classiquement, pour une écoute d'un contenu audio au format multi-canal 5.1 sur un casque stéréophonique ou sur une paire de haut-parleurs, on effectue un matriçage des canaux, appelé ci-après "sous-mixage" ou "Downmix". Un traitement "Downmix" est un traitement matriciel qui permet de passer de N canaux à M canaux avec N>M. On considérera dans la suite qu'un traitement "Downmix" (dès lors qu'il ne tient pas compte d'effets de spatialisation) ne fait pas intervenir de filtre à base de fonctions HRTF. En général, les matrices du traitement "Downmix" utilisées dans des appareils de restitution sonore (ordinateur PC, lecteur de DVD, télévision, ou autres) ont des coefficients constants qui ne dépendent ni du temps ni de la fréquence. Des traitements "Downmix" récents présentent maintenant des matrices dont les coefficients dépendent du temps et de la fréquence et sont ajustés à chaque instant en fonction d'une représentation temps et fréquence des signaux d'entrée. Ce type de matrice permet par exemple d'éviter que les signaux d'entrées s'annulent en s'additionnant. Une version à matrice constante d'un traitement de type "Downmix", nommé "Downmix ITU", a été normalisée par l'Union Internationale des Télécommunications ou "ITU" (pour "International Télécommunication Union"). Ce traitement est appliqué par la mise en œuvre des équations suivantes :

S G = EAVG + E c * 0,707 + EARG * 0,707

S R = EAVD + E c * 0,707 + E ARD * 0,707,

où :

SG et SR sont respectivement des signaux stéréo de sortie de gauche et de droite, EAVG et EAVD sont respectivement des signaux d'entrée qui auraient été destinés à alimenter des haut-parleurs latéraux gauche AVG et droit AVD (illustrés sur la figure 2),

- E ARG et E ARD sont respectivement des signaux d'entrée qui auraient été destinés à alimenter des haut-parleurs arrière gauche ARG et arrière droit ARD, situés derrière l'auditeur AU de la figure 2,

Ec est un signal d'entrée qui aurait été destiné à alimenter un haut-parleur central C situé en face de l'auditeur AU, et

- 0,707 représente une approximation de la racine carrée de 1/2. On peut considérer de tels gains comme des gains appliqués aux haut-parleurs.

A titre d'exemple, le traitement dit ci-après "Downmix ITU" ne permet pas la perception spatiale précise des événements sonores. Comme indiqué précédemment d'ailleurs, un traitement de type "Downmix", de façon générale, ne permet pas la perception spatiale puisqu'il ne fait pas intervenir de filtre HRTF. Le sentiment d'immersion que peuvent offrir les contenus au format multi-canal est alors perdu avec une écoute au casque par rapport à l'écoute sur un système à plus de deux haut-parleurs (par exemple au format 5.1 comme illustré sur la figure 2). A titre d'exemple, un son supposé être émis par une source mobile de l'avant vers l'arrière de l'auditeur, n'est pas correctement restitué sur un système simplement stéréo (sur un casque à oreillettes ou une paire de haut-parleurs). En outre, un son présent uniquement dans le canal S G (OU SR) et traité par le sous-mixage " Downmix ITU" n'est restitué que dans l'oreillette gauche (ou droite, respectivement) dans le cas d'une écoute au casque, alors que dans le cas d'une écoute sur un système à plus de deux haut-parleurs (par exemple au format 5.1), l'oreille droite (ou gauche, respectivement) perçoit, elle aussi, un signal par diffraction.

Afin de pallier ces inconvénients, le procédé de sous-mixage vers un format binaural, dit "Downmix binaural", a été développé. Il consiste à placer virtuellement cinq (ou plus) haut-parleurs dans un environnement sonore restitué sur deux voies seulement, comme si cinq sources (ou plus) étaient à spatialiser pour une restitution binaurale.

Ainsi, un contenu au format multi-canal est diffusé sur des haut-parleurs "virtuels" dans un contexte de restitution binaurale. Les utilisations d'une telle technique se retrouvent actuellement principalement dans les lecteurs DVD (sur ordinateurs PC, sur des télévisions, sur des lecteurs de salon, ou autres), et bientôt sur les terminaux mobiles pour la lecture de données télévisuelles ou vidéo.

Dans le procédé "Downmix binaural", les haut-parleurs virtuels sont créés par la technique dite de "synthèse binaurale". Cette technique consiste à appliquer des fonctions de transfert acoustique de la tête (HRTF), à des signaux audio monophoniques, afin d'obtenir un signal binaural qui permet, lors d'une écoute au casque, d'avoir la sensation que les sources sonores proviennent d'une direction particulière de l'espace. Le signal de l'oreille droite est obtenu en filtrant le signal monophonique par la fonction HRTF de l'oreille droite et le signal de l'oreille gauche est obtenu en filtrant ce même signal monophonique par la fonction HRTF de l'oreille gauche. Le signal binaural résultant est alors disponible pour une écoute sur casque.

Cette mise en œuvre est illustrée sur la figure 3A. Une fonction de transfert définie par un filtre est associée à chaque chemin acoustique entre une oreille de l'auditeur et un haut-parleur virtuel (placé comme préconisé dans le format multi-canal 5.1 dans l'exemple représenté). Ainsi, en référence à la figure 3B, pour dix chemins acoustiques en tout :

- HCg (respectivement HCd) est le filtre correspondant à une HRTF pour le chemin entre le haut-parleur central C et l'oreille gauche OG (respectivement droite OD) de l'auditeur,

HGg (respectivement HDd) est le filtre correspondant à une HRTF dite "ipsi- latérale" (oreille "éclairée" par le haut-parleur) pour le chemin direct (en trait plein) entre le haut-parleur latéral gauche AVG (respectivement latéral droit AVD) et l'oreille gauche OG (respectivement droite OD) de l'auditeur,

- HGd (respectivement HDg) est le filtre correspondant à une HRTF dite "contra- latérale" (oreille dans "l'ombre" de la tête) pour le chemin indirect (en traits pointillés) entre le haut-parleur latéral gauche AVG (respectivement latéral droit AVD) et l'oreille droite OD (respectivement gauche OG) de l'auditeur,

HGSg (respectivement HDSd) est le filtre correspondant à une HRTF ipsi-latérale pour le chemin direct (en trait plein) entre le haut-parleur arrière gauche ARG

(respectivement arrière droit ARD) et l'oreille gauche OG (respectivement droite OD) de l'auditeur, et

- HGSd (respectivement HDSg) est le filtre correspondant à une HRTF contra- latérale pour le chemin indirect (en traits pointillés) entre le haut-parleur arrière gauche ARG (respectivement arrière droit ARD) et l'oreille droite OD

(respectivement gauche OG) de l'auditeur. Un inconvénient de cette technique est sa complexité puisqu'il faut deux filtres binauraux par haut-parleur virtuel (une HRTF ipsi-latérale et une HRTF contra- latérale), donc dix filtres en tout dans le cas d'un format 5.1.

Le problème est accru lorsqu'il s'agit de manipuler ces fonctions de transfert au cours de différents traitements tels que ceux selon la norme MPEG et en particulier le traitement appelé « MPEG surround » ®. En effet, en référence au point 6.1 1.4.2.2.2 du document « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/IEC JTC 1/SC 29 (21 juillet 2006), on prévoit un filtrage matriciel, dans le domaine des sous-bandes m (notées aussi k(k) ici), du type :

pour passer de deux signaux monophoniques à des signaux stéréophoniques en représentation binaurale.

En effet, cette norme prévoit un mode de réalisation dans lequel un signal multi-canal est transporté sous la forme d'un mixage (downmix) stéréo et de paramètres de spatialisation (notés CLD pour "Channel Level Différence", ICC pour "Inter-Channel Cohérence", et CPC pour "Channel Prédiction Coefficient"). Ces paramètres permettent dans une première étape de mettre en œuvre un traitement d'expansion du mixage (ou « downmix ») stéréo vers trois signaux L', R' et C. Dans une seconde étape, ils permettent l'expansion des signaux L', R' et C pour obtenir des signaux 5.1 (notés L, Ls, R, Rs, C et LFE pour « Low Frequency Effect »). Dans le mode binaural, les signaux C et LFE ne sont pas séparés. Le signal C est utilisé pour le traitement de Downmix binaural. Donc ici, à partir de deux signaux monophoniques, on construit d'abord trois signaux (pour des canaux respectifs gauche L', droit R' et centre C'). Ainsi, la notation

désigne une matrice de traitement d'expansion de signaux stéréo vers ces trois canaux. Les traitements suivants sont ensuite :

* un traitement d'expansion de ces trois canaux vers N canaux en configuration multi- canal, par exemple 5 canaux en format 5.1, et

* un traitement de spatialisation de N haut-parleurs virtuels respectivement associés à ces N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®, avec :

, pour le trajet d'un haut-parleur central associé au canal précité C

vers l'oreille gauche, , pour le trajet du haut-parleur associé au

central C vers l'oreille droite, our les trajets ipsi-latéraux vers l'oreille gauche, , pour les trajets contra-latéraux vers

l'oreille gauche,

¾ , pour les trajets contra-latéraux vers

l'oreille droite, , pour les trajets ipsi-latéraux vers l'oreille

droite,

où :

et représentent des gains relatifs à appliquer au signal du canal L' pour

définir des canaux L et Ls respectivement des haut-parleurs virtuels gauche direct et gauche d'ambiance au format 5.1, pour l'échantillon l de la bande de fréquence m en transformée temps-fréquence,

- ou représentent des gains relatifs à appliquer au signal du canal R' pour

définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance au format 5.1, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence,

et sont des déphasages correspondant à des retards interauraux, et sont des pondérations telles que :

On retiendra en particulier que :

- est l'expression du spectre de la fonction de transfert de type HRTF pour un trajet entre un haut-parleur central au format 5.1 et l'oreille gauche d'un auditeur, - est l'expression du spectre de la fonction de transfert de type HRTF pour un trajet entre un haut-parleur central au format 5.1 et l'oreille droite d'un auditeur, - est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur

gauche d'ambiance au format 5.1 et l'oreille gauche,

- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur gauche d'ambiance au format 5.1 et l'oreille droite,

- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur droit d'ambiance au format 5.1 et l'oreille gauche,

- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur

droit d'ambiance au format 5.1 et l'oreille droite,

est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur - droit au format 5.1 et l'oreille gauche, et

- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur droit au format 5.1 et l'oreille droite, - est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur gauche au format 5.1 et l'oreille gauche, et

- est l'expression du spectre de la HRTF pour un trajet entre un haut-parleur

gauche au format 5.1 et l'oreille droite.

On retrouve ainsi dix filtres associés aux fonctions de transfert HRTFs précitées pour le format 5.1 vers une représentation binaurale dans cet exemple. Il s'en suit le problème complexité que pose cette technique, nécessitant deux filtres binauraux par haut-parleur virtuel (une HRTF ipsi-latérale et une HRTF contra-latérale).

La présente invention vient améliorer la situation.

A cet effet, elle propose tout d'abord un procédé de traitement de données sonores encodées dans un domaine de sous-bandes, pour une restitution bi-canal de type binaurale ou transaurale®, dans lequel on applique un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal, cette représentation sonore à N canaux consistant à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :

- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur vers une première oreille de l'auditeur, face au haut-parleur, et

- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur vers la seconde oreille de l'auditeur, masquée du haut-parleur par la tête de l'auditeur.

Avantageusement, le filtrage matriciel appliqué comporte un coefficient multiplicatif défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.

Un premier avantage qui découle d'une telle construction est la réduction significative de la complexité des traitements. Déjà, comme on le verra en détail plus loin, les fonctions de transfert du haut-parleur virtuel central n'ont plus besoin d'être prises en compte. Ainsi, il n'est pas nécessaire de prendre en compte les fonctions de transfert de tous les haut-parleurs virtuels, mais d'une partie seulement des haut-parleurs virtuels.

Une autre simplification qui découle de la construction au sens de l'invention est qu'il n'est plus nécessaire de prévoir de fonction de transfert pour les trajets ipsi-latéraux. Par exemple, dans le cas d'un filtrage matriciel pour passer d'une représentation sonore à M canaux, avec M>0, à une représentation bi-canal (binaurale ou transaurale), en passant par une représentation intermédiaire sur les N canaux, avec N>2, comme dans le cas de la norme décrite ci-avant, les coefficients de la matrice s'expriment, pour un trajet contra- latéral, notamment en fonction de gains de spatialisation respectifs des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille, et des spectres de fonction de transfert contra-latérale, relative à la deuxième oreille de l'auditeur, déconvoluée par la fonction de transfert ipsi-latérale, relative à la première oreille. Toutefois, de façon avantageuse, pour un trajet ipsi-latéral, les coefficients de la matrice ne s'expriment plus en fonction des spectres de HRTFs mais simplement en fonction de gains de spatialisation des M canaux sur les N haut-parleurs virtuels situés dans un hémisphère autour d'une première oreille.

Ainsi, si la représentation à N canaux comporte, par hémisphère autour d'une oreille, au moins un haut-parleur virtuel direct et un haut-parleur virtuel d'ambiance comme dans le « virtual surround », les coefficients de la matrice s'exprimant, dans un domaine de sous-bandes en transformée temps-fréquence (par exemple de type « P MF » pour « Pseudo-Quadrature Mirror Filters »), par :

Si les fonctions HRTF sont symétriques on a

- pour les trajets contra- latéraux vers

l'oreille gauche ;

- , pour les trajets contra- latéraux vers

l'oreille droite ; " seulement, pour les trajets ipsi-latéraux vers l'oreille

gauche ;

- seulement, pour les trajets ipsi-latéraux vers l'oreille droite,

où :

- et représentent des gains relatifs à appliquer à un même premier signal

(par exemple le signal du canal L' dans une configuration initiale à trois canaux, comme décrit ci-avant) pour définir des canaux L et Ls respectivement des haut- parleurs virtuels gauche direct et gauche d'ambiance, pour l'échantillon / de la bande de fréquence m en transformée temps-fréquence,

- ou représentent des gains relatifs à appliquer à un même deuxième signal (par exemple le canal R') pour définir des canaux R et Rs des haut-parleurs virtuels droit direct et droit d'ambiance, pour l'échantillon l de la bande de fréquence m en transformée temps-fréquence,

- ou est l'expression du spectre de la fonction de transfert de type HRTF

contra-latérale, relative à l'oreille droite de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille gauche, pour un haut-parleur virtuel gauche, direct ou respectivement d'ambiance,

- ou est l'expression du spectre de la fonction de transfert de type HRTF

contra-latérale, relative à l'oreille gauche de l'auditeur, déconvoluée par une fonction de transfert ipsi-latérale, relative à l'oreille droite, pour un haut-parleur virtuel droit, direct ou respectivement d'ambiance,

- et sont des déphasages entre fonctions de transfert contra-latérale et

ipsi-latérale correspondant à des retards interauraux choisis, et - sont des pondérations choisies.

Typiquement, le coefficient g peut avoir une valeur avantageuse de 0,707 (correspondant à la racine de 1/2, lorsqu'on prévoit une répartition en énergie de moitié du signal du haut-parleur central sur les haut-parleurs latéraux), comme préconisé dans le traitement « Downmix ITU ».

Plus précisément, par la mise en œuvre de l'invention, le filtrage matriciel s'exprime selon un produit de matrices de type :

ou :

- W l,m représente la matrice de traitement d'expansion de signaux stéréo vers M' cana x, avec M'>2 (par exemple M'=3), et représente un traitement matriciel

global comportant :

* un traitement d'expansion de M' canaux vers les N canaux, avec N>3 (par exemple 5, pour un format 5.1), et

* un traitement de spatial isation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®. Un autre inconvénient du procédé "Downmix binaural" au sens de l'art antérieur est qu'il ne respecte pas le timbre du son initial, que restitue bien le traitement "Downmix", car les filtres du traitement binaural résultant des HRTFs modifient fortement le spectre des signaux et apportent ainsi des effets de "coloration" en comparaison du "Downmix". La grande majorité des utilisateurs préfèrent d'ailleurs le "Downmix" même si le "Downmix binaural" procure effectivement une perception spatiale extracrânienne des sons. L'inconvénient du dé-timbrage (ou "coloration") apporté par le "Downmix Binaural" n'est pas compensé par l'apport des effets de spatialisation, selon le ressenti des utilisateurs.

Là encore, la construction au sens de la présente invention vient améliorer la situation. La mise en œuvre de l'invention telle que décrite ci-avant permet de préserver de toute distorsion le timbre perçu des sources sonores.

En effet, le filtrage de la composante contra-latérale défini par la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale permet de réduire la distorsion de timbre apportée par le traitement de binauralisation. Comme on le verra plus loin, un tel filtrage revient à un filtrage passe-bas retardé d'une valeur correspondant au retard interaural. On peut choisir avantageusement une fréquence de coupure du filtre passe-bas pour tous les couples de HRTF à environ 500 Hz, avec une pente de filtre très importante. Le cerveau perçoit, sur une oreille, le signal original (sans traitement) et, sur l'autre oreille, le signal retardé et filtré passe bas. Au-delà de la fréquence de coupure, la différence de niveau perçue par rapport à l'écoute diotique du signal orignal atténué de 6dB, est minime. En revanche, sous la fréquence de coupure, le signal est perçu deux fois plus fort. Pour les signaux contenant des fréquences sous la fréquence de coupure, la différence de timbre consistera donc en une amplification des basses fréquences.

Un tel dé-timbrage peut avantageusement être éliminé simplement par un filtrage passe-haut, qui peut être le même pour toutes les fonctions de transfert HRTFs (directions de haut-parleurs). Dans le cas d'un traitement pour une restitution binaurale, le dé-timbrage précité peut avantageusement être appliqué sur le signal stéréo binaural résultant du sous-mixage. Pour éviter en outre une différence de sonie entre les résultats d'un traitement de type « Downmix » et un traitement de binauralisation au sens de l'invention, on peut avantageusement prévoir en outre un contrôle de gain automatique en fin de traitement, pour faire en sorte que les niveaux que délivreraient le traitement Downmix et le traitement de binauralisation au sens de l'invention soient similaires. A cet effet, comme on le verra en détail plus loin, on prévoit en bout de chaîne de traitement un filtre passe-haut et un contrôle automatique de gain.

Ainsi, en termes plus génériques, on applique en outre un gain choisi à deux signaux de voie gauche et de voie droite en représentation bi-canal (binaurale ou transaurale®), avant restitution, le gain choisi étant contrôlé pour limiter une énergie des signaux de voie gauche et de voie droite, au maximum, à une énergie de signaux des haut-parleurs virtuels. Dans une mise en œuvre pratique, on applique préférentiellement un contrôle automatique de gain aux deux signaux de voie gauche et de voie droite, en aval de l'application du facteur de pondération variable en fréquence.

On tire avantage en outre du traitement au sens de l'invention pour éliminer la distorsion de coloration apportée par le traitement de binauralisation habituel. Π apparaît en effet que le traitement de réduction de distorsion de coloration est très simple à réaliser lorsqu'il est mis en œuvre dans le domaine transformé des sous- bandes. En effet, les équations ci-avant donnant les coefficients de matrices deviennent simplement :

La pondération « Gain » dans les équations ci-dessus étant telle que, dans un exemple de réalisation :

Gain = 0,5 si la bande de fréquence d'indice m est telle que m < 9 (ou si la fréquence f est elle-même inférieure à 500 Hz) et Gain = 1, sinon.

Ainsi, en termes plus génériques, les coefficients de la matrice précitée et intervenant dans le filtrage matriciel varient en fonction de la fréquence, selon une pondération d'un facteur (Gain) choisi et inférieur à un, si la fréquence est inférieure à un seuil choisi, et de un sinon. Dans l'exemple de réalisation donné ci- avant, le facteur est de 0,5 environ et le seuil de fréquence choisi est de 500 Hz environ pour éliminer une distorsion de coloration.

Il est possible aussi d'appliquer ce gain directement en sortie de traitement, en particulier aux signaux de sortie avant restitution sur haut-parleurs ou oreillettes, en appliquant aux équations :

gain précité, comme suit

La pondération « Gain » et le contrôle automatique de gain peuvent aussi être intégrés dans un même traitement, comme suit :

si la bande de fréquence d'indice m est telle que m < 9 (ou si la fréquence

même inférieure à 500 Hz) et , sinon.

Un autre avantage que procure l'invention est le transport du signal encodé et son traitement auprès d'un décodeur pour améliorer sa qualité sonore, par exemple un décodeur de type MPEG Surround ®. Dans le contexte de l'invention où aucune fonction de transfert n'est appliquée pour les trajets directs (contributions ipsi-latérales) et un traitement supplémentaire est prévu sur les trajets indirects (spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale), il est intéressant de constater qu'en appliquant un gain de 0,707 aux signaux des canaux central, et d'ambiance (arrière- gauche et arrière-droit), alors la partie non traitée du sous-mixage stéréo (les contributions ipsi- latérales) présente la même forme que le résultat d'un traitement de type Downmix ITU. On peut généraliser ce qui précède à tout type de traitement de sous-mixage (Downmix). En effet, un traitement Downmix vers deux canaux consiste généralement à appliquer une pondération aux canaux (des haut-parleurs virtuels), puis à sommer les N canaux vers deux signaux de sortie. Appliquer un traitement de spatialisation binaurale au traitement Downmix consiste à appliquer aux N canaux pondérés les filtres HRTF correspondant aux positions des N haut-parleurs virtuels. Comme ces filtres sont égaux à 1 pour les contributions ipsi-latérales, on retrouve bien le traitement de Downmix en appliquant la somme des contributions ipsi-latérales.

Donc, les signaux obtenus par un traitement de binauralisation au sens de l'invention se présentent comme étant issus d'une somme de signaux de type Downmix et d'un signal stéréo comprenant les indices de localisation nécessaires au cerveau pour percevoir la spatialisation des sons. Ce second signal est appelé ci- après "Downmix Binaural Additionnel" , de sorte que le traitement au sens de l'invention appelé ici "Downmix Binaural" est tel que :

"Downmix Binaural" = "Downmix" + "Downmix Binaural Additionnel" .

Cette dernière équation peut être généralisée à :

"Downmix Binaural" = "Downmix"+ a "Downmix Binaural Additionnel"

Dans cette équation, a peut être un coefficient compris entre 0 et 1. Par exemple, un utilisateur auditeur peut choisir le niveau du coefficient a entre 0 et 1, continûment ou en basculant entre 0 et 1 (en mode « ON - OFF »). Ainsi, on peut choisir une pondération a du deuxième traitement "Downmix Binaural Additionnel" traitement global utilisant le filtrage matriciel au sens de l'invention.

On peut considérer aussi la pondération a dans cette équation comme une fonction de quantification, par exemple basée sur un seuillage en énergie du résultat du traitement DBA pour « Downmix Binaural Additionnel » (avec par exemple, α=0 si le résultat du traitement DBA présente, dans une bande spectrale donnée, une énergie inférieure à un seuil, et =1, sinon, pour cette même bande spectrale). Cette réalisation présente l'avantage de ne requérir qu'une faible bande passante pour la transmission des résultats des traitements Downmix et DBA, d'un codeur à un décodeur comme représenté sur la figure 7 décrite plus loin, en ne sollicitant du débit que si le résultat du traitement DBA est significatif par rapport au résultat du Downmix. Bien entendu, on peut prévoir différents seuils avec par exemple α=0 ; 0,25 ; 0,5; 0,75 ; 1. Ce signal additionnel ne nécessite que peu de débit pour le transporter. En effet, il se présente comme un signal résiduel, filtré passe-bas et donc a priori beaucoup moins énergétique que le signal Downmix. En outre, il présente des redondances avec le signal Downmix. Cette propriété peut être exploitée avantageusement conjointement avec des codées de type Dolby Surround, Dolby Prologic ou MPEG Surround.

Le signal "Downmix Binaural Additionnel" peut alors être compressé et transporté de manière additionnelle et/ou scalable au signal Downmix, avec peu de débit. Lors d'une écoute au casque, l'addition des deux signaux stéréo permet à l'auditeur de profiter pleinement du signal binaural avec une qualité très proche d'un format 5.1.

Ainsi, il suffit de décoder le signal "Downmix Binaural Additionnel" et de l'ajouter directement au signal Downmix. On peut prévoir de réaliser un codeur scalable, transportant par exemple par défaut un signal stéréo sans effet de binauralisation, et, si le débit le permet, transportant en outre une surcouche de signal additionnel pour la binauralisation. Dans le cas du codeur MPEG Surround, dans lequel il est prévu actuellement, dans l'un de ses modes opératoires, de transporter un signal stéréo (de type Downmix) et de réaliser le traitement de binauralisation dans le domaine codé (ou transformé), on obtient une complexité réduite et une meilleure qualité de rendu. Dans le cas d'un rendu sur casque, le décodeur a simplement à calculer le signal "Downmix Binaural Additionnel". La complexité est donc réduite, sans aucun risque de dégradation du signal de type Downmix. La qualité sonore n'en peut être qu'améliorée.

De telles caractéristiques se résument comme suit : le filtrage matriciel au sens de l'invention consiste à appliquer, dans un mode de réalisation avantageux :

- un premier traitement de sous-mixage des N canaux vers deux signaux stéréo (par exemple de type Downmix), et

- un deuxième traitement menant, lorsqu'il est exécuté conjointement avec le premier traitement, à une spatialisation des N haut-parleurs virtuels respectivement associés aux N canaux pour obtenir une représentation bi-canal, binaurale ou transaurale®.

Avantageusement, l'application du deuxième traitement est décidée en option (par exemple en fonction du débit, des capacités de restitution spatialisée d'un terminal, ou autres). Le premier traitement précité peut être appliqué dans un codeur communiquant avec un décodeur, tandis que le second traitement est avantageusement appliqué auprès du décodeur.

La gestion des traitements au sens de l'invention peut avantageusement être menée par un programme informatique comportant des instructions pour la mise en œuvre du procédé selon l'invention, lorsque ce programme est exécuté par un processeur, par exemple auprès d'un décodeur notamment. A ce titre, l'invention vise aussi un tel programme. La présente invention vise aussi un module équipé d'un processeur et d'une mémoire et susceptible d'exécuter ce programme informatique. Un module au sens de l'invention, pour le traitement de données sonores encodées dans un domaine de sous- bandes, en vue d'une restitution bi-canal de type binaurale ou transaurale®, comporte alors des moyens pour appliquer un filtrage matriciel pour passer d'une représentation sonore à N canaux avec N>0, à une représentation bi-canal. La représentation sonore à N canaux consiste à considérer N haut-parleurs virtuels entourant la tête d'un auditeur, et, pour chaque haut-parleur virtuel d'une partie au moins des haut-parleurs :

- une première fonction de transfert propre à un trajet ipsi-latéral du haut-parleur vers une première oreille de l'auditeur, face au haut-parleur, et

- une deuxième fonction de transfert propre à un trajet contra-latéral dudit haut- parleur vers la seconde oreille de l'auditeur, masquée du haut-parleur par la tête de l'auditeur.

Le filtrage matriciel appliqué comporte un coefficient multiplicatif défini par le spectre, dans le domaine des sous-bandes, de la deuxième fonction de transfert déconvoluée par la première fonction de transfert.

Un tel module peut avantageusement être un décodeur de type MPEG Surround® et comporter en outre des moyens de décodage de type MPEG Surround®, ou peut, en variante, être implanté dans un tel décodeur. D'autres caractéristiques et avantages de l'invention apparaîtront à l'examen de la description détaillée ci-après, et des dessins annexés sur lesquels :

- la figure 1 représente schématiquement une restitution sur deux haut-parleurs autour de la tête d'un auditeur ;

- la figure 2 représente schématiquement une restitution sur cinq haut-parleurs en format multi-canal 5.1 ;

- la figure 3A représente schématiquement les trajets ipsi-latéraux (traits pleins) et contra- latéraux (traits pointillés) en format multi-canal 5.1 ;

la figure 3B représente un schéma de traitement de l'art antérieur pour le passage d'un format multi-canal 5.1 illustré sur la figure 3 A à un format binaural ou transaural ; - la figure 4A représente schématiquement les trajets ipsi-latéraux (traits pleins) et contra-latéraux (traits pointillés) en format multi-canal 5.1, avec en outre les trajets ipsi-latéraux et contra-latéraux du haut-parleur central ;

la figure 4B représente un schéma de traitement pour le passage d'un format multi- - canal 5.1 illustré sur la figure 4 A à un format binaural ou transaural, à quatre filtres seulement dans une réalisation au sens de l'invention ;

- la figure 5 illustre un traitement équivalant à l'application de l'un des filtres de la figure 4B ;

- la figure 6 illustre un traitement additionnel de filtrage passe-haut et de contrôle automatique de gain à appliquer aux sorties SG et SD pour éviter une distorsion de coloration et une différence de timbre entre un traitement "Downmix" et un traitement au sens de l'invention ;

- la figure 7 illustre la situation d'un traitement au sens de l'invention, réalisé auprès du codeur dans un exemple de réalisation possible de l'invention, en particulier dans le cas d'un traitement additionnel DBA à combiner au traitement Downmix.

On se réfère tout d'abord à la figure 4A pour décrire un exemple de mise en œuvre du traitement pour passer d'une représentation multi-canal (format 5.1 dans l'exemple décrit) à une représentation bi-canal stéréo binaurale ou transaurale®. Sur cette figure, cinq haut-parleurs en configuration selon le format 5.1 sont illustrés :

- un haut-parleur frontal C situé face à l'auditeur, dans un plan médian (plan P de la figure 2),

- un haut-parleur latéral gauche AVG,

un haut-parleur latéral droit AVD, et

- un haut-parleur arrière gauche ARG pour produire un effet dit "surround",

- un haut-parleur arrière droit ARD pour produire aussi un effet dit "surround".

En référence maintenant à la figure 4B, la restitution du contenu audio en contexte binaural ou transaural est destinée à être effectuée sur une première voie SG et une deuxième voie SD, ce contenu étant initialement encodé dans un format multi-canal (à N canaux avec N=5 dans l'exemple décrit) dans lequel chaque canal est associé à une position de haut-parleur par rapport à l'auditeur (figure 4A).

Avantageusement, les canaux associés à des positions de haut-parleurs (par exemple les haut-parleurs AVG et ARG de la figure 4A) dans un premier hémisphère par rapport à l'auditeur (celui de l'oreille gauche OG) sont regroupés et appliqués directement à la voie SQ de la figure 4B. Les canaux associés aux positions des haut- parleurs AVD et ARD dans un second hémisphère par rapport à l'auditeur (celui de son oreille droite OD) sont regroupés et appliqués directement à l'autre voie SD de la figure 4B. On précise que les premier et second hémisphères sont séparés par le plan médian de l'auditeur. Ces composantes de signaux AVG, ARG étant directement appliquées à la voie SQ, d'une part, et les composantes de signaux AVD, ARD étant directement appliquées à la voie SD, d'autre part, on relèvera, dans l'exemple de la figure 4B, qu'aucun traitement particulier ne leur est appliqué.

En référence à nouveau à la figure 4B, les canaux AVG et ARG associés à des positions du premier hémisphère sont regroupés et appliqués aussi à la deuxième voie SD, et les canaux AVD et ARD associés à des positions du second hémisphère sont regroupés et appliqués aussi à la première voie SG- Ici, on prévoit un traitement supplémentaire à appliquer :

- à chaque canal AVG et ARG du premier hémisphère destiné à la seconde voie SD, et

- à chaque canal AVD et ARD du second hémisphère destiné à la première voie SQ. Le traitement supplémentaire comporte préférentiellement l'application d'un filtrage (C/I)AVG, (C/I) A VD, (C/I)ARG, (C/I)ARD (figure 4B) défini, dans le domaine codé (ou transformé) par le spectre d'une fonction de transfert acoustique contra-latérale déconvoluée par une fonction de transfert ipsi-latérale. Plus précisément, la fonction de transfert ipsi-latérale est associée à un chemin acoustique direct Uvc IAVD, RG, URD (figure 4A) entre une position de haut-parleur et une oreille de l'auditeur et la fonction de transfert contra-latérale est associée à un chemin acoustique CAVG, CAVD, CARG * CARD (figure 4A) traversant la tête de l'auditeur, entre la position de haut-parleur précitée et l'autre oreille de l'auditeur.

Ainsi, pour chaque canal associé à un haut-parleur virtuel situé en dehors du plan médian (donc tous les haut-parleurs sauf le haut-parleur frontal), la spatialisation du haut-parleur virtuel est assurée par une paire de fonctions de transfert HRTF (exprimées dans le domaine des fréquences) ou HRIR (exprimées dans le domaine temporel). Ces fonctions de transfert traduisent le trajet ipsi-latéral (trajet direct entre le haut-parleur et l'oreille la plus proche en trait plein sur la figure 4 A) et le trajet contra-latéral (trajet entre le haut-parleur et l'oreille masquée par la tête de l'auditeur en traits pointillés sur la figure 4A).

Plutôt que d'utiliser des fonctions de transfert brutes pour chaque trajet comme au sens de l'art antérieur, on supprime avantageusement le filtre associé au trajet ipsi-latéral et on utilise pour le trajet contra-latéral un filtre correspondant à la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale. Ainsi, pour chaque haut-parleur virtuel (hormis le haut-parleur central C), un seul filtre est utilisé.

Ainsi, en référence à la figure 4B :

- le filtre référencé (C/I)ARG est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur arrière gauche ARG et l'oreille droite OD déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur arrière gauche ARG et l'oreille gauche OG de l'individu, - le filtre référencé (C/I) A RD est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur arrière droit

ARD et l'oreille gauche OG déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur arrière droit ARD et l'oreille droite OD de l'individu, - le filtre référencé (C/I) A VG est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra-latérale du trajet entre le haut-parleur latéral gauche AVG et l'oreille droite OD déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur latéral gauche AVG et l'oreille gauche OG de l'individu, et

- le filtre référencé (C/I)AVD est défini, dans le domaine transformé, par le spectre de la fonction de transfert contra- latérale du trajet entre le haut-parleur latéral droit AVD et l'oreille gauche OG déconvoluée par la fonction de transfert ipsi-latérale du trajet entre le haut-parleur latéral droit AVD et l'oreille droite OD de l'individu.

Par ailleurs, le signal qui, en encodage 5.1, est destiné à alimenter le haut-parleur central C (dans le plan médian de symétrie de la tête de l'auditeur), est distribué en deux fractions (préférentiellement de manière égale à 50% et 50%) sur deux voies s'additionnant sur deux voies respectives des haut-parleurs latéraux gauche et droit. De la même façon, s'il est prévu un haut-parleur arrière dans le plan médian, le signal associé est mixé avec les signaux associés aux haut-parleurs arrière gauche ARG et arrière droit ARD. Bien entendu, s'il existe plusieurs haut-parleurs centraux (haut- parleur frontal pour une restitution des fréquences médium, haut-parleur frontal pour une restitution des fréquences basses, ou autres) leurs signaux sont additionnés et répartis encore sur les signaux associés aux haut-parleurs latéraux.

Comme le canal associé à une position centrale C de haut-parleur, dans le plan médian, est réparti en une première et une seconde fraction de signal, respectivement additionnée au canal du haut-parleur AVG dans le premier hémisphère (autour de l'oreille gauche OG) et au canal du haut-parleur AVD dans le second hémisphère (autour de l'oreille droite OD), il n'est pas nécessaire de prévoir des filtrages par les fonctions de transfert associées aux haut-parleurs se trouvant dans le plan médian, et ce sans changement de la perception de la spatialisation de la scène sonore en restitution binaurale ou transaurale®.

Bien entendu, il est possible aussi de prévoir un traitement de passage d'un format multi-canal à N canaux, avec N plus grand encore que 5 (format 7.1 ou autres) à un format binaural. A cet effet, il suffit, en ajoutant deux haut-parleurs latéraux supplémentaires, de prévoir les mêmes types de filtres (représentés par la HRTF contra-latérale déconvoluée par la HRTF ipsi-latérale) par exemple pour deux haut- parleurs supplémentaires dans le format initial 7.1.

La complexité de traitement est largement réduite puisque les filtres associés aux haut- parleurs situés dans le plan médian sont supprimés. Un autre avantage consiste en ce que l'effet de coloration des signaux associés est réduit.

Le spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale peut être défini, dans le domaine transformé, par :

- le gain de la transformée de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale, et

- le retard défini par la différence des phases respectives des fonctions de transfert contra-latérale et ipsi-latérale,

et éventuellement en fonction d'une estimation de cohérence entre la voie gauche - et la voie droite, notamment dans le cas d'une seule source mono initiale à spatialiser au format 5.1 puis au format binaural (ce cas étant décrit plus loin).

En première approximation, on peut simplement considérer que le rapport des gains respectifs des transformées des fonctions de transfert, dans chaque bande de fréquences considérée, est voisin du gain de la transformée la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale. Les gains des transformées des fonctions de transfert contra-latérale et ipsi-latérale, ainsi que leurs phases, dans chaque bande spectrale, sont données par exemple à l'annexe C de la norme précitée « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/ŒC JTC 1/SC 29 (21 juillet 2006), pour une transformée PQMF dans 64 sous-bandes.

Ainsi, en première approximation, pour un trajet contra- latéral et dans une bande spectrale m donnée, le spectre de la fonction de transfert contra-latérale déconvoluée par la fonction de transfert ipsi-latérale peut être défini, dans le domaine transformé, par : et étant le gain et la phase de la

fonction de transfert contra- latérale et et étant le gain et la phase de la

fonction de transfert ipsi- latérale. En référence à la figure 5, chaque filtre est équivalent à appliquer :

- un filtrage égaliseur 1 1, préférentiellement de type passe-bas,

avantageusement un retard interaural (ou « ITD ») 10, pour tenir compte des - différences de trajet entre une source virtuelle et chaque oreille, et

éventuellement une atténuation 12 par rapport aux composantes de signaux non - filtrées (par exemple la composante AVG sur la voie SG de la figure 4B).

Il convient d'indiquer ici que le retard ITD appliqué est "sensiblement" interaural, le terme "sensiblement" se référant notamment au fait qu'il peut ne pas être rigoureusement tenu compte de la morphologie stricte de l'auditeur (par exemple si des HRTFs sont utilisées par défaut, notamment des HRTFs dites "de la tête de Kemar").

Ainsi, la synthèse binaurale d'un haut-parleur virtuel (AVG par exemple) consiste simplement à jouer sans modification le signal d'entrée sur la voie relative ipsi-latérale (voie SG sur la figure 4B) et appliquer au signal à jouer sur la voie contra-latérale (voie SD sur la figure 4B) un filtre (C/I)AVG correspondant en l'application d'un retard, d'une atténuation et d'un filtrage passe-bas. Ainsi, le signal résultant est retardé, atténué et filtré en éliminant les fréquences aiguës, ce qui se traduit, du point de vue de la perception auditive, par un masquage du signal reçu par l'oreille "contra-latérale" (OD, dans l'exemple où le haut-parleur virtuel est le latéral gauche AVG), relativement au signal reçu par l'oreille "ipsi-latérale" (OG).

La coloration qui peut être perçue est donc directement celle du signal reçu par l'oreille ipsi-latérale. Or, de façon avantageuse, ce signal ne subit aucune transformation et, par conséquent, le traitement au sens de l'invention ne devrait apporter qu'une faible coloration. Toutefois, à titre de précaution complémentaire, en référence à la figure 6, on peut prévoir un traitement des signaux de sortie SG et SD de la figure 4B consistant à appliquer un filtre passe-haut FPH, suivi d'un contrôle automatique de gain CAG.

Le filtre passe-haut revient à appliquer le facteur « Gain » décrit ci-avant, avec :

Gain = 0,5 si la fréquence f est inférieure à 500 Hz et

Gain = 1 sinon.

Avantageusement, dans cette réalisation, ce facteur est appliqué globalement en sortie des signaux SG et SD, en variante d'une application individuelle à chaque coefficient de la matrice explicitée plus loin.

Avantageusement, le contrôle automatique de gain est calé sur l'intensité globale des signaux correspondant au traitement Downmix, donnée par :

I > OU SOnt leS

énergies respectives des signaux des canaux avant gauche, avant droit, arrière gauche, arrière droit et centre, d'un format 5.1. Les gains g et g s sont des appliqués globalement au signal C pour le gain g et aux signaux ARG et ARD pour le gain g s . En d'autres termes, on limite ainsi l'énergie des signaux de voie gauche S'G et de voie droite S ' D à l'issue de ce traitement, au maximum, à l'énergie I D 2 globale des signaux des haut-parleurs virtuels. Les signaux récupérés S 'G et S'D peuvent être finalement acheminés vers un dispositif de restitution sonore, en mode stéréophonique binaural.

En pratique, dans un codeur notamment de type MPEG Surround, l'intensité globale des signaux est habituellement calculée directement à partir de l'énergie des signaux d'entrée. Ainsi, dans une variante cette donnée sera prise en compte pour l'estimation de l'intensité l D .

La mise en œuvre de l'invention résulte alors en une suppression des indices de localisation monauraux. Or, plus une source s'écarte du plan médian, plus les indices interauraux deviennent prédominants au détriment des indices monauraux. Compte tenu du fait que dans la recommandation ITU-R BS.775 concernant la disposition des haut-parleurs du système 5.1, l'angle entre les haut-parleurs latéraux (ou entre les haut- parleurs arrière) est supérieure à 60°, la suppression des indices monauraux n'a que peu d'influence sur la position perçue des haut-parleurs virtuels. D'ailleurs, la différence perçue ici est inférieure à la différence que pourrait percevoir l'auditeur du fait que les HRTFs utilisées ne lui seraient pas propres (par exemple des modèles de HRTFs tirés de la technique dite de la « tête de Kemar »).

Ainsi, la perception spatiale du signal est respectée, et ce, sans apporter de coloration et en conservant le timbre des sources sonores.

Plus encore, la solution au sens de la présente invention divise le nombre de filtres à prévoir sensiblement par deux et corrige en outre les effets de coloration. Par ailleurs, il a été observé que le choix de la position des haut-parleurs virtuels peut notablement influencer la qualité du résultat de la spatialisation. En effet, il s'est avéré préférable de placer les haut-parleurs virtuels latéraux et arrières à +/- 45° par rapport au plan médian, plutôt qu'à +/- 30° du plan médian selon la configuration recommandée par l'Union Internationale des Télécommunications (ITU). En effet, lorsque les haut-parleurs virtuels se rapprochent du plan médian, les fonctions HRTFs ipsi-latérale et contra-latérale tendent à se ressembler et les simplifications précédentes peuvent ne plus donner une spatialisation satisfaisante.

Ainsi, en termes génériques, en considérant un format multi-canal initial définissant au moins quatre positions :

de deux haut-parleurs latéraux, symétriques par rapport au plan médian, et de deux haut-parleurs arrière, symétriques par rapport au plan médian,

la position d'un haut-parleur latéral est avantageusement comprise dans un secteur angulaire de 10° à 90° et préférentiellement de 30 à 60° à partir d'un plan de symétrie P et face au visage de l'auditeur. Plus particulièrement, la position d'un haut-parleur latéral sera préférentiellement voisine de 45° à partir du plan de symétrie. On se réfère maintenant à la figure 7 pour décrire une réalisation possible de l'invention dans laquelle le traitement au sens de l'invention intervient après l'étape de codage des données sonores, par exemple avant la transmission via un réseau 73 vers un décodeur 74. Ici, un module de traitement au sens de l'invention 72 intervient directement en aval d'un codeur 71, pour délivrer, comme indiqué précédemment, des données traitées selon un traitement du type :

Downmix + α DBA (avec DBA pour "Downmix Binaural Additionnel"). On décrit ci-après une réalisation possible d'un tel traitement.

En partant d'un signal 5.0 (L, R, C, Ls, Rs) à coder et transporter, on considère traitement de Downmix global de type :

Les signaux et correspondent donc aux deux signaux stéréo, sans effet de

spatialisation, que pourrait délivrer un décodeur pour alimenter deux haut-parleurs en restitution sonore.

Le calcul du traitement de Downmix, sans filtrage de binauralisation, devrait donc permettre de retrouver ces deux signaux et , ce qui s'exprime alors par

exemple comme suit :

En appliquant maintenant un filtrage binaural et en répartissant le signal du haut- parleur central sur les canaux L et R de manière égale avec le gain g, on obtient :

Si on utilise pour le filtrage contra-latéral les fonctions HRTF contra-latérales déconvoluées par les fonctions HRTF ipsi-latérales, on a ,

et

et donc :

Le Downmix binaural additionnel s'écrit :

En reprenant l'exemple d'un filtrage matriciel s'exprimant selon un produit de matrices de type : où W représente une matrice de

traitement d'expansion de deux signaux stéréo vers M' canaux, avec M'>2 (par exemple M'=3), cette matrice W s'exprimant comme une matrice 2x6 du type :

En particulier, dans la norme MPEG Surround précitée, les coefficients de la matrice sont tels que :

En développant ce produit, on trouve

En cherchant une addition de deux matrices distinctes, on trouve :

ce qui s'écrira ci-après : avec pour le traitement Downmix et pour Ie traitement Downmix Binaural Additionnel.

On peut considérer, dans ce mode de réalisation, que les coefficients de la matrice sont bien donnés par :

comme exposé précédemment.

On peut considérer en première approximation qu'un canal latéral (droit ou gauche) et le canal latéral arrière correspondant (droit ou gauche respectivement) sont décorrélés entre eux. Cette hypothèse est raisonnable dans la mesure où le canal arrière ne fait que reprendre en général la réverbération de salle ou autre (retardée dans le temps) du signal du canal latéral. Dans ce cas, les canaux L et Ls et les canaux R et Rs ont des supports temps fréquences disjoints et on a alors , et :

L'hypothèse ci-avant ne peut pas être vérifiée en revanche pour tous les signaux. Dans le cas où les signaux auraient un support temps fréquence commun, il est préférable de chercher à conserver les énergies des signaux. Cette précaution est préconisée d'ailleurs dans la norme MPEG Surround. En effet, l'addition de signaux en opposition de phase s'annule. Comme indiqué ci-avant, une telle situation n'intervient jamais en pratique si l'on considère le cas d'une salle avec un effet de réverbération sur les canaux Surround.

Néanmoins, dans l'exemple décrit ci-après, on utilise des variantes des formules ci- avant pour préserver l'énergie des signaux dans le traitement Downmix, comme suit :

La matrice de traitement global H 1 l,k s'exprime encore comme la somme de deux matrices : , avec

et avec :

La matrice Η^'" ne contient aucun terme relatif aux coefficients de filtrage HRTF.

Cette matrice traite globalement les opérations de spatialisation de deux canaux (M=2) vers cinq canaux (N=5) et les opérations de sous-mixage de ces cinq canaux vers deux canaux. Dans un mode de réalisation particulier dans lequel on transporte un signal "Downmix" issu des signaux 5.0 à coder, les coefficients g, w ij , et

peuvent être calculés par le codeur pour que cette matrice s'approche de la matrice unité. En effet, on doit avoir :

La matrice consiste quant à elle à appliquer des filtrages basés sur des fonctions

HRTF contra-latérales déconvoluées par des fonctions ipsi-latérales. On notera que passer par un traitement Downmix décrit ci-dessus est un mode de réalisation particulier. L'invention peut être mise en œuvre aussi avec d'autres types de matrices de Downmix.

D'ailleurs, la réalisation introduite ci-avant est décrite à titre d'exemple. Il apparaît en effet qu'il n'est pas nécessaire, en pratique, de cherche à estimer les signaux Lo et Ro par l'application de la matrice " car ces signaux sont transmis du codeur au

décodeur, lequel dispose bien de ces signaux et , et éventuellement des paramètres de spatialisation, pour reconstruire les signaux pour la restitution sonore (éventuellement binaurale si le décodeur a bien reçu les paramètres de spatialisation). Cette dernière réalisation présente deux avantages. D'une part, le nombre de traitements à réaliser pour retrouver les signaux Lo et R 0 est ainsi réduit. D'autre part, on améliore la qualité des signaux de sortie : le passage au domaine transformé et retour au domaine de départ, ainsi que l'application de la matrice Η' 0 "' , dégradent nécessairement les signaux. Une réalisation avantageuse consiste donc à appliquer le traitement suivant :

Il apparaît en outre que la matrice peut encore être simplifiée. En effet, en revenant à l'expression : , on peut calculer les expressions des

cinq signaux intermédiaires avec le traitement de Downmix binaural comme suit

Avec encore , on parvient à :

et

Ces expressions sont simplifiées par rapport à leur calcul habituel. On peut néanmoins, encore ici, prendre la précaution de ne pas mener à une annulation de signaux en opposition de phase en cherchant à préserver les niveaux d'énergie des différents signaux dans le traitement Downmix, comme préconisé ci-avant. On obtient alors :

ave

L'expression de la matrice est alors la suivante :

Bien entendu, la présente invention ne se limite pas à la forme de réalisation décrite avant à titre d'exemple ; elle s'étend à d'autres variantes. Ainsi, on a décrit ci-avant le cas d'un traitement de deux signaux stéréo initiaux à encoder et spatialiser vers du stéréo binaural et en passant par une spatialisation 5.1. Néanmoins, l'invention s'applique en outre au traitement d'un signal mono initial (cgs- N=l dans l'expression générale N>0 donnée ci-avant et s' appliquant au nombre de canaux initiaux à traiter). En reprenant par exemple le cas de la norme « Information technology— MPEG audio technologies— Part 1: MPEG Surround », ISO/BEC JTC 1/SC 29 (21 juillet 2006), les équations présentées au point 6.11.4.1.3.1, pour le cas d'un premier traitement du type mono - spatialisation 5.1 - binauralisation (noté « 5-1- 5i » et consistant à traiter d'emblée les voies surround avant la voie centrale), se simplifient en :

De même, les équations présentées au point 6.1 1.4.1.3.2, pour le cas d'un premier traitement du type mono - spatialisation 5.1 - binauralisation (noté « 5-1-5 » et consistant à traiter d'emblée la voie centrale, puis à traiter l'effet surround sur chaque voie gauche et droite), se simplifient en :

et

Plus généralement, il est possible de prévoir d'autres traitements des signaux ou de composantes de signaux destinés à être restitués en format binaural ou transaural. Par exemple, les voies SG et SD de la figure 4B peuvent subir en outre un filtrage passe-bas dynamique de type Dolby® ou autres.

La présente invention vise aussi un module MOD (figure 4B) de traitement de données sonores, pour le passage d'un format multi-canal vers un format binaural ou transaural, dans le domaine transfonné, dont les éléments pourraient être ceux illustrés sur la figure 4B. Un tel module comporte alors des moyens de traitement, tels qu'un processeur PROC et une mémoire de travail MEM, pour la mise en œuvre de l'invention. Il peut être implanté dans tout type de décodeur, notamment d'un dispositif de restitution sonore (ordinateur PC, baladeur, téléphone mobile, ou autre) et éventuellement de visionnage de film. En variante, le module peut être conçu pour opérer séparément de la restitution, par exemple pour préparer des contenus au format binaural ou transaural, en vue d'un décodage ultérieur.

La présente invention vise aussi un programme informatique, téléchargeable via un réseau de télécommunication et/ou stocké dans une mémoire d'un module de traitement du type précité et/ou stocké sur un support mémoire destiné à coopérer avec un lecteur d'un tel module de traitement, et comportant des instructions pour la mise en œuvre de l'invention, lorsqu'elles sont exécutées par un processeur dudit module.