Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PROCESSING OF A 3D AUDIO STREAM AS A FUNCTION OF A LEVEL OF PRESENCE OF SPATIAL COMPONENTS
Document Type and Number:
WIPO Patent Application WO/2009/081002
Kind Code:
A1
Abstract:
The present invention relates to a method of processing a 3D audio stream comprising a plurality of spatial components, and such that it comprises the steps of obtaining (E41) information representative of the level of presence of the spatial components of the audio stream as a function of frequency, of selecting (E42) a processing based on frequency or frequency band as a function of the information obtained and applying (E44) selected processing operations to the 3D audio stream. The invention also relates to a device (350) implementing the method described. It applies in particular in the case of a processing of spatial decoding type before sound restoration of the 3D audio stream or in respect of an application of spatial separation and/or noise reduction.

Inventors:
DANIEL JEROME (FR)
Application Number:
PCT/FR2008/052285
Publication Date:
July 02, 2009
Filing Date:
December 11, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRANCE TELECOM (FR)
DANIEL JEROME (FR)
International Classes:
H04S3/02
Other References:
DANIEL J ET AL: "Further Study of Sound Field Coding with Higher Order Ambisonics", 116TH CONVENTION OF THE AUDIO ENGINEERING SOCIETY, 8 May 2004 (2004-05-08) - 11 May 2004 (2004-05-11), Berlin, Germany, pages 1 - 14, XP002484035
JÉRÔME DANIEL ET AL: "Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging", PREPRINTS OF PAPERS PRESENTED AT THE AES CONVENTION, XX, XX, 22 March 2003 (2003-03-22), pages 1 - 18, XP007904475
GUILLAUME M: "Analyse et synthèse de champs sonores", 2 November 2006, ENST, PARIS, XP002484036
M. BRANDSTEIN AND D. WARDS (EDS.): "Microphone Arrays: Signal Processing Techniques and Applications", 2001, SPRINGER-VERLAG, NEW-YORK, XP002484037
Attorney, Agent or Firm:
FRANCE TELECOM FTR & D/PIV/BREVETS (38-40 rue du Général Leclerc, Issy Moulineaux Cedex 9, FR)
Download PDF:
Claims:

REVENDICATIONS

1. Procédé de traitement d'un flux audio 3D codé comportant une pluralité de composantes spatiales, caractérisé en ce qu'il comporte lors du décodage du flux audio, les étapes suivantes: obtention (E41) d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence; sélection (E42) par fréquence ou bande de fréquence d'un traitement de décodage spatial compatible avec les informations obtenues; application (E44) des traitements sélectionnés au flux audio 3D.

2. Procédé selon la revendication 1, caractérisé en ce qu'il comprend une étape d'obtention (E43) d'un traitement global à appliquer sur toute la bande de fréquence du flux audio, à partir des traitements sélectionnés.

3. Procédé selon la revendication 2, caractérisé en ce que l'obtention d'un traitement global comporte une étape d'agrégation des traitements sélectionnés et d'intégration d'une fonction de lissage entre les différents traitements.

4. Procédé selon la revendication 2, caractérisé en ce que le traitement global est un banc de filtres adapté à effectuer un décodage spatial du flux audio avant restitution sonore.

5. Procédé selon la revendication 1, caractérisé en ce que les informations représentatives du niveau de présence des composantes spatiales proviennent de caractéristiques des dispositifs de génération du flux audio et sont obtenues par lecture de données annexes au flux audio.

6. Procédé selon la revendication 1, caractérisé en ce que les informations représentatives du niveau de présence des composantes spatiales sont obtenues par analyse du flux audio, l'analyse comportant une étape d'estimation du niveau de présence des composantes par comparaison des niveaux d'énergie des composantes en fonction de la fréquence.

7. Procédé selon la revendication 6, caractérisé en ce qu'il comporte en outre une étape d'estimation d'un niveau de bruit et/ou d'un indice de qualité.

8. Procédé selon la revendication 1, caractérisé en ce que les traitements sélectionnés sont répertoriés dans une base de données de traitement.

9. Procédé selon la revendication 8, caractérisé en ce que la base de données de traitement comporte des coefficients de matrices et/ou de filtres de traitement, et/ou des règles et paramètres pour construire une fonction de traitement.

10. Procédé selon la revendication 1, caractérisé en ce que la sélection d'un traitement par fréquence ou bande de fréquence s'effectue en outre en fonction d'un niveau de bruit résultant de l'application dudit traitement et/ou d'un niveau de qualité dudit traitement et/ou d'un niveau de performance spatiale du flux audio traité par ledit traitement et/ou de caractéristiques de traitements sélectionnés dans des bandes de fréquences voisines.

11. Procédé selon la revendication 1 , caractérisé en ce que la sélection d'un traitement par fréquence ou bande de fréquence comporte une étape de compensation du niveau de présence de composante spatiale à appliquer audit traitement.

12. Dispositif de traitement (350) pour le décodage d'un flux audio 3D codé comportant une pluralité de composantes spatiales, caractérisé en ce qu'il comporte: un module (355) d'obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence;

- un module (353) de sélection apte à sélectionner par fréquence ou bande de fréquence un traitement de décodage spatial compatible avec les informations obtenues; un module (322) de traitement apte à appliquer les traitements sélectionnés au flux audio 3D.

13. Décodeur audionumérique caractérisé en ce qu'il comporte un dispositif selon la revendication 12.

14. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé selon l'une des revendications 1 à 11 , lorsque ces instructions sont exécutées par un processeur.

Description:

Traitement d'un flux audio 3D en fonction d'un niveau de présence de composantes spatiales

La présente invention concerne le traitement de signaux numériques. Ces signaux peuvent être par exemple des signaux audio, des signaux vidéo ou plus généralement des signaux multimédia.

L'invention est plus particulièrement relative à des flux audio 3D comportant une pluralité de composantes spatiales, les composantes spatiales étant associées à des fonctions de directivité.

L'invention s'applique à des systèmes de codage/décodage de scènes sonores 3D, et plus particulièrement lors du décodage spatial avant restitution sur haut- parleurs ou casque. Elle s'applique de façon similaire à de la "formation de voie" ("beamforming" en anglais) pour une application de séparation spatiale et/ou réduction de bruit.

Un exemple de flux audio 3D est un flux de type ambiophonique ("ambisonic" en anglais), plus précisément au format HOA (pour "Higher Order Ambisonic" en anglais). Ce type de flux audio peut être obtenu par exemple par une prise de son à partir d'un réseau sphérique de microphones. Pour plus d'informations sur ce type de prise de son, on peut se référer au document suivant: "3D Sound Field Recording with Higher Order Ambisonics-Objective Measurements and Validation of a 4th Order Spherical Microphone", S.Moreau, J.Daniel, S.Bertet, in 120th AES Convention Paris (2006).

Le flux audio avec ses composantes spatiales peut également être obtenu après un traitement de spatialisation appliqué à N canaux correspondants à des signaux monophoniques. Ce type de traitement de spatialisation peut être de type ambiophonique. Un encodage ambiophonique d'ordre M donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées.

Pour plus d'informations sur les transformations ambiophoniques, on pourra se référer au document suivant: « Représentation de champs acoustiques, application

à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 2001.

Dans le contexte de spatialisation ambiophonique d'ordre supérieur (HOA), les composantes spatiales sont des composantes ambiophoniques B m σ n reliées à un champ de pression acoustique p par la série de Fourier-Bessel, et auxquelles la contribution d'une source sonore en champ lointain, c'est-à-dire une onde plane d'incidence (θs, δs) portant un signal S s'écrit par l'équation d'encodage spatial:

Kn = S. Y Li β ) (1) où les fonctions harmoniques sphériques Y° n {θ, δ) décrivent une base orthonormée:

C (θ, δ) = l(2m + l) (2 - δ 0>n )^^-P mn (sin δ) fcoswé* si σ = +1 x < [sinwé* si σ = -1 (ignoré si M = O)

Les P mn (sin<?) sont les fonctions de Legendre associées.

La figure la représente le système de coordonnées sphériques utilisé pour ces équations, où une direction est représentée par les angles d'azimut θ et d'élévation δ.

Une représentation des fonctions harmoniques sphériques est également représentée en figure Ib. On peut ainsi voir la composante omnidirective Fo 0 (Ty) , les composantes bidirectives F 10 (Z) , Y n (X) , Y n 1 (Y) et les composantes de dimensions supérieures.

Une représentation tridimensionnelle ou "3D" dite "d'ordre M" comprend K = (M+l) 2 composantes dont les triplets d'indices {m,n, σ) sont tels que O≤m≤M, O≤n≤m, σ=±l. Une représentation bidimensionnelle ou "2D" d'ordre M comprend un sous-ensemble de ces composantes en ne retenant que les indices m=n, soit £=2M+1 composantes.

Ainsi, l'ensemble des composantes spatiales s'échelonnent suivant une dimension complémentaire (autre que fréquence ou temps) qui traduit les fréquences angulaires associées. La notion de résolution spatiale ou ordre d'encodage se définit alors par la fréquence angulaire maximale représentée, donc liée au nombre de composantes spatiales présentes de façon significative.

On s'intéresse ici au traitement d'un contenu audio 3D de type HOA en vue d'une reproduction spatialisée sur haut-parleurs ou sur casque, ou en vue d'une formation de voie pour de la séparation spatiale. Ce traitement est encore appelé ici de manière générale décodage spatial.

Ce traitement est généralement linéaire et consiste par exemple en des opérations de matriçage, de filtrage ou combinaison des deux.

Dans le domaine fréquentiel, ce traitement peut être formulé par l'expression S=D. B où B et S sont les vecteurs des signaux traités (B) et résultants (S) et où D est la matrice de traitement. Cette matrice de traitement est composée de gains d'amplitude dans des réalisations les plus simples ou de fonctions de transfert dans des réalisations plus élaborées.

Les traitements existants sont effectués en faisant l'hypothèse que la résolution spatiale est homogène sur toute la bande de fréquence du flux audio et qu'elle est constante dans le temps.

Ainsi, pour un champ sonore produit par une source, le son S encodé spatialement se retrouve au sein de chaque composante avec un gain identique pour toutes les fréquences, qui ne dépend que de la direction d'incidence (θs,δs): K n = s - γ mn ( θ s > δ s ) . C'est ce que nous appellerons un "encodage spatial idéal".

Or cette hypothèse d'encodage spatial idéal n'est pas vérifiée dans un certain nombre de cas pratiques.

Par exemple, dans le cas d'un contenu HOA issu d'un enregistrement 3D par un réseau sphérique de microphones, la résolution spatiale n'est en pratique pas homogène sur toute la bande de fréquence. En effet, pour des raisons de dimensionnement du réseau microphonique, la résolution spatiale est en effet plus faible dans un domaine basse-fréquence, c'est-à-dire que les composantes d'ordre plus élevé y ont un niveau de signal (densité spectrale de puissance) plus faible, voire insignifiant.

La figure 2 représente par exemple, de façon schématique, la présence effective des composantes spatiales B^ n en fonction de la fréquence f et selon leur

ordre spatial m (lié à la résolution spatiale) dans un exemple particulier de prise de son par réseau sphérique de microphones.

Ainsi, on peut parler d'une résolution spatiale par pallier. Pour un microphone 3D d'ordre 4, la résolution effective est par exemple d'ordre 1 jusqu'à /2=1000 Hz, puis d'ordre puis d'ordre 4 jusqu'à la fréquence d'aliasing spatial (e.g./ a ii aSmg = 10kHz). L'aliasing spatial est un artefact d'encodage lié à l'ambiguïté sur l'information de direction d'incidence de l'onde, apparaissant lorsque la longueur d'onde n'est plus assez grande devant les différences de trajet acoustique entre les capteurs.

Lorsqu'on parle de résolution effective d'ordre m à une fréquence donnée, cela signifie que seules les composantes spatiales caractérisées par une fréquence angulaire inférieure ou égale à m sont présentes de façon significative à cette fréquence (dans le cas particulier d'une représentation HOA 2D, il s'agirait des 2m+l premiers signaux).

En conséquence, dans ce cas de figure, un encodage spatial dit idéal d'ordre m=4 serait ici sous-optimal pour ce qui concerne une partie relativement basse fréquence où la résolution effective est par exemple d'ordre 1. Ainsi, la précision des scènes sonores résultant du décodage spatial, le cas échéant, sera moins bonne pour cette gamme de fréquence.

Il existe donc un besoin de prendre en compte la résolution spatiale effective pour effectuer un décodage spatial optimal des flux audio.

La présente invention vient améliorer cette situation.

A cet effet, l'invention propose un procédé de traitement d'un flux audio 3D codé comportant une pluralité de composantes spatiales Ce procédé est tel qu'il comporte lors du décodage du flux audio, les étapes suivantes: obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence; sélection par fréquence ou bande de fréquence d'un traitement de décodage spatial compatible avec les informations obtenues; application des traitements sélectionnés au flux audio 3D.

Ainsi, le traitement appliqué au flux audio prend en compte les caractéristiques de présence des composantes spatiales et donc la résolution spatiale, par fréquence pour adapter au mieux le traitement du flux sur toute la bande de fréquence.

Dans un mode de réalisation particulier, le procédé comprend une étape d'obtention d'un traitement global à appliquer sur toute la bande de fréquence du flux audio, à partir des traitements sélectionnés.

Un seul traitement est donc à appliquer sur toute la bande de fréquence du flux audio, ce qui simplifie la mise en œuvre.

L'obtention du traitement global peut comporter une étape d'agrégation des traitements sélectionnés et d'intégration d'une fonction de lissage entre les différents traitements.

Ainsi, les artefacts audibles gênants qui peuvent s'entendre entre les différents traitements des bandes de fréquence sont atténués.

L'invention s'applique avantageusement dans le cas où le traitement global est un banc de filtres adapté à effectuer un décodage spatial du flux audio avant restitution sonore.

Dans un mode de réalisation, les informations représentatives du niveau de présence des composantes spatiales proviennent de caractéristiques des dispositifs de génération du flux audio et sont obtenues par lecture de données annexes au flux audio.

Ces informations sont donc reçues directement en même temps que le flux audio. Elles proviennent des caractéristiques des dispositifs de génération du flux audio par exemple des caractéristiques de microphones.

Dans un autre mode de réalisation les informations représentatives du niveau de présence des composantes spatiales sont obtenues par analyse du flux audio, l'analyse comportant une étape d'estimation du niveau de présence des composantes par comparaison des niveaux d'énergie des composantes en fonction de la fréquence.

Les informations peuvent donc être obtenues à différents instants, au cas où le niveau de présence évolue au cours du temps.

De plus, l'étape d'analyse peut comporter une étape d'estimation d'un niveau de bruit et/ou d'un indice de qualité.

Ces informations supplémentaires peuvent servir pour effectuer un choix plus judicieux du traitement à appliquer par exemple.

Dans un mode de réalisation particulier, les traitements sélectionnés sont répertoriés dans une base de données de traitement.

Cette base de données peut comporter des coefficients de matrices et/ou de filtres de traitement, et/ou des règles et paramètres pour construire une fonction de traitement.

Ces données de traitement peuvent être mises à jour ou modifiées à tout moment.

Selon un mode de réalisation particulier, la sélection prend en compte d'autres critères comme notamment un niveau de bruit résultant de l'application dudit traitement et/ou un niveau de qualité dudit traitement et/ou un niveau de performance spatiale du flux audio traité par ledit traitement et/ou des caractéristiques de traitements sélectionnés dans des bandes de fréquences voisines.

La sélection est donc optimisée pour adapter au mieux les traitements au flux et pour améliorer la qualité du traitement.

Il est également possible que la sélection d'un traitement par fréquence ou bande de fréquence comporte une étape de compensation du niveau de présence de composante spatiale à appliquer audit traitement.

Ceci est mis en œuvre avantageusement pour les composantes qui ont un niveau de présence faible.

L'invention se rapporte également à un dispositif de traitement pour le décodage d'un flux audio 3D codé comportant une pluralité de composantes spatiales. Ce dispositif est tel qu'il comporte:

un module d'obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence; un module de sélection apte à sélectionner par fréquence ou bande de fréquence un traitement de décodage spatial compatible avec les informations obtenues; un module de traitement apte à appliquer les traitements sélectionnés au flux audio 3D.

L'invention se rapporte également à un décodeur audionumérique comportant un tel dispositif.

Enfin, l'invention vise un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé selon l'invention, lorsque ces instructions sont exécutées par un processeur.

Elle vise encore un support de stockage lisible par un système informatique stockant un jeu d'instructions exécutables par ledit système pour mettre en œuvre les étapes du procédé selon l'invention.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels:

- la figure la décrite précédemment, illustre la direction de propagation d'une onde plane dans l'espace, décrit précédemment;

- la figure Ib décrite précédemment, illustre les composantes harmoniques sphériques dans le cas d'une représentation spatiale ambiophonique d'ordre 3;

- la figure 2 décrite précédemment, illustre une représentation de composantes spatiales dans le cas d'une prise de son par un réseau sphérique de microphones;

- la figure 3 représente un système de codage/décodage audionumérique comportant un dispositif de traitement selon l'invention;

- la figure 4 illustre sous forme d'organigramme les principales étapes d'un procédé de traitement selon l'invention;

- la figure 5 illustre une représentation de présence de composantes spatiales en fonction de la fréquence;

- la figure 6 illustre une application des traitements sélectionnés selon un premier mode de réalisation de l'invention;

- la figure 7 illustre une détermination du traitement à appliquer à partir des traitements sélectionnés, selon un second mode de réalisation de l'invention;

- la figure 8 illustre un mode de réalisation de l'étape de sélection et d'obtention d'un traitement global selon l'invention; et

-la figure 9 illustre un dispositif de traitement selon l'invention.

En référence à la figure 3, un système de codage/décodage selon l'invention est maintenant décrit.

Un contenu audio 3D est généré par un module de génération de contenu 3D 330 qui peut par exemple être un module de prise de son par un réseau de microphones ou encore un module de composition de scène virtuelle 3D, ou encore une chaîne de post-production intégrant par exemple et entre autres ce type d'outils. Ce contenu 3D peut également provenir d'un enregistrement 3D stocké sur un support.

Ce contenu 3D ou flux audio 3D comporte des composantes spatiales B m σ n dont les triplets d'indices {m,n,σ} sont tels que O≤m≤M, O≤n≤m, σ=±\ comme défini précédemment. Naturellement, l'invention s'applique à des variantes de représentations, notamment 2D comme décrites plus haut.

Par soucis de simplification, on identifiera dans la suite de la description une composante spatiale ainsi que les variables associées par un simple indice k (1 ≤ k≤K) plutôt que par le triplet d'indice. Ainsi, à la sortie du module de génération, le flux audio comporte des composantes spatiales Bk(t) qui sont transmises de façon optionnelle à un codeur audio 300. En l'absence d'un codeur audio, le flux audio 3D est directement transmis au module de traitement 322 du dispositif de traitement 350.

Dans un mode de réalisation de l'invention, le flux audio 3D est accompagné de données D de description de la prise de son comportant des

informations sur la présence effective des composantes spatiales par bande de fréquence ou par fréquence. Ces données peuvent être sous forme de table de valeurs fonction de la fréquence. Ces valeurs peuvent être réactualisées au cours du temps. Elles découlent typiquement des caractéristiques du système microphonique 3D qui a servi à produire le contenu à traiter. Ces données sont alors transmises au dispositif de traitement 350 et notamment au module de réception ou d'obtention 355 de ces informations. Elles sont ensuite transmises au module de sélection des traitements 353.

Le codeur audio 300 peut comporter un module de transformation temps/fréquence 301 par exemple de type MDCT ( pour "Modified Discrète Cosine transform" en anglais), du flux audio 3D. En sortie de ce module, on obtient des composantes spatiales Bk(f) dans le domaine fréquentiel. Le codeur peut également comporter un module de quantification 302 apte à quantifier le flux audio en un flux binaire T. Ce flux binaire est ensuite transmis, enregistré ou transporté.

A la réception de ce flux binaire, un décodeur audio 320 déquantifie le cas échéant ce flux par un module de quantification inverse 321. Le flux B'k(f) obtenu est traité par un module de traitement 322 du dispositif de traitement 350. Dans une variante de réalisation, le flux B'k(f) subit d'abord une transformation fréquence/temps par le module de transformation 323 avant de subir le traitement du module 322.

Le traitement effectué par ce module de traitement est un traitement de décodage spatial pour une restitution par le module de restitution 340 sur haut- parleurs ou sur casque.

Le module de traitement est piloté par le dispositif de traitement 350. Ce dispositif de traitement comporte un module 353 de sélection d'un traitement à appliquer au flux audio pour une bande de fréquence ou une fréquence donnée. La sélection du traitement adapté à la bande de fréquence s'effectue en fonction des informations D reçues sur la présence effective des composantes spatiales dans la bande de fréquence concernée. Ainsi, une solution de traitement est retenue pour une bande de fréquence, si elle correspond à la résolution maximale possible compatible

avec le niveau de présence effective des composantes spatiales. Un critère de décision par seuillage est alors appliqué. Plusieurs solutions de traitement peuvent également être retenues suivant l'adéquation entre le niveau de contribution requis pour les signaux de sortie et le niveau de présence effective de chaque composante.

On verra ultérieurement en référence à la figure 8 que la sélection des traitements par bande de fréquence peut également s'effectuer en prenant en compte des critères supplémentaires.

Les traitements à sélectionner sont répertoriés dans une base de données 352 de traitements. Concrètement, cette base de données comporte par exemple pour un traitement sur K composantes spatiales et produisant N signaux, des matrices de dimensions K*N, associées ou non à des filtres ou encore des matrices de filtres de dimension K*N.

La base de données peut également comporter de manière non exhaustive des paramètres qui serviront à calculer la matrice de traitement correspondante ou des coefficients de filtres ou des fonctions de transfert (valeurs numériques tabulées en fonction de la fréquence) ou des paramètres de conception de filtres (fréquences de transition, niveau de réponse par sous-bande fréquentielle) ou encore des données spécialement adaptées pour une application dans le domaine transformé (sous-filtres RIF, à réponse impulsionnelle finie ou RII, à réponse impulsionnelle infinie, s'appliquant à des signaux filtrés-décimés par sous-bandes).

La base de données peut comporter non seulement des données mais aussi des règles d'application ou algorithmes de traitement.

Il s'agit alors de règles ou d'algorithmes qui permettent de calculer des données opérationnelles de traitement.

Par exemple, pour un traitement de décodage spatial HOA sur haut-parleurs, ces règles ou algorithmes peuvent être des règles ou algorithmes de calcul de matrices de décodage optimisées selon des critères "psychoacoustiques" de localisation (comme ceux introduits par M.Gerzon et que l'on peut retrouver dans les documents :__GERZON, M A "General Metatheory of Auditory Localisation" AES 92nd Convention, preprint 3306, Vienne, Autriche, 23-29 mars 1992 ou GERZON, MA. "Psychoacoustic Decoders for Multipspeaker Stereo and Surround-Sound". AES 93rd

Convention, preprint 3406, San Francisco, USA, octobre 1992). Des règles et formules de calcul de paramètres ou matrices de décodage, optimales selon de tels critères, peuvent être trouvées dans le rapport de thèse de J.Daniel cité plus haut.

Des matrices de décodage peuvent aussi être choisies selon d'autres critères de plus haut-niveau (e.g. auditeur centré, auditoire élargi).

Pour un traitement de décodage binaural, il peut s'agir d'un programme de calcul et d'optimisation de filtres de décodage, s'appuyant sur une base de données de HRTFs (pour "Head Related Transfer Functions" en anglais) et utilisant des paramètres de haut niveau. De tels traitements sont notamment décrits dans la demande de brevet WO2007101958.

La base de données 352 est donc constituée de données de traitement précalculées et/ou de règles pour les calculer qui sont supposées satisfaire la fonction souhaitée (décodage spatial optimal, transformation, etc.) en fonction de paramètres ou combinaison de paramètres, comme par exemple la configuration géométrique des haut-parleurs, la résolution spatiale du flux HOA traité, la bande de fréquence considérée.

Dans un mode de réalisation de la base de données de traitement, les données de la base peuvent être préparées par exemple sous une forme spécialement adaptée au mode de traitement (e.g. domaine fréquentiel) et/ou sélectionnables suivant des paramètres utilisateur fixés (e.g. base de HRTF si décodage binaural).

Au sein de la base de données, on peut décrire chaque traitement sélectionnable comme une matrice de transfert D(J) de N lignes et K colonnes, dont l'élément d'indice ligne n et d'indice colonne k est la fonction de transfert d n k(f)-

Un traitement sélectionnable ainsi décrit dans la base peut ne concerner qu'un sous-ensemble E=[K) des signaux représentés Eκ={k=\,...K}. Ainsi, lors de la sélection de ce traitement par le module 353, celui-ci complète la matrice de traitement par des zéros pour former une matrice de dimension K*N, D(f), en insérant des colonnes nulles aux indices k de E K qui ne sont pas dans E.

Ainsi, en fonction des informations de présence des composantes spatiales pour une bande de fréquence donnée, le module 353 sélectionne les traitements adaptés dans la base de données 352.

Il obtient donc un traitement adapté par bande de fréquence, soit une pluralité de traitements pour toute la bande de fréquence du flux audio à traiter.

Dans un mode de réalisation particulier, le dispositif de traitement comporte un module 354 de détermination d'un traitement global à appliquer sur toute la bande de fréquence du flux audio. Ce module permet de compiler les traitements sélectionnés par le module de sélection 353 et de les mettre dans une forme opérationnelle pour le traitement sur toute la bande de fréquence.

Ainsi, les traitements ou données de traitement retenues pour les différentes bandes de fréquence font l'objet d'une procédure d'agrégation dans le module 354. Cette procédure d'agrégation peut par exemple consister à regrouper des morceaux de fonctions de transfert, à recomposer chaque fonction de transfert requise pour en déduire un filtre FIR par transformée de Fourier inverse.

Dans le cas où le traitement global recherché est sous forme de filtres, il est possible de définir des fonctions de transfert associées par lissage ou interpolation fréquentielle à partir des données retenues pour chaque bande de fréquence (ou les différentes fréquences cibles), plutôt que par simple juxtaposition. Les critères de lissage ou d'interpolation fréquentielle sont définis de sorte de conditionner au mieux le filtre (taille, régularité...) et de réduire les artefacts audibles.

De plus, dans le cas où la résolution effective, la présence effective des composantes, est variable dans le temps, le traitement adapté doit également varier dans le temps et un procédé de lissage temporel peut être mis en œuvre afin d'éviter les artefacts audibles indésirables dus à des variations trop brutales.

Le traitement global résultant TG est ensuite transmis au module de traitement T 322.

Ce module de traitement applique donc les traitements reçus du module 353 par bande de fréquence ou le traitement global reçu du module 354 pour toute la bande de fréquence du signal audio.

Par exemple, le traitement effectué par le module 322 peut correspondre aux traitements décrits ultérieurement en référence à la figure 6 ou bien un traitement global déterminé par le module 354 et décrit en référence à la figure 7 ultérieurement.

Le traitement s'applique soit à des signaux du domaine temporel soit du domaine fréquentiel selon que l'on reçoit le flux audio directement du module de génération de flux audio ou que l'on reçoit un flux audio transformé, codé ou que le module de traitement est mis en œuvre avant ou après le module de transformation 323.

Dans le cas où les données D comportant des informations de présence des composantes spatiales par bande de fréquence, n'est pas fourni avec le flux audio 3D, un module d'analyse 351 peut être prévu.

Ce module met en œuvre une étape d'analyse du flux audio 3D pour estimer le niveau de présence des composantes spatiales par bande de fréquence.

Cette étape d'estimation s'effectue ici avec l'hypothèse que le niveau de présence à une fréquence donnée est sensiblement le même pour les composantes de même ordre m.

Ce niveau de présence peut être défini comme un facteur d'échelle au sens d'une atténuation du niveau par rapport à un encodage spatial dit idéal comme décrit initialement.

Ainsi pour des composantes HOA, on peut définir ce niveau de présence comme un gain y° n (f) (encore noté γ k (f)) dépendant de la fréquence. Ce gain est tel que l'équation (1) définissant d'encodage idéal est remplacé par l'équation (3) suivante: ou encore B k - γ k (f)Y k s s )S .

Ainsi sous l'hypothèse que γ m σ n = γ m (f) , l'étape d'estimation du niveau de présence des composantes spatiales peut s'effectuer par intercorrélation entre les composantes B m σ n . On peut ainsi détecter si à un instant donné on a affaire à un champ acoustique

diffus (composantes parfaitement décorrélées) ou à l'inverse, à un champ probablement produit par une seule source sonore (composantes parfaitement corrélées).

Sous une hypothèse d'orthonormalité de la base des harmoniques sphériques, dans le premier cas, un encodage idéal devrait donner lieu à des composantes de même énergie. Dans le second cas, l'encodage idéal devrait être tel que la moyenne des énergies des composantes de même ordre m est la même pour tous les ordres m.

Le niveau de présence γ m σ n = γ m {f) peut donc être estimé par comparaison des niveaux d'énergie des composantes en fonction de la fréquence par exemple par le rapport de spectre d'énergie, ou dans une variante, des densités spectrales de puissance (PSD pour "Power Spectrum Density") entre les composantes d'ordre supérieur à 1 et celle d'ordre 0 selon les expressions suivantes:

∑ Wλf) rAω = - (4)

\K(f) ou, dans la variante où l'on utilise les PSD : ∑ PSD(B m σ n , f) γ ( f) = ° " ".^±' (5)

U KJ J PSD(B£, f) K ' '

Pour une plus grande fiabilité, il est préférable d'effectuer une observation du signal dans le domaine temporel à moyen et long terme et d'effectuer un lissage temporel et/ou fréquentiel.

Dans les cas où la résolution effective est supposée invariante dans le temps, l'estimation peut être faite préalablement sur une partie ou sur la totalité du contenu ou bien au cours du temps et de façon adaptative avec un objectif de convergence de l'estimation.

Dans les cas où les indices sont par nature variables dans le temps aussi bien qu'en fréquence, l'estimation est réactualisée au cours du temps (par exemple trame par trame).

Dans le cas d'un contenu codé dans le domaine "transformée", l'estimation du niveau de présence peut se faire par observation des facteurs d'échelle (au sens classique codage signal) et taux de quantification (allocation binaire) de chaque brique "temps-fréquence-espace", complétée par les méthodes d'estimation évoquées.

Outre l'estimation du niveau de présence des composantes spatiales par bande de fréquence, le module d'analyse 351 peut également mesurer d'autres caractéristiques du signal.

Ainsi, un niveau de bruit peut être estimé. Ce bruit peut être lié par exemple au bruit de fond des microphones pour un enregistrement et/ou au bruit de quantification dans le cas d'un codage audio.

Une autre information telle que l'indice de qualité ou de fiabilité de l'encodage spatial peut être déterminée. Cet indice est par exemple représenté par une erreur de modélisation de l'information spatiale ε k (/) dû par exemple à une erreur d'encodage qui peut se produire en présence d'aliasing spatial ou bien consécutive à un étalonnage imparfait du système microphonique.

Ces informations complémentaires (indice du niveau de bruit, indice de qualité) peuvent également faire partie des données D associées au flux audio, et être déterminées par les caractéristiques de la prise de son.

Ces informations complémentaires sont telles que l'équation (1) définissant l'encodage idéal est remplacé par l'équation (6) suivante:

B k = YλfK (θ s s )S + v k (f) + ε k (f) (6) où v k (/) désigne un bruit d'acquisition.

Ces informations peuvent être utilisées lors de la sélection des traitements adaptés à la présence effective des composantes par bande de fréquence, dans un mode de réalisation décrit en référence à la figure 8.

Le dispositif de traitement 350 tel que décrit en référence à la figure 3 met donc en œuvre un procédé de traitement que nous allons maintenant décrire en référence à la figure 4 qui illustre sous forme d'un algorithme les étapes principales du procédé général de traitement.

Ainsi l'étape E41 est une étape de réception du flux audio 3D ainsi que d'obtention de données D d'informations sur le niveau de présence des composantes spatiales du flux audio 3D en fonction de la fréquence. Ces données sont obtenues comme mentionné précédemment, soit directement à partir des caractéristiques de la prise de son soit après analyse du flux audio.

Ces données peuvent comporter en outre des informations sur le niveau de bruit ou sur le niveau de qualité d'un encodage spatial.

A l'étape E42, une sélection de traitements à appliquer par bande de fréquence est effectuée en fonction du niveau de présence des composantes obtenues à l'étape E41. Cette sélection peut également être effectuée en prenant en compte d'autres critères comme par exemple le niveau de bruit ou de qualité. Les différents traitements à sélectionner proviennent d'une base de données de traitement BD.

On obtient ainsi un traitement adapté par bande de fréquence.

Ces différents traitements sont ensuite appliqués en E44 au flux audio Bk pour les différentes bandes de fréquence pour fournir des signaux Sn qui seront ensuite restitués sur des hauts parleurs ou sur un casque.

Dans une étape optionnelle E43, les différents traitements par bande de fréquence sont concaténés ou reformulés pour générer un traitement global à appliquer sur toute la bande de fréquence. Ce traitement global est ainsi appliqué en E44 au flux audio.

En référence aux figures 5 et 6, nous allons maintenant décrire un premier mode de réalisation d'application de traitements au flux audio.

La figure 5 représente les informations de présence de composantes spatiales reçues soit directement avec le flux audio 3D, soit à partir d'une analyse du flux. Cette figure montre donc que pour une fréquence comprise entre 0 et fl, la résolution spatiale effective est de 1, que pour une fréquence comprise entre fl et f2, la résolution effective est de 2, que pour une fréquence comprise entre f2 et f3, la résolution effective est de 3 et que pour une fréquence supérieure à f3, la résolution effective est de 4.

Dans ce mode de réalisation, le module de sélection 353, en fonction des informations de présence des composantes spatiales, prend en compte les fréquences fi représentatives et définit la résolution spatiale effective comme l'ordre maximal tel χmn σ (fι)> fthres Vm<m e ff e ctive, fthres étant un seuil d'acceptabilité (fixé par exemple à -3dB).

Ce module retient donc comme fréquences de transition les fréquences où m sffsctιvs (f) connaît une discontinuité.

Pour chaque fréquence f t (ou entre les fréquences de transition), le module de sélection sélectionne dans la base de données BD, le traitement le plus adéquat pour la résolution effective m e ff ec tive(/ï)- On sélectionne par exemple une matrice de décodage D,.

Dans un mode de réalisation particulier, notamment dans le cas d'un décodage pour un dispositif de restitution du type haut-parleurs équi-répartis sur un cercle, les matrices de traitement se factorisent comme le produit d'une matrice de base D base commune à toutes les solutions de décodage et d'une matrice diagonale g dont les coefficients sont propres à chaque variante de décodage. Par exemple, une matrice identifiée par l'indice i s'écrira:

Typiquement, cela revient à pondérer les composantes spatiales B m σ n traitées par lesdits coefficients g m ^ (en général associés à l'ordre m) avant matriçage.

Ainsi, les gains optimaux choisis varient typiquement "par pallier" en fonction de la fréquence.

Le tableau 1 ci-dessous montre un exemple de valeurs que peuvent prendre ces gains g m ^ en fonction des décodages d'ordre respectifs Mproc=l, 2, 3, 4 pour 12 haut-parleurs:

Tableau 1

Un exemple de matrice de base (pour un décodage de K=9 composantes d'une représentation 2D d'ordre 4, sur N= 12 haut-parleurs équirépartis sur un cercle) peut être comme le tableau 2 ci-dessous:

Tableau 2

De manière générale, comme représenté sur la figure 6, pour la bande de fréquence de 0 à fl, une matrice de décodage Dl d'ordre 1 est choisi, pour la bande de fréquence de fl à f2, une matrice de décodage D2 d'ordre 2 est choisi, pour la bande de fréquence de f2 à O, une matrice de décodage D3 d'ordre 3 est choisi et pour la bande de fréquence supérieure à f3, une matrice de décodage D4 d'ordre 4 est choisi.

Un banc de filtres dont les fréquences limites sont les fréquences de transition déterminées précédemment est généré.

En pratique ce banc de filtres n'a pas besoin d'être très sélectif, donc peut ne pas être très coûteux.

Ces filtres ont des fonctions respectivement passe-bas, passe-haut et passe- bande, ils peuvent être à réponse impulsionnelle finie (RIF) ou infinie (RII), avec

relativement peu de coefficients. Il est important qu'ils aient cependant une réponse en phase sensiblement identique (et de préférence linéaire).

L'application du traitement par le module 322, est représenté en figure 6. Il s'effectue par un filtrage en sous-bandes Fi (Fl, F2, F3 et F4 sur la figure) des signaux Bk de K composantes, en utilisant le banc de filtre déterminé, pour en décliner des versions B k (l) , (B k (1) , B k (2) , B k (3) et B k (4) sur la figure).

Pour chaque sous-bande i, un matriçage des signaux filtrés B k *^ par la matrice D, correspondante est effectué, fournissant des signaux à bande limitée S n ^ (S n (1) , S n (2) , S n (3) et S n (4) sur la figure).

Une sommation des signaux correspondant aux différentes sous-bandes est ensuite effectuée pour obtenir les signaux S n =E 1 S n (l) .

Dans ce mode de réalisation, un traitement Di est appliqué à chaque sous- bande, le traitement Di étant associé à la résolution effective du flux dans cette sous- bande.

Dans un second mode de réalisation représenté en figure 7, l'étape de sélection des traitements Di est la même que celle effectuée précédemment pour le premier mode de réalisation.

Dans ce mode de réalisation, le module 354 de génération d'un traitement global à appliquer sur toute la bande de fréquence du flux audio est mis en œuvre.

Ce module construit une nouvelle et unique matrice de transfert D op en tant que somme des matrices sélectionnées D 1 pour chaque sous-bande [f l5 f 1+1 ], pondérées fréquentiellement par des fonctions W 1 (I):

Les fonctions W 1 (I) ont typiquement des fonctionnalités passe-bas, passe- bande et passe-haut, avec comme fréquences de transition les/,.

Cette génération d'une matrice globale est illustrée à la figure 7 pour un exemple de 4 bandes de fréquences. Les matrices Dl à D4 de traitements sont pondérées par des fonctions Wi (f) à W 4 (I) respectives et sont combinés pour obtenir une matrice Dop de dimension K*N.

Le traitement effectué dans le module 322 est ici avantageusement réalisé dans le domaine fréquentiel. Il consiste, pour chaque bloc temporel du flux multi- canal traité et pour chaque bande de fréquence de la représentation transformée, en un produit matriciel entre la matrice B k des coefficients représentant le flux dans ladite bande de fréquence, et les coefficients de la matrice de transfert opérationnelle D op pour cette bande de fréquence. Naturellement, on adopte une implémentation qui garantisse un échantillonnage fréquentiel identique pour les matrices B et D op .

La figure 8 maintenant décrite représente un exemple de réalisation de l'étape de sélection de traitements mis en œuvre par le module de sélection 353. Ce mode de réalisation s'applique dans le cas où les données D obtenues soit directement soit par analyse du flux, comportent non seulement des informations sur la présence des composantes spatiales par bande de fréquence γ k {f) , mais également des informations sur le niveau de bruit v k (f) et/ou des informations sur l'incertitude d'encodage ε k (/) .

Ainsi, la sélection des traitements s'effectue également en fonction de la compatibilité avec la qualité d'encodage des composantes traitées, à savoir non seulement le niveau ou facteur de présence mais aussi le niveau de bruit, voire un indice de fiabilité d'encodage, lié par exemple à l'incertitude d'encodage.

Dans ce mode de réalisation, on effectue une compensation dans une certaine limite du niveau de présence γ k (f) des composantes à traiter lorsqu'il est déficient.

Ainsi, tel que représenté en figure 8, l'étape E80 est une étape de présélection de traitements par bande de fréquence en fonction de l'information χ t (/) sur la présence effective des composantes spatiales. Des éléments d n k (f) sont ainsi obtenus et constituent la matrice de traitement globale D(f) à l'étape E81 pour toute la bande de fréquence.

A l'étape E82, on regarde si pour certaines fréquences, la présence effective des composantes est faible, par exemple si γ k {f) < \ . Pour ces fréquences, on

remplace alors les éléments de traitement correspondants de la matrice globale par par les éléments d n k (f)lγ k (f) de traitements compensés.

Une nouvelle matrice globale de traitement D'(f) est ainsi obtenue à l'étape E83.

Rappelons que pour une représentation encodée idéalement le traitement prévu produit des signaux selon l'équation suivante :

S n ( I) = ∑d nk ( f)B k ( f) (8) où B k (/) représente les composantes d'un flux après un encodage idéal et S n (/) celles obtenues après un décodage spatial correspondant.

Pour compenser les facteurs de présence ^ (Z) potentiellement déficients, on propose d'adapter le traitement en utilisant la matrice :

D,,(/) = D(/). diag(γ)- 1 , Où y = [ κ ] (9) d'où des signaux résultants:

En formalisant l'expression de composantes ayant subi un décodage non idéal par l'expression suivante:

B k (Z) - n (f)B k (Z) + v k (Z) + ε k (J) (11) correspondant à l'expression (6) décrite précédemment, et en appliquant la compensation mentionnée ci-dessus, on obtient l'expression suivante:

(12)

En ignorant dans un premier temps, le terme ε k (/) , on obtient :

Sλf) = ∑(dAf)B k (f)+^-vλf)) (13)

Ainsi cette expression montre que le niveau de bruit à l'issue du traitement calculé précédemment est donc, en supposant les bruits v k décorrélés deux à deux:

A l'étape E84, un calcul d'indice global représentatif du bruit associé au candidat D(f), fonction de la fréquence est défini comme suit: soit comme le maximum des bruits de sortie : v(D, /) = max n S n (f) - S n (I)

soit comme leur moyenne quadratique : v(D,/) = J∑ n S n (f)-S n (f)\ 2 /N

A défaut de connaissance ou d'estimation du bruit de fond v k (J) , on peut faire l'hypothèse que les signaux sont "de qualité identique", c'est-à-dire affectés par un bruit d'acquisition de même niveau |v(/)|| . Dans ce cas, on peut calculer l'augmentation du niveau de bruit (en moyenne quadratique) par la somme :

Pour simplifier, on pourra considérer que le bruit présent est d'un niveau jugé "acceptable" par le producteur de contenu mais que son augmentation à l'issue du traitement ne doit pas être supérieure à une certaine valeur. Le niveau de bruit v(D,f) pour le traitement D ne doit donc pas être supérieur au niveau de bruit v k (J) ) reçu pour cette bande de fréquence.

Dans l'hypothèse où le traitement D préserve globalement le niveau de signal, c'est donc la dégradation du rapport signal à bruit que l'on cherche à limiter.

On notera que la sélection selon l'invention tire avantageusement parti du fait qu'il est possible, avec certaines solutions de décodage et pour certaines gammes de fréquences, de ne pas dégrader le rapport signal à bruit tout en compensant des facteurs de présence γ k (J) <1. On observe en effet que certaines matrices de décodage contiennent des éléments d nk dont les valeurs diminuent pour des valeurs de k croissantes, pour lesquelles il se trouve que les facteurs d'échelle γ k (J) diminuent eux-mêmes (typiquement en basse fréquence).

Dans une variante du procédé décrit, on se propose d'exploiter de surcroît le taux d'incertitude sur l'encodage, auquel correspond le terme ε k (J) en reprenant l'expression (12) :

A l'étape E84 une vérification de l'influence du terme d'erreur est effectuée. En effet, la compensation du facteur d'échelle χ k (f) ne doit pas faire remonter le terme d'erreur ε k (f) à un niveau non négligeable devant B k (f) , ceci pour éviter des contreperformances spatiales.

Ainsi, un compromis est recherché entre la compensation des facteurs de présence et le niveau de bruit induit, voire le terme d'erreur produit. Ce compromis à effectuer va déterminer à l'étape E86, le traitement à effectuer par bande de fréquence. Une fonction de pondération W 1 (I) prenant en compte ces critères est alors calculée.

On peut également associer à une solution de traitement candidate, un ou plusieurs indices de performance spatiale calculés à l'étape E85 pour obtenir un autre critère de sélection.

Dans le contexte de spatialisation ambiophonique sur haut-parleurs, les performances objectives de spatialisation sont habituellement caractérisées par les vecteurs de vélocité et d'énergie introduits par Gerzon. On prend ci-dessous l'exemple d'une configuration de N haut-parleurs équidistants d'un point de référence qui est le point d'écoute privilégié, placés dans des directions repérées par des vecteurs unitaires U n .

Pour la caractérisation des performances spatiales, on considère un ensemble de directions de sources virtuelles représentées par des vecteurs unitaires v q ou des angles d'azimut et d'élévation (θ q q ) , représentatives d'un champ acoustique: par exemple un échantillonnage sensiblement régulier du cercle ou de la sphère unité, suivant qu'on vise une restitution sur un dispositif de haut-parleurs horizontal ou tridimensionnel. Pour chaque direction considérée, on calcule les gains G n (y q ) qui relient les signaux S n des haut-parleurs au signal S encodé, compte -tenu de l'opération d'encodage supposée idéale, B k = γ k q q ) et de l'opération de décodage utilisant le candidat D tel que S=D. B, où S et B représentent les vecteurs des signaux S n et B k respectivement. Le vecteur des gains G n s'écrit donc G = D.Y(v ? ) où Y(v ? ) est

Ie vecteur des foncûonsY k (v q ) = Y k q q ) . Finalement, le vecteur d'énergie est défini comme suit :

r E étant son module et û E le vecteur unitaire qui décrit sa direction.

Naturellement, pour un moindre coût de calcul, l'invention tient avantageusement compte que les indices comme ceux liés au vecteur énergie peuvent être pré-calculés ou bien calculés à partir de formules simples sans avoir à les calculer à partir d'un échantillonnage important de directions de sources virtuelles.

Les solutions de décodage classique qui sont par exemple répertoriés dans la base de données BD, vérifient en principe assez bien le critère de conformité directionnelle û E = v q pour l'ensemble des directions de source virtuelle.

La performance spatiale est alors décrite par le module r E , qui prédit en quelque sorte le flou de l'image sonore produite à travers l'angle a E = arccos r E . Cet indice est par exemple décrit dans le document suivant: article AESl 16 de Moreau, Daniel et Bertet, cité plus haut.

Si cet indice varie en fonction de la direction d'encodage v q , on en retiendra par exemple une moyenne, éventuellement pondérée en fonction de la direction d'encodage pour privilégier certaines régions de l'espace.

Les deux tableaux ci-dessus, Tableau 3 et Tableau 4 montrent un exemple de valeurs à la fois du module γ E (valeur de référence "idéale" =l)et de son arccos OI E (valeur de réf = 0°) pour chaque résolution effective Meff=l à 4.

En fonction des valeurs de performance souhaitées, les traitements Mproc de résolutions 1 à 4 sont choisis.

Tableau 3

Tableau 4

On obtient donc à l'étape E85 un indice σ(D,f) de performance spatiale associée à un traitement particulier et pour une fréquence.

Cet indice de performance spatiale peut être avantageusement complété par une information de qualité de reconstruction acoustique permise par la solution de décodage qui peut être calculée d'après l'erreur de reconstruction acoustique pour une fréquence et une zone d'écoute donnée.

Dans le contexte de l'invention, il est préférable que l'ensemble de ces indices de performance soient pré-calculés et associés à chaque solution candidate, mais on prévoit qu'ils puissent être (re)calculés au moment de la sélection, en fonction de critères ou d'options particulières définis par l'usager (e.g. taille de la zone d'écoute, etc.).

Plus généralement l'invention s'applique à toute autre forme de caractérisation de performances spatiales. Elle intègre notamment la distorsion angulaire (écart d'angle entre û E et v q ) qui peut résulter de l'emploi d'une solution de décodage mal adaptée à la résolution effective. En effet, dans le cas de dispositifs non réguliers, l'usage d'une solution de décodage optimal d'ordre M pour un flux de résolution effective d'ordre M<M peut conduire à des distorsions angulaires (du vecteur énergie par exemple).

ElIe s'applique aussi à la caractérisation de propriétés de rendu audio autre que strictement spatiales (comme des effets de coloration par exemple), mais dont la qualité dépend de la bonne prise en compte de la résolution spatiale effective.

On associe ainsi, à chaque solution candidate, un ou plusieurs indices de performance spatiale et on exploite cette information pour leur sélection à l'étape E86.

En effet, à cette étape E86, une note de préférence P(D/) est calculé de façon à ce qu'elle soit fonction croissante de la performance spatiale σ(D/) calculé à l'étape E85 et fonction décroissante de l'augmentation du niveau de bruit V(D/) calculé à l'étape E84.

Suivant une première option, on élit une solution par bande de fréquence, à savoir celle obtenant la meilleure note de préférence P(D/). Une fonction W 1 (Z) de pondération est alors définie. Cette fonction vaut par exemple 1 lorsque la solution n° i est la meilleure à la fréquence / et 0 ailleurs. De préférence, on définit W 1 (J) de sorte qu'elle passe continûment de 0 à 1 sur un intervalle de fréquences autour de chaque fréquence de transition.

Les données de traitement optimales sont alors calculées à l'étape E87 comme une pondération des solutions candidates en fonction de la fréquence :

D OP (/) = ∑W)D; (/) (i7)

Cette définition se prête avantageusement à un traitement dans le domaine fréquentiel, comme illustré à la figure 7.

Avantageusement, le calcul de la note de préférence peut être modifié pour refléter la facilité d'interpolation entre des solutions candidates sur des bandes de fréquence adjacentes.

De même, les fonctions de pondérations peuvent être définies pour optimiser l'interpolation entre solutions de bandes adjacentes.

La figure 9 décrit un mode de réalisation particulier du dispositif de traitement 350 selon l'invention. Matériellement, ce dispositif 350 comporte typiquement un processeur μP coopérant avec un bloc mémoire BM incluant une mémoire de stockage et/ou de travail, ainsi que la base de données BD précitée pour

répertorier les traitements possibles en fonction du niveau de présence des composantes spatiales. Le bloc mémoire peut avantageusement comporter un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé au sens de l'invention, lorsque ces instructions sont exécutées par un processeur μP du dispositif 350 et notamment une première étape d'obtention d'informations représentatives du niveau de présence des composantes spatiales du flux audio en fonction de la fréquence, une seconde étape de sélection d'un traitement par fréquence ou bande de fréquence en fonction des informations obtenues et une troisième étape d'application des traitements sélectionnés au flux audio 3D.

Typiquement, la figure 4 peut illustrer un organigramme représentant l'algorithme d'un tel programme informatique.

Le programme informatique peut également être stocké sur un support mémoire lisible par un lecteur du dispositif ou téléchargeable dans l'espace mémoire du dispositif 350.

Ce dispositif 350 selon l'invention peut être indépendant ou intégré dans un décodeur de signal audionumérique tel que décrit en référence à la figure 3.