Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD, MODULE AND COMPUTER SOFTWARE WITH QUANTIFICATION BASED ON GERZON VECTORS
Document Type and Number:
WIPO Patent Application WO/2009/050409
Kind Code:
A1
Abstract:
The invention relates to a method for encoding the components ( Xi,k ) of an audio scene including N signals (Si,..., SN) with N>1, that comprises the step of quantifying at least some of said components, wherein the quantification is defined based on at least an energy vector and/or one velocity vector associated with Gerzon criteria and based on said components.

Inventors:
MOUHSSINE ADIL (FR)
BENJELLOUN TOUIMI ABDELLATIF (GB)
Application Number:
PCT/FR2008/051764
Publication Date:
April 23, 2009
Filing Date:
September 30, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRANCE TELECOM (FR)
MOUHSSINE ADIL (FR)
BENJELLOUN TOUIMI ABDELLATIF (GB)
International Classes:
G10L19/00; G10L19/008
Other References:
GOODWIN, MICHAEL M.; JOT, JEAN-MARC: "Analysis and Synthesis for Universal Spatial Audio Coding", AES CONVENTIO 121, PAPER NUMBER 6874, 5 October 2006 (2006-10-05), XP002477913
GOODWIN, MICHAEL M.; JOT, JEAN-MARC: "A Frequency-domain Framework for Spatial Audio Coding Based on Universal Spatial Cues", AES CONVENTION 120, PAPER NUMBER 6751, 20 May 2006 (2006-05-20), XP002477914
ADIL MOUHSSINE ET AL: "Structure de codage audio spatialisé à scalabilité hybride", CORESA. COMPRESSION ET REPRESENTATION DES SIGNAUX AUDIOVISUELS, XX, XX, 8 November 2007 (2007-11-08), pages 1 - 6, XP002463627
DERRIEN O & DUHAMEL P: "Une approche statistique pour l'optimisation du MPEG-2/4 AAC (Advanced Audio Coder) en mode stéréophonique matricé (MS stéréo)", COLLOQUE SUR LE TRAITMENT DU SIGNAL ET DES IMAGES GRETSI, XX, XX, 2003, pages 1 - 4, XP002464084
Attorney, Agent or Firm:
FRANCE TELECOM/FTR & D/PIV/BREVETS (38/40 rue du Général Leclerc, ISSY MOULINEAUX CEDEX 9, FR)
Download PDF:
Claims:

REVENDICATIONS

1. Procédé de codage de composantes ( X 1 k ) d'une scène audio comprenant N signaux (Si,..., S N ) avec N>1 , comportant une étape de quantification de certaines au moins des composantes, caractérisé en ce que ladite quantification est définie en fonction au moins d'un vecteur d'énergie (E ) et/ou d'un vecteur de vélocité (y ) associé(s) à des critères de Gerzon et fonction desdites composantes.

2. Procédé selon la revendication 1 , selon lequel la quantification est définie en fonction de variations d'au moins un desdits vecteurs (y , E) lors de variations dé composantes ( X ι k ).

3. Procédé selon la revendication précédente, selon lequel on détermine des variations de composantes ( X 1 k ) correspondant à la minimisation, ou à la limitation, de variations d'au moins un des vecteurs (V , E ) et on déduit, en fonction desdites variations déterminées des composantes, des valeurs d'erreurs de quantification permettant de définir la quantification des composantes.

4. Procédé selon l'une des revendications 1 à 3, caractérisé en ce qu'il comporte une étape de détection d'une fréquence de transition permettant de déterminer celui des vecteurs parmi le vecteur d'énergie ou le vecteur de vélocité à prendre en compte pour définir la quantification des composantes.

5. Procédé selon l'une des revendications précédentes, caractérisé en ce que les composantes sont des composantes obtenues par transformation spatiale.

6. Procédé selon la revendication 5, caractérisé en ce que les composantes spatiales sont des composantes ambiophoniques, déterminées par une transformation spatiale ambiophonique.

7. Procédé selon la revendication 5 ou 6, selon lequel le vecteur d'énergie (E ) est calculé en fonction d'une transformation spatiale inverse (D ) sur lesdites composantes spatiales et/ou le vecteur de vélocité (y ) est calculé en fonction d'une transformation spatiale inverse (D) sur lesdites composantes spatiales.

8. Module (5) de traitement de composantes ( X 1 k ) provenant d'une scène audio comprenant N signaux (Si,..., S N ) avec N>1 , comprenant des moyens pour déterminer des éléments de définition d'une étape de quantification de certains au moins des composantes, en fonction au moins du vecteur d'énergie (E ) et/ou du vecteur de vélocité (V ) associés à des critères de Gerzon et fonction desdites composantes.

9. Codeur (1 ) audio adapté pour coder des composantes ( X 1 k ) d'une scène audio comprenant N signaux (Si,..., S N ) avec N>1 , comportant : un module de traitement (5) de composantes selon la revendication 8 ; un module de quantification adapté pour définir des données de quantification associés à des composantes en fonction au moins d'éléments déterminés par le module de traitement.

10. Programme d'ordinateur à installer dans un module de traitement (5), ledit programme comprenant des instructions pour mettre en œuvre, lors d'une exécution du programme par des moyens de traitement dudit module, les étapes d'un procédé selon l'une quelconque des revendications 1 à 7.

Description:

PROCEDE, MODULE ET PROGRAMME D'ORDINATEUR AVEC QUANTIFICATION EN FONCTION DES VECTEURS DE GERZON

La présente invention concerne les dispositifs de codage de signaux audio comprenant des modules de quantification et destinés notamment à prendre place dans des applications de transmission ou de stockage de signaux audio numérisés et compressés.

L'invention concerne plus particulièrement le codage de scènes sonores 3D. Une scène sonore 3D, encore appelée son spatialisé, comprend une pluralité de canaux audio correspondant chacun à des signaux monophoniques.

Dans des techniques de codage de signaux d'une scène sonore, chaque signal monophonique est codé indépendamment des autres signaux sur la base de critères perceptuels visant à réduire le débit en minimisant la distorsion perceptuelle du signal monophonique codé par rapport au signal monophonique d'origine. Les codeurs audio de l'état de l'art de type codeur MPEG 2/4 AAC offrent des techniques de réduction du débit qui minimisent la distorsion perceptuelle du signal.

Une autre technique de codage de signaux d'une scène sonore, utilisée dans le codeur « MPEG Audio Surround » (cf. « Text of ISO/IEC FDIS 23003-1 , MPEG Surround », ISO/IEC JTC1 / SC29 / WG11 N8324, JuIy 2006, Klagenfurt,

Austria), comprend l'extraction et le codage de paramètres spatiaux à partir de l'ensemble des signaux audio monophoniques sur les différents canaux. Ces signaux sont ensuite mélangés pour obtenir un signal monophonique ou stéréophonique, qui est alors comprimé par un codeur mono ou stéréo classique (par exemple de type MPEG-4 AAC, HE-AAC, etc). Au niveau du décodeur, la synthèse de la scène sonore 3D restituée se fait à partir des paramètres spatiaux et du signal mono ou stéréo décodé.

Le codage des signaux multicanaux d'une scène sonore comprend dans certains cas l'introduction d'une transformation (KLT, Ambiophonique, DCT...) permettant de mieux prendre en compte les interactions qui peuvent exister entre les différents signaux de la scène sonore à coder.

Pour ces nouveaux types de codeurs, se pose alors le problème d'offrir une réduction du débit qui respecte l'aspect spatial de la scène sonore.

La présente invention vient améliorer cette situation en proposant, suivant un premier aspect, un procédé de codage de composantes d'une scène audio comprenant N signaux avec N>1 , comportant une étape de quantification de certaines au moins des composantes. Le procédé est caractérisé en ce que la quantification est définie en fonction au moins d'un vecteur d'énergie et/ou d'un vecteur de vélocité associé(s) à des critères de Gerzon et fonction des composantes.

Un procédé selon l'invention propose ainsi une quantification qui prend en compte les interactions entre les signaux d'une scène sonore et qui permet ainsi de réduire la distorsion spatiale de la scène sonore et donc de respecter son aspect original. L'allocation de bits aux composantes spatiales est réalisée en considérant la précision spatiale et la stabilité spatiale de la scène sonore restituée.

La qualité audio de la scène sonore globale décodée est améliorée pour un débit de codage donné.

Dans un mode de réalisation, la quantification est définie en fonction de variations d'au moins un desdits vecteurs d'énergie et de vélocité lors de variations de composantes. L'allocation de bits aux différentes composantes est ainsi réalisée en fonction de l'impact de leurs variations respectives sur la précision spatiale et/ou la stabilité spatiale de la scène sonore décodée.

Dans un mode de réalisation, on détermine des variations de composantes correspondant à la minimisation, ou à la limitation, de variations d'au moins un des vecteurs d'énergie et de vélocité et on déduit, en fonction desdites variations des composantes, des valeurs d'erreurs de quantification permettant de définir la quantification des composantes. Cette disposition permet de déterminer la fonction de quantification qui donnera lieu à une perturbation minimum, ou limitée, de la scène sonore restituée.

Dans un mode de réalisation, un procédé selon l'invention comporte en outre une étape de détection d'une fréquence de transition permettant de déterminer celui des vecteurs parmi le vecteur d'énergie ou le vecteur de vélocité à prendre en compte pour définir la quantification des composantes. Une telle disposition permet d'augmenter la qualité du codage tout en limitant le volume de calcul à réaliser.

Dans un mode de réalisation, les composantes sont des composantes obtenues par transformation spatiale, par exemple de type ambiophonique.

Dans d'autres modes de réalisation, la transformation est une transformation de type temps/fréquence, par exemple une DCT, ou encore une combinaison de transformation.

Dans un mode de réalisation, le vecteur d'énergie est calculé en fonction d'une transformation spatiale inverse sur lesdites composantes spatiales et/ou le vecteur de vélocité est calculé en fonction d'une transformation spatiale inverse sur lesdites composantes spatiales. Suivant un second aspect, l'invention propose un module de traitement de composantes provenant d'une scène audio comprenant N signaux avec N>1 , comprenant des moyens pour déterminer des éléments de définition d'une étape de quantification de certaines au moins des composantes, en fonction au moins du vecteurs d'énergie et/ou du vecteur de vélocité associé(s) à des critères de Gerzon et fonction des composantes.

Suivant un troisième aspect, l'invention propose un codeur audio adapté pour coder des composantes d'une scène audio comprenant N signaux avec N>1 , comportant : un module de traitement de composantes suivant le deuxième aspect de l'invention ; et un module de quantification adapté pour définir des indices de quantification associés à des composantes en fonction au moins d'éléments déterminés par le module de traitement.

Suivant un quatrième aspect, l'invention propose un programme d'ordinateur à installer dans un module de traitement, ledit programme comprenant des instructions pour mettre en œuvre, lors d'une exécution du programme par des moyens de traitement dudit module, les étapes d'un procédé suivant le premier aspect de l'invention.

D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels :

la figure 1 représente un codeur dans un mode de réalisation de l'invention ; la figure 2 illustre la propagation d'une onde plane dans l'espace ; la figure 3 représente un dispositif de restitution d'une scène sonore, comprenant des haut-parleurs.

Les critères de Gerzon sont généralement utilisés pour caractériser la localisation des sources sonores virtuelles synthétisées lors de la restitution de signaux d'une scène sonore 3D depuis les haut-parleurs d'un système de rendu sonore donné.

Ces critères reposent sur l'étude des vecteurs de vélocité et d'énergie des pressions acoustiques générées par le système de rendu sonore utilisé.

Lorsqu'un système de rendu sonore comprend n haut-parleurs, les n signaux générés par ces haut-parleurs, sont définis par une pression acoustique Pi et un angle de propagation acoustique <p t , i=1 à n.

Le vecteur de vélocité V , de coordonnées polaires (r v v ) est alors défini ainsi

Le vecteur d'énergie é , de coordonnées polaires (r E E ) est défini ainsi :

Les conditions nécessaires pour que la localisation des sources sonores virtuelles soit optimale se définissent en cherchant les angles <p t , caractérisant la position des haut-parleurs du système de rendu sonore considéré, qui vérifient les critères ci-dessous, dits critères de Gerzon, qui sont les critères suivants :

- critère 1 , relatif à la précision de l'image sonore de la source S en basses fréquences : θ v = θ ; où θ est l'angle de propagation de la source S réelle qu'on cherche à atteindre.

- critère 2, relatif à la stabilité de l'image sonore de la source S en basses fréquences : r v = 1 ;

- critère 3, relatif à la précision de l'image sonore de la source S en hautes fréquences : θ E = θ ;

- critère 4, relatif à la stabilité de l'image sonore de la source S en hautes fréquences : r E = 1.

Le codeur décrit ci-dessous dans un mode de réalisation de l'invention utilise les vecteurs de vélocité et d'énergie associés aux critères de Gerzon dans une application autre que celle consistant à rechercher les meilleurs angles <p t caractérisant la position des haut-parleurs d'un système de rendu sonore considéré.

La figure 1 représente un codeur audio 1 dans un mode de réalisation de l'invention.

Le codeur 1 comprend un module 3 de transformation temps/fréquence, un module 4 de transformation spatiale, un module 6 de quantification et un module 7 de constitution d'une séquence binaire.

Une scène sonore 3D à coder, considérée à titre d'illustration, comprend

N canaux (avec N >1 ) sur chacun desquels un signal respectif Si, ..., S N est délivré. Le module 3 de transformation temps/fréquence du codeur 1 reçoit en entrée les N signaux Si,..., S N de la scène sonore 3D à coder.

Chaque signal Si, i = 1 à N, est représenté par la variation de sa pression omnidirectionnelle acoustique Pi et l'angle θj de propagation, dans l'espace de la scène 3D, de l'onde acoustique associée. Sur chaque trame temporelle de chacun de ces signaux indiquant les différentes valeurs prises au cours du temps par la pression acoustique Pi, le module 3 de transformation temps/fréquence effectue une transformation

temps/fréquence. Il détermine, dans le cas présent, pour chacun des signaux Si, i=1 à N, sa représentation spectrale caractérisée par M coefficients MDCT Y 1 k , avec k= 0 à M-1. Un coefficient MDCT Y 1 k représente ainsi l'élément du spectre du signal Si pour la fréquence F k . Les représentations spectrales Y 1 k , k= 0 à M-1 , des signaux Si, i= 1 à N, sont fournies en entrée du module 4 de transformation spatiale, qui reçoit en outre en entrée les angles θi de propagation acoustique caractérisant les signaux d'entrée Si.

Le module 4 de transformation spatiale est adapté pour effectuer une transformation spatiale des signaux d'entrée fournies, c'est-à-dire déterminer les composantes spatiales de ces signaux résultant de la projection sur un référentiel spatial dépendant de l'ordre de la transformation.

L'ordre d'une transformation spatiale se rattache à la fréquence angulaire selon laquelle elle « scrute » le champ sonore. Dans un mode de réalisation, la transformation spatiale considérée est la transformation ambiophonique. La scène sonore est alors représentée par un ensemble de signaux appelés composantes ambiophoniques, qui permettent de stocker l'information sonore relative au champ acoustique. Cette représentation facilite la manipulation du champ acoustique (rotation de la scène sonore, distorsion de perspectif i.e. possibilité de resserrer la scène frontale et dilater la scène arrière) et l'extraction des paramètres pertinents pour une reproduction sur un dispositif donné.

Un autre avantage de la transformation ambiophonique est que, dans le cas où le nombre N de signaux de la scène sonore est grand, il est possible de les représenter par un nombre L de composantes ambiophoniques bien inférieur à N, en dégradant très peu la qualité spatiale de la scène sonore. Le volume de données à transmettre est donc réduit et ceci sans dégradation importante de la qualité audio de la scène sonore.

Ainsi, dans le cas considéré, le module 4 de transformation spatiale effectue une transformation ambiophonique, qui donne une représentation spatiale compacte d'une scène sonore 3D, en réalisant des projections du champ sonore sur les fonctions harmoniques sphériques ou cylindriques associées.

Pour plus d'information sur les transformations ambiophoniques, on pourra se référer aux documents suivants : « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, Jérôme DANIEL, 31 juillet 2001 , « A highly scalable spherical microphone array based on an orthonormal décomposition of the sound field », Jens Meyer - Gary Elko, Vol. Il - pp. 1781-1784 in Proc. ICASSP 2002.

En référence à la figure 2, la formule suivante donne la décomposition en harmoniques cylindriques à un ordre infini d'un signal Si de la scène sonore : Sj(r, φ) = Pi.[J 0 (kr) + ^ 2.j m J m (kr).(cosm.θ r cosm.φ + smm.θ r smm.φ) ] l≤m≤∞ où (J m ) représentent les fonctions de Bessel, r la distance entre le centre du repère et la position d'un auditeur placé en un point M, Pi la pression acoustique du signal Si, θi l'angle de propagation de l'onde acoustique correspondant au signal Si et φ l'angle entre la position de l'auditeur et l'axe du repère.

Si la transformation ambiophonique est d'ordre fini p, pour une transformation ambiophonique 2D (selon le plan horizontal), la transformée ambiophonique d'un signal Si exprimée dans le domaine temporel comprend alors les 2p+1 composantes suivantes : (Pi, Pi.cosθi, Pi.sinθi, Pi.cos2θi, Pi.sin2θi, Pi.cos3θi, Pi.sin3θi, ..., Pi.cospθi,

Pi.sinpθi).

Dans ce qui suit, il a été considéré une transformation ambiophonique 2D. Néanmoins l'invention peut être mise en œuvre avec une transformation ambiophonique 3D (dans un tel cas, on considère que les haut-parleurs sont disposés sur une sphère).

Par ailleurs, l'invention peut être mise en œuvre avec un ordre p de transformation ambiophonique quelconque, par exemple p=2 ou plus.

Soit A = (A i } \ ≤ι≤L la matrice de transformation ambiophonique d'ordre p l≤J≤N pour la scène 3D.

ï - 1

Alors A 1 ; = 1 , Kr Jî COS θ } si i pair et A 1 } = Vïssiin θ ;, si i

impair, soit :

1 1

V2 cos 6> yjï COS 6> 2 . yfïcosθ N

V2 sin 6> 4l ήn θ 2 . yfïsmθ N yfïcos 2θ 1 yfïcos2θ 2 . V2 cos2# w

A = ^Jî SJn W 1 T/î sin W 2 . 4ïήn2θ N

V2 COS pU 1 yJ2 cos pθ 2 . yf2 cos pθ N

Soit Y la matrice des composantes fréquentielles des signaux Si, i= 1 à

Soit X la matrice des composantes ambiophoniques : X = (x ι k \ ≤t≤L

O≤k≤M-l

La matrice X des composantes ambiophoniques est déterminée à l'aide de l'équation suivante :

X = A . Y (3)

Le module 4 de transformation spatiale est ainsi adapté pour déterminer la matrice X , à l'aide de l'équation (3) en fonction des données Y 1 k et θi (i=1 à N, k= 0 à M-1 ) qui lui sont fournies en entrée.

Les valeurs X 1 k (i=1 à L, k= 0 à M-1 ), qui sont les éléments à coder par le codeur 1 dans une séquence binaire, sont fournies en entrée du module 6 de quantification.

Le module 6 de quantification comprend un module 5 de traitement adapté pour mettre en œuvre un procédé pour définir la fonction de quantification à appliquer à des composantes ambiophoniques X 1 k (i=1 à L, k= 0 à M-1 ) reçues. Le procédé exploite des relations entre les variations des vecteurs vélocité et énergie utilisés dans les critères de Gerzon et les variations des composantes ambiophoniques.

La fonction de quantification ainsi définie est ensuite appliquée aux composantes ambiophoniques reçues par le module 6 de quantification.

Les étapes de définition de la fonction de quantification mises en œuvre par le module 5 de traitement sont basées sur les principes décrits ci-dessous, relativement aux valeurs obtenues X 1 k (i=1 à L, k= 0 à M-1 ), des composantes ambiophoniques à quantifier.

Considérons D la matrice de décodage ambiophonique d'ordre p pour un système régulier de rendu audio à Q' haut-parleurs (c'est-à-dire que les haut- parleurs sont disposés régulièrement autour d'un point).

χ[*] = est le vecteur pour la fréquence F k (k=0 à M-1 ) des

composantes ambiophoniques d'ordre p avec L = Ip + 1 et τ[k] est le vecteur des puissances des signaux respectifs délivrés aux Q' hauts parleurs après décodage ambiophonique.

On a alors τ[fc] = D.X[fc] (4)

Si [φ v ---,φ Q ^ est le vecteur des angles de propagation acoustique depuis les Q' hauts parleurs respectifs, alors la matrice D de décodage ambiophonique d'ordre p s'écrit de la manière suivante :

Q ,

On notera que le choix d'un système régulier a été fait parce que la matrice de décodage présente alors une complexité de calcul réduite (soit D' la matrice ambiophonique d'ordre p adaptée pour coder L signaux, alors la matrice de décodage V décodage =—D' τ ). Toutefois une autre matrice de décodage ambiophonique peut être utilisée par le module 5 de traitement.

Les coordonnées des vecteurs de vélocité V et d'énergie E , qu'on nommera ci-après vecteurs de Gerzon, vérifient pour la fréquence F k , k=0 à M-1 :

r v cosθ v [k]

r E sin θ E [k] =

et par conséquent on obtient (équations (5)) :

σi ≤ι≤β {∑i<-j<-L<r X j, k ) cos ^

Ce dernier système d'équations (5) définit la relation qui existe entre les composantes ambiophoniques et les vecteurs de Gerzon V et é , définis par leurs coordonnées polaires respectives (r v v ) et (r E E ) .

Une variation des valeurs prises par les composantes ambiophoniques implique donc une variation ou un déplacement correspondant(e) des vecteurs de Gerzon autour de leur position originale.

Or, dans le cas où les composantes ambiophoniques sont quantifiées, leurs valeurs quantifiées ne sont autres que des valeurs approchées de leurs vraies valeurs.

Il va maintenant être déterminé l'influence sur les vecteurs de Gerzon d'un déplacement élémentaire h autour des valeurs des composantes ambiophoniques.

Par définition de la différentielle d'une fonction composée, on peut écrire que : d tm(θ v [k](h)) = (l + tm 2 v [k](h))).dθ v [k](h) d tan(θ E [k](h)) = (l + tan 2 E [k](h))).dθ E [k](h)

(6) dr 2 (h) = 2r v (h).dr v dr E (h) = 2r E (h).dr E

On peut déduire de ces équations (6) que la connaissance des variations des fonctions tan(6^ [fc]) , tan(0 £ [fc]) , r 2 et r 2 permet de déterminer la variation correspondante des vecteurs de Gerzon autour du vecteur h .

Le vecteur h = représente l'erreur de quantification pour une fréquence F k des composantes ambiophoniques X 1 k (i=1 à L) considérées.

La différentielle de la fonction tanj^ [&]) autour du vecteur h peut s'écrire comme suit :

d tm(θ v [k](h)) = ∑h n . AJlUZ , ( 7 ).

H=I dX.

En calculant alors, à l'aide des équations (5), les dérivées partielles des fonctions tan(# v [fc]) et r y 2 par rapport à la variation (K) ι<n<L de chaque composante ambiophonique on obtient pour «e[l,L], fce [O 5 Af-I], (équations (8)) :

De même on calcule les dérivées partielles des fonctions tan(0g[fc]) et ri (équations (9)), pour we[l,L] et ke [0,Af-I] :

Dans le paragraphe ci-dessus ont ainsi été déterminées les relations (8) et (9) qui lient les variations des vecteurs de Gerzon aux variations des composantes ambiophoniques. L'erreur que les vecteurs de Gerzon subissent est donc fonction de l'erreur introduite sur les composantes ambiophoniques. Dans ce qui suit, ces relations sont exploitées par le module 5 de traitement pour déterminer un nouveau type de quantification se basant sur les critères de spatialisation.

Dans un mode de réalisation de l'invention, étant donné un débit de valeur Deb octroyé pour la quantification, le module 5 de traitement cherche à déterminer l'erreur h de quantification des composantes ambiophoniques avec le débit Deb , qui optimise le déplacement des vecteurs de Gerzon.

Dans un mode de réalisation, l'optimisation recherchée est la minimisation, ou encore la limitation en-deçà d'un seuil donné, du déplacement des vecteurs de Gerzon autour de leur position correspondant à une erreur nulle. Cela revient à chercher la valeur du vecteur d'erreur h qui permet aux vecteurs de Gerzon de garder une orientation et un module assez proche des vecteurs de Gerzon calculés sans quantification.

En effet, les vecteurs de Gerzon permettent de contrôler le degré de fidélité spatiale (stabilité et précision de l'image sonore restituée) lors de la restitution d'une scène sonore sur un dispositif donné.

Considérons le vecteur de fonctions suivantes:

Ce vecteur (10) représente les variations des vecteurs de Gerzon pour un déplacement h des valeurs des composantes ambiophoniques (X n ) 1<n<L -

Soit Deb le débit global alloué au module 6 de quantification pour quantifier les composantes ambiophoniques. Le débit global Deb est égal à la somme des débits D ;> s alloués à chaque fréquence F s, s= 0 à M-1 , de chaque

composante ambiophonique (X n ) 1<n<L , M représentant le nombre de bandes spectrales des composantes ambiophoniques

L M -I

Ainsi Deb = ∑ ∑ D ] s .

Dans le cas où le module 6 de quantification est un quantificateur à haute résolution, on peut écrire que :

X J,k

D j,k = cte + - lo èw (11 )

Ainsi, dans un mode de réalisation, le problème d'optimisation à résoudre peut être écrit comme suit : r\dθ v \(hf

« Déterminer h minimisant κ(h) selon la norme de D

L M-I dans chaque fréquence Fk, sous la contrainte du débit global Deb = ∑ ∑ D ] s ».

/=1 k=0

La résolution de ce problème peut être faite à la place en considérant le problème dual : « Déterminer h minimisant dans chaque fréquence Fk le débit global Deb sous la contrainte |K(h)| 2 < |δ| 2 », une condition suffisante pour minimiser le débit global Deb consistant à minimiser le débit élémentaire dans chaque fréquence.

L'élément δ est un vecteur indiquant un seuil de perception spatiale donné. Ce vecteur seuil δ peut être déterminé de façon statistique en calculant pour différents systèmes de rendu et pour différents ordres de transformation ambiophoniques le seuil à partir duquel le changement des valeurs prises par les composantes ambiophonique devient perceptible.

Dans un mode de réalisation, ce problème d'optimisation est résolu par le module 5 de traitement en utilisant la méthode lagrangienne et des méthodes de descente du gradient, à l'aide par exemple d'un programme d'ordinateur mettant en œuvre les étapes de l'algorithme décrit ci-dessous. Les méthodes lagrangienne et de descente du gradient sont connues.

Lors d'une itération de l'algorithme, chaque étape a/, b/ ou c/ est mise en œuvre en parallèle pour chaque fréquence F k ,, k=0 à M.

L'étape d/ utilise les résultats déterminés pour l'ensemble des fréquences F k> k =0 à M-1.

Soit la fonction lagrangienne suivante : L(X, λ) = D ; jt -λ(κ(x)-δ) . • Dans une première étape a/ pour une fréquence F k , les coordonnées du vecteur de Lagrange λ sont initialisées : λ = λ (0) .

Puis les étapes b/ à d/ sont réalisées successivement pour (Z) = (0) :

Dans l'étape b/, on détermine, relativement à la fréquence Fk,

Cette détermination est effectuée en recherchant les coordonnées de

X tel que les dérivées partielles fixe) sont nulles, à l'aide des équations (6), (7), (8) et (9).

Dans l'étape c/, on calcule, relativement à la fréquence F k , λ (/+7) = max|λ (/) + α.g(/i (/) j,θ| , où g représente la fonction gradient.

E (ti l) )

On a s(h w ) = dr v (h«> )

A l'aide des équations (6), (7) et (8) et (9), on détermine la valeur de

• Dans l'étape d/, on détermine le débit Dj ( \ alloué pour le codage de la j ιeme composante ambiophonique dans la fréquence F k , égal à

selon l'équation (11 ).

L M-I

Puis on calcule la somme D (l) = V /—i V /—i D j (l k ) des débits D ( ι l - k) , .

On compare ensuite la valeur D (l> à la valeur Deb du débit global souhaité.

Si la valeur du débit obtenu D (l) est supérieure à la valeur Deb souhaitée, on incrémente (Z) de 1 et on réitère les étapes b/ à d/.

Sinon, on stoppe les itérations.

Lorsque à l'étape d/ d'une itération (lλ , la valeur du débit D (l/> obtenu

est inférieure à la valeur Deb souhaitée, les coordonnées h (//) du vecteur h''" calculée lors de l'itération (l f ) pour une fréquence Fk sont celles de l'erreur minimisant le déplacement des vecteurs de Gerzon dans la fréquence F k .

La fonction de quantification est ainsi définie pour chaque composante ambiophonique dans chaque fréquence F k : la coordonnée h } (lf ) (k) calculée pour la fréquence Fk représente l'erreur de quantification de la j ιeme composante ambiophonique dans la fréquence Fk.

Une fois la quantification à opérer ainsi définie par le module 5 de traitement, Le module 6 détermine les indices de quantification correspondant pour chaque composante spectrale ambiophonique et fournit ces données au module 7 de constitution d'une séquence binaire. Ce dernier, après avoir effectué le cas échéant un traitement supplémentaire sur les données reçues (par exemple

un codage entropique), constitue, en fonction de ces données, une séquence binaire destinée par exemple à être transmise dans un flux binaire φ.

L'invention propose ainsi une nouvelle technique de quantification applicable aux signaux multicanaux, qui prend en compte des caractéristiques spatiales de la scène à coder. La quantification, définie par l'allocation des bits, par les pas de quantification ou encore par un indice caractérisant un quantificateur parmi un ensemble, est déterminée de manière à provoquer une déviation limitée des vecteurs de Gerzon, et ainsi garantir lors de la restitution des signaux quantifiés une scène acoustique fidèle à la scène acoustique originale. Les vecteurs vélocité et énergie sont deux outils mathématiques introduits par Gerzon dont l'objectif est de traduire l'effet de la localisation, dans les domaines basse et haute fréquences respectivement, d'une source sonore synthétisée. Pour un auditeur placé au centre d'un dispositif de reproduction, le vecteur vélocité V et le vecteur d'énergie é sont associés respectivement aux effets de localisation en basse et haute fréquences.

Dans un mode de réalisation, en pratique, on détermine une fréquence de transition qui détermine les domaines de prépondérance des critères V et E .

Ainsi, pour les fréquences supérieures à cette fréquence de transition, la prédiction de la localisation est effectuée grâce au vecteur d'énergie é et pour les fréquences en-dessous de cette fréquence de transition, la localisation se base sur le vecteur de vélocité V .

Physiquement, la fréquence de transition correspond à la fréquence au delà de laquelle le front d'onde est plus petit que la dimension de la tête. Dans le cas des systèmes ambiophoniques du premier ordre, cette fréquence de transition est de l'ordre de 700 Hz.

A partir de ces données, il est possible alors de scinder le problème d'optimisation en deux problèmes. Le premier problème correspond à chercher à optimiser la position de la source reconstruite après quantification dans le domaine des basses fréquences, et le deuxième problème correspond à chercher à l'optimiser dans le domaine des hautes fréquences.

Ainsi, il est possible de réduire le nombre de contraintes à deux. On va f\dθ v \(h)\ donc utiliser dans l'algorithme d'optimisation juste le couple ou le

couple selon qu'on se trouve dans le domaine basse fréquences ou haute fréquences.

Dans le mode de réalisation décrit ci-dessus, l'invention est mise en œuvre en utilisant une transformation spatiale inverse d'une transformation spatiale utilisée lors du codage.

Dans un mode de réalisation, les vecteurs de Gerzon sont calculés et utilisés indépendamment d'une transformée éventuellement utilisée lors du codage, c'est-à-dire que l'invention peut être mise en œuvre lorsque les signaux subissent, ou non, une transformation spatiale ou autre.

En effet, ces vecteurs de Gerzon sont des paramètres physiques qui permettent de caractériser le front d'onde reconstruit par la superposition des ondes émises par les différents hauts parleurs (voir « Représentation de champs acoustiques, application à la transmission et à la reproduction de scènes sonores complexes dans un contexte multimédia », Thèse de doctorat de l'université Paris 6, 31 juillet 2001 , Jérôme Daniel).

En référence à la figure 3 représentant un dispositif de restitution 10 comprenant N hauts parleurs Hj (i=1 à N) (dont seuls les haut-parleurs Hi, H n et Hp sont représentés), on considère un point d'écoute E dans l'espace qui représente le centre du dispositif de restitution sonore 10 (figure 1 ).

Il est possible dans ce cas de calculer les vecteurs vélocité et énergie relatif à ce point d'écoute E en utilisant les formules suivantes :

- ∑ G 1 2 U 1

où (G 1 ,- -,G^) sont les gains des différents haut-parleurs Hj, i=1 à N constituant la scène sonore et les vecteurs U 1 sont des vecteurs unitaires partant du point E vers les haut-parleurs Hj.

A partir de cette formule, les vecteurs de Gerzon peuvent être calculés sans l'utilisation préalable de l'encodage ambiophonique.

Dans le cadre de la réalisation d'un quantificateur spatial basé sur les vecteurs de Gerzon, il est possible alors de définir le problème de quantification comme suit :

Pour un débit Deb donné, il faut minimiser la variation des vecteurs vélocité Ay = IIv -Vl et énergie δE = ||ê ' -ê| , avec V et ε représentant

II II2 II II2 respectivement le vecteur vélocité et le vecteur énergie calculés après quantification. La résolution de ce problème se fait de façon similaire à la résolution décrite ci-dessus avec l'utilisation de la transformée ambiophonique, basée sur la résolution du problème lagrangien.