MODIFYING THE SPECTRAL CHARACTERISTICS OF A LINEAR PREDICTION FILTER OF A DIGITAL AUDIO SIGNAL REPRESENTED BY THE LSF OR ISF COEFFICIENTS THEREOF

Title:

MODIFYING THE SPECTRAL CHARACTERISTICS OF A LINEAR PREDICTION FILTER OF A DIGITAL AUDIO SIGNAL REPRESENTED BY THE LSF OR ISF COEFFICIENTS THEREOF

Document Type and Number:

WIPO Patent Application WO/2013/135997

Kind Code:

Abstract:

The invention relates to digital signal processing, comprising the construction of a filter for improving signal quality, the method further comprising obtaining line spectral frequency (LSF) and/or immittance spectral frequency (ISF) parameters from the linear prediction analysis of said signal. The improvement filter according to the invention is defined by a combination of polynomials, the coefficients of which are functions of at least the LSF and/or ISF parameters, and damping factors (yi) associated with respective roots of said polynomials (200) are determined, and the improvement filter (AISF ϒ(z)) is calculated on the basis of at least said LSF and/or ISF parameters and said dampening parameters (210).

Inventors:

DANIEL JEROME (FR)
LE GUYADER ALAIN (FR)
RAGOT STEPHANE (FR)

Application Number:

PCT/FR2013/050472

Publication Date:

September 19, 2013

Filing Date:

March 06, 2013

Export Citation:

Click for automatic bibliography generation Help

Assignee:

ORANGE (FR)

International Classes:

G10L19/26

Domestic Patent References:

WO1996021218A1

1996-07-11

Other References:

RAPPORTEUR Q10/16: "Draft revised ITU-T Recommendation G.729 Coding of speech at 8 kbit/s using conjugate-structure algebraic-code-excited linear-prediction (CS-ACELP)", ITU-T SG16 MEETING; 14-11-2006 - 24-11-2006; GENEVA,, no. T05-SG16-061114-TD-WP3-0182, 7 November 2006 (2006-11-07), XP030100355
N. SUGAMURA; F. ITAKURA: "Speech analysis and synthesis methods developed at ECL in NTT - From LPC to LSP", SPEECH COMMUNICATION, 1986, pages 199 - 215, XP026758643, DOI: doi:10.1016/0167-6393(86)90008-7
Y. BISTRITZ; S. PELLER: "Immittance Spectral Pairs (ISP) for Speech Encoding", ICASSP, vol. 2, April 1993 (1993-04-01), pages 9 - 12, XP010110380, DOI: doi:10.1109/ICASSP.1993.319215

Attorney, Agent or Firm:

Froger, Marie-Hélène (FR)

Download PDF:

View/Download PDF PDF Help

Claims:

REVENDICATIONS

1. Procédé de traitement d'un signal audionumérique, comportant la construction d'un filtre d'amélioration { A^ISFy ( z ) P_s (z) , A ' ( z ) P (z) ; H ^ ( Z ) , H ^ ( Z ) ) de qualité dudit signal, le procédé comportant en outre l'obtention de paramètres fréquentiels de type LSF pour « Fréquences de Lignes Spectrales » et/ou de type ISF pour « Fréquences Spectrales d'Immitance », issus d'une analyse de prédiction linéaire (LPC) dudit signal ; caractérisé en ce que le filtre d'amélioration est défini par une combinaison de polynômes dont des coefficients sont fonctions au moins des paramètres fréquentiels LSF et/ou ISF,

et en ce que le procédé comporte les étapes :

- déterminer des facteurs d'amortissement ( ^ ) associés à des racines respectives desdits polynômes (200 ; 250 ; 300),

ISF LSF

- calculer le filtre d'amélioration ( A ⁷ (z) ; A ^r (z) ) au moins en fonction desdits paramètres fréquentiels LSF et/ou ISF et desdits facteurs d'amortissement (210 ; 260 ; 310),

2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte une optimisation fréquentielle du filtre d'amélioration par ajustement individuel d'au moins un desdits facteurs d' amortissement.

3. Procédé selon l'une des revendications 1 et 2, caractérisé en ce que les facteurs d'amortissement sont calculés en fonction d'au moins une différence entre au moins deux paramètres fréquentiels LSF successifs ou entre deux paramètres fréquentiels ISF successifs.

4. Procédé selon l'une des revendications précédentes, caractérisé en ce que les facteurs d'amortissement ) sont déduits d'une courbe de variation de facteurs d'amortissement ( 7(f) ) ^en fonction de la fréquence, représentative de caractéristiques psychoacoustiques dudit signal.

5. Procédé selon l'une des revendications précédentes, caractérisé en ce que le filtre d'amélioration est composé d'au moins une cellule (A^j (z) et/ou A^j (z)) dont les coefficients sont calculés en fonction des paramètres fréquentiels LSF et/ou ISF et de facteurs d'amortissement ( % )·

6. Procédé selon l'une des revendications précédentes, dans lequel le filtre d'amélioration comporte au moins une expression du type :

A^ISFr (_z) = 0.5

+ {l-a_M)(l + f_w(y₀ , γ_π)ζ^~ι - f_2O(7₀7 z-²)

où les facteurs y₀ , γ_π correspondent aux zéros du polynôme 1— z^~2 en z = 1 et en z =— 1 , les y_{ correspondent aux facteurs d'amortissement,

a_M est une constante,

ΜΥ) = Υ et f₂(r_i) = Y_l²,et

où les coefficients _; sont donnés en fonction des ISF, notés isf_t , par une relation du type

7. Procédé selon l'une des revendications précédentes, dans lequel le filtre d'amélioration comporte au moins une expression du type :

f Ml 2-1

A^LSFr(z) = 0.5 Ul + fMz-¹) Π (1-2¾Λ(^)^ + (^)^²)

où les facteurs y₀ , γ_π correspondent aux zéros du polynôme 1— z ² en z = 1 et en z =— 1 , les y_i correspondent aux facteurs d'amortissement, où les coefficients q_{ sont donnés en fonction des fréquences LSF, notées lsf_{ , par une relation du type q_t = cos{27ClsfT) .

8. Procédé selon l'une des revendications précédentes, caractérisé en ce que le filtre est mis en œuvre sous la forme d'une structure de type Moyenne Ajustée et/ou Auto-Régressive, composée de cellules d'ordre 1 ou 2 associées respectivement aux paramètres fréquentiels LSF et/ou ISF et à des facteurs d'amortissement ( % ).

9. Procédé selon l'une des revendications précédentes, caractérisé en ce que le filtre comporte un module de compensation de pente calculé en fonction d'un signal de référence de pente cible à approcher.

10. Procédé selon l'une des revendications précédentes, caractérisé en ce qu'il comporte, pour un codage/décodage dudit signal numérique, une recherche d'un signal d'excitation utilisant un filtre de pondération perceptuelle fonction dudit filtre d'amélioration du signal.

11. Procédé selon la revendication 10, caractérisé en ce que la recherche du signal d'excitation utilise un filtre de pondération perceptuelle dans le cadre d'une recherche d'un signal de prédiction à long-terme.

12. Procédé selon l'une des revendications 10 et 11, caractérisé en ce que la recherche du signal d'excitation utilise un filtre de pondération perceptuelle dans le cadre d'une recherche d'un signal d'excitation dans un dictionnaire algébrique ou stochastique. 13. Procédé selon l'une des revendications 10, 11 et 12, caractérisé en ce qu'il comporte une étape d'utilisation d'une pluralité de filtres en cascade, représentés par des polynômes dont les racines sont fonction desdits paramètres fréquentiels LSF et/ou ISF.

14. Programme informatique comportant des instructions pour la mise en œuvre du procédé selon l'une des revendications 1 à 13, lorsque ce programme est exécuté par un processeur.

15. Dispositif de codage/décodage d'un signal audionumérique, caractérisé en ce qu'il comporte au moins des moyens d'obtention de paramètres ISF et/ou LSF, et de calcul (600, 630) d'optimisation fréquentielle d'un filtre d'amélioration de signal, pour la mise en œuvre du procédé selon l'une des revendications 1 à 13.

Description:

Modification des caractéristiques spectrales d'un filtre de prédiction linéaire d'un signal audionumérique représenté par ses coefficients LSF ou ISF

La présente invention concerne le traitement de signaux numériques.

De tels signaux, dans une application, peuvent être audionumériques.

Dans un cadre particulier, un codage prédictif de tels signaux peut utiliser des techniques d'analyse par synthèse ou de modélisation de l'excitation par codage paramétrique ou par transformée. Par exemple, une méthode d'analyse par synthèse utilisée couramment dans les codeurs prédictifs dits « CELP » (pour « Code-Excited Linear Prédiction ») comprend habituellement les étapes suivantes:

- l'analyse de prédiction linéaire d'ordre M d'un signal par exemple de parole, numérisé en trames successives afin de déterminer les paramètres d'un filtre de synthèse à court terme ;

- la détermination des paramètres d'un signal d'excitation à appliquer au filtre de synthèse à court terme, afin de produire un signal de synthèse représentatif du signal de parole (certains au moins des paramètres d'excitation étant déterminés habituellement en minimisant l'énergie d'un signal d'erreur résultant du filtrage de la différence entre le signal de parole et le signal synthétique par au moins un filtre de pondération perceptuelle) ; et

- la production de valeurs de quantification des paramètres définissant le filtre de synthèse à court terme et les paramètres du signal d'excitation.

Les paramètres du filtre de synthèse à court terme qui sont obtenus par prédiction linéaire sont représentatifs de la fonction de transfert du conduit vocal et des caractéristiques spectrales du signal audionumérique.

L'invention porte plus particulièrement sur la modification des caractéristiques spectrales du filtre de prédiction A(z) , ou de façon équivalente du filtre de synthèse 1/ A(z) , pour des applications telles que la mise en forme de bruit dans un codeur prédictif, dont le calcul et la mise en œuvre du filtre de pondération perceptuelle utilisé dans la recherche du signal d'excitation. Dans une première étape du processus de codage, le module d'analyse à court terme détermine les paramètres dits « LPC » du filtre de synthèse à court terme en analysant les corrélations à court terme du signal de parole s (n). La détermination des paramètres LPC est réalisée par exemple une fois par trame de L échantillons, de manière à s'adapter aux changements du contenu spectral du signal de parole pour donner un filtre autorégressif (filtre « AR » ci-après) de modélisation du signal

(z) =

A(z) où les coefficients a _m sont les coefficients de prédiction linéaire LPC du signal avec a ₀ = 1.

La quantification des paramètres LPC peut être effectuée sur la représentation du filtre A(z) par :

ses coefficients de « Corrélation Partielle Parcor » k m issus de algorithme de Levinson-Durbin ; ou

pour des questions d'efficacité de quantification, sur les coefficients de Lignes Spectrales de Fréquences ou « LSF », représentant le filtre A(z) par des fréquences discrètes comme décrit dans l'article de N. Sugamura, F. Itakura: « Speech analysis and synthesis methods developed at ECL in NTT - From LPC to LSP ». Speech Communication, 1986, 199-215.

Dans la suite, on utilise indifféremment l'appellation LSF (Line Spectral Frequencies) ou LSP (Line Spectral Pairs) pour nommer ces représentations, le passage entre les deux se faisant simplement par une relation q _{ = cos(27llsf _lT) , ί = 1,· · · , Μ , où

T est la période d'échantillonnage ( T = 1/ F _e où F _e est la fréquence d'échantillonnage). On considère ici sans perte de généralité que les valeurs lsf _{ sont normalisées entre 0 et la fréquence de Nyquist F _e 12 ; l'homme de l'art saura facilement adapter la description dans le cas où les LSF sont normalisées dans un autre intervalle (par exemple [0, ft] ).

Les LSP sont données par l'algorithme récursif de Levinson-Durbin en prenant k _M+1 = +1/— 1 comme coefficient Parcor à la fin d'une récursion d'ordre M pour donner deux polynômes et P(z) et Q(z) (définis un peu plus loin) dont les racines sont situées sur le cercle unité. Il convient de noter qu'une autre représentation du filtre A(z) est donnée par les fréquences « ISF » (ou « Immittance Spectral Frequencies »), comme décrit dans la référence Y. Bistritz and S. Peller, "Immittance Spectral Pairs (ISP) for Speech Encoding", ICASSP, vol. 2, pp. 9-12, April 1993.

On retiendra dans ce qui suit que les Lignes Spectrales par Paires (LSP), ou de façon équivalente les Lignes Spectrales de Fréquences (LSF), sont calculées à partir des coefficients du filtre A(z) en cherchant les passages par zéro de deux polynômes P(z) et

Q(z)■ On peut alors représenter le filtre A(z) par les coefficients a _{ , i = 0, ..., ou par ses coefficients LSF notés lsf _{ , i = 0, ..., — 1 . Il en est de même pour la représentation sous la forme des ISF.

Dans les codeurs de signaux audionumériques, les coefficients ISF ou LSF sont généralement calculés et quantifiés pour représenter le filtre de prédiction car ces paramètres possèdent de meilleures qualités pour la transmission que les coefficients a _m du filtre de prédiction linéaire, et ont d'autres propriétés intéressantes en codage (notamment pour une interpolation, ou un test simple de stabilité).

La représentation du filtre A(z) par ses fréquences lsf _{ est typiquement donnée (pour un ordre de prédiction linéaire pair) en référence à la figure la par :

Λ( ζ ) =

avec les termes q _{ donnés en fonction des fréquences lsf _{ par q _{ = cos(27llsf _i T) où

T =— avec F _e désignant la fréquence d'échantillonnage. Il convient de relever qu'on F e

utilise la même notation que précédemment, considérant qu'il y a équivalence mathématique, même si l'implémentation ou la conversion des différentes représentations dans un dispositif de traitement de signal peut induire des différences de valeurs numériques, en général négligeables, liées par exemple à la précision de calcul limitée du processeur. Le même raisonnement s'applique aussi avec les coefficients ISF.

L'équation précédente, dans le cas des LSF, peut s'écrire :

A {z) = 0.5{P(z) + Q(z)}

en définissant les polynômes : M/2-1

P(z) = (l+z- ¹)Yl(l-2q _2iZ- ¹ + z- ²)

M/2-1

Q(z) = (l-z- ¹) [ {l-2q _2i+lZ- ¹ + z- ²).

i=0

En référence à la figure lb, on peut aussi représenter le filtre A(z) de coefficients de prédiction a _{, i = 0,...,M par les fréquences ISF notées isf, i = 0, ...,M— 2 et le dernier coefficient a _M de la récursion de Levinson-Durbin. La représentation du filtre A(z) par ses ISF, notées isf,i = 0,..., — 2 et a _M, est donnée par :

f M/2-1

A(z) = 0.5 (1 + α _Μ) Π (ΐ-2^ ^"1 + ^ ^"2)

L i=0 avec

q _i = οο$(2π isf _tT)

La présence de fréquences ISF ou LSF proches les unes des autres (dans le spectre) se traduit par des formants sur le spectre du filtre . Les fréquences ISF ou LSF ont un

A(z)

sens plus physique que les coefficients de prédiction linéaire a _m , en ce qu'elles sont en

relation directe avec les formants de . En effet, deux ISF ou LSF proches indiquent un

A(z)

formant comme le montre la figure 4. Les deux premières fréquences d' isf. , i = 0,1 sont assez proches (60,5 Hz) donnant naissance à un premier formant relativement sur-tendu. De

1 plus, contrairement aux coefficients de prédiction a _m, un test de stabilité du filtre est

A(z) relativement simple : un filtre représenté par ses coefficients ISF ou LSF est stable si

A(z)

les coefficients d'indices pairs et impairs alternent. Il existe diverses façons de modéliser le signal d'excitation à appliquer au filtre de synthèse à court terme, ce qui conduit à une grande variété de codeurs. Cependant, dans la plupart des codeurs, le signal d'excitation comprend une composante à long terme synthétisée par un filtre de synthèse à long terme ou de façon équivalente par la technique du dictionnaire adaptatif telle que décrite dans la norme G.729, qui permet d'exploiter la périodicité à long terme des sons voisés, tels que les voyelles, qui est due à la vibration des cordes vocales.

Le codeur évalue les deux composantes :

la partie à long terme qui correspond au dictionnaire adaptatif

- la partie du dictionnaire fixe,

en « boucle fermée » par une méthode d'analyse par synthèse de minimisation de l'erreur entre le signal synthétisé et le signal de parole original en tenant compte d'une pondération perceptuelle.

Il est connu de l'homme de l'art que la pondération perceptuelle améliore la qualité subjective de la parole synthétisée comparée à la minimisation directe de l'erreur quadratique moyenne.

La pondération perceptuelle consiste à mettre en forme le bruit de quantification de manière à accepter plus de bruit dans les régions de formants que dans les régions interformants, afin que le bruit perçu par l'auditeur soit réduit.

Pour atteindre cet objectif, le filtre à court terme de pondération perceptuelle a souvent une fonction de transfert de la forme suivante :

A(z/ y ₂)

où les facteurs y ₁ et ^ dénotent des facteurs d'amortissement du filtre ou encore des coefficients de dilatation spectrale. C'est en particulier le cas recommandé dans la norme ITU-T G.729.

Ces facteurs fixés une fois pour toutes peuvent être déterminés par ajustement par écoute des signaux codés avec les différents réglages de y ₁ et y ₂. Cependant, il est apparu que la diversité de la dynamique des signaux audionumériques est telle qu'il est nécessaire que ces facteurs puissent changer d'une trame à la suivante en fonction de la pente du signal. En effet, pour des signaux ayant une dynamique moyenne, il est adéquat de fixer l'écart entre les facteurs d' amortissement y ₁ et y ₂ à une valeur relativement faible. Cependant, pour des signaux enregistrés à travers un microphone linéaire, la mise en forme du bruit n'est pas suffisante et le bruit haute fréquence reste bien audible. Le problème a été résolu en adaptant le facteur y ₂ en fonction de la pente globale du signal à partir des deux premiers coefficients de corrélation partielle, c'est-à-dire du formant dominant du spectre du signal. De plus, lorsqu'un signal très résonnant est détecté par la différence minimale entre les fréquences des LSP ou ISP successives, la constante y ₂ est ramenée vers y ₁ afin d'éviter d'avoir un excès de bruit au niveau des formats.

Dans le codeur bande élargie AMR-WB de la norme 3GPP TS 26.190, le filtre de prédiction linéaire A(z) est estimé dans le domaine du signal pré-accentué, c'est-à-dire sur un signal préfiltré par le filtre 1— O z ^~l , < = 0.68 . Le filtre de pondération perceptuelle

A(z l y )

pour le codage ACELP est donné par W(z) = · Celui-ci combine le filtre

W '(z) = A(z / y _x , avec y ₁ fixé à 0,92 une fois pour toutes, et une désaccentuation avec β = 0.68 . Comme OC = β , il en résulte que le filtre de pondération

perceptuelle effectif - dans le domaine du signal - est donné par :

W \z) = A(z / y)

Par suite, le bruit de reconstruction du signal aura la forme:

Moyennant le filtre de pondération W(z) , le spectre de bruit de reconstruction du signal pré-accentué est de la forme et celui du signal reconstitué

sortie de la désaccentuation

Cette mise en forme du bruit de reconstruction a vocation à le masquer autant que possible par les composantes utiles du signal, suivant les principes de la psychoacoustique.

C'est en ce sens que l'on peut appeler filtre de masquage » ci-après.

A(z / y ) La modification des caractéristiques spectrales de cellules du type A(z / y _x ) à partir de A(z) représenté par les coefficients de prédiction de A(z) n'offre pas de flexibilité pour agir sélectivement sur des portions définies du spectre. On entend par « cellule » l'un des facteurs d'un polynôme représenté sous forme factorisée. Ainsi, une cellule d'ordre 1 peut s'exprimer sous la forme (az+b) et une cellule d'ordre 2 peut s'exprimer sous la forme

(az ²+bz+c). En effet, tous les zéros de Y _l sont ramenés vers l'intérieur du cercle unité d'une même proportion, ce qui ne permet pas d'intervenir sélectivement en fréquence.

La présente invention vient améliorer la situation.

Elle propose de tirer avantage de la disponibilité, dans un grand nombre de dispositifs de codage des signaux numériques, des fréquences ISF ou LSF, et ainsi de modifier l'expression de A(z) à partir des LSF ou des ISF disponibles.

Elle vise alors un procédé de traitement d'un signal audionumérique, comportant la construction d'un filtre d'amélioration de qualité du signal, le procédé comportant en outre l'obtention de paramètres fréquentiels de type LSF pour « Fréquences de Lignes Spectrales » et/ou de type ISF pour « Fréquences Spectrales d'Immitance », issus d'une analyse de prédiction linéaire (LPC) dudit signal.

En particulier, le filtre d'amélioration est défini par une combinaison de polynômes dont des coefficients sont fonctions au moins des paramètres fréquentiels LSF et/ou ISF, et le procédé comporte les étapes :

- déterminer des facteurs d'amortissement associés à des racines respectives desdits polynômes,

- calculer le filtre d'amélioration au moins en fonction des paramètres fréquentiels LSF et/ou ISF et des facteurs d'amortissement précités.

Ainsi, la présente invention propose l'utilisation des fréquences lsf _{ ou isf _{ et le cas échéant du coefficient a _M, présentés précédemment, pour modifier les caractéristiques spectrales fréquentielles du filtre de prédiction linéaire A(z) ou de façon équivalente du filtre de synthèse . Ce résultat ne peut pas être atteint en revanche lorsque le filtre est

A(z) représenté par ses coefficients usuels a _m . Les avantages et les applications qui en découlent sont nombreux, comme on le verra plus loin dans la description d'exemples de réalisation en référence aux dessins.

On peut ainsi entendre ci-dessus par « combinaison de polynômes », une somme de produits de cellules d'ordres 1 et/ou 2, comme présenté ci-avant pour l'expression de A(z) ou l'inverse d'une telle somme pour 1/A(z). Dans une réalisation ultérieure encore, un filtre H(z) peut s'exprimer plus généralement par un quotient de sommes de produits de cellules. On comprendra ainsi que la « combinaison de polynômes » précitée inclut toute réalisation faisant intervenir une somme de produits de cellules d'ordres 1 et/ou 2 en numérateur et/ou en dénominateur.

Dans une réalisation, le procédé peut comporter une optimisation fréquentielle du filtre d'amélioration par ajustement individuel de chacun des facteurs d'amortissement. Ainsi, le procédé peut comporter en particulier une optimisation fréquentielle du filtre d'amélioration du signal, comprenant un ajustement des facteurs d'amortissement, qui sont alors associés individuellement à chacun des paramètres fréquentiels LSF et/ou ISF.

Dans une réalisation, les facteurs d' amortissement précités peuvent être calculés en fonction d'au moins une différence entre au moins deux paramètres fréquentiels LSF successifs ou entre deux paramètres fréquentiels ISF successifs.

En complément ou en variante, ils peuvent être déduits d'une courbe de variation de facteurs d'amortissement en fonction de la fréquence, représentative de caractéristiques psychoacoustiques du signal.

Ces réalisations permettent avantageusement de compenser des effets de surtension, notamment lorsque les fréquences des paramètres LSF ou ISF sont proches en fréquences, comme on le verra plus loin en référence à la figure 4.

Comme décrit en détails plus loin, le filtre d'amélioration peut être composé d'au moins une cellule dont les coefficients sont calculés en fonction des paramètres fréquentiels LSF et/ou ISF et de facteurs d' amortissement. En complément ou en variante, il peut être mis en œuvre sous la forme d'une structure de type Moyenne Ajustée et/ou Auto-Régressive (ou « ARMA »), composée de cellules d'ordre 1 ou 2 associées respectivement aux paramètres fréquentiels LSF et/ou ISF et à des coefficients de filtre de pondération perceptuelle.

Avantageusement, on peut prévoir aussi que le filtre comporte un module de compensation de pente calculé en fonction d'un signal de référence de pente cible à approcher. Cette réalisation permet de corriger un effet de la compensation de surtensions sur le spectre comme expliqué plus loin.

Dans une application avantageuse au codage/décodage dudit signal numérique, le procédé peut comporter une recherche d'un signal d'excitation utilisant un filtre de pondération perceptuelle fonction dudit filtre d'amélioration du signal.

La recherche du signal d'excitation peut utiliser un filtre de pondération perceptuelle, dans le cadre d'une recherche d'un signal de prédiction à long-terme.

En complément ou en variante, la recherche du signal d'excitation peut utiliser un filtre de pondération perceptuelle, dans le cadre d'une recherche d'un signal d'excitation dans un dictionnaire algébrique ou stochastique.

Ainsi, pour la mise œuvre du masquage par exemple dans les codeurs/décodeurs prédictifs, notamment les codeurs de type CELP, il est alors possible au sens de l'invention d'agir de façon contrôlée sur le filtre de pondération perceptuelle, avantageusement pour lui donner une forme désirée.

Le procédé peut comporter, dans un mode de réalisation, une étape d'utilisation d'une pluralité de filtres en cascade, représentés par des polynômes dont les racines sont fonction des paramètres fréquentiels LSF et/ou ISF.

La présente invention vise aussi un programme informatique comportant des instructions pour la mise en œuvre du procédé ci-avant, lorsque ce programme est exécuté par un processeur. Elle vise aussi un support mémoire stockant un tel programme. Elle vise aussi un dispositif de codage/décodage d'un signal, comportant au moins des moyens d'obtention de paramètres ISF et/ou LSF, et de calcul d'optimisation fréquentielle d'un filtre d'amélioration de signal, pour la mise en œuvre du procédé ci-avant.

D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description détaillée ci-après présentant des exemples possibles de réalisation, et à l'examen des dessins annexés sur lesquels :

- la figure la illustre une représentation du filtre de prédiction A(z) en fonction des paramètres LSF suivant l'état de l'art,

- la figure lb illustre une représentation du filtre de prédiction A(z) en fonction des paramètres ISF suivant l'état de l'art,

- la figure 2a détaille une représentation du filtre d'amélioration A ^!SFy (z) en exploitant les paramètres ISF,

- la figure 2b détaille une représentation du filtre d'amélioration A ^LSFr (z) en exploitant les paramètres LSF,

- la figure 3 illustre une application de l'invention au cas de filtres en cascade ( H ^!SFy (z) dans l'exemple illustré),

- la figure 4 illustre une modification des caractéristiques spectrales du filtre A(z) en A ^!SFy (z) suivant une caractéristique de l'invention (en trait épais pour le filtre non modifié, en traits pointillés pour un codeur AMR-WB avec γ=0,92, en trait fin pour le filtre modifié au sens de l'invention avec si Delta_isf < 100 Hz : amortissement γ=0,95 (compensation des fortes sur-tensions), si Delta_isf < 300 Hz : γ=0,97 (compensation de sur-tensions moyennes), sinon pas d'amortissement : γ =1),

- la figure 5a illustre une décroissance affine de l'amortissement γ en fonction de la fréquence pour un traitement d'optimisation de l'amortissement, avec les valeurs de γ échantillonnées sur cette courbe à des positions fréquentielles correspondant aux ISF (issues pour l'exemple de l'analyse d'un signal de parole),

- la figure 5b présente un exemple de calcul des facteurs d' amortissement γ _; en fonction de l'écart fréquentiel entre les paramètres ISF ou LSF successifs avec γι ₀ο = 0,95 et γ ₃₀ο = 0,97, pour un traitement d'optimisation de l'amortissement, - la figure 6 illustre une chaîne de codage - transmission - décodage, avec une implémentation de l'invention notamment au bloc 630,

- la figure 7 détaille le bloc 630, dans un exemple de réalisation,

- la figure 8a présente à nouveau un exemple d'allure spectrale au sens de l'art antérieur des filtres de la figure 4, tandis que la figure 8b illustre une optimisation au sens de l'invention et que la figure 8c présente cette optimisation combinée avantageusement à une correction de pente fréquentielle,

- la figure 9a illustre un filtrage par un filtre à moyenne ajustée, représenté par ses coefficients de prédiction, tandis que la figure 9b illustre un filtrage par un filtre à moyenne ajustée, représenté par ses coefficients ISF,

- la figure 10a illustre un filtrage par un filtre autorégressif, représenté par ses coefficients de prédiction, tandis que la figure 10b illustre un filtrage par un filtre autorégressif, représenté par ses coefficients ISF,

- la figure 11 illustre un système comportant à titre d'exemple deux terminaux TER, TER' reliés via un canal de transmission 640 et comprenant des dispositifs respectifs de codage/décodage CODEC.

A titre illustratif, il est présenté tout d'abord une version simplifiée de la mise en œuvre de la présente invention, dans laquelle le filtre de synthèse est donné par - on

A(z) peut noter qu'une version quantifiée du filtre pourrait être aussi utilisée tout en respectant l'esprit de l'invention. On montre alors comment il est possible de modifier les

caractéristiques spectrales du filtre représenté par ses fréquences ISF ou LSF en

A(z)

introduisant des facteurs d'amortissement % sur les racines de polynômes de la représentation ISF ou LSF.

En effet, dans l'état de l'art selon par exemple la norme 3GPP AMR-WB ou de façon équivalente UIT-T G.722.2, le filtre de prédiction linéaire A(z) est modifié en introduisant un facteur d'amortissement, qui est renommé ici Y AMR-WB afin d'éviter toute confusion avec la notation y _{ utilisée dans l'invention, pour donner un filtre de pondération perceptuelle W(z) = A(z / ΑΜΛ-Η _¾) ^ay ^ant pour résultat de produire un bruit mis en forme par 1

AMR-WB )

où y _t AMR-WB = 0, 92 .

La fonction de transfert du filtre de masquage de bruit est donnée par :

Comme le montre la figure 4 (courbe en traits pointillés pour y _/ AMR-WB = 0, 92 ), les formants sont amortis avec des maxima qui restent pratiquement au même endroit que ceux du filtre 1/ A(z) ce qui s'explique par le fait que (z / y _/ AMR-WB pour effet de ramener zéros de A(z) vers l'intérieur du cercle unité. Cependant, les formants peu prononcés sont très atténués, ou disparaissent (notamment dans les fréquences élevées). L'invention permet de remédier à cet état de fait.

On a représenté en effet sur la figure 4 :

- un spectre du filtre de synthèse 1/ A(z) pour un extrait de parole (trait gras),

- un spectre du filtre de synthèse de pondération perceptuelle d'un codeur/décodeur selon la norme AMR-WB, de type 1/ A(z / 0, 92) (en pointillé), et

- le spectre du filtre 1/ A ^!SFy (z) obtenu par application de l'invention (trait fin).

Les facteurs d'amortissement % sont donnés à titre d'exemple : Si Delta_isf < 100Hz alors y _t = 0, 95 . Sinon, si Delta_isf < 300 alors y _t = 0, 97 . Dans les autres cas les isf sont plus éloignées alors on n'introduit pas d'amortissement ( % = 1 ). Un algorithme de ce type est décrit par la figure 5b. Il apparaît clairement que le premier pic est conservé sur A ^!SFy (z) modifié alors qu'il est trop amorti pour le codeur/décodeur AMR- WB. Il en est de même pour les autres formants, moins sur-tendus certes, mais dont l'allure est conservée alors que pour codeur/décodeur AMR-WB seule l'allure générale du spectre est conservée. Notamment le formant au voisinage de 4800 Hz est conservé par la méthode de l'invention alors qu'il disparaît pour codeur/décodeur AMR-WB. Selon une approche développée ci-après, pour avoir plus de souplesse pour la modification des caractéristiques spectrales de A(z) ou de façon équivalente de 1/ A(z) , il est possible de travailler sur l'expression de A(z) représenté par ses zéros z _t , comme suit :

A(z) sont les zéros de A(z) .

Cette technique nécessite de calculer les M racines du polynôme A(z) qui sont soit réelles, soit complexes conjuguées deux à deux, étant donné que A(z) est à coefficients réels. Ici encore, on considère cette formulation équivalente d'un point de vue mathématique à la définition initiale de A(z) , sachant qu'en pratique la précision limitée du calcul numérique par un processeur pourrait induire une légère différence quantitative. Dans cette représentation, on peut maintenant affecter un facteur d'amortissement à chaque racine, ce qui a l'effet de ramener les zéros vers l'intérieur du cercle unité :

On rappelle que pour obtenir un polynôme à coefficients réels, il convient d'affecter le même amortissement y _i = γ. pour chaque paire de racines complexes conjuguées d'indices et j, soit quand z _; = z . . Cette façon de procéder offre une bonne souplesse de modification de A(z) et de façon équivalente . Elle présente cependant

A(z)

l'inconvénient de nécessiter l'extraction des racines de A(z) , ce qui est possible par des algorithmes itératifs mais reste cependant trop complexe, à l'heure actuelle, pour être implémentée dans les codeurs retenus par les organismes de normalisation.

Au sens de l'invention, une autre solution plus judicieuse et de complexité réduite est présentée ci-après. Plutôt que de travailler sur les racines du polynôme A(z) , on utilise les représentations de A(z) données par le jeu de fréquences ISF ou LSF de chaque trame.

On introduit en particulier des facteurs d' amortissement γ _ί qui dépendent de chaque fréquence LSF ou ISF, c'est-à-dire de leur position sur l'axe des fréquences. En référence à la figure 4, on s'aperçoit que la résonance au voisinage de 250 Hz a pu être contrôlée en affectant un facteur de 0,95 aux fréquences ISF tombant dans le voisinage de ce formant (en fait quand la différence des fréquences ISF entre elles est inférieure à 100 Hz). En outre, les formants peu prononcés sont conservés (pas d'amortissement par exemple pour % = 1 ).

La mise en œuvre du contrôle des caractéristiques spectrales, pour les fréquences ISF, est illustrée sur la figure 2a. Dans un premier temps (étape 200), les facteurs % à affecter au polynôme d'ordre 2 de chaque fréquence ISF sont calculés en fonction du positionnement en fréquence de chaque ISF. Les facteurs y ₀, γ _π correspondent aux zéros du polynôme 1— z ^~2 en z = l (fréquence normalisée 0) et en z =— 1 (fréquence normalisée π). Dans un second temps (étape 210), la représentation A ^!SFy (z) de A(z) en fonction des ISF et des facteurs est donnée dans le domaine transformé en z, par :

f M / 2-1

A^ (z) = 0.5 \ (l + a _M ) Π (l - ¾ ₂₁/ ₁ (½ _i)z- ¹ + / ₂ (½ _i)z- ² )

+{i- a _M ) (i+ f^ir^ y z- ¹ - / _2Ο (γ ₀γ _π)ζ- ²)

où les coefficients q _{ sont donnés en fonction des ISF, notés isf _{ , par une relation du type q _{ = cos(27lisf _i T) . Un exemple de fonction f _x est donné par f _l {y _i ⁼ 7 _i et de fonction f ₂ par f ₂ (7i) = 7i ² , que l'on complète avec les fonctions ί _1ο (7 ₀, 7 _π) = 7 _π ^~ 7 ₀ et Λ _ο ( ? 0 ' ^ ) ⁼ 7 _<ζ>·7 _π · D ^ans ce mode de réalisation, le coefficient a _M reste inchangé. Dans une variante, on pourrait modifier ce coefficient.

Les coefficients du filtre modifié A ⁷ (z) = ^ a _m ⁷.z ^~m sont typiquement obtenus m=0

en filtrant l'impulsion unité par A ^!SFy (z) (équation précédente) pour donner la réponse impulsionnelle a _^ ^r (m = 0, ...,M) . Ce principe est utilisé dans le calcul de la récurrence détaillée ci-après. Il convient de préciser que d'autres modes de calcul peuvent être envisagés tout en respectant l'esprit de l'invention, par exemple un calcul des coefficients basé sur un développement formel des produits de polynômes.

On note alors P ^l (z) et P ² (z) les polynômes : M 12-1

p ^l(z)= Π (i-2fe ₁(r _2i)2 ^"1+ ₂(r _2i)2 ^"2)

et les polynômes partiels (z) et P (z) par :

^ ¹(z)=(l-2 _{¾ 1}(r _2i)z- ¹ + ₂(r _2i)z- ²)^ ₁(z) ^ ²α ⁾=(ι- ¾ _{+1 1}(^ ₊₁) ^ζ"1+Λ(^ ₊₁) ^ζ"2)^ ² ₁ω

Ces équations fournissent une récurrence permettant d'aboutir aux polynômes :

P ¹(Z) = P _MI2_ ₁(Z) et P _Z) = P _M ² _I2_ ₂{ _Z)

2i+2 2i+2

En posant P^(z) = ^ p)(n). z ^~" et P (z) = ^ pf(n).z ^~" , on peut écrire les formules récursives suivantes:

Pi («) = («) - ^iqvfM ^pL Λ (½, )/> 2) ,

i = l,..., /2-l, w = 0,...,2i + 2 2 (") = ²-i (") - 2¾ ₊₁Λ (^ _2i+1) ²-i - 1) + Wu+ Pli (n ^~ 2),

i = l,..., /2-2, n = 0,...,2/ + 2

avec l'initialisation suivante :

p ₀ ¹Q = -2q ₀f ₁(r ₀),p ₀ ¹(2) = f ₂(r ₀) ;

/? ²(0) = 1, / _?0 ²(l) = -2 _{¾ 1}(r ₁), _Jp ₀ ²(2) = ₂(r ₁) ;

et où tout autre terme utilisé dans la récurrence pour n<0 sont initialisés à 0.

Puis, on effectue l'opération :

Pu ,2- («) = Pu ,2-2 («) + flO (7 ₀ , Ϊ _π)-ΡΜ ² ,2-2 (" ^~ ¾ ^~ θ ( ø . ^ )J

w = 0,...,

On effectue enfin la sommation des coefficients partiels : + a _M)p _M ¹ _/2_ ₁(n) + (l-a _M)p ²* _ ₁(n)}, n = 0,...,M

Ces coefficients définissent le filtre modifié voulu :

A ^ISFr ( \ V ^ISFr ^~n

n=0 La mise en œuvre du contrôle des caractéristiques spectrales, pour les fréquences LSF, est décrite par la figure 2b. Dans un premier temps (étape 250) les facteurs % à affecter au polynôme d'ordre 2 de chaque fréquence LSF sont calculés en fonction du positionnement en fréquence de chaque LSF. Dans un second temps (étape 260), la représentation A ^LSFy (z) de A(z) en fonction des fréquences LSF et des facteurs y _i est donnée

M l 2-1

+(ι- /ι0¾ ) ^ζ-1 ) Π ( - ²^M _2i+l )z- ¹ + f ₂ { _Ï2i+l )z- ² )

i=0

où les coefficients q _t sont donnés en fonction des fréquences LSF, notées lsf _t , par une relation du type q _i = cos(27Clsf{T) . Là encore, comme pour le domaine des ISF, deux racines réelles, associées à des ISF implicites situées à la fréquence nulle et à la fréquence de Nyquist (ou fréquence normalisée π), peuvent être affectées par des facteurs d'amortissement, respectivement y ₀ et γ _π .

Un exemple de fonction f _x est donné par ₁ (^ ) = ^ et de fonction f ₂ par f ₂(7i) ⁼ 7 ■ Les facteurs y γ ₀ et γ _π sont généralement, mais pas nécessairement, inférieurs ou égaux à 1. La réponse impulsionnelle de A ^LSFr ( z ) est calculée par un algorithme du même type que celui utilisé pour les fréquences ISF et présenté ci-avant ou par un autre algorithme effectuant par exemple la demie-somme des produits de polynômes développés sous forme de sommes.

On peut en outre prendre la précaution de ne pas faire évoluer les valeurs des facteurs y _i de façon trop importante entre les fréquences ISF (ou LSF) successives, car il est préférable que des ISF voisines ne soient pas affectées par des amortissements trop différents, afin de garder un contrôle pertinent des propriétés du spectre et de garantir la stabilité du filtre résultant. Les modes de réalisation décrits ici à titre d'exemple respectent cette démarche.

L'invention peut d'ailleurs prévoir une étape optionnelle de test de stabilité, en calculant par exemple les fréquences ISF (ou LSF) associées au filtre modifié A ^!SFy (z) (ou A ^r (z) ) au sens de l'état de l'art comme décrit ci-avant et en vérifiant ensuite l'alternance des ISF (LSF) paires et impaires. En variante, on peut recalculer les coefficients PARCOR ki à partir des coefficients du même filtre, suivant des relations de récurrence décrites dans l'état de l'art, et vérifier une double-inégalité du type—1 < k _{ < +1 pour tout i=l,...,M- A l'issue de ce test, si une instabilité du filtre est révélée par défaut de cette alternance des ISF ou LSF, ou bien de l'inégalité sur les coefficients k _h diverses options sont envisageables, telles que par exemple réduire les écarts entre facteurs y _t (voire, revenir à une définition plus classique du filtre perceptuel, en cas d'instabilité au-delà d'un seuil). Les paramètres du filtre perceptuel peuvent donc être redéfinis pour aboutir à un filtre stable, tout en restant dans l'esprit de l'invention.

Le procédé décrit jusqu'à présent permet de contrôler sélectivement l'amortissement

1 1

des pics d'un filtre de pondération—— ou—— à partir d'un filtre LPC

A^ {z) A^ {z) A {z) mais en contrepartie il peut affecter la pente générale du spectre. L'invention prévoit le cas échéant la mise en cascade d'un module de compensation de pente spectrale P _s (z)■ En

effet, le fait d'appliquer aux surtensions initiales du filtre ——— des facteurs

A(z)

d'amortissement qui varient en fonction de la fréquence, induit potentiellement un effet de

1 1

pente globale sur la courbe résultante—— ou—— par comparaison avec l'allure

A ^r (z) A ^r (z) générale de ——— ou bien d'une version uniformément amortie \l A z l J) où y est

A(z)

constant. Ceci est particulièrement vrai dans un cas tel que décrit par la figure 5a, où l'on définit les termes y _t selon une loi décroissante de la fréquence isf _{ , avec des valeurs relativement proches de 1 en basse fréquence et relativement éloignées de 1 en haute fréquence. L'effet observé est une pente négative d'autant plus prononcée que les valeurs de y _{ s'approchent de 1, et que les surtensions initiales sont relativement fortes. Pour illustrer cet effet, il est pris sur la figure 8a l'exemple d'un signal artificiel composé de 7 composantes tonales dont le spectre est présenté sur cette figure 8a, ainsi que sa modélisation LPC d'ordre 16 : 1/ A(z) . A titre de référence, on montre également la courbe de mise en forme du bruit 1/ A(z / 0, 92) associée à un filtre perceptuel W '(z) dans le domaine du signal, pour lequel le facteur d'amortissement est constant : y AMR-WB = 0, 92 .

Enfin, la figure 8a présente également une courbe de masquage (« masking threshold » en anglais) calculée d'après le même signal original, indiquant la mise en forme de bruit idéale (à un décalage global près, en dB) qui le rendrait le moins perceptible possible. On observe que, mis à part la disparité des surtensions, l'ensemble de ces courbes présente une pente similaire. La figure 8b illustre quant à elle la courbe \l A ^ISFy (z) associée à une loi affine décroissante (f) ayant comme bornes [r ₀ = 0, 99, / _π = 0, 85] . Cette courbe reproduit bien mieux que la courbe « standard » l/ A(z / 0, 92) l'aspect sur-tendu des pics de la courbe de masquage vers les basses fréquences ainsi que l'aspect adouci des bosses vers les hautes fréquences, ce qui illustre l'intérêt de la présente invention. En revanche, elle présente très clairement une pente plus importante que les autres. Or, une telle pente présente en soi un inconvénient majeur si elle n'est pas compensée : elle implique une pénalisation excessive de la partie des basses fréquences du spectre (se traduisant par une injection importante de bruit, ou bien encore une altération significative de la reconstruction de composantes du signal) en comparaison de la partie des hautes fréquences, détruisant le bénéfice de la mise en forme sélective des pics. Il convient donc, lorsque la structure finale du filtre perceptuel et le choix des valeurs extrêmes de y _{ le nécessitent, de corriger la structure du filtre par un module de compensation de pente P _s (z) qui peut en toute généralité être par exemple un filtre ARMA à un ou plusieurs coefficients:

pour donner le filtre incluant la correction de pente :

Α ^ΠΡ" { ^ζ) Ρ ₃ ( ^ζ) , ou A ^LSF» {z) P _s (z)

On décrit plus précisément l'exemple suivant du filtre de masquage

où P _s (z) = est un filtre autorégressif d'ordre 1. Le dénivelé de pente dû au filtre P (z) sera égal à:

Pour un dénivelé désiré D _N , on peut en déduire la valeur de af :

Une façon de calculer la pente automatiquement consiste à prendre comme référence l'allure globale de courbes dont le comportement est réputé correct pour la pondération perceptuelle,

par exemple on peut prendre comme référence la courbe avec

Y _AMR- _WB ⁼ 0, 92 comme pour le codeur/décodeur AMR-WB.

On calcule alors af de sorte que le filtre (l— af (z) / A ^ISFR (z) ou (l— af (z)) / A ^LSFR (z) ait la même pente que le filtre , ou de façon

A(.Z I Y _AMR- _WB )

équivalente que A(z l Y _AMR- _WB ) I A™ ⁷ (z) ou A(z l Y _AMR- _WB ) / A ^LSFY (z) ait la même pente

Les étapes de calcul sont celles habituellement mises en œuvre pour l'estimation d'un filtre LPC, mais spécialisées ici à l'ordre 1, avec :

le calcul d'une réponse impulsionnelle h(n) de A{z l Y _AMR- _WB ^ i ^z) ^ou

A(z / Y _AMR- _WB ^ / A ^LSFR (z) , tronquée à un nombre d'échantillons raisonnable pour minimiser les coûts de calcul,

le calcul des coefficients d'auto-corrélation R(0) et R(l), d'ordre 0 et 1, de h(ri),

- le calcul de af = R(1) / R(0)

La figure 8c montre la courbe corrigée de façon satisfaisante par l'utilisation de cette cellule de « tilt » supplémentaire, avec l'implémentation des calculs ci-dessus.

Par extension et procédant de façon similaire, il est possible de définir un filtre correcteur d'ordre supérieur en calculant les coefficients d'autocorrélation d'ordres supérieurs et d'utiliser un algorithme de type Levinson-Durbin pour en déduire les coefficients du filtre. Le cas particulier d'un filtre d'ordre 2 : P _s (z) = [ ^—^

\ - α _γ ^ζ - a ₂z implique par exemple les calculs suivants (selon la technique décrite notamment dans "Digital Processing of Speech Signais", L.R. Rabiner & R.W. Schafer) :

R(1)R(0) - R(1)R(2)

R ² (0) - R ² (ï)

R(2)R(0) - R ²(Ï)

α _Ί =

R ² (0) - R ² (ï)

Bien entendu, d'autres courbes dérivant plus ou moins directement de l'analyse du signal peuvent être utilisées comme références.

L'exemple de réalisation précédent visant à ajuster le filtre de compensation de pente P _s (z) se généralise au cas où A(z l 7 _AMR- _WB ) ^{est rem}pl ^acé par un autre filtre de référence. Dans une variante, le filtre A{z l Y _AMR- _WB ) ^est remplacé par un filtre de prédiction linéaire ou plus généralement un filtre ARMA estimé à partir d'une courbe de masquage.

Lorsque le traitement d'une trame de signal est décomposé sur plusieurs sous- trames, les coefficients du filtre A(z) (et donc ceux du filtre W(z) ) peuvent être mis à jour à chaque sous-trame. Le calcul du ou des coefficients du filtre de correction de pente peut être effectué à chaque sous-trame. Ce calcul peut également être effectué une seule fois par trame, par exemple d'après les données de la dernière sous-trame de la trame, auquel cas les coefficients des autres sous-trames peuvent être calculés par simple interpolation linéaire, par exemple.

En référence à la figure 3, dans un cas général, le filtre de modélisation du signal audionumérique peut être donné par une cascade de filtres de prédiction linéaire :

1 1

A (z) ^~ 4(z)....A _? (z) '

chacun pouvant être représenté au sens de l'invention par ses coefficients ISF ou LSF.

On indique qu'il en est de même pour un codeur/décodeur AMR-WB selon la norme 3GPP TS 26.190 où deux filtres sont mis en cascade : un filtre de préaccentuation à coefficient fixe et un filtre de prédiction linéaire à 16 coefficients calculé sur le signal préaccentué. Dans ce cas, on peut généraliser le principe de l'invention à une cascade de filtres de prédiction. Il est alors possible de prendre comme filtre de pondération perceptuelle au moins un des q filtres du produit des filtres modifiés suivant l'invention. A titre d'exemple, dans le codeur/décodeur AMR-WB, deux filtres de synthèse sont en jeu et le filtre de masquage de bruit est calculé à partir du filtre A^ (z) déterminé à partir du signal pré-accentué par A ₁ (z) .

En référence à la figure 3, à l'étape 300, on calcule les facteurs d'amortissement à affecter à chaque cellule du filtre ARMA lorsque le filtre de masquage est constitué d'une cascade de filtres, ce qui constitue d'ailleurs une généralisation du masquage au sens de la norme AMR-WB. 'étape 310, on effectue le produit des cellules en cascade :

Le même type de filtre H ^LSFy (z) peut être obtenu pour un produit de cellules en cascade à partir de LSF.

Il est décrit maintenant un mode de réalisation possible de l'invention en référence aux figures 6 et 7. Dans la figure 6, on calcule le filtre de pondération utilisé pour le calcul de l'excitation, y compris l'excitation à long-terme, dans le bloc 630, afin de mettre en forme le bruit de reconstruction par une technique d'analyse par synthèse. Le calcul du signal d'excitation dans le bloc 630 mettant en œuvre la pondération A ^ISFy (z) ou Α^ ^¥γ ( z ) est décrit en détail par la figure 7.

En référence à la figure 6, le signal audionumérique entre dans un bloc 600 d'analyse à court terme LPC qui comprend le calcul d'un ou de plusieurs filtres de modélisation d'un signal audionumérique, le filtre étant par exemple représenté par l'expression générale :

1 1

A (z) ^~

On prend ci-après pour exemple, à titre illustratif non limitatif, le cas de deux filtres comme dans le codeur/décodeur 3GPP AMR-WB et le codeur/décodeur UIT-T G.718 :

- un filtre de préaccentuation A ₁ (z) = 1— 0, 68z ^_1

- un filtre de prédiction linéaire d'ordre M pour A^ (z)■ Les caractéristiques du filtre A (z) sont alors modifiées à partir de ses ISF (par exemple) pour en produire un filtre de masquage de bruit utilisé dans les codeurs audionumériques, en particulier les codeurs CELP.

Dans le bloc 610, on calcule ensuite les facteurs % qui sont fonction d'une loi, par exemple une loi affine décroissante (comme illustré sur la figure 5a), et/ou définis par un algorithme qui évalue la différence entre les ISF ou LSF successives pour calculer l'amortissement % (dont l'organigramme est illustré sur la figure 5b).

Connaissant la fréquence des isf _{ , on calcule la valeur de % grâce à la fonction linéaire, on en déduit les valeurs f _l { ^) ⁼ _i et f ₂ (7i) ⁼ Τΐ dans le cas le plus simple et finalement le filtre A ^!SFy (z ) du bloc 620 est donné par l'équation :

f M / 2-1

A ^ISFr ( _z) = 0.5 \ (l + a _M ) Π (l - 2¾^ ^"1 + ^ ^"2 ) + (1 - a _M ) (1 + (7 _π - Ya )z- ¹ - 7 ₀.7 _πζ ^~2)

Le filtre A ^!SFy (z) est ensuite corrigé par le filtre de pente pour donner le filtre A ^r ( z ) P _s (z) . On peut noter que le cas P (z) = 1 ramène au cas précédent.

Le générateur d'excitation (bloc 630) reçoit le signal à coder s (n) ou le cas échéant, le signal préaccentué, les ISF ou les LSF quantifiées (ou de façon équivalente les coefficients du filtre de synthèse ainsi quantifié) et les coefficients du filtre perceptuel

A ^ISFy ( z ) P _s (z) ou A ^LSFy (z ) P _s (z) et génère des paramètres d'excitation qui sont, avec les

ISF ou LSF quantifiées, transmis (via un canal 640) au décodeur 650.

A partir des paramètres quantifiés, le décodeur 650 produit un signal de synthèse décodé s (n) en filtrant le signal d'excitation décodé è {n) par le filtre de synthèse—

A { z ) où— est le filtre de synthèse calculé à partir des paramètres ISF ou LSF quantifiées ou

A { z )

encore filtré directement par le filtre récursif de synthèse représenté par ses paramètres ISP/LSP. Si l'excitation a été calculée sur le signal pré-emphasé, comme dans l'AMR-WB, ce filtrage est suivi d'une désaccentuation qui compense la préaccentuation réalisée au codeur.

Le bloc 630 de la figure 6 est maintenant décrit en détails, en référence à la figure 7, en prenant pour exemple le calcul de l'excitation dans un codeur CELP où le signal du dictionnaire adaptatif et celui d'un dictionnaire fixe sont calculés par une méthode d'analyse par synthèse en minimisant le bruit de codage entre l'entrée S (z) et le signal synthétisé

S (z) pondéré par le filtre de mise en forme du bruit W '(z) :

où B(z) est le « prédicteur de pitch » du dictionnaire adaptatif formant un filtre

1 1

synthèse de pitch (à long terme) est le filtre de synthèse de prédiction linéaire

B(z) A(z)

(à court terme), le signal C(z) est la transformée en z du signal issu du dictionnaire de formes d'ondes pour les instants précédents la trame courante (par convention <0) et nul pour n>0 et C _k (z) l'excitation sur le bloc courant cadrée par le gain g _c .

Le prédicteur de pitch peut être à un coefficient, auquel cas B(z) = 1— g _pZ ^~T° où g _p est le gain de pitch associé à la fréquence fondamentale (ou « pitch ») T ₀ . Dans d'autres cas, le prédicteur de pitch peut avoir plusieurs coefficients, ou encore être à retard fractionnaire. De plus, comme dans la norme AMR-WB, le filtre B(z) peut inclure un filtre passe-bas visant à limiter les harmoniques de pitch jusqu'à une certaine fréquence limite inférieure à la fréquence de Nyquist.

Cette équation est l'équation fondamentale du codage CELP avec analyse par synthèse et minimisation du critère CELP utilisant une pondération perceptuelle W '(z)■ Le bruit de codage peut alors être mis en forme et présente un spectre (ζ) - de la forme: avec W '(z) ayant une des formes décrites précédemment.

Pour parvenir au schéma de la figure 7, l'excitation CELP est séparée en deux composantes : la première C(z) correspond à l'excitation passée et est nulle pour chaque échantillon de la trame courante ; son filtrage par le modèle de synthèse

B(z) A(z) pour chaque instant d'échantillonnage de la trame courante donne le "ringing", la seconde g _kC _k (z) donne par filtrage à mémoire nulle la contribution de la trame courante au signal de synthèse.

Suivant que l'on filtre la différence entre le signal et la contribution de l'excitation passée ou que l'on soustrait la différence des signaux filtrés, on obtient deux modes de calcul différents de la cible. Le premier cas de figure est celui du codeur/décodeur AMR-WB tandis que le second est utilisé dans le schéma de principe de la figure 8 selon la norme ITU- T G.718.

Dans le cas général, le filtre de synthèse est constitué d'une cascade de filtres et le filtre de pondération est généré à partir d'au moins une cellule du type A(z I Y)■

Dans les normes AMR-WB et ITU-T G.718, une pré-accentuation fixe est utilisée avant le calcul du filtre LPC à partir duquel est calculé le filtre de pondération. Dans cet

exemple, non limitatif, le filtre de synthèse est constitué d'un filtre suivi d'un filtre de

A(z)

désaccentuation avec β = 0.68 . Moyennant le filtre de pondération perceptuelle

W '(z) = A(z I Y AMR-WB ) ' I ^{e cr}it ^ere CELP sera donné ar:

^JCELP S(z) -

Α( _ζ / γ _Α )

En définissant W(z) , le critère CELP devient :

- β ^{ζ ι}

où S _pre (z) est le signal pré-accentué S _pre (z) = (l - βζ ^~1)5(ζ)■

Il est donc équivalent de calculer l'excitation CELP sur le signal original avec le filtre de pondération W '(ζ) , que de minimiser le critère CELP sur le signal pré-accentué avec le filtre de pondération "combiné" W(z) = g _ue défini

précédemment.

Dans la suite, à titre d'exemple, on choisit à titre non limitatif d'opérer sur le signal pré-accentué comme décrit en référence au mode de réalisation du bloc 630 de la figure 7, étant entendu que l'autre façon de procéder peut s'en déduire. Ce type d'approche est conforme au calcul du signal d'excitation dans un codeur selon la norme 3GPP AMR-WB ou encore selon la norme la norme UIT-T-G.718.

En particulier, le filtre de pondération W '(z) , qui vaut A(z / 'AMR-WB ) dans l'état de l'art quand on le considère s'appliquant dans le domaine du signal non pré-accentué, est changé en A ^ISFy (z)P _s (z) ou A ^LSFr (z)P _s (z) dont les caractéristiques spectrales ont été modifiées au sens de l'invention, c'est-à-dire à partir d'expressions impliquant les ISF ou LSF et les facteurs γ _ί , avec filtres de compensation de pente, comme décrit précédemment.

Le signal pré-accentué s (n) est d'abord filtré par : Α ^!^ (ζ)Ρ, (ζ) /(ϊ - βζ ^~1) ou Α^ (ζ)Ρ, (ζ) /(ϊ - βζ ^~1) (bloc 700), pour donner le signal pré-accentué filtré s _w (n) .

Ρ, · , - Λ m <Λ t ^A' ^SFr ^)P _s {z) A^ (z)P _s (z) _w .. .. Puis, la réponse du filtre (de type ou au bloc 710)

(1 - β _Ζ- ^ι)Α(ζ) (1 - β _ζ- ^ι)Α(ζ)

à une entrée nulle avec les conditions initiales constituées du signal pré-accentué reconstitué pour n < 0 , est soustraite du signal pré-accentué filtré s _w (n) (opérateur 720) pour donner le signal cible x(n) . Ici, 1/ A(z) est le filtre de synthèse LPC partiel défini par ses coefficients quantifiés.

Les filtrages par le filtre A ^ISFr (z)P _s (z) ou A ^LSFr (z)P _s (z) sont réalisés en cascade.

Le filtrage par A ^!SFy (z) ou A ^LSFy (z) peut être effectué de deux façons :

- la première consiste à filtrer le signal s _w (n) par la réponse impulsionnelle du filtre

M M

A ^γ (z) = ^'∑a _m ^γ z ^~m ou A ⁷ (z) =∑a _m ⁷ z ^~m de coefficients a _m ⁷ ou a _m ⁷ calculée

m= m=

comme décrit précédemment et en référence à la figure 9a (pour le cas des ISF) ; - la deuxième consiste à effectuer le filtrage directement à partir du filtre défini par ses ISF comme décrit par la figure 9b, ou à partir d'un filtre défini suivant une structure similaire mais par ses LSF ; c'est-à-dire que la structure de filtrage est alors composée de cellules d'ordre 1 et 2 telles que mises en évidence plus haut, associées respectivement aux ISF ou LSF et aux facteurs d'amortissement

Des formes de réalisation de la présente invention présentent également un intérêt pour des applications dans d'autres modules de traitement du signal, comme par exemple au niveau du filtrage de synthèse par 1/ A(z) , ou de la même façon par sa version quantifiée 1/ A(z) , ce module de filtrage apparaissant dans les codées CELP comme dans les codées AMR-WB. Le filtrage par 1/ A(z) peut ainsi être effectué de façon classique ou bien mis en œuvre par le filtre récursif —— ou—— structuré en cellules d'ordre 1 et 2

A ^ISF ( _z) A^ (z)

associées respectivement aux coefficients ISF ou LSF conformément à la figure 10, en posant y _{t :} = 1 , c'est-à-dire sans facteur d'amortissement. La façon de filtrer au moyen des filtres représentés par leurs ISF ou LSF permet de mieux lisser les transitions de trames du fait que ces coefficients ont de meilleures propriétés d'interpolation.

Dans sa forme générale, le filtrage d'un signal E(z) par le filtre — ^ pour

A ^r ( z) donner S (z) avec % pouvant avoir la valeur 1, avec :

S _r(z) = _ISp E(z) ou S _r(z) = E(z) conformément à la figure 10a

A ⁷ ( z ) A ^r (z )

est tel que :

= E(z)

En décomposant le produit de cellules d'ordre 2 en cellules élémentaires, la sortie d'une cellule en fonction de l'entrée est donnée par :

¾ (z) = S] (z) - 2q _{2 2i Z}- ^lS) (z) + ^S) (z) i = 0, ... 12 - 1 Pour le calcul de chaque échantillon n, on calcule d'abord la somme des prédictions pondérées du premier terme du filtre:

Pred ¹ (z) = (! + ¾ )∑ (z) et du second terme:

Pred ² (z) = (l - a _M ) (z)

7z>z ^lS _M ² (z) + y _jrz- ¹S _M ² (z) et on obtient dans le domaine temporel : (n) et s ² (n) du filtre de la

10b ainsi que les contenus des cellules au temps n— 1 et n— 2.

L'homme de l'art saura adapter ce schéma au cas des LSF pour traiter le filtrage

d'un signal E(z) par le filtre suivant une structure similaire.

La recherche de l'excitation définie par B(z) qui est un prédicteur de pitch à un ou plusieurs coefficients ou à retard fractionnaire T ₀ et par le gain g _p dans le dictionnaire adaptatif (bloc 730) est ensuite effectuée. Le critère qui est minimisé est l'erreur quadratique du signal x _n (n) égal à la différence (opérateur 750) entre le signal « cible » x(n) et les versions décalées du retard d qui peut être fractionnaire et filtrées (au bloc 740) du dictionnaire adaptatif 730. Cette opération est très complexe si elle est effectuée de façon exhaustive et en général on utilise une recherche sous-optimale d'abord en « boucle ouverte » pour focaliser la recherche en « boucle fermée ».

Elle fait intervenir un filtre (bloc 740) de type ou

A^ (z)P _s (z) F^z)

, où i(z) est un filtre passe-bas optionnel à plusieurs coefficients, 1 - ζ ^~ι λ(ζ) actionné ou non en fonction d'un critère d'erreur quadratique pondéré, comme décrit dans la norme TS 26.190 AMR-WB.

Une fois trouvés le retard optimal T ₀ et le gain optimal g _p , le signal « cible » est réactualisé en soustrayant (opérateur 750) du signal cible x(n) la contribution du dictionnaire adaptatif pour donner le signal cible mis à jour x _n (n) .

Le calcul du signal d'excitation du dictionnaire algébrique est ensuite effectué.

Le dictionnaire (bloc 760) utilisé est par exemple un dictionnaire algébrique multi- impulsionnel de type ACELP, mais d'autres dictionnaires sont possibles par exemple des dictionnaires algébriques issus de codes binaires ou de codes correcteurs d'erreur ou encore des dictionnaires stochastiques. Le principe de la recherche consiste à filtrer les formes d'onde du dictionnaire par une cascade de filtres

A ^ISF? (z)P _s (z) F ₂ (z) A ^LSF? (z)P _s (z) F ₂ (z)

F _p {z){\ - βζ ^~ι ) λ(ζ) F _p {z){\ - βζ ^~ι ) λ(ζ) '

et à cadrer par un facteur de gain g _c puis à minimiser l'erreur quadratique du signal cible réactualisé x _lw (n) (bloc 780).

Le filtre F ₂ (z) est un filtre optionnel de modification des caractéristiques spectrales du dictionnaire algébrique ou stochastique. F _p (z) est un pré-filtre de renforcement de pitch ou « pitch sharpening » sur la figure 7. A titre d'exemple, celui-ci est donné par

— T

F _p (z) = 1— 0, 85z ^pc dans la norme 3GPP AMR-WB, où T _pe est la partie entière du pitch fractionnaire T ₀.

Cette étape requiert le calcul de la réponse impulsionnelle du filtre :

ISF _V

A'^ (z)P _s (z) F ₂ (z) A^ ⁷ (z)P _s (z) F ₂ (z)

ou ^s ~_'— -é ²-^ , laquelle étape est mise en œuvre

F _p (z)(l - βζ ^~ι ) A(z) F _p (z)(\ - βζ ^~ι ) A(z)

avantageusement par le traitement au sens de l'invention, avec le filtre de masquage modifié

A ^!SFy (z)P _s (z) ou A ^LSFy (z)P _s (z) donné par sa représentation en fonction des ISF avec les deux méthodes possibles soit en filtrant directement par la réponse impulsionnelle du filtre

ISF LSF

A ⁷ (z) ou A ⁷ (z) , soit en filtrant directement à partir des ISF ou LSF et du filtre de pente. Il est connu de l'homme de l'art que, pour des dictionnaires algébriques, la minimisation du critère CELP s'effectue au moyen d'algorithmes rapides, par exemple du type de ceux utilisés dans l'AMR-WB pour des dictionnaires algébriques multi- impulsionnels et que la recherche met en œuvre la matrice triangulaire inférieure de Toëplitz basée sur la réponse impulsionnelle des filtres définis ci-dessus.

Dans ce mode de réalisation, l'exemple choisi est celui d'un filtre utilisant les ISF mais, bien entendu, un filtre utilisant des LSF peut être prévu de manière équivalente.

L'invention s'applique donc au traitement des signaux numériques avantageusement mais non limitativement dans les cas où les coefficients ISF ou LSF sont disponibles notamment pour la synthèse des signaux avec amortissement des surtensions trop fortes, le calcul du filtre de masquage de bruit avec contrôle du bruit dans les formants, la réduction de bruit dans les traitements audio notamment et en particulier dans les codeurs/décodeurs. Ainsi l'invention s'applique à un codage prédictif autre que le codage CELP, par exemple un codage avec rétroaction de bruit tel que mis en œuvre dans les normes UIT-T G.711.1 et G.722 Annexe B, ou un codage prédictif par transformée de type TCX (Transform Coding eXcitation), où le filtre de pondération de type Α(ζ/γ) serait remplacé par un filtre A ^!SFy (z) ou A^ Cz) .

Par ailleurs l'invention s'applique tant au codage (comme représenté à titre d'exemple précédemment sur les figures 6 et 7) qu' au décodage, notamment dans le cadre d'une optimisation de filtre d' amélioration quelconque du signal au décodage. Elle vise ainsi aussi bien un dispositif codeur qu'un dispositif décodeur, par exemple dans des terminaux respectifs TER et TER' comportant des dispositifs CODEC de codage/décodage respectifs, compatibles, comportant des moyens tels qu'un processeur PROC et une mémoire de travail MEM (figure 11) pour la mise en œuvre du procédé ci-avant. Ces terminaux sont reliés par un canal de transmission 640 (d'un réseau de télécommunications typiquement) qui peut être conforme au canal 640 représenté sur la figure 6.

La description de l'invention faite précédemment suppose un ordre de prédiction linéaire pair. L'homme de l'art saura comment adapter le principe de l'invention au cas d'un ordre de prédiction linéaire impair, ce qui par exemple change la définition des polynômes P(z) et Q(z) pour les LSF suivant l'équation : Il en est de même pour les ISF dans le cas d'un ordre impair.

On a décrit ci-avant des modes de réalisation dans lesquels on utilise des paramètres fréquentiels ISF ou LSF pour calculer le filtre d'amélioration. Toutefois, il est possible d'utiliser les deux types de paramètres à la fois ISF et LSF. Par exemple, il peut être prévu une première détermination brute du filtre et des facteurs d'amortissement dans un premier domaine (par exemple à partir des ISF ou des LSF), puis un ajustement des facteurs d'amortissement dans le domaine dual (en utilisant les LSF ou les ISF, respectivement).

Previous Patent: METHOD AND DEVICE FOR CONDENSING A CARBON DIOXIDE-RICH GAS STREAM

Next Patent: HEAT-TREATMENT DEVICE CAPABLE OF RECEIVING LOOSE PRODUCTS