Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND SYSTEM FOR ANALYSING AND ENCODING AUDIO SIGNALS
Document Type and Number:
WIPO Patent Application WO/2011/128582
Kind Code:
A2
Abstract:
The invention relates to a method for the decomposition of an audio signal having a general form that can be expressed as x(t) = x 0 + χ 1cos(Φ(t)), in which Φ(t) is the phase of the signal, characterised in that it comprises steps consisting in determining (21) an expression of the phase equation, formula (I), and determining (21) an expression of the phase Φ(t) as a function of parameters measuring the anharmonicity of the signal and the morphology thereof from functions pcosn and psinn defined by formula (II).

Inventors:
HANUSSE PATRICK (FR)
Application Number:
PCT/FR2011/050839
Publication Date:
October 20, 2011
Filing Date:
April 12, 2011
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
CENTRE NAT RECH SCIENT (FR)
HANUSSE PATRICK (FR)
International Classes:
G10L19/02; G06F17/14
Foreign References:
FR2955187A12011-07-15
Other References:
None
Attorney, Agent or Firm:
BLOT, Philippe et al. (FR)
Download PDF:
Claims:
REVEND ICATIONS

1 . - Procédé de décomposition d'un signal audiophonique (1 ), dont la forme générale peut être exprimée par où Φ(ί) est la phase du signal,

caractérisé en ce qu'il comprend les étapes suivantes :

- détermination (21 ) d'une expression de l'équation de phase

- détermination (21 ) d'une expression de la phase Φ(ί) en fonction de paramètres (r, rk,

Φ0, φκ) mesurant l'anharmonicité du signal et sa morphologie, à partir des fonctions pcosn et psinn définies par :

2. - Procédé de décomposition d'un signal audiophonique (1 ) selon la revendication 1 , caractérisé en ce que l'équation de phase est exprimée sous la forme :

dans laquelle r, variant dans [0,1 ], est un paramètre mesurant l'anharmonicité dudit signal.

3. - Procédé de décomposition d'un signal audiophonique selon la revendication 2, caractérisé en ce que le signal x(t) est exprimé au moyen de deux paramètres r et Φ0, sous la forme :

où les fonctions hsin et hcos étant définies par :

4. - Procédé de décomposition d'un signal audiophonique selon la revendication 1 , caractérisé en ce que l'équation de phase est exprimée sous la forme :

dans laquelle Ρ(Φ) et Ο(Φ) sont des polynômes trigonométriques.

5. - Procédé de décomposition d'un signal audiophonique selon la revendication 4, caractérisé en ce que l'expression de la phase Φ(ί) est déterminée sous la forme :

dans laquelle les fonctions psiri! et pcosi sont définis par :

6. - Système de décomposition d'un signal audiophonique, dont la forme générale peut être exprimée par est la phase du signal, caractérisé

en ce qu'il comprend :

- des moyens (9) pour déterminer une expression de l'équation de phase et

- des moyens (9) pour déterminer une expression de la phase Φ(ί) en fonction de paramètres mesurant l'anharmonicité du signal et sa morphologie, à partir

des fonctions pcosn et psinn définies par :

7. - Système de décomposition d'un signal audiophonique selon la revendication 6, caractérisé en ce qu'il comprend des moyens (9) pour exprimer l'équation de phase sous la forme :

dans laquelle r, variant dans [0,1], est un paramètre mesurant l'anharmonicité dudit signal.

8. - Système de décomposition d'un signal audiophonique selon la revendication 7, caractérisé en ce qu'il comprend des moyens (9) pour exprimer le signal x(t) au moyen de deux paramètres r et Φ0, sous la forme :

où , les fonctions hsin et hcos étant définies par :

9. - Système de décomposition d'un signal audiophonique selon la revendication 6, caractérisé en ce qu'il comprend des moyens (9) pour exprimer l'équation de phase sous la forme : ( )

dans laquelle Ρ(Φ) et Ο(Φ) sont des polynômes trigonométriques.

10.- Système de décomposition d'un signal audiophonique selon la revendication 9, caractérisé en ce qu'il comprend des moyens (9) pour déterminer l'expression de la phase Φ(ί) sous la forme :

dans laquelle les fonctions psin1 et pcos1 sont définis par :

Description:
Procédé et système d'analyse et de codage de signaux audiophoniques

La présente invention concerne un procédé et un système de décomposition d'un signal audiophonique, dont la forme générale peut être exprimée par où Φ(ί) est la phase du signal.

Elle concerne en particulier l'analyse et le codage de signaux audiophoniques élémentaires, tels que générés par un instrument de musique, ou des signaux vocaux.

La description des signaux audiophoniques et leur codage au moyen de paramètres sont une préoccupation ancienne, ce codage permettant de minimiser l'espace nécessaire à leur stockage ou le débit nécessaire à leur transmission, par exemple à travers un réseau de communication, tout en conservant toute l'information nécessaire à la synthèse du signal.

Un signal audiophonique réel comprend généralement des signaux apériodiques de basses fréquences, constituant l'enveloppe du signal, modulés par un ou plusieurs signaux périodiques, par exemple générés par des instruments de musique.

La forme d'onde de chaque signal périodique, c'est-à-dire la forme de ce signal sur une période, est caractéristique du timbre de ce signal. La forme d'onde la plus simple, correspondant à un signal linéaire, est une sinusoïde, dont la fréquence est caractéristique de la hauteur du signal sonore, et dont l'amplitude détermine l'intensité de ce signal sonore. Les formes d'onde carrées, triangulaires, ou en dent de scie, sont également des formes classiques.

Cependant, les signaux sonores réels, par exemple générés par un instrument de musique, sont généralement fortement anharmoniques, c'est-à-dire non-linéaires, et présentent des formes d'ondes plus complexes, car ils résultent de la superposition de multiples signaux de fréquences différentes.

La décomposition de tels signaux est généralement effectuée au moyen des séries de Fourier, introduites en 1822 par Joseph Fourier. Cette technique consiste à décomposer un signal périodique de fréquence f en une somme infinie de fonctions sinusoïdales de fréquences multiples de f. Tout signal périodique x(t) de période T=1 /f peut ainsi être exprimé comme une somme de fonctions sinusoïdales, du type : Les coefficients c n , appelés coefficients de Fourier, qui sont définis par la formule :

constituent un codage du signal x(t). A partir de cette analyse, la donnée des coefficients c n permet de synthétiser le signal x(t).

Afin d'augmenter la compacité de ce codage, il convient de limiter le nombre de coefficients c n , à priori infini, et de ne conserver que les premiers termes de l'expression (1 ). Ces termes doivent cependant être en nombre suffisant pour que le signal synthétisé à partir du codage soit aussi proche que possible du signal x(t) d'origine.

La décomposition en séries de Fourier permet de décomposer tout type de signal périodique, et elle est utilisée par de nombreuses méthodes de codage audio, par exemple le codage MP3. Cependant, les signaux sonores étant généralement fortement non-linéaires, leur décomposition en séries de Fourier nécessite de conserver un grand nombre de coefficients, coefficients auxquels il est difficile de donner un sens physique.

L'invention a donc pour but de permettre l'analyse et la représentation, donc le codage et la synthèse, d'un signal audiophonique, quelle que soit son anharmonicité, au moyen d'un petit nombre de paramètres, par rapport au nombre de paramètres nécessaires au codage et à la synthèse par série de Fourier, lesdits paramètres étant porteurs d'un sens physique et constituant une signature simple et explicite de la forme d'onde de ce signal, donc du timbre de ce signal.

A cet effet, l'invention a pour objet un procédé du type précité, caractérisé en ce qu'il comprend les étapes suivantes :

- détermination d'une expression de l'équation de phase Γ

- détermination d'une expression de la phase Φ(ί) en fonction de paramètres mesurant l'anharmonicité du signal et sa morphologie, à partir des fonctions pcos n et psin n définies par :

Ainsi réalisé, le procédé selon l'invention permet d'analyser un signal audiophonique en réduisant le nombre de paramètres nécessaire à son codage, par rapport aux procédés de décomposition selon l'état de la technique. De plus, ces paramètres ont un sens physique, ce qui permet de comparer plusieurs signaux en comparant directement les paramètres issus de leur décomposition. Le procédé selon l'invention comporte également les caractéristiques suivantes, prises séparément ou en combinaison :

- l'équation de phase est exprimée sous la forme :

dans laquelle r, variant dans [0,1 ], est un paramètre mesurant l'anharmonicité dudit signal ;

- le signal x(t) est exprimé au moyen de deux paramètres r et Φ 0 , sous la forme :

où α les fonctions hsin et hcos étant définies par :

- l'équation de phase est exprimée sous la forme :

dans laquelle Ρ(φ) et 0(φ) sont des polynômes trigonométriques ;

- l'expression de la phase φ(ί) est déterminée sous la forme :

dans laquelle les fonctions psin 1 et pcos 1 sont définis par :

Selon un autre aspect, l'invention a pour objet un système de décomposition d'un signal audiophonique, dont la forme générale peut être exprimée par où Φ(ί) est la phase du signal, caractérisé en ce qu'il

comprend :

- des moyens pour déterminer une expression de l'équation de phase

et

- des moyens pour déterminer une expression de la phase Φ(ί) en fonction de paramètres mesurant l'anharmonicité du signal et sa morphologie, à partir des fonctions pcoS n et psin n définies par : Le système selon l'invention comporte également les caractéristiques suivantes, prises séparément ou en combinaison :

- le système comprend des moyens pour exprimer l'équation de phase sous la forme :

dans laquelle r, variant dans [0,1 ], est un paramètre mesurant l'anharmonicité dudit signal ;

- le système comprend des moyens pour exprimer le signal x(t) au moyen de deux paramètres r et Φ 0 , sous la forme :

où , les fonctions hsin et hcos étant définies par :

- le système comprend des moyens pour exprimer l'équation de phase sous la forme :

dans laquelle Ρ(Φ) et Q(Φ) sont des polynômes trigonométriques ;

- le système comprend des moyens pour déterminer l'expression de la phase Φ(t) sous la forme :

dans laquelle les fonctions psirii et pcosi sont définis par :

L'invention sera mieux comprise au regard d'un exemple de réalisation de l'invention qui va maintenant être décrit en faisant référence aux figures annexées parmi lesquelles :

la figure 1 représente la forme d'un signal audiophonique élémentaire ;

- la figure 2 est un schéma représentant un système de décomposition d'un signal audiophonique selon un mode de réalisation de l'invention ; et

- la figure 3 est un schéma synoptique illustrant le procédé de décomposition d'un signal audiophonique selon un mode de réalisation de l'invention. On a représenté sur la figure 1 , la forme d'un signal audiophonique élémentaire 1 , tel que produit par un instrument de musique, ou un signal vocal, le temps étant porté en abscisse et l'amplitude du signal en ordonnée. Ce signal 1 est quasi-périodique, de période T. Les variations de ce signal d'une période à une autre sont notamment dues à des signaux parasites, constitutifs d'un bruit blanc, et à la variation d'intensité du signal au cours du temps.

Le signal 1 est un signal fortement non-linéaire, constitué d'un signal à une fréquence fondamental f, inverse de la période T, et d'une pluralité de signaux de fréquences plus élevées.

La figure 2 illustre un mode de réalisation du système selon l'invention. Ce système comprend des moyens 3 d'acquisition de signaux audiophoniques, par exemple un microphone, et des moyens 5 de traitement et d'analyse de tels signaux, comprenant un convertisseur analogique/numérique 7, des moyens 9 d'analyse de signaux audiophoniques numériques, par exemple un processeur. Le système comprend également des moyens 10 de mémorisation, par exemple une mémoire ROM.

Le microphone 3 est apte à convertir des ondes sonores issues d'un instrument de musique 1 1 en impulsions électriques, formant un signal audiophonique analogique.

Le convertisseur analogique/numérique 7 est apte à numériser un signal audiophonique analogique, par échantillonnage de ce signal avec une fréquence d'échantillonnage prédéterminée et quantification de ce signal.

Le processeur 9 est apte à analyser un signal audiophonique de manière à coder ce signal au moyen de paramètres caractéristiques de ce signal.

La figure 3 est un schéma synoptique illustrant l'acquisition et l'analyse d'un signal audiophonique au moyen du système décrit en référence à la figure 2, selon un mode de réalisation de l'invention.

Dans une étape 13 d'acquisition, l'instrument de musique 1 1 émet des ondes sonores, dont la fréquence fondamentale varie au cours du temps. Ces ondes sont perçues par le microphone 3, qui les convertit en impulsions électriques constituant un signal audiophonique analogique, et transmet immédiatement ce signal au convertisseur analogique/numérique 7, de manière continue.

Dans une étape 15 de numérisation, le convertisseur analogique/numérique 7 numérise le signal audiophonique analogique, par échantillonnage et quantification. L'échantillonnage du signal est par exemple réalisé avec une fréquence d'échantillonnage de 44100 Hz, qui est la fréquence d'échantillonnage des signaux audiophoniques sur un disque compact. Le signal audiophonique numérique est alors transmis au processeur 9. Ce signal audiophonique numérique est constitué d'une succession de signaux audiophoniques élémentaires dont les fréquences fondamentales diffèrent. Afin d'identifier ces signaux élémentaires, le processeur 9 réalise dans une étape 1 7 une transformée de Fourier locale du signal audiophonique numérique, et détecte les fréquences fondamentales successives de ce signal ainsi que l'emplacement et la durée de chacun des signaux élémentaires. La largeur temporelle de la fenêtre utilisée pour cette transformée de Fourier doit être suffisamment grande pour que cette fenêtre contienne au moins dix périodes du signal élémentaire de plus basse fréquence. Par exemple, pour un signal élémentaire de fréquence fondamentale égale au minimum à 500 Hz, on choisira une fenêtre de largeur égale ou supérieure à 20 ms.

Chaque signal ainsi détecté est un signal quasi-périodique, les variations de ce signal d'une période à une autre étant notamment dues à des signaux parasites et à la variation d'intensité du signal au cours du temps. Cependant, cette intensité peut être considérée comme constante sur une durée de l'ordre de dix périodes, ou comme variant de manière linéaire.

Ainsi, dans une étape 1 9, le processeur 9 décompose le signal audiophonique numérique en signaux élémentaires de fréquences fondamentales fixes, et comprenant chacun au moins dix périodes.

Puis, dans une étape 21 , le processeur 9 analyse chacun de ces signaux élémentaires.

Chaque signal élémentaire x(t) est un signal anharmonique dont la morphologie principale peut être décrite sous la forme suivante :

dans laquelle toute la dépendance temporelle est contenue dans la fonction de phase Φ.

Or, dans un signal anharmonique, la principale contribution à l'anharmonicité provient de la brisure de symétrie de la dynamique de phase. Ainsi, toute l'information dynamique pertinente est exprimée par la dynamique de phase. Lors de l'analyse du signal x(t), il convient donc d'étudier cette phase Φ(ί), et en particulier la dynamique de phase exprimée par la fonction F, dérivée de la fonction Φ par rapport au temps t :

Ainsi, la morphologie du signal x(t) est complètement déterminée par la connaissance de F.

Lors de l'étape d'analyse 21 du procédé selon l'invention, cette fonction F est donc décrite au moyen d'un très petit nombre de paramètres. On entendra par petit nombre de paramètres un nombre de paramètres réduit par rapport au nombre de paramètres nécessaire à la décomposition de la même fonction, au moyen des séries de Fourier, avec un niveau de précision équivalent.

Cette étape d'analyse 21 comprend ainsi une première étape consistant à exprimer la phase Φ, et en particulier la fonction F, dérivée de Φ par rapport au temps.

Dans la suite de la description, on supposera que le signal est de période 2π, mais l'analyse décrite peut être généralisée à tout signal de période quelconque T, en remplaçant dans les équations les temps t par

Dans le cas le plus simple, et pour un signal de période 2π, la dynamique de phase peut être écrite sous la forme :

appelée équation de phase.

La fonction F présente dans ce cas une symétrie de réflexion par rapport à l'axe Φ=0. Cette expression de la dynamique de phase ne contient qu'un seul paramètre, r, qui varie dans l'intervalle [0,1 ]. La limite r=0 correspond à un signal harmonique, la limite r=1 à un signal infiniment anharmonique.

Le signal x(t), qui peut être écrit sous la forme :

où Φ 0 est une origine de phase, est décomposé et réécrit sous une forme faisant intervenir les paramètres r et Φ 0 :

avec et dans laquelle on a défini les fonctions hcos et hsin suivantes :

Ainsi, la décomposition du signal x(t) fait intervenir seulement deux paramètres, r et Φ 0 .

r, appelé paramètre d'anharmonicité, mesure le degré d'anharmonicité du signal, la limite r=0 correspond à un signal harmonique, la limite r=1 à un signal infiniment anharmonique. Par ailleurs, le paramètre Φ 0 , qui définit la composition du signal dans les deux fonctions hcos et hsin, est un paramètre de morphologie, qui correspond à l'angle de symétrie de réflexion de la dynamique de phase. Dans le cas général, c'est-à-dire pour un signal périodique quelconque, l'équation de phase peut s'écrire sous la forme :

dans laquelle P n et Q m sont des polynômes trigonométriques de degrés respectifs n et m. La forme générale d'un polynôme trigonométrique de degré n est :

L'analyse du signal x(t) consiste alors à déterminer une expression de Φ faisant intervenir un petit nombre de paramètres, ce qui permet de déterminer une expression du signal x(t) en fonction de ces paramètres.

Avantageusement, l'équation de phase (4) peut être réécrite sous la forme :

La factorisation du polynôme Ρ η (Φ) permet de transformer en une somme de termes simples, ce qui permet de réécrire l'équation de phase sous la forme :

dans laquelle les paramètres r k , compris entre 0 et 1 , mesurent l'anharmonicité du signal x(t), et les paramètres Φ κ caractérisent sa morphologie.

La période T du signal peut être déterminée en intégrant cette équation par rapport à Φ, entre 0 et 2π :

A partir de ce résultat, et des contraintes selon lesquelles la période est égale à 2π et le signal est harmonique lorsque les coefficients r k sont tous nuls, l'équation de phase peut être exprimée ainsi :

Où la fonction D k est définie par : Et vérifie :

La définition des fonctions des fonctions polycos et polysin, notées pcos n et psin n , qui s'expriment par :

et possèdent entre autre les propriétés suivantes :

permet de réécrire l'équation de phase sous la forme :

La résolution de cette équation permet d'accéder à une expression analytique de ί(Φ), qui s'exprime par :

Le temps t est donc exprimé en fonction de la phase Φ, et de manière duale la phase Φ est exprimée en fonction du temps t, à l'aide de paramètres indépendants clairement définis, qui mesurent l'anharmonicité (paramètres r ou r k ), et la morphologie (paramètres Φ 0 ou φκ).

Ainsi, lors de l'étape 21 d'analyse, le processeur 9 code le signal x(t) au moyen d'un petit nombre de paramètres.

Selon un mode de réalisation, le signal élémentaire x(t) est décrit de manière quasi-exacte par une amplitude, une période T, une harmonicité r et une morphologie Φ 0 . Selon un autre mode de réalisation, le signal élémentaire x(t) est décrit de manière encore plus précise par deux couples de paramètres (r 1 ; et (r 2 , φ 2 ), complétés de leurs poids respectifs.

Chacun des signaux élémentaires constituant le signal audiophonique numérique est donc caractérisé par un nombre restreint de paramètres, porteurs d'un sens physique car représentatifs de la non-linéarité et de la morphologie de ces signaux.

Après l'analyse des signaux élémentaires, le processeur commande en 23 l'enregistrement dans la mémoire des paramètres caractéristiques déterminés lors des étapes 17, 19 et 21 , c'est-à-dire la position temporelle, la durée, l'amplitude et la fréquence fondamentale de chaque signal élémentaire, ainsi que les paramètres de morphologie et d'harmonicité caractéristiques de la forme d'onde de chaque signal élémentaire, donc de leur timbre.

Il est alors possible, à partir de la seule donnée de ces paramètres, de synthétiser un signal très proche du signal audiophonique numérique d'origine, sans déformation du timbre d'origine.

Le procédé et le système selon l'invention permettent ainsi de décomposer un signal et de coder celui-ci à l'aide d'un nombre restreint de paramètres, et ce avec une plus grande précision que la décomposition en série de Fourier. Cette compacité permet de réduire l'espace nécessaire au stockage de ces signaux, d'augmenter le débit des canaux de transmission et d'améliorer la qualité de restitution des sons resynthétisés.

De plus, contrairement aux coefficients de Fourier, les paramètres déterminés lors de la décomposition suivant le procédé selon l'invention ont un fort sens physique et permettent de décrire l'anharmonicité et la morphologie du signal.

Il devra toutefois être compris que l'exemple de réalisation présenté ci-dessus n'est pas limitatif, et que le procédé et le système selon l'invention peuvent être mis en œuvre pour la décomposition de signaux audiophoniques autres que des signaux produits par des instruments de musique.

Notamment, le procédé selon l'invention peut être efficacement utilisé pour la reconnaissance ou l'identification vocale, contexte dans lequel les signaux comportent des composantes non-linéaires fortes qui constituent une signature discriminante de ces signaux. De la même manière, le procédé peut être utilisé pour la caractérisation des troubles phoniatriques et phonologiques et l'évaluation de leur évolution.