Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD OF ESTIMATING A VOICE CONVERSION FUNCTION
Document Type and Number:
WIPO Patent Application WO/2006/082287
Kind Code:
A1
Abstract:
The invention relates to a method of estimating a voice conversion function between (i) the voice of a speaker, defined from a voice message recorded by said speaker, and (ii) the voice of a reference speaker, defined by a speech synthesis database. According to the invention, the method comprises the following steps consisting in: generating a synthetic recording of the voice message recorded by the speaker from the speech synthesis database, and estimating the voice conversion function using a training operation which is performed on the recorded voice message and the synthetic recording.

Inventors:
ROSEC OLIVIER (FR)
EN-NAJJARY TAOUFIK (FR)
Application Number:
PCT/FR2005/003308
Publication Date:
August 10, 2006
Filing Date:
December 28, 2005
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRANCE TELECOM (FR)
ROSEC OLIVIER (FR)
EN-NAJJARY TAOUFIK (FR)
International Classes:
G10L13/02; G10L13/033; G10L21/00; G10L21/013
Foreign References:
US20020173962A12002-11-21
Other References:
KAIN A ET AL: "Spectral voice conversion for text-to-speech synthesis", ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 1998. PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE ON SEATTLE, WA, USA 12-15 MAY 1998, NEW YORK, NY, USA,IEEE, US, vol. 1, 12 May 1998 (1998-05-12), pages 285 - 288, XP010279123, ISBN: 0-7803-4428-6
Attorney, Agent or Firm:
Saura, Robert (38/40 rue du Général Leclerc, Issy-Les-Moulineaux Cedex 9, FR)
Download PDF:
Claims:
REVENDICATIONS
1. Procédé d'estimation d'une fonction de conversion de voix entre, d'une part, la voix d'un locuteur définie à partir d'un message vocal enregistré par ledit locuteur, et, d'autre part, la voix d'un locuteur de référence définie par une base de données de synthèse vocale, caractérisé en ce que ledit procédé comprend les étapes consistant à : générer, à partir de ladite base de données de synthèse vocale, un enregistrement synthétique dudit message vocal enregistré par le locuteur, estimer ladite fonction de conversion de voix par une opération d'apprentissage effectuée sur ledit message vocal enregistré et ledit enregistrement synthétique.
2. Procédé d'estimation d'une fonction de conversion de voix entre, d'une part, la voix d'un locuteur source définie à partir d'un premier message vocal enregistré par ledit locuteur source, et, d'autre part, la voix d'un locuteur cible définie à partir d'un deuxième message vocal enregistré par ledit locuteur cible, caractérisé en ce que ledit procédé comprend les étapes consistant à : générer, à partir d'une base de données de synthèse vocale, un enregistrement synthétique dudit premier message vocal enregistré par le locuteur source, estimer une première fonction de conversion de voix entre la voix du locuteur source et la voix d'un locuteur de référence définie par ladite base de données de synthèse vocale, par une opération d'apprentissage effectuée sur ledit premier message vocal enregistré par le locuteur source et ledit enregistrement synthétique du premier message vocal, générer, à partir de ladite base de données de synthèse vocale, un enregistrement synthétique dudit deuxième message vocal enregistré par le locuteur cible, estimer une deuxième fonction de conversion de voix entre la voix dudit locuteur de référence et la voix du locuteur cible, par une opération d'apprentissage effectuée sur ledit enregistrement synthétique du deuxième message vocal et ledit deuxième message vocal enregistré par le locuteur cible, estimer ladite fonction de conversion de voix par composition de ladite première et de ladite deuxième fonctions de conversion de voix.
3. Procédé selon l'une des revendications 1 ou 2, caractérisé en ce que ladite base de données de synthèse vocale est une base de données d'un système de synthèse de la parole par concaténation.
4. Procédé selon l'une des revendications 1 ou 2, caractérisé en ce que ladite base de données de synthèse vocale est une base de données d'un système de synthèse de la parole par corpus.
5. Application du procédé selon la revendication 1 à la conversion de messages vocaux enregistrés par un locuteur source en messages correspondants reproduits par ledit locuteur de référence.
6. Application du procédé selon la revendication 1 à la conversion de messages synthétiques enregistrés par un locuteur de référence en messages correspondants reproduits par un locuteur cible.
7. Système de conversion de voix, caractérisé en ce qu'il comprend un module de conversion de voix mettant en oeuvre le procédé selon l'une quelconque des revendications 1 à 4.
8. Programme d'ordinateur sur un support d'informations, ledit programme comportant des instructions de programme adaptées à la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 4, lorsque ledit programme est chargé et exécuté dans un système informatique.
Description:
PROCEDE D'ESTIMATION D'UNE FONCTION DE CONVERSION DE VOIX

La présente invention concerne un procédé d'estimation d'une fonction de conversion de voix entre, d'une part, la voix d'un locuteur définie à partir d'un message vocal enregistré par ledit locuteur, et, d'autre part, la voix d'un locuteur de référence définie par une base de données de synthèse vocale. Elle concerne également un procédé d'estimation d'une fonction de conversion de voix entre, d'une part, la voix d'un locuteur source définie à partir d'un premier message vocal enregistré par ledit locuteur source, et, d'autre part, la voix d'un locuteur cible définie à partir d'un deuxième message vocal enregistré par ledit locuteur cible. L'invention trouve une application avantageuse à chaque fois que l'on veut faire dire par un locuteur un message vocal enregistré par un autre locuteur. Il est ainsi possible, par exemple, de diversifier les voix utilisées dans les systèmes de synthèse de la parole, ou, à l'inverse, restituer de manière anonyme des messages enregistrés par différents locuteurs. On peut également envisager de mettre en œuvre le procédé conforme à l'invention pour réaliser des doublages de films.

D'une manière générale, la conversion de voix consiste à estimer une fonction de transformation, ou de conversion, qui, appliquée à un premier locuteur dont la voix est définie à partir d'un message vocal enregistré, permet de reproduire aussi fidèlement que possible la voix d'un deuxième locuteur. Dans le cadre de l'invention, ledit deuxième locuteur peut être un locuteur de référence dont la voix est définie par une base de données de synthèse vocale ou un locuteur dit « cible » dont la voix est également définie à partir d'un message vocal enregistré, le premier locuteur étant qualifié de « source ».

L'identité vocale d'un locuteur dépend de nombreuses caractéristiques, qu'elles soient segmentales (timbre, hauteur de voix, qualité vocale), ou supra-

segmentales (style d'élocution). Parmi celles-ci, le timbre reste l'information la plus importante, c'est pourquoi la plupart des travaux dans le domaine de la conversion de voix traitent essentiellement de la modification du timbre. Néanmoins, lors de la conversion, une modification de la fréquence fondamentale, appelée aussi « pitch », peut être également effectuée afin de respecter globalement la hauteur de voix du deuxième locuteur.

En substance, le principe de la conversion de voix consiste, de manière connue, en une opération d'apprentissage qui vise à estimer une fonction reliant le timbre de la voix du premier locuteur à celui de la voix du deuxième locuteur. Pour cela, deux enregistrements parallèles des deux locuteurs, c'est- à-dire comportant le même message vocal, sont nécessaires. Une analyse est menée sur chacun des enregistrements afin d'extraire des paramètres représentatifs du timbre de la voix. Puis, après alignement des deux enregistrements, on commence par effectuer une classification, c'est à dire une partition des espaces acoustiques des deux locuteurs. Cette classification est ensuite utilisée pour l'estimation de la fonction de conversion. De nombreuses méthodes de transformation basées sur ce principe ont été proposées, on citera par exemple la conversion par quantification vectorielle (M. Abe, S. Nakamura, K. Shikano and H. Kuwabara, "Voice conversion through vector quantization", Proceedings of ICASSP, pp 655-658, 1988), par régression linéaire multiple (H. Valbret, "Système de conversion de voix pour la synthèse de la parole", PhD Thesis ENST Paris, 1992), par alignement fréquentiel dynamique (H. Valbret, E. Moulines, J. P. Tubach, "Voice transformation using PSOLA technique", Speech Communication, vol 11 , pp. 175-187, 1995), par réseau de neurones (M. Narendranath, H. A. Murthy, S. Rajendran and B. Yegnanarayana, "Transformation of formants for voice conversion using artificial neural networks", Speech Communication, vol 16, pp. 207-216, 1995), ou encore par modèle de mélange de gaussiennes (GMM) proposé dans « Y. Stylianou, O. Cappe, C. Moulines, Continuous probabilistic transform for voice conversion, IEEE Transactions on Speech and Audio Processing, Vol. 6 (2) , pp. 131-142, March 1998 » et améliorée par Kain (A. Kain and M. Maçon, "Text-to-speech voice adaptation from sparse training data", Proceedings of ICSLP, 1998).

Les procédés d'estimation de fonctions de conversion de voix qui viennent d'être présentés utilisent des enregistrements, ou corpus, de messages parallèles des deux locuteurs. Cependant, il n'est pas toujours possible d'obtenir de tels enregistrements. C'est pourquoi, parallèlement au développement des méthodes de conversion basée sur l'utilisation de corpus parallèles, d'autres travaux ont été menés afin de rendre possible la conversion dans le cas où les corpus source et cible ne sont pas parallèles. Ces travaux sont très largement inspirés des techniques d'adaptation au locuteur classiquement utilisées en reconnaissance de la parole par modèles de Markov cachés (en anglais HMM pour Hidden Markov Model). Une application intéressante a été proposée (J. Yamagishi, M. Tamura, T. Masuko, K. Tokuda and T. Kobayashi, "A context clustering technique for average voice models", IEICE Trans. Inf & Syst, vol. E86-D (3), pp. 534-542, March 2003), où le module d'adaptation au locuteur permet de personnaliser un système de synthèse par HMM. Dans un premier temps, une classification des modèles HMM en contexte par arbre de décision est réalisée pour construire un modèle de voix "moyenne". Ensuite, les paramètres de ces modèles HMM sont adaptés en fonction du locuteur cible. Des tests tant objectifs que subjectifs ont certes montré l'utilité de la méthode dans le cadre de la synthèse par HMM. Mais la qualité de la parole convertie accessible par les systèmes de synthèse par HMM est néanmoins très médiocre.

Une technique d'adaptation au locuteur est également proposée (A. Mouchtaris, J. van der Spiegel and P. Mueller, « Non-parallel training for voice conversion by maximum likelihood constrained adaptation », In Proceeding ICASSP, 2004, vol 1 , pp 1-4) pour obtenir une conversion de voix basée sur des corpus non parallèles. Dans cette application, hypothèse est faite que deux corpus parallèles A et B sont disponibles. Pour réaliser la conversion entre les corpus non parallèles source C et cible D, on suppose en outre que les corpus C et D sont parallèles respectivement à une partie des corpus A et B. Dans ce cas, la fonction de conversion entre les locuteurs C et D est exprimée comme la composée de trois fonctions de conversion, respectivement des locuteurs C vers A, A vers B et B vers D. Le cadre d'application de ce procédé semble assez restrictif, car il requiert néanmoins

des portions d'enregistrement parallèles. De plus, aucun mécanisme permettant de contrôler le parallélisme des corpus utilisés n'est proposé. Enfin, la composition des trois fonctions de conversion risque d'entraîner des erreurs de transformation importantes. Au final, la qualité de la parole convertie obtenue par cette méthode est jugée moins bonne que celle obtenue à partir de corpus parallèles.

Aussi, un problème technique à résoudre par l'objet de la présente invention est de proposer un procédé d'estimation d'une fonction de conversion de voix entre, d'une part, la voix d'un locuteur définie à partir d'un message vocal enregistré par ledit locuteur, et, d'autre part, la voix d'un locuteur de référence définie par une base de données de synthèse vocale, qui permettrait d'obtenir une parole convertie de qualité meilleure que celle fournie par les procédés à corpus non parallèles connus.

La solution au problème technique posé consiste, selon la présente invention, en ce que ledit procédé comprend les étapes consistant à :

- générer, à partir de ladite base de données de synthèse vocale, un enregistrement synthétique dudit message vocal enregistré par le locuteur,

- estimer ladite fonction de conversion de voix par une opération d'apprentissage effectuée sur ledit message vocal enregistré et ledit enregistrement synthétique.

Ainsi, on comprend que le procédé selon l'invention permet d'obtenir deux enregistrements parallèles du même message vocal, l'un étant enregistré directement par le locuteur, et qui constitue en quelque sorte le message de base, et l'autre étant une reproduction synthétique de ce message de base. L'estimation de la fonction de conversion recherchée est alors réalisée par une opération d'apprentissage classique effectuée sur deux enregistrements parallèles. Les différentes étapes de ce traitement seront décrites en détail plus loin.

Deux applications du procédé conforme à l'invention peuvent être envisagées, à savoir, d'une part, une application à la conversion de messages vocaux enregistrés par un locuteur source en messages correspondants reproduits par ledit locuteur de référence, et, d'autre part, une application à la conversion de messages synthétiques enregistrés par un locuteur de

référence en messages correspondants reproduits par un locuteur cible. La première application conduit à rendre anonymes, car reproduits par un même locuteur de référence, des messages vocaux enregistrés par des locuteurs différents. La deuxième application vise, au contraire, à diversifier les voix utilisées en synthèse de la parole.

Le même principe de parallélisation de messages via un locuteur de référence peut s'appliquer à la conversion de voix entre deux locuteurs conformément à un procédé d'estimation d'une fonction de conversion de voix entre, d'une part, la voix d'un locuteur source définie à partir d'un premier message vocal enregistré par ledit locuteur source, et, d'autre part, la voix d'un locuteur cible définie à partir d'un deuxième message vocal enregistré par ledit locuteur cible, qui, selon l'invention, est remarquable en ce que ledit procédé comprend les étapes consistant à :

- générer, à partir d'une base de données de synthèse vocale, un enregistrement synthétique dudit premier message vocal enregistré par le locuteur source,

- estimer une première fonction de conversion de voix entre la voix du locuteur source et la voix d'un locuteur de référence définie par ladite base de données de synthèse vocale, par une opération d'apprentissage effectuée sur ledit premier message vocal enregistré par le locuteur source et ledit enregistrement synthétique du premier message vocal,

- générer, à partir de ladite base de données de synthèse vocale, un enregistrement synthétique dudit deuxième message vocal enregistré par le locuteur cible, - estimer une deuxième fonction de conversion de voix entre la voix dudit locuteur de référence et la voix du locuteur cible, par une opération d'apprentissage effectuée sur ledit enregistrement synthétique du deuxième message vocal et ledit deuxième message vocal enregistré par le locuteur cible, - estimer ladite fonction de conversion de voix par composition de ladite première et de ladite deuxième fonctions de conversion de voix.

Selon un premier mode de réalisation de l'invention, ladite base de données de synthèse vocale est une base de données d'un système de synthèse de la parole par concaténation.

Selon un deuxième mode de réalisation de l'invention, ladite base de données de synthèse vocale est une base de données d'un système de synthèse de la parole par corpus.

On rappelle que les systèmes de synthèse par concaténation peuvent utiliser des bases de diphones mono-représentés. Le choix du diphone, et non pas du phone (réalisation acoustique d'un phonème), résulte de l'importance de la zone transitoire, ainsi conservée, comprise entre deux phones pour l'intelligibilité du signal de parole. La synthèse par diphone conduit en général à un signal synthétique dont l'intelligibilité est assez bonne. En revanche, les modifications effectuées par l'algorithme TD-PSOLA (F. Charpentier and E. Moulines, "Pitch-synchronous waveform processing techniques for text-to- speech synthesis using diphones", Proceedings of Eurospeech, 1989), afin de satisfaire les consignes prosodiques, introduisent des distorsions du signal de synthèse et dégradent ainsi notablement la qualité de la parole synthétique restituée.

La disponibilité récente de ressources informatiques importantes a permis l'émergence de solutions nouvelles regroupées sous l'appellation de synthèse par corpus. Dans cette approche, la base de données acoustiques ne se restreint pas à un dictionnaire de diphones mono-représentés, mais contient ces mêmes éléments enregistrés dans différents contextes (grammatical, syntaxique, phonémique, phonologique ou prosodique). Chaque élément ainsi manipulé, appelé aussi "unité", est donc un segment de parole caractérisé par un ensemble de descripteurs symboliques relatifs au contexte dans lequel il a été enregistré. Dans cette approche par corpus, la problématique de la synthèse change alors radicalement : il ne s'agit plus de déformer le signal de parole en visant à dégrader le moins possible la qualité du timbre mais plutôt de disposer d'une base de données suffisamment riche et d'une algorithmique fine permettant la sélection des unités les mieux adaptées au contexte et minimisant les artefacts aux instants de concaténation. La sélection des unités peut donc être assimilée à un problème

de minimisation d'une fonction de coût composée de deux types de métriques : un "coût cible" qui mesure l'adéquation des unités avec les paramètres symboliques issus des modules de traitements linguistiques du système et un "coût de concaténation" qui rend compte de la compatibilité acoustique de deux unités consécutives.

Pour des raisons de complexité algorithmique, énumérer et traiter d'emblée l'ensemble des combinaisons d'unités correspondant à la phonétisation d'un texte donné est difficilement envisageable. Il convient donc d'opérer un filtrage des données avant de décider du choix de la séquence optimale. Pour cette raison, le module de sélection des unités opère généralement en deux étapes : premièrement une "pré-sélection" qui consiste à sélectionner des ensembles d'unités candidates pour chaque séquence cible, puis une "sélection finale" qui vise à déterminer la séquence optimale selon une certaine fonction de coût prédéterminé. Les méthodes de pré- sélection sont pour la plupart des variantes de la méthode baptisée "Context Oriented Clustering" introduite par Nakajima (S. Nakajima and H. Hiroshi, "Automatic Génération of Synthesis Units Based on Context Oriented Clustering", Proceedings of ICASSP, pp. 659-662, New York, USA, April 1988). A titre d'exemple, on peut citer les travaux de Black et Taylor (A.W. Black and P. Taylor, "Automatically clustering similar units for unit sélection in speech synthesis", Proceedings of Eurospeech, Rhodes, Greece, September 1997) et de Donovan (R.E. Donovan, "Trainable Speech Synthesis", PhD Thesis, University of Cambridge, United Kingdom, 1996) sur ce sujet. La sélection finale se fait par minimisation d'une fonction de coût, généralement par un algorithme de type Viterbi. De nombreuses fonctions de coût ont été proposées celles-ci se différenciant essentiellement par la nature des différents coûts utilisés ainsi que par la manière dont ces coûts sont combinés. Il est à noter toutefois que la détermination de telles fonctions de coûts hétérogènes de manière automatique reste délicate, malgré les nombreux travaux dans ce domaine (H. Peng, Y. Zhong and M. Chu, "Perpetually optimizing the cost function for unit sélection in a TTS System with one single run of MOS évaluation", Proceedings ICSLP, pp. 2613-2616, 2002), (S.S. Park, CK. Kim and N. S. Kim, "Discriminative weight training for unit-selection

basθd speech synthesis", Proceedings of Eurospeech, pp. 281-284, 2003), (T.

Toda, H. Kawai and M. Tsuzaki, "Optimizing sub-cost functions for segment sélection based on perceptual évaluations in concatenative speech synthesis",

Proceedings of ICASSP, pp. 657-660, Montréal, Canada, 2004). La description qui va suivre en regard des dessins annexés, donnés à titre d'exemples non limitatifs, fera bien comprendre en quoi consiste l'invention et comment elle peut être réalisée.

La figure 1 est un schéma-bloc représentant les étapes d'un procédé de conversion de voix entre un locuteur et un locuteur de référence. La figure 2 est un schéma-bloc représentant les étapes d'un procédé de conversion de voix entre un locuteur source et un locuteur cible.

La figure 3 est un schéma d'un système de conversion de voix mettant en œuvre le procédé d'estimation conforme à l'invention.

Sur la figure 1 est illustré un procédé d'estimation de conversion de voix entre un locuteur et un locuteur de référence. La voix dudit locuteur est définie à partir d'un message vocal enregistré tandis que la voix dudit locuteur de référence est définie à partir d'une base 10 de données acoustiques d'un système de synthèse de la parole par concaténation, de préférence par corpus, bien qu'un système de synthèse par diphones mono-représentés puisse également être utilisé.

Dans une première étape, un enregistrement synthétique parallèle au message vocal enregistré par le locuteur est généré à partir de ladite base 10 de données de synthèse vocale.

A cet effet, un premier bloc nécessaire à la génération, dit bloc 20 d'analyse et d'annotation, a pour but d'extraire de l'enregistrement du locuteur considéré des informations de type symbolique, relatives au message contenu dans ledit enregistrement.

Un premier type de traitement envisagé consiste à extraire de l'enregistrement vocal le message prononcé sous forme textuelle. Ceci peut être obtenu de façon automatique par un système de reconnaissance vocale, ou de façon manuelle par écoute et retranscription des messages vocaux.

Dans ce cas, le texte ainsi reconnu alimente directement le système 30 de

synthèse vocale, générant ainsi l'enregistrement synthétique de référence désiré.

Cependant, il peut être avantageux de déterminer la chaîne phonétique effectivement réalisée par le locuteur considéré. Pour cela, des procédures standard de décodage acoustico-phonétique, par exemple à base de modèles

HMM, peuvent être utilisées. Par cette variante, il est possible de contraindre le synthétiseur vocal à reproduire exactement la phonétisation ainsi déterminée.

Plus généralement, il est souhaitable d'introduire un mécanisme d'annotation de l'enregistrement afin d'extraire le maximum d'informations pouvant être pris en compte par le système de synthèse par concaténation.

Parmi celles-ci, les informations relatives à l'intonation semblent particulièrement pertinentes, car elles permettent de mieux contrôler le mode d'élocution du locuteur. Ainsi, un algorithme d'annotation prosodique peut être intégré au procédé ou une phase d'annotation manuelle du corpus peut être envisagée afin de prendre en compte des marqueurs mélodiques jugés pertinents.

Il est alors possible d'estimer la fonction de conversion recherchée en appliquant aux deux enregistrements parallèles disponibles, à savoir le message vocal enregistré et l'enregistrement synthétique de référence, une opération d'apprentissage qui va maintenant être décrite en détail.

Comme on peut le voir sur la figure 1 , le traitement appliqué aux deux enregistrements fait apparaître différentes opérations nécessaires pour obtenir la fonction de conversion désirée. Ces opérations sont, dans l'ordre : - l'analyse acoustique 40,

- l'alignement 50 des corpus,

- la classification acoustique 60,

- l'estimation 70 de la fonction de conversion.

L'analyse acoustique est effectuée par exemple au moyen du modèle HNM (« Harmonie plus Noise Model ») qui suppose qu'un segment (appelé aussi trame) voisé du signal de parole s(ή) peut être décomposé en une partie harmonique h(n) représentant la composante quasi-périodique du signal constituée d'une somme de L sinusoïdes harmoniques d'amplitudes Ai et de

phases φ h et une partie bruitée b(n) représentant le bruit de friction et la variation de l'excitation glottale d'une période à l'autre, modélisée par un filtre LPC (« Linear Prédiction Coefficients ») excité par un bruit blanc gaussien (Y. Stylianou, "Harmonie plus Noise Model for speech, combined with statistical methods, for speech and speaker modification", PhD thesis, Ecole Nationale Supérieure des Télécommunications, France, 1996).

s(n) = h(n) + b(n) (1 )

L avec h(n) = ^ A 1 («) cos($, (n)) (2)

Pour une trame non-voisée, la partie harmonique est absente et le signal est simplement modélisé par un bruit blanc mis en forme par filtrage auto-régressif (AR). La première étape de l'analyse HNM consiste à prendre une décision quant au caractère voisé ou non de la trame analysée. Ce traitement est réalisé en mode asynchrone à l'aide d'un pas d'analyse fixé à 10 ms.

Pour une trame voisée, on détermine d'abord la fréquence fondamentale F 0 et la fréquence maximale de voisement, c'est-à-dire la fréquence au-delà de laquelle le signal est considéré comme uniquement constitué de bruit. Ensuite, une analyse synchronisée sur F 0 permet d'estimer les paramètres de la partie harmonique (les amplitudes et les phases) ainsi que les paramètres du bruit. Les paramètres des harmoniques sont calculés par minimisation d'un critère des moindres carrés pondérés (voir l'article de Y. Stylianou cité plus haut) :

T'

E = ∑w 2 (n)(s(n) - h(n)) 2

«=-ïo où s(n) est le signal original, h(n) est la partie harmonique définie par la relation (5) écrite plus loin, w(n) est la fenêtre d'analyse, et I°i est la période fondamentale de la trame courante. Il convient de noter que la trame d'analyse a une durée égale à deux fois la période fondamentale (voir l'article de Y. Stylianou cité plus haut). Cette analyse harmonique est importante dans

la mesure où elle apporte une information fiable sur la valeur du spectre aux fréquences harmoniques. Une telle information est nécessaire pour avoir une estimation robuste de l'enveloppe spectrale.

Les parties du spectre correspondant à du bruit (qu'il s'agisse de la composante de bruit d'une trame voisée ou d'une trame non voisée) sont modélisées à l'aide d'une simple prédiction linéaire. La réponse fréquentielle du modèle AR ainsi estimé est ensuite échantillonnée à pas constant, ce qui fournit une estimation de l'enveloppe spectrale sur les zones bruitées.

Dans le mode de réalisation proposé, étant donné cet échantillonnage de l'enveloppe spectrale, on en déduit les paramètres modélisant cette enveloppe spectrale en utilisant la méthode du cepstre discret régularisé (O. Cappe, E. Moulines, Regularization techniques for discrète cepstrum estimation, IEEE Signal Processing Letters, Vol. 3 (4), pp. 100-102, April 1996). L'ordre de la modélisation cepstrale a été fixé à 20. De plus, pour reproduire le plus fidèlement possible les propriétés de l'oreille humaine, une transformation en échelle de Bark est effectuée. Ces coefficients sont ainsi à rapprocher des MFCC « (MeI Frequency Cepstral Coefficients ») classiquement rencontrés en reconnaissance de la parole. Ainsi, pour chaque trame de parole, un vecteur acoustique constitué de paramètres cepstraux est calculé.

Il convient également de noter que d'autres types de paramètres modélisant l'enveloppe spectrale peuvent être utilisés : par exemple les LSF (Line Spectral Frequency) ou encore les LAR (Log Area Ratio).

Après analyse acoustique, il convient de mettre en correspondance les différents vecteurs acoustiques des deux enregistrements. Pour cela, un algorithme classique, dit d'alignement dynamique (en anglais DTW pour "Dynamic Time Warping), est utilisé.

Avantageusement, si une annotation et une segmentation des deux enregistrements sont disponibles (par exemple un découpage en phonèmes) et si ces informations sont concordantes entre les deux enregistrements, alors le chemin d'alignement peut être contraint de manière à respecter les marques de segmentation.

Dans le mode de réalisation proposé, une classification conjointe des vecteurs acoustiques des deux enregistrements alignés est effectuée. Soient

*I:JV / 'es séquences de vecteurs acoustiques alignés. Soient x et y les variables aléatoires relatives aux vecteurs acoustiques de chacun des enregistrements et z=(x,y) le couple associé. Dans la classification acoustique décrite ici, la variable aléatoire z est modélisée par un mélange de lois gaussiennes (en anglais GMM pour "Gaussian Mixture Model") d'ordre Q. Sa densité de probabilité s'écrit alors sous la forme suivante :

Q Q p(z) = γ ai N(z',μ t t ), ∑«j = l. «t ≥ 0 (3)

(=1 ;=1 où N(z;μ;∑) est la densité de probabilité de la loi normale de moyenne μ et de matrice de covariance Σ , et où les α, sont les coefficients du mélange (α. est la probabilité a priori que z soit généré par la i ième gaussienne).

L'estimation des paramètres du modèle est effectuée en appliquant une procédure itérative classique, à savoir l'algorithme EM (Expectation- Maximization) (A. P. Dempster, N. M. Laird, D. R Rubin, Maximum likelihood from incomplète data via the EM algorithm, Journal of the Royal Statistical Society B, vol. 39, pp. 1-38, 1977). La détermination des paramètres initiaux du modèle GMM est obtenue à l'aide d'une technique standard de quantification vectorielle.

Une fois le modèle GMM appris, il peut être utilisé pour déterminer par régression une fonction de conversion entre le locuteur et le locuteur de référence. Dans le cas d'une conversion d'un locuteur x vers un locuteur y, celle-ci s'écrit sous la forme :

est la probabilité a posteriori que x soit généré par la gaussienne d'indice i,

La figure 2 illustre un procédé d'estimation d'une fonction de conversion de voix entre un locuteur source et un locuteur cible dont les voix sont respectivement définies à partir de messages vocaux enregistrés par chacun des locuteurs, ces enregistrements étant non parallèles.

Dans une première étape, des enregistrements synthétiques de référence sont générés à partir desdits messages vocaux enregistrés selon une procédure analogue à celle qui vient d'être décrite en regard de la figure 1.

Deux étapes de conversion sont alors nécessaires pour convertir la voix du locuteur source en celle du locuteur cible. Dans un premier temps, il faut convertir les paramètres du locuteur source en ceux du locuteur dejéférence, puis transformer ces derniers de manière à reproduire le locuteur cible désiré. Ainsi, une fonction permettant la conversion source-cible recherchée peut être estimée en composant deux fonctions de transformation données par (4) :

source- > cible \ ) référence-^cible source- Préférence \ ) * V^v

Un système de conversion de voix intégrant le procédé d'estimation décrit est représenté sur la figure 3. Dans le mode de réalisation proposé, l'étape d'analyse repose toujours sur une modélisation par HNM, mais est cette fois menée de manière pitch-synchrone, car ceci permet des modifications de pitch et d'enveloppe spectrale de meilleure qualité (voir l'article de Y. Stylianou cité plus haut). Les paramètres spectraux extraits sont ensuite transformés à l'aide d'un module 80 de conversion effectuant la conversion déterminée par la relation (6).

Ces paramètres modifiés ainsi que les informations résiduelles nécessaires à la génération sonore (fréquence fondamentale, phase des harmoniques, gain de la partie bruitée, fréquence maximale de voisement) sont transmises à un module de synthèse par HNM. La composante harmonique du signal définie par l'équation (2) et présente pour les trames de signal voisées est générée par sommation de sinusoïdes préalablement

tabulées dont les amplitudes sont calculées à partir des paramètres spectraux convertis. La partie stochastique est déterminée par Transformée de Fourier inverse (IFFT) sur le spectre calculé à partir des paramètres spectraux.

En variante, le modèle HNM peut être remplacé par d'autres modèles connus de l'homme du métier, tels que les modèles par prédiction linéaire (LPC pour « Linear Prédictive Coding »), les modèles sinusoïdaux ou MBE (« Multi-Band Excited »). La méthode de conversion par GMM peut être remplacée par des techniques classiques de quantification vectorielle (VQ pour « Vector Quantization ») ou de quantification vectorielle floue (Fuzzy VQ). La description qui vient d'être donnée du procédé d'estimation conforme à l'invention n'a fait référence qu'à la seule transformation de paramètres relatifs au timbre. Mais il est bien entendu que le même procédé peut également être appliqué à Ia transformation d'autres types de paramètres comme la fréquence fondamentale (« pitch ») ou encore de paramètres liés à la qualité vocale.

Selon une implémentation préférée de l'invention, les étapes du procédé sont déterminées par les instructions d'un programme d'estimation d'une fonction de conversion de voix incorporé dans un serveur, et le procédé selon l'invention est mis en oeuvre lorsque ce programme est chargé dans un ordinateur dont le fonctionnement est alors commandé par l'exécution du programme.

En conséquence, l'invention s'applique également à un programme d'ordinateur, notamment un programme d'ordinateur sur ou dans un support d'informations, adapté à mettre en œuvre l'invention. Ce programme peut utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable pour implémenter le procédé selon l'invention.

Le support d'informations peut être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM, par exemple un CD ROM ou une mémoire ROM de circuit microélectronique, ou encore un moyen

d'enregistrement magnétique, par exemple une disquette (floppy dise) ou un disque dur.

D'autre part, le support d'informations peut être un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'informations peut être un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.