Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR AUTOMATICALLY COMPOSING A PERSONALIZED RING TONE FROM A HUMMED VOICE RECORDING AND PORTABLE TELEPHONE IMPLEMENTING THIS METHOD
Document Type and Number:
WIPO Patent Application WO/2009/022084
Kind Code:
A1
Abstract:
The invention relates essentially to a method of automatically composing a personalized ring tone (13) from a recording of a voice signal (5) sung or hummed by a user. In this method, analysis parameters (25) are extracted from the voice signal (5), such as the pitch and/or loudness and/or attack of the notes of the voice signal, and the voice signal (5) is transformed into a ring tone comprising at least one musical track. In accordance with the invention, to transform the voice signal (5) into a ring tone, the voice signal is tuned by transposing said voice signal (5) as a whole of one and the same pitch in such a way as to minimize a distance between the voice signal (5) as a whole and a tempered chromatic range, and the voice signal (5) is tempered by replacing the notes of the transposed voice signal by tempered notes.

Inventors:
LESCURIEUX OLIVIER (FR)
DELORME NICOLAS (FR)
ZILS AYMERIC (FR)
Application Number:
PCT/FR2008/051477
Publication Date:
February 19, 2009
Filing Date:
August 07, 2008
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
VOXLER (FR)
LESCURIEUX OLIVIER (FR)
DELORME NICOLAS (FR)
ZILS AYMERIC (FR)
International Classes:
H04M19/04
Domestic Patent References:
WO2005094053A12005-10-06
Foreign References:
US20030125957A12003-07-03
EP1361743A12003-11-12
EP0933917A11999-08-04
Attorney, Agent or Firm:
SCHMIT - CHRETIEN (Paris, Paris, FR)
Download PDF:
Claims:

REVENDICATIONS

1. Procédé pour composer automatiquement une sonnerie (13) à partir d'un enregistrement d'un signal (5) de voix monophonique, tel qu'un chant, un fredonnement par un utilisateur, dans lequel :

- on extrait des paramètres d'analyse (25) du signal de voix (5), tels que la hauteur et/ou l'intensité et/ou l'attaque des notes du signal de voix, et

- on transforme le signal de voix (5) en une sonnerie comprenant au moins une piste musicale, caractérisé en ce que, pour transformer le signal de voix (5) en sonnerie,

- on accorde le signal de voix en transposant l'ensemble dudit signal de voix (5) d'une même hauteur de manière à minimiser une distance entre l'ensemble du signal de voix (5) et une gamme chromatique tempérée, et - on tempère le signal de voix (5) en remplaçant les notes du signal de voix transposé par des notes tempérées.

2. Procédé selon la revendication 1 , caractérisé en ce que, pour accorder le signal de voix, - on détermine une note centrale (NC) du signal de voix (5) correspondant à la note la plus fréquente de ce signal de voix, et

- on transpose globalement l'ensemble du signal de voix de manière à faire correspondre la hauteur de la note centrale (NC) à la hauteur de sa note tempérée la plus proche.

3. Procédé selon la revendication 1 ou 2, caractérisé en ce que pour tempérer le signal de voix (5), le signal de voix (5) ayant été préalablement découpé en segments (S1-S8),

- on définit pour chaque note tempérée un modèle de note associé, - en boucle, pour chaque segment (Sj), on détermine, la note tempérée dont le modèle est le plus proche de la hauteur du segment (Sj),

- on affecte ladite note tempérée au segment (Sj), et

- on met à jour le modèle de ladite note tempérée en prenant en compte la hauteur du segment (Sj), par exemple en faisant la moyenne des hauteurs des notes du signal qui ont été associées à cette note tempérée,

ces hauteurs de notes pouvant être pondérées, le cas échéant, par leur durée ou leur intensité.

4. Procédé selon les revendications 2 et 3, caractérisé en ce que, dans le modèle de note initial, chaque note tempérée est modélisée par une hauteur de l'échelle chromatique accordée sur la note centrale.

5. Procédé selon la revendication 3 ou 4, caractérisé en ce que pour tempérer, on part du dernier segment du signal de voix (5) d'un point de vue temporel et on remonte jusqu'au premier.

6. Procédé selon l'une des revendications 1 à 5, caractérisé en ce que pour transposer le signal de voix (5), on calcule un coût d'accordage qui est égal à l'intégration, sur la durée de la mélodie du signal de voix, du produit de la différence instantanée entre la hauteur du signal de voix (5) et la hauteur tempérée la plus proche élevée à la puissance p (p réel strictement positif) et de l'intensité du signal de voix élevé à la puissance q (q réel positif), et on transpose le signal de voix (5) de manière à minimiser la valeur du coût d'accordage.

7. Procédé selon la revendication 6, caractérisé en ce que p vaut 2 et q vaut 1.

8. Procédé selon l'une des revendications 1 à 7, caractérisé en ce que on détermine une gamme en mettant en œuvre les étapes suivantes :

- on choisit des probabilités d'occurrence d'une note dans une gamme donnée,

- on calcule le degré d'appartenance de la mélodie à plusieurs gammes, ce degré d'appartenance étant fonction de la concordance des notes du signal de voix et des probabilités d'occurrence des notes de la gamme, et

- on sélectionne la gamme présentant le degré d'appartenance le plus élevé.

9. Procédé selon la revendication 8, caractérisé en ce que le degré d'appartenance des notes de la gamme est égal à la somme pour toutes les notes du signal de voix du produit de la durée de chaque note élevée à la puissance p par l'intensité de chaque note élevée à la puissance q et par la probabilité d'occurrence de chaque note élevée à la puissance r, p q et r étant des réels supérieurs à 0 et p étant différent de 0.

10. Procédé selon l'une des revendications 1 à 9 caractérisé en ce que pour tempérer la mélodie du signal de voix, - on choisit des probabilités d'occurrence d'une note dans une gamme donnée,

- on calcule une transposition optimale pour chacune des gammes candidates qui est fonction de la concordance des notes tempérées les plus proches du signal de voix et des probabilités d'occurrence des notes de la gamme candidate, en calculant un degré d'appartenance de la mélodie à chaque gamme candidate et pour l'ensemble des valeurs possibles de la transposition,

- on choisit la gamme présentant le degré d'appartenance le plus élevé et - on transpose les notes du signal de voix de la transposition optimale associée à cette gamme, et

- on tempère en remplaçant les notes du signal de voix transposé par les notes tempérées les plus proches du signal de voix transposé.

11. Procédé selon la revendication 10, caractérisé en ce que le degré d'appartenance des notes de la gamme est égal à l'intégrale pour toutes les notes de la mélodie du produit de l'intensité de chaque note élevée à la puissance q par l'écart de la note du signal de voix par rapport à la note située entre les deux notes tempérées les plus proches à la puissance p par la probabilité d'occurrence de chaque note élevée à la puissance r, p q et r étant des réels supérieurs à 0 et p étant différent de 0.

12. Procédé selon la revendication 10 ou 11 , caractérisé en ce que on utilise la connaissance de la gamme pour tempérer en minimisant une distance entre la note du signal de voix transposé et la note tempérée la plus

proche, cette distance étant pondérée selon la probabilité d'occurrence de la note dans la gamme.

13. Procédé selon l'une des revendications 8 à 12, caractérisé en ce que la probabilité d'occurrence d'une note dans une gamme donnée est déterminée à partir des probetones de Krumhansl &Kessler.

14. Procédé selon l'une des revendications 1 à 13, caractérisé en ce que pour transformer le signal de voix (5) en sonnerie, on supprime ou regroupe les notes dont la durée est inférieure à une valeur de référence, par exemple 1 ms, et/ou dont l'intensité est inférieure à une intensité de référence et/ou dont la qualité d'extraction de la hauteur est inférieure à une valeur de référence.

15. Procédé selon l'une des revendications 1 à 14, caractérisé en ce que pour transformer le signal de voix en sonnerie, on corrige le signal de voix (5) ou une piste musicale déjà obtenue à partir du signal de voix en la nettoyant et/ou en corrigeant la mélodie et/ou en la recalant rythmiquement et/ou en dérivant une mélodie du signal de voix (5).

16. Procédé selon la revendication 15, caractérisé en ce que pour recaler rythmiquement le signal de voix (5), on réalise un suivi du tempo de ce signal de voix (5) et on recale les notes du signal de voix dans ce tempo.

17. Procédé selon la revendication 15 ou 16, caractérisé en ce que la correction rythmique est effectuée en imposant un tempo fixe, par exemple le tempo moyen extrait du signal de voix, le signal de voix (5) étant calé rythmiquement sur le tempo imposé par une méthode de « Time stretching ».

18. Procédé selon l'une des revendications 15 à 17, caractérisé en ce que la correction rythmique est effectuée par un marquage rythmique par la technique de « Time Warping » dans laquelle on effectue un repérage des temps forts du signal de voix (5), afin de construire un rythme de référence sur lequel les pistes musicales sont synchronisées.

19. Procédé selon l'une des revendications 15 à 18, caractérisé en ce que la correction mélodique est effectuée par une technique de « Pitch shifting » dans laquelle on recale les notes de la voix (5) dans des notes tempérées et/ou dans la gamme moyenne du signal de voix fredonné.

20. Procédé selon l'une des revendications 15 à 19, caractérisé en ce que pour composer une nouvelle mélodie dérivant du signal de voix, on sélectionne les notes du signal de voix (5) et un rythme en fonction des paramètres d'analyse (25) extraits et de règles de construction musicales qui dépendent d'un style musical choisi par l'utilisateur ou imposé.

21. Procédé selon l'une des revendications 15 à 20, caractérisé en ce que pour composer une nouvelle mélodie dérivant du signal de voix, on élabore une mélodie originale qui est une réponse à la mélodie vocale et/ou au rythme vocal calculée à partir des paramètres d'analyse afin d'établir un dialogue avec une machine, ou une suite afin de terminer la mélodie vocale correctement en fonction du style choisi.

22. Procédé selon l'une des revendications 1 à 21 , caractérisé en ce que on effectue une modification du timbre, et/ou de la hauteur et/ou d'autres caractéristiques de la voix par transformation du signal de voix (5), ou par synthèse d'ambiance sonore à partir du signal de voix (5).

23. Procédé selon l'une des revendications 1 à 22, caractérisé en ce que pour élaborer une ou plusieurs pistes musicales, on utilise une ou plusieurs boucles de rythme préenregistrées sous forme de signal audio que l'on cale sur le tempo extrait du signal de voix (5).

24. Procédé selon l'une des revendications 1 à 23, caractérisé en ce que pour créer une ou plusieurs pistes musicales, on sélectionne dans une base de données musicale des échantillons musicaux présentant les paramètres musicaux les plus proches de ceux du signal de voix sur un intervalle de temps donné.

25. Procédé selon l'une des revendications 1 à 24, caractérisé en ce que on règle les volumes des différentes pistes musicales les uns par rapport aux autres, et/ou on introduit des effets sur des pistes sélectionnées, tels que de la saturation ou un effet de compression sonore, et le cas échéant on mixe l'ensemble des pistes en une piste de sortie, et/ou on introduit des effets globaux sur cette piste de sortie, tels que de la réverbération.

26. Procédé selon la revendication 25, caractérisé en ce que on crée un fichier audio à partir de la piste de sortie mixée, dans un format de type mp3.

27. Procédé selon l'une des revendications 1 à 26, caractérisé en ce que la sonnerie comprend plusieurs pistes musicales arrangées entre elles en fonction des paramètres d'analyse extraits et de règles de composition musicale.

28. Procédé selon l'une des revendications 1 à 27, caractérisé en ce que les règles de composition musicales sont liées à un style (6) de musique, tel qu'un style rock ou blues, choisi par l'utilisateur.

29. Procédé selon l'une des revendications 1 à 28, caractérisé en ce que le signal de voix (5) est envoyé en streaming vers un serveur (4) assurant l'extraction de paramètres d'analyse (25) et l'élaboration de la sonnerie (13).

30. Procédé selon l'une des revendications 1 à 29, caractérisé en ce que les pistes musicales sont obtenues à partir d'un traitement MIDI et/ou audio du signal de voix (5).

31. Téléphone portable mettant en œuvre le procédé selon l'une des revendications 1 à 30.

32. Procédé pour associer des sonneries de téléphone à des contacts stockés dans un téléphone portable dans lequel :

- on enregistre une phrase chantée par l'utilisateur du téléphone portable ou par un des contacts,

- on transforme la phrase chantée en une sonnerie à l'aide du procédé défini selon l'une des revendications 1 à 30, et - on stocke la sonnerie obtenue dans une mémoire associée au contact auquel la sonnerie est destinée, de sorte que lorsque le contact appelle, la sonnerie lui correspondant est jouée par le téléphone.

33. Dispositif de génération de musique temps réel mettant en œuvre le procédé défini selon l'une des revendications 1 à 30 pour générer une sonnerie à partir d'une phrase musicale chantée, ce dispositif comportant des moyens pour faire jouer cette sonnerie en boucle, de sorte qu'il est possible de chanter sur cette sonnerie, ou de la mixer avec des morceaux de musique pour créer des pistes musicales.

34. Procédé pour élaborer une sonnerie dans lequel on enregistre successivement plusieurs lignes de voix, l'écoute des lignes de voix précédemment enregistrées et traitées selon le procédé défini par l'une des revendications 1 à 30 étant autorisé pendant l'enregistrement d'une nouvelle ligne de voix et des paramètres d'analyse (25) pouvant être extraits de chaque enregistrement ou de l'ensemble des enregistrements.

Description:

Procédé pour composer automatiquement une sonnerie personnalisée à partir d'un enregistrement de voix fredonnée et téléphone portable mettant en œuvre ce procédé

[0001]. L'invention concerne un procédé et un dispositif pour composer automatiquement une sonnerie personnalisée à partir d'un enregistrement d'un signal de voix. Le signal de voix correspond à une voix fredonnée, ce qui désigne dans l'invention une voix chantée ou parlée, ou des bruits vocaux divers, tels que des sifflements, des onomatopées, ou du « human beat boxing » qui consiste en l'imitation vocale d'une boîte à rythme, de scratch, et d'autres instruments principalement percussifs.

[0002]. L'invention a notamment pour but d'élaborer automatiquement la sonnerie en fonction de l'intention musicale de l'utilisateur et d'un type de musique choisi par l'utilisateur ou imposé par le fournisseur de service, à travers une interface de téléphone, ou de tout autre dispositif multimédia, tel qu'un site internet. L'intention musicale est notamment définie par les notes et/ou le rythme et/ou le timbre et/ou l'expressivité de la voix de l'utilisateur (vibrato, dynamique, etc.).

[0003]. L'invention peut être mise en œuvre localement, par exemple sur le téléphone portable, ou à distance, via un réseau, sur un serveur.

L'invention trouve une application particulièrement avantageuse pour l'élaboration d'une sonnerie d'un téléphone portable.

[0004]. Il existe aujourd'hui une logique de personnalisation dans le domaine des téléphones portables. En effet, on s'aperçoit que les couleurs, et les formes des téléphones, ou encore les présentations de leurs menus, sont de plus en plus variées, afin que l'utilisateur puisse choisir celles qui correspondent le mieux à sa personnalité.

[0005]. En ce qui concerne les sonneries, plusieurs styles enregistrés sont proposés à l'utilisateur, ce dernier pouvant choisir celui correspondant le mieux à la musique qu'il aime. Toutefois compte tenu de l'aspect enregistré et donc figé des sonneries, la personnalisation est limitée aux sonneries proposées par le téléphone. Il existe bien des

procédés pour télécharger des sonneries correspondant à des airs de chansons connues mais là encore les sonneries sont limitées aux morceaux de musique existants.

[0006]. L'invention permet d'augmenter le degré de personnalisation des sonneries en proposant un procédé permettant à l'utilisateur d'élaborer lui-même une sonnerie à partir de sa voix, entrée spontanée et expressive par excellence. L'invention permet ainsi à l'utilisateur de créer une sonnerie qu'il a lui-même imaginée en la fredonnant dans son téléphone, et ouvre des possibilités illimitées dans l'élaboration d'une sonnerie.

[0007]. Plus précisément, dans l'invention, on cherche à transformer le signal de voix en une sonnerie cohérente. C'est-à-dire que l'on ne recherche pas nécessairement à retranscrire la voix avec une fidélité absolue, mais plutôt à en extraire les intentions musicales pour transformer ce signal de voix en une musique et/ou accompagner ce signal de voix. Cette musique peut être constituée d'une ou plusieurs pistes musicales cohérentes. Cette musique et/ou l'accompagnement de ce signal de voix sera construit pour respecter des règles de composition musicale rythmiques et/ou mélodiques et/ou d'arrangement. [0008]. Ces règles de composition musicale comprennent notamment :

- des règles rythmiques, comme par exemple interdire les notes de durée trop courte, ou caler la musique sur un tempo ou un pattern rythmique donné et/ou

- des règles mélodiques, comme par exemple tempérer les notes et/ou les recaler dans une gamme donnée et/ou conclure une phrase mélodique incomplète et/ou

- des règles d'arrangement qui peuvent être représentatives d'un style comme par exemple générer plusieurs pistes musicales à partir d'un signal monophonique en garantissant une cohérence des pistes musicales entre elles par le respect des règles rythmiques et/ou mélodiques et/ou de style musical.

[0009]. Dans un exemple, dans l'invention, à partir du signal de voix monophonique, corrigé s'il y a lieu, on crée un ensemble de pistes

musicales arrangées entre elles et jouées de préférence par différents instruments. Ces pistes correspondent à la musicalité du signal de voix et au style de musique choisi par l'utilisateur.

[00010]. A cet effet, dans l'invention, l'utilisateur fredonne dans le microphone de son téléphone ou de son ordinateur connecté à un site

Internet, ou de tout périphérique ou terminal dédié.

[00011]. On extrait ensuite des paramètres sonores du signal de voix tels que la hauteur (ou pitch en anglais), l'intensité (ou vélocité, ou volume de la voix), l'attaque (pics brefs d'intensité ou consonnes séparant des parties voisées), le timbre (rugosité et brillance notamment) et autres paramètres d'expressivité divers, tel que le rythme ou le tempo ou la gamme ou l'harmonie extraits de la voix. Ces paramètres font partie dans l'invention des « paramètres d'analyse ».

[00012]. Ensuite, on contrôle la façon dont les paramètres d'analyse sont utilisés pour la synthèse de sonnerie en fonction d'un « style » de composition de la sonnerie choisi par l'utilisateur ou imposé par le fournisseur du service ou le fabricant de l'appareil. Par exemple pour un style « RnB », on applique certaines règles de correction et/ou de composition et/ou de transformation de la voix particulière à ce style de musique, tandis que pour un style « jazz » d'autres règles seront appliquées. Par exemple, certaines notes considérées comme inadéquates dans le style « RnB » pourront être conservées dans le style

« jazz ».

[00013]. La sonnerie synthétisée est ensuite enregistrée dans une des mémoires de l'objet auquel elle est destinée, tel qu'un téléphone mobile ou fixe ou un ordinateur lorsque l'invention est utilisée avec des applications de type voix sur IP, ou sur un périphérique ou terminal dédié.

[00014]. Par terminal, on désigne tout appareil et/ou logiciel utilisé pour la composition et/ou le stockage et/ou l'écoute de la sonnerie. Un terminal peut être par exemple un téléphone portable, un téléphone fixe, un ordinateur ou un équipement électronique dédié. Un même terminal peut être utilisé tout au long du processus mais plusieurs terminaux

peuvent aussi intervenir. Ainsi par exemple un ordinateur peut être utilisé pour composer la sonnerie c'est à dire pour la fredonner à partir d'un microphone. Ce même ordinateur peut être utilisé pour écouter la sonnerie en streaming et sans avoir la possibilité de la charger sur le téléphone portable. Le téléphone portable peut alors être utilisé pour stocker la sonnerie qui n'est alors envoyée à l'utilisateur que par exemple s'il a payé le prix associé à la sonnerie. Par extension, le terme téléphone ou téléphone portable désigne tout terminal utilisé pour la composition et/ou l'écoute et/ou le stockage de la sonnerie.

[00015]. De préférence, la sonnerie est synthétisée par un arrangement de couches sonores sous forme de pistes musicales qui dépendent de l'expressivité de la voix de l'utilisateur, et du style musical choisi ou imposé. Ces couches sonores peuvent provenir directement d'un traitement audio de la voix, ou de la lecture par un instrument virtuel d'une piste de type MIDI dérivée de la voix.

[00016]. On distingue la création de sonneries de type MIDI et la création de sonneries de type audio. Une sonnerie de type MIDI est un fichier MIDI constitué d'un ensemble de pistes MIDI destinées à être jouées par un ou plusieurs instruments virtuels disponibles sur le terminal. Une sonnerie de type audio est un fichier audio constitué d'un ensemble de pistes audio qui peuvent correspondre à une ou plusieurs pistes MIDI déjà jouées par un instrument virtuel et/ou à une transformation de la voix et/ou à des boucles audio préexistantes. La sonnerie audio est jouée au moyen d'un lecteur audio. Dans le cas de la sonnerie audio, aucun instrument virtuel n'est nécessaire pour sa lecture puisque les pistes audio sont lisibles telles quelles par le lecteur audio. Le format MIDI peut être remplacé par tout mode de représentation symbolique de la musique et en particulier par le format imelody.

[00017]. Chaque piste est synthétisée séparément en fonction du style musical choisi par l'utilisateur ou imposé (par exemple un style de sonnerie de type « flûte jazz ») et de l'ensemble des paramètres d'analyse. Ainsi les événements de chaque piste MIDI sont élaborés à partir des paramètres d'analyse en fonction de règles de composition

musicale, tandis que la synthèse sonore des pistes audio est effectuée à partir des paramètres d'analyse et de sons pré-enregistrés ou synthétisés, ou de transformations de la voix.

[00018]. Le traitement du signal de voix peut être effectué à distance sur un serveur, la voix étant enregistrée sur le téléphone puis acheminée vers le serveur qui la transforme en sonnerie, cette dernière étant renvoyée au téléphone. Ce traitement à distance est une solution facile à mettre en œuvre pour les opérateurs de téléphonie qui n'ont à installer le logiciel de composition de sonneries que sur un seul support (le serveur) et qui peuvent facilement contrôler l'accès à ce serveur en autorisant cet accès en contrepartie d'une redevance.

[00019]. En variante, la voix fredonnée est directement traitée en local sur le téléphone. Dans ce cas, on autorise l'utilisateur à télécharger le programme de composition de sonneries en contrepartie d'une redevance. Dans cette mise en œuvre locale, la sonnerie est composée de manière quasiment instantanée, puisqu'il n'y a pas d'échange de fichier audio entre le téléphone et le serveur.

[00020]. En variante, la voix fredonnée est directement envoyée sur le serveur à partir du téléphone en streaming, transformée en sonnerie sur le serveur et renvoyée sur le téléphone sous forme d'un fichier audio ou midi suivant le type d'élaboration de sonnerie choisi.

[00021]. En variante et dans les cas d'utilisation via un réseau, on peut renvoyer la sonnerie en streaming pour une pré-écoute puis ne la renvoyer sous forme d'un fichier qu'une fois que l'utilisateur s'est acquitté de la redevance associée.

[00022]. Différentes redevances peuvent être facturées et par exemple pour l'accès au service, en fonction du temps d'utilisation du service, en fonction du nombre d'essais de composition puis d'écoute du résultat obtenu, ou après l'écoute du résultat obtenu, lorsque l'usager décide de télécharger ou d'installer le résultat obtenu comme sonnerie de son téléphone portable. Différents compteurs sont insérés dans la chaîne de traitement pour permettre cette facturation.

[00023]. L'invention concerne donc un procédé pour composer automatiquement une sonnerie à partir d'un enregistrement d'un signal de voix monophonique, tel qu'un chant, un fredonnement par un utilisateur, dans lequel : - on extrait des paramètres d'analyse du signal de voix, tels que la hauteur et/ou l'intensité et/ou l'attaque des notes du signal de voix, et

- on transforme le signal de voix en une sonnerie comprenant au moins une piste musicale, caractérisé en ce que, pour transformer le signal de voix en sonnerie, - on accorde le signal de voix en transposant l'ensemble dudit signal de voix d'une même hauteur de manière à minimiser une distance entre l'ensemble du signal de voix et une gamme chromatique tempérée, et

- on tempère le signal de voix en remplaçant les notes du signal de voix transposé par des notes tempérées. [00024]. Selon une mise en œuvre, pour accorder le signal de voix,

- on détermine une note centrale du signal de voix correspondant à la note la plus fréquente de ce signal de voix, et

- on transpose globalement l'ensemble du signal de voix de manière à faire correspondre la hauteur de la note centrale à la hauteur de sa note tempérée la plus proche.

[00025]. Selon une mise en œuvre, pour tempérer le signal de voix, le signal de voix ayant été préalablement découpé en segments,

- on définit pour chaque note tempérée un modèle de note associé,

- en boucle, pour chaque segment, on détermine, la note tempérée dont le modèle est le plus proche de la hauteur du segment,

- on affecte ladite note tempérée au segment, et

- on met à jour le modèle de ladite note tempérée en prenant en compte la hauteur du segment, par exemple en faisant la moyenne des hauteurs des notes du signal qui ont été associées à cette note tempérée, ces hauteurs de notes pouvant être pondérées, le cas échéant, par leur durée ou leur intensité.

[00026]. Selon une mise en oeuvre, dans le modèle de note initial, chaque note tempérée est modélisée par une hauteur de l'échelle chromatique accordée sur la note centrale.

[00027]. Selon une mise en œuvre, pour tempérer, on part du dernier segment du signal de voix d'un point de vue temporel et on remonte jusqu'au premier.

[00028]. Selon une mise en œuvre, pour transposer le signal de voix, on calcule un coût d'accordage qui est égal à l'intégration, sur la durée de la mélodie du signal de voix, du produit de la différence instantanée entre la hauteur du signal de voix et la hauteur tempérée la plus proche élevée à la puissance p (p réel strictement positif) et de l'intensité du signal de voix élevé à la puissance q (q réel positif), et on transpose le signal de voix de manière à minimiser la valeur du coût d'accordage.

[00029]. Selon une mise en œuvre, p vaut 2 et q vaut 1.

[00030]. Selon une mise en œuvre, on détermine une gamme en mettant en œuvre les étapes suivantes :

- on choisit des probabilités d'occurrence d'une note dans une gamme donnée,

- on calcule le degré d'appartenance de la mélodie à plusieurs gammes, ce degré d'appartenance étant fonction de la concordance des notes du signal de voix et des probabilités d'occurrence des notes de la gamme, et

- on sélectionne la gamme présentant le degré d'appartenance le plus élevé.

[00031]. Selon une mise en œuvre, le degré d'appartenance des notes de la gamme est égal à la somme pour toutes les notes du signal de voix du produit de la durée de chaque note élevée à la puissance p par l'intensité de chaque note élevée à la puissance q et par la probabilité d'occurrence de chaque note élevée à la puissance r, p q et r étant des réels supérieurs à 0 et p étant différent de 0.

[00032]. Selon une mise en œuvre, pour tempérer la mélodie du signal de voix,

- on choisit des probabilités d'occurrence d'une note dans une gamme donnée, - on calcule une transposition optimale pour chacune des gammes candidates qui est fonction de la concordance des notes tempérées les plus proches du signal de voix et des probabilités d'occurrence des notes de la gamme candidate, en calculant un degré d'appartenance de la mélodie à chaque gamme candidate et pour l'ensemble des valeurs possibles de la transposition,

- on choisit la gamme présentant le degré d'appartenance le plus élevé et

- on transpose les notes du signal de voix de la transposition optimale associée à cette gamme, et - on tempère en remplaçant les notes du signal de voix transposé par les notes tempérées les plus proches du signal de voix transposé.

[00033]. Selon une mise en œuvre, le degré d'appartenance des notes de la gamme est égal à l'intégrale pour toutes les notes de la mélodie du produit de l'intensité de chaque note élevée à la puissance q par l'écart de la note du signal de voix par rapport à la note située entre les deux notes tempérées les plus proches à la puissance p par la probabilité d'occurrence de chaque note élevée à la puissance r, p q et r étant des réels supérieurs à 0 et p étant différent de 0.

[00034]. Selon une mise en œuvre, on utilise la connaissance de la gamme pour tempérer en minimisant une distance entre la note du signal de voix transposé et la note tempérée la plus proche, cette distance étant pondérée selon la probabilité d'occurrence de la note dans la gamme.

[00035]. Selon une mise en œuvre, la probabilité d'occurrence d'une note dans une gamme donnée est déterminée à partir des probetones de Krumhansl &Kessler.

[00036]. Selon une mise en œuvre, pour transformer le signal de voix en sonnerie, on supprime ou regroupe les notes dont la durée est inférieure à une valeur de référence, par exemple 1 ms, et/ou dont l'intensité est

inférieure à une intensité de référence et/ou dont la qualité d'extraction de la hauteur est inférieure à une valeur de référence.

[00037]. Selon une mise en œuvre, pour transformer le signal de voix en sonnerie, on corrige le signal de voix ou une piste musicale déjà obtenue à partir du signal de voix en la nettoyant et/ou en corrigeant la mélodie et/ou en la recalant rythmiquement et/ou en dérivant une mélodie du signal de voix.

[00038]. Selon une mise en œuvre, pour recaler rythmiquement le signal de voix, on réalise un suivi du tempo de ce signal de voix et on recale les notes du signal de voix dans ce tempo.

[00039]. Selon une mise en œuvre, la correction rythmique est effectuée en imposant un tempo fixe, par exemple le tempo moyen extrait du signal de voix, le signal de voix étant calé rythmiquement sur le tempo imposé par une méthode de « Time stretching ».

[00040]. Selon une mise en œuvre, la correction rythmique est effectuée par un marquage rythmique par la technique de « Time Warping » dans laquelle on effectue un repérage des temps forts du signal de voix, afin de construire un rythme de référence sur lequel les pistes musicales sont synchronisées. [00041]. Selon une mise en œuvre, la correction mélodique est effectuée par une technique de « Pitch shifting » dans laquelle on recale les notes de la voix dans des notes tempérées et/ou dans la gamme moyenne du signal de voix fredonné.

[00042]. Selon une mise en œuvre, pour composer une nouvelle mélodie dérivant du signal de voix, on sélectionne les notes du signal de voix et un rythme en fonction des paramètres d'analyse extraits et de règles de construction musicales qui dépendent d'un style musical choisi par l'utilisateur ou imposé.

[00043]. Selon une mise en œuvre, pour composer une nouvelle mélodie dérivant du signal de voix, on élabore une mélodie originale qui est une réponse à la mélodie vocale et/ou au rythme vocal calculée à

partir des paramètres d'analyse afin d'établir un dialogue avec une machine, ou une suite afin de terminer la mélodie vocale correctement en fonction du style choisi.

[00044]. Selon une mise en œuvre, on effectue une modification du timbre, et/ou de la hauteur et/ou d'autres caractéristiques de la voix par transformation du signal de voix, ou par synthèse d'ambiance sonore à partir du signal de voix.

[00045]. Selon une mise en œuvre, pour élaborer une ou plusieurs pistes musicales, on utilise une ou plusieurs boucles de rythme préenregistrées sous forme de signal audio que l'on cale sur le tempo extrait du signal de voix.

[00046]. Selon une mise en œuvre, pour créer une ou plusieurs pistes musicales, on sélectionne dans une base de données musicale des échantillons musicaux présentant les paramètres musicaux les plus proches de ceux du signal de voix sur un intervalle de temps donné.

[00047]. Selon une mise en œuvre, on règle les volumes des différentes pistes musicales les uns par rapport aux autres, et/ou on introduit des effets sur des pistes sélectionnées, tels que de la saturation ou un effet de compression sonore, et le cas échéant on mixe l'ensemble des pistes en une piste de sortie, et/ou on introduit des effets globaux sur cette piste de sortie, tels que de la réverbération.

[00048]. Selon une mise en œuvre, on crée un fichier audio à partir de la piste de sortie mixée, dans un format de type mp3.

[00049]. Selon une mise en œuvre, la sonnerie comprend plusieurs pistes musicales arrangées entre elles en fonction des paramètres d'analyse extraits et de règles de composition musicale.

[00050]. Selon une mise en œuvre, les règles de composition musicales sont liées à un style de musique, tel qu'un style rock ou blues, choisi par l'utilisateur.

[00051]. Selon une mise en œuvre, le signal de voix est envoyé en streaming vers un serveur assurant l'extraction de paramètres d'analyse et l'élaboration de la sonnerie.

[00052]. Selon une mise en œuvre, les pistes musicales sont obtenues à partir d'un traitement MIDI et/ou audio du signal de voix.

[00053]. L'invention concerne en outre un téléphone portable mettant en œuvre le procédé selon l'invention.

[00054]. L'invention concerne en outre un procédé pour associer des sonneries de téléphone à des contacts stockés dans un téléphone portable dans lequel :

- on enregistre une phrase chantée par l'utilisateur du téléphone portable ou par un des contacts,

- on transforme la phrase chantée en une sonnerie à l'aide du procédé défini selon l'invention, et - on stocke la sonnerie obtenue dans une mémoire associée au contact auquel la sonnerie est destinée, de sorte que lorsque le contact appelle, la sonnerie lui correspondant est jouée par le téléphone.

[00055]. L'invention concerne en outre un dispositif de génération de musique temps réel mettant en œuvre le procédé défini selon l'invention pour générer une sonnerie à partir d'une phrase musicale chantée, ce dispositif comportant des moyens pour faire jouer cette sonnerie en boucle, de sorte qu'il est possible de chanter sur cette sonnerie, ou de la mixer avec des morceaux de musique pour créer des pistes musicales.

[00056]. L'invention concerne également un procédé pour élaborer une sonnerie dans lequel on enregistre successivement plusieurs lignes de voix, l'écoute des lignes de voix précédemment enregistrées et traitées selon le procédé défini conformément à l'invention étant autorisé pendant l'enregistrement d'une nouvelle ligne de voix et des paramètres d'analyse pouvant être extraits de chaque enregistrement ou de l'ensemble des enregistrements.

[00057]. L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Ces figures ne sont données qu'à titre illustratif mais nullement limitatif de l'invention. Elles montrent :

[00058]. Figure 1 : une représentation schématique de la chaîne de traitement selon l'invention permettant d'élaborer une sonnerie à partir d'un signal de voix d'un utilisateur ;

[00059]. Figure 2 : une représentation schématique du module d'analyse du signal de voix selon l'invention ;

[00060]. Figure 3 : une représentation schématique des modules de synthèse de type midi et audio selon l'invention ;

[00061]. Figure 4 : une représentation graphique de l'amplitude du signal de voix de l'utilisateur en fonction du temps ;

[00062]. Figure 5 : une représentation graphique d'une transcription MIDI brute du signal de voix ;

[00063]. Figures 6-8 : des représentations graphiques de pistes musicales MIDI obtenues à partir de la piste MIDI brute du signal de voix après application du procédé de traitement selon l'invention ;

[00064]. Figure 9 : une représentation graphique du marquage rythmique selon l'invention effectué sur le signal de voix afin de synchroniser rythmiquement la voix transformée ou non, et la ou les pistes instrumentales ;

[00065]. Figure 10 : une représentation graphique d'un signal audio d'une boucle de batterie de style RnB pouvant être calée sur la voix pour l'accompagner ;

[00066]. Figure 11 : une représentation graphique du signal de voix brut et du signal de voix transposé selon un algorithme d'accordage (transposition optimale de la mélodie) ;

[00067]. Figure 12 : une représentation graphique du signal de voix transposé optimal et du signal de voix tempéré selon un algorithme de « tempérage » de la mélodie sur une gamme chromatique tempérée en « La 440 » ;

[00068]. Figure 13.1 : une représentation graphique du signal de voix tempéré par rapport à une gamme de La Majeur non optimale ;

[00069]. Figure 13.2 : une représentation graphique du signal de voix tempéré par rapport à une gamme de La Mineur harmonique optimale ;

[00070]. Figure 14 : une représentation graphique du signal de voix brut et du signal de voix transposé selon un algorithme d'accordage prenant en compte les probabilités d'occurrence des notes dans une gamme ;

[00071]. Figure 15 : une représentation schématique d'une chaîne de traitement simplifiée de l'invention ;

[00072]. Figure 16: une représentation graphique de la hauteur d'un signal de voix en fonction du temps sur lequel une grille d'accordage a été placé ;

[00073]. Figure 17: un histogramme des hauteurs des notes chantées, suivant les bandes de 1/2 ton de la grille d'accordage ;

[00074]. Figure 18: une représentation du modèle initial des notes tempérées accordées par 1/2 ton sur la note centrale ;

[00075]. Figure 19 : une représentation des hauteurs des modèles de notes tempérées, après une première analyse des dernières notes chantées ;

[00076]. Figure 20: une représentation des hauteurs finales des modèles de notes tempérées, après une analyse complète du signal de voix.

[00077]. Les éléments identiques conservent la même référence d'une figure à l'autre.

[00078]. La figure 1 montre une représentation schématique d'une chaîne 1 de traitement permettant de produire automatiquement une sonnerie 13 de téléphone à partir d'un signal de voix 5 d'un utilisateur. Cet utilisateur 2 est en relation avec une interface 3, telle qu'un téléphone portable ou un ordinateur ou un terminal qui est relié à un serveur 4 via un réseau, par exemple de type Internet. Dans cette mise en oeuvre, le traitement du signal de voix 5 de l'utilisateur est effectué sur le serveur 4.

[00079]. Plus précisément, l'utilisateur 2 définit, via l'interface 3, des paramètres d'entrée du procédé selon l'invention. A cet effet, l'utilisateur émet un signal de voix 5 en fredonnant dans son téléphone et choisit le style 6 de musique suivant lequel la sonnerie 13 va être élaborée. Le choix du style de musique est optionnel et peut être imposé à l'utilisateur.

[00080]. L'interface 3 comporte un microphone 9 capable de capter le signal de voix 5 de l'utilisateur et le cas échéant des interfaces 10 permettant à l'utilisateur de choisir le style de musique élaboré et peut comprendre un haut-parleur pour accompagner, s'il y a lieu, musicalement l'utilisateur pendant qu'il chante. L'interface 3 comporte en outre une mémoire apte à stocker la sonnerie 13.

[00081]. Dans une variante, la sonnerie 13 peut être stockée sur un terminal différent de celui utilisé pour créer la sonnerie. Par exemple la création de la sonnerie peut être réalisée à partir d'un ordinateur alors qu'elle sera finalement stockée sur un téléphone portable.

[00082]. Par ailleurs, le serveur 4 comporte un module 15 d'analyse et un module 17 de synthèse.

[00083]. Le module 15 assure l'extraction de paramètres d'analyse, c'est-à-dire de paramètres physiques et musicaux du signal de voix 5, tels la hauteur, extraite par exemple par auto-corrélation ou par l'algorithme décrit dans le document de brevet français de France Telecom portant le numéro d'enregistrement national 01 07284, l'intensité extraite par exemple à partir de l'énergie du signal de voix ou par l'algorithme décrit dans le document de brevet français de France Telecom portant le numéro d'enregistrement national 01 07284, la qualité

de détection de la hauteur qui caractérise le niveau de fiabilité de l'estimation de la hauteur extraite par exemple par l'algorithme décrit dans le document de brevet français de France Telecom portant le numéro d'enregistrement national 01 07284, les attaques extraites par exemple par un algorithme de type HFC (High Frequency Content en anglais) utilisant le contenu hautes-fréquences du signal de voix ou à partir de la qualité de détection de la hauteur en considérant par exemple qu'une attaque est un son dont la hauteur est estimée avec une mauvaise qualité, les voyelles caractérisées par un algorithme utilisant par exemple les centroïdes spectralesles consonnes caractérisées par exemple par un modèle combinant HFC et centroïdes spectrales, le timbre de la voix caractérisé par exemple par un algorithme utilisant les MFCC (MeI Frequency Cepstral Coefficients), les divers bruits vocaux comme le « beat box » extraits par exemple par un algorithme utilisant également les MFCC.

[00084]. Par intensité on désigne l'intensité absolue ou normalisée. Par intensité normalisée, on désigne une intensité qui a été normée par exemple par rapport à l'intensité la plus forte détectée dans la mélodie fredonnée.

[00085]. Le module 17 assure la synthèse de la sonnerie, c'est-à-dire les opérations de correction, et/ou de nettoyage, et/ou de transformation et/ou d'orchestration et/ou de recalage rythmique du signal de voix 5 en fonction des paramètres d'analyse extraits par le module 15 et du style musical choisi par l'utilisateur ou imposé.

[00086]. Ainsi, lorsque l'utilisateur fredonne, le téléphone 3 capte la voix 5 de l'utilisateur à l'aide du microphone 9 et l'envoie au serveur 4 sous forme d'un fichier 14 audio, par exemple de type mp3 ou wav.

[00087]. Le serveur 4 reçoit le fichier 14 et en extrait les paramètres d'analyse 25, tels que la hauteur, l'intensité et/ou l'attaque du signal de voix 5. Les paramètres d'analyse 25 extraits du signal de voix 5, ainsi que s'il y a lieu le signal de voix 5 en tant que tel, sont ensuite transmis au module de synthèse 17.

[00088]. En outre, des paramètres 16 du style musical choisi par l'utilisateur ou imposé, appelés « paramètres de style » sont transmis au module 17 de synthèse. A partir de ces paramètres de style 16, le module de synthèse 17 établira notamment les règles de composition musicale, comme par exemple des règles de correction, et/ou de nettoyage, et/ou de transformation, et/ou d'orchestration à appliquer au signal de voix 5 pour obtenir une musique présentant les caractéristiques du style musical.

[00089]. En fonction des paramètres d'analyse 25 extraits et des paramètres de style 16, le module 17 transforme le signal de voix 5 en une ou plusieurs pistes sonores (par exemple une ou plusieurs pistes

MIDI dérivées de la voix jouées par différents instruments virtuels, et/ou une ou plusieurs pistes audio dérivées directement de la voix), qui sont ensuite, le cas échéant, mixées entre elles pour obtenir la sonnerie 13 du téléphone portable.

[00090]. En variante, l'enregistrement du fichier contenant le signal de voix 5 est effectué sur le serveur 4 distant, l'enregistrement du signal de voix 5 sur le serveur 4 pouvant alors être effectué en « streaming ».

[00091]. Dans une exploitation en temps réel ou en streaming, les paramètres d'analyse peuvent être extraits instantanément, ou plus précisément à l'issue de chaque fenêtre d'observation du signal.

[00092]. En variante, le signal est traité en local par le téléphone portable 3.

[00093]. En variante, le signal est traité à la fois partiellement en local (par exemple pour le calcul de la transformée de Fourier du signal de voix) et partiellement sur le serveur, afin de soulager la charge CPU du traitement effectué sur le serveur. Dans ce cas, le signal de voix et le résultat de la FFT ou de tout autre calcul effectué localement sont transmis au serveur qui utilise ces données pour transformer le signal de voix en sonnerie.

[00094]. La figure 2 montre une représentation schématique du module 15 selon l'invention qui analyse le signal de voix 5 capté par le microphone 9 (représenté sur la figure 4). Ce module 15 effectue une analyse de bas niveau du signal de voix 5 via les modules 21 et éventuellement 22 et éventuellement une analyse de plus haut niveau via le module 23.

[00095]. L'analyse de bas niveau est effectuée localement de manière quasi instantanée puisqu'elle est liée au son qui vient d'être prononcé ou à une fenêtre temporelle courte et par exemple de 10 ms. Tandis que l'analyse de haut-niveau, effectuée à l'aide des paramètres de bas niveau, est une analyse globale du signal de voix effectuée a posteriori sur plusieurs secondes du signal de voix 5 ou même sur son ensemble.

[00096]. Plus précisément, lors de l'analyse de bas niveau, le module 21 extrait des paramètres instantanés tels que la hauteur (pitch en anglais) et/ou l'intensité du signal de voix, qui permettent notamment au module

22 de segmenter le signal de voix en événements sonores (c'est-à-dire par exemple de déterminer l'instant auquel chaque note a été chantée et la durée de celle-ci) et/ou classifier ces événements sonores, c'est-à-dire associer chaque événement à une classe (qui peuvent être par exemple les différents instruments d'une batterie ou les différentes notes fredonnées). Par événements du flux vocal, on entend les objets qui ont un sens rythmique et/ou mélodique, tels que les notes, les syllabes ou les phonèmes.

[00097]. Par exemple, le module 21 n'extrait que la hauteur qui est le seul paramètre utilisé ensuite par les modules 22 et/ou 23. En variante, le module 21 extrait la hauteur et l'intensité du signal de voix. L'intensité pourra par exemple être utilisée pour influer sur l'intensité des sons à synthétiser.

[00098]. En variante, le module 21 peut extraire les paramètres spectraux du signal de voix (basés sur une transformée de Fourier ou sur une MFCC de ce signal) qui permettent notamment de caractériser l'expressivité vocale (en termes de timbre, phonèmes, etc.).

[00099]. Dans ce cas, et par exemple pour des applications rythmiques, le module 21 n'extrait pas nécessairement la hauteur et extrait des paramètres spectraux comme par exemple le contenu haute fréquence (HFC) utilisé pour identifier les attaques et dériver un rythme moyen, ou les 13 premiers coefficients de la MFCC (MeI Frequency Cepstral

Coefficients) pour piloter vocalement une boîte à rythme (Vocal BeatBoxing).

[000100]. Par ailleurs, à partir des paramètres instantanés extraits par le module 21 , le module 22 réalise une description musicale de bas niveau, consistant à segmenter le signal de voix fredonnée en événements sonores, et/ou classifier ces événements sonores, comme décrit par exemple dans la demande de brevet française de numéro d'enregistrement n°0653557.

[000101]. A cet effet, le module 22 détecte les attaques dans le signal de voix et/ou effectue une segmentation de manière à identifier les différents événements du flux vocal. Les notes qui ont été chantées sont déduites par le module 22 en fonction des fréquences des notes du signal et de la position des attaques mesurées. La classification consiste à déterminer à quelle classe appartient chacun des événements. Par exemple, pour du BeatBoxing Vocal, on associe chaque son à l'un des instruments percussifs d'une batterie.

[000102]. Le module 22 effectue également s'il y a lieu une analyse d'expressivité de la voix en détectant notamment les legato et/ou les trémolo présents dans la voix.

[000103]. A partir des paramètres extraits par les modules 21 et le cas échéant 22, le module 23 effectue une analyse globale du signal de voix, dite description musicale de haut-niveau.

[000104]. A cet effet, le module 23 peut notamment déterminer une transposition tempérée de la mélodie (« accordage ») et le cas échéant la gamme (« harmonie ») et/ou le tempo (« rythme ») dans lesquels le signal de voix est fredonné.

[000105]. A cet effet, le module 23 peut effectuer une analyse rythmique. Le rythme peut notamment être caractérisé par son tempo, mesuré en bpm. Le tempo est déduit en repérant la position temporelle des événements vocaux (notes, syllabes ou phonèmes). Dans une implémentation classique, le tempo peut être extrait à partir de l'autocorrélation du signal de voix. Dans une implémentation, le tempo peut être extrait par un algorithme de suivi comme celui proposé par Eric Scheirer (Eric D Scheirer « Tempo and beat analysis of acoustic music signais ». J. Acoust. Soc. Am., 103(1 ), 1998).

[000106]. Afin de réaliser l'accordage, le module 23 détermine une transposition globale permettant de retranscrire la mélodie de manière optimale dans la gamme chromatique tempérée (Accordage en « La 440 ») jouable par les instruments VST accordés en La 440. Cette optimisation dépend de critères comme la proximité fréquentielle à la mélodie originale, et peut être pondéré par d'autres paramètres comme l'intensité. Un exemple d'accordage est présenté sur la figure 11. Dans le cas d'une gamme tempérée en Vz tons, il suffit de chercher la transposition optimale entre -1/4 ton et +1/4 ton.

[000107]. Par exemple, on peut choisir la transposition qui permet de modifier le moins possible les passages mélodiques d'intensité importante, ce qui revient mathématiquement à minimiser un « coût d'accordage ». Un exemple de coût d'accordage est calculé par la final P formule : Coût(Transpo) = + Transpo)\ .int ensité(t) q ,p > 0,q ≥ 0 , p

et q réels, h(t) étant la hauteur de la mélodie à l'instant t, Transpo étant la variation de hauteur appliquée dont on cherche la valeur optimale comprise entre -1/4 et +1/4 de ton pour une gamme chromatique tempérée en Vz tons, δ étant la différence instantanée entre une hauteur et la hauteur tempérée la plus proche, intensité(t) étant l'intensité de la mélodie à l'instant t, tO désignant le début de l'enregistrement et tfinal la fin de l'enregistrement.

[000108]. L'implémentation de référence utilise cette formule avec p=2 et tfinal 2 q=1 , soit CoûtçTranspo) = + Transpo)\ .int ensité(t) . t

[000109]. Il est à noter que le choix des hauteurs tempérées (par exemple la gamme chromatique en « La 440 ») dépend de la théorie musicale choisie, une gamme en % de ton ou à écart de tons variable pouvant par exemple être choisie pour des théories musicales extra-occidentales.

[000110]. Une fois la transposition optimale effectuée, on réalise un « tempérage » de la mélodie transposée optimale, consistant à accorder la hauteur instantanée de la mélodie transposée optimale sur la hauteur tempérée la plus probable. Dans un exemple simple représenté figure 12, la hauteur tempérée la plus probable est la plus proche fréquentiellement de la hauteur de la mélodie.

[000111]. En variante, on peut tempérer les notes chantées sans optimiser la transposition. Par exemple, on peut transposer ou accorder chaque note chantée instantanément sur la note de fréquence la plus proche ou la plus probable dans la gamme chromatique occidentale « La

440Hz ». Cet accordage instantané peut être réalisé par le module 22.

[000112]. En variante, on peut implémenter des règles plus sophistiquées pour tempérer et tenant compte par exemple du profil mélodique, de la présence d'attaques, ou de la proximité d'une note tempérée (justesse de la note). Par exemple, on peut décider d'accorder toutes les notes de la mélodie ou de la mélodie transposée optimale qui sont à moins de 1/16 eme de ton d'une note juste sur la note juste la plus proche et adopter une stratégie plus sophistiquée pour les autres notes (fausses notes). 1/16 eme de ton est ici donné à titre d'exemple et on peut choisir toute autre règle permettant de répartir les notes entre la note juste en dessous et la note juste au dessus.

[000113]. Pour les fausses notes, on peut par exemple décider de les concaténer à la note d'avant, c'est-à-dire à la note qui la précède temporellement, ou à la note d'après. Par concaténer on entend les remplacer par la note d'avant ou d'après. On décidera de concaténer

avec la note d'après par exemple si la fausse note est précédée d'une attaque et la note d'après ne l'est pas, ce qui suggère qu'elles ne constituent qu'une seule et même note. On décidera de concaténer avec la note d'avant par exemple si la fausse note n'est pas précédée d'une attaque mais est suivie d'une attaque. Les autres fausses notes seront alors concaténées par exemple pour la première moitié à la note d'avant et pour la seconde moitié avec celle d'après.

[000114]. On détermine ensuite le cas échéant la gamme optimale dans laquelle s'inscrit la mélodie, parmi un ensemble de gammes (par exemple les gammes diatoniques et pentatoniques majeures et mineures).

L'inscription de la mélodie dans une gamme peut dépendre par exemple du nombre de notes de la mélodie appartenant à la gamme, de leur durée, de leur intensité, et/ou de probabilités de notes dans la gamme. Un exemple de détermination de la gamme optimale est présenté sur les figures 13.1 (gamme non optimale de La majeur) et 13.2 (gamme optimale de La mineur). Les traits en gras représentent les notes de la gamme alors que les traits maigres représentent les notes hors-gamme. En comparant les figures 13.1 et 13.2, on s'aperçoit que la mélodie fredonnée correspond davantage à des notes de la gamme de La mineur qu'à celles de La majeur.

[000115]. Par probabilité de notes dans la gamme, on entend la probabilité que la note apparaisse dans une mélodie qui serait chantée dans une gamme donnée. On affecte alors à chacune des notes de la gamme tempérée un coefficient qui est la probabilité de la note dans la gamme. La somme de ces coefficients doit ensuite être normée pour représenter une probabilité au sens strict c'est-à-dire que le total des coefficients est égal à 1. Les probetone (Krusmhansl & Kessler, 1982) fournissent un bon exemple de probabilité d'occurrence d'une note dans une gamme majeure ou mineure, mais on peut choisir toute autre répartition de ces probabilités, notamment en fonction du style de musique choisi.

[000116]. En variante, on peut augmenter le coefficient associé à la première et/ou à la dernière note pour augmenter leur poids, du fait de leur forte probabilité d'être une note fondamentale de la gamme optimale.

[000117]. Par exemple, on peut choisir la gamme qui permet de conserver le plus possible de notes d'intensité importante dans la gamme, ce qui revient mathématiquement à choisir la gamme maximisant une « qualité » harmonique. Cette qualité peut être calculée oar la formule - Q ualité ( G ) = ∑ durée ( note y λnt ensité ( note yλG,noteγ, P > o,(q,r) > o r ' notes '

G étant la gamme candidate, durée(note) étant la durée de la note, intensité(note) étant l'intensité de la note, et 'P(G, note)' étant la probabilité de la note 'note' dans la gamme G.

[000118]. L'implémentation de référence utilise cette formule avec p=q=r=1 , et P les probe tone de Krumhansl & Kessler, soit

Qualité(G) = V durée(note). int ensité{note).P(G, note) notes [000119]. En variante, on peut imposer une gamme pour les notes fredonnées sans chercher de gamme optimale. Par exemple, on peut accorder chaque note chantée instantanément sur la note de fréquence la plus proche dans la gamme de La Majeur.

[000120]. En variante, on peut réaliser simultanément l'accordage et la détermination de la gamme, en déterminant directement la transposition optimale de la mélodie originale dans les différentes gammes candidates

(par exemple les gammes diatoniques et pentatoniques majeures et mineures), et en choisissant la gamme induisant la meilleure « qualité d'accordage ». Dans ce cas, la qualité d'accordage est pondérée par les probabilités de la gamme considérée.

[000121]. Par exemple, on peut choisir la transposition mélodique et le type de gamme qui permettent de modifier le moins possible les notes d'intensité importante en respectant au mieux les probabilités d'occurrence des notes dans la gamme, ce qui revient mathématiquement à maximiser une « qualité».

[000122]. Cette qualité peut être calculée par la formule :

Quahté(G, Transpo) = \ - -A(h(t) + Transpo)\ mt ensιté(t) q P(G, h(t) + Transpo) r ,p > 0, (q, r) > 0

J A t o H

, p,q et r réels, G étant la gamme candidate, Transpo étant la variation de hauteur appliquée dont on cherche la valeur optimale comprise entre -1/4 et +1/4 de ton pour une gamme chromatique tempérée en Vz tons, h(t) étant la hauteur de la mélodie à l'instant t, δ étant la différence instantanée entre une hauteur et la hauteur tempérée la plus proche, intensité(t) étant l'intensité de la mélodie à l'instant t, tO désignant le début de l'enregistrement et tfinal la fin de l'enregistrement, et 'P(G, h)' la probabilité dans la gamme G de la note tempérée de hauteur la plus proche de la hauteur h.

[000123]. L'implémentation de référence utilise cette formule avec p=2,q=r=1 , et P les probe tone de Krumhansl & Kessler, soit

Qualιté(G, Transpo) = - -A(h(t) + Transpo) int ensιté(t) P(G, h(t) + Transpo) . Un

, „ 4 exemple d'accordage prenant en compte la gamme optimale est présenté sur la figure 14.

[000124]. Une fois la transposition optimale effectuée, on réalise un « tempérage » de la mélodie transposée optimale, consistant à accorder la hauteur instantanée de la mélodie transposée optimale sur la hauteur tempérée la plus probable ou la plus proche dans la gamme G optimale.

Dans un exemple simple, la hauteur tempérée la plus probable est la plus proche fréquentiellement de la hauteur de la mélodie sans prendre en compte la gamme G optimale qui n'a alors été utilisée que pour définir la transposition optimale.

[000125]. En variante, on peut tenir compte de la gamme G optimale dans l'étape de « tempérage » en s'appuyant sur la notion de zone d'attraction d'une note pondérée par sa probabilité d'occurrence dans la gamme G optimale.

[000126]. Considérons une note comprise entre le do et le do# pour une gamme de do majeur. Intégrer la notion zone d'attraction d'une note pondérée par sa probabilité d'occurrence revient à dire que le do (note

fondamentale) a un pouvoir d'attraction plus fort que le do# (note altérée secondaire), c'est-à-dire que l'on doit choisir le do plus souvent que si l'on ne savait pas que l'on est en gamme de do, sans pour autant exclure le do# lorsque l'on en est très proche. [000127]. Dans une implémentation, on calcule à chaque instant la distance entre la note jouée et chacune des deux notes avec lesquelles elle est le plus proche et on divise cette distance par la probabilité d'occurrence de la note dans la gamme P(G, h). On obtient alors une notion de distance pondérée. En variante, on peut diviser par P(G, h) r avec r>0. On choisit ensuite celle des deux notes qui est à la distance pondérée la plus proche.

[000128]. En variante, on peut combiner les stratégies de tempérage par distance pondérée et celles tenant compte de la présence d'attaques.

[000129]. En variante, on peut utiliser la notion de distance pondérée pour réaliser l'opération d'accordage et de détermination de la gamme

(Fig.14). Dans ce cas, δ représente la distance pondérée.

[000130]. En variante, dans une implémentation dite en temps réel, on n'attend pas la fin de l'enregistrement pour effectuer la description musicale de haut niveau 23. On peut alors réaliser cette analyse de haut niveau 23 en permanence afin de fournir à chaque instant une estimation des paramètres de haut niveau (rythme, tempo, gamme notamment). A l'instant t on réalise l'analyse par exemple sur une fenêtre dont la taille va grandissante et partant du début de l'enregistrement et allant jusqu'à t, ou sur une fenêtre de taille constante et prenant en compte les 5 dernières secondes de chant. Cette implémentation trouverait une application particulièrement avantageuse dans le cadre d'un jeu vidéo ou de toute autre application interactive temps réel.

[000131]. L'ensemble des paramètres d'analyse 25 extraits par les modules 21-23 et éventuellement les paramètres de style 16 sont envoyés au module de synthèse 17 représenté sur la figure 3. Ce module de synthèse 17 est composé d'un module de traitement MIDI 26 et/ou d'un module de traitement audio 27. Les paramètres d'analyse 25 ainsi

que les paramètres de style 16 sont transmis à ces deux modules 26, 27. En outre, le signal de voix 5 et/ou des boucles d'instruments préenregistrés 53 sont appliqués en entrée du module 27.

[000132]. Les paramètres d'analyse 25 transmis dépendent du type de synthèse envisagé. En effet, pour retranscrire simplement la voix chantée sous forme de sonnerie MIDI, seuls les débuts de notes, les durées, les hauteurs et éventuellement intensités des notes chantées sont envoyés au module 17. En revanche, pour ajouter une boucle rythmique sur la voix, le tempo extrait de la voix est envoyé au module 17 afin de caler la boucle rythmique sur la voix. Tandis que pour corriger la mélodie ou ajouter un accompagnement mélodique cohérent, on envoie en outre les paramètres liés à l'harmonie du signal de voix 5 de sorte qu'un instrument synthétisé puisse correspondre à cette harmonie.

[000133]. En variante et par exemple dans le cas où on ne souhaite capter que des informations d'ordre rythmique, on n'analyse pas la hauteur mais des informations d'ordre spectral comme par exemple le HFC pour identifier avec précision les instants d'attaque ou les 13 premiers coefficients de la MFCC pour un pilotage vocal d'une batterie à partir d'un beat boxing.

[000134]. Lors du traitement MIDI effectué par le module 26, le signal 5 vocal est transformé à partir des paramètres d'analyse 25 en une piste 29 MIDI brute représentée sur la figure 5, cette piste 29 comportant pour les pistes mélodiques les notes tempérées représentant la phrase chantée déterminée à partir des modules 21-22.

[000135]. En variante, la piste midi brute 29 est tempérée de manière optimale en intégrant les résultats de l'accordage et le cas échéant de la gamme optimale déterminés dans le module 23 et éventuellement des paramètres de style.

[000136]. La piste 29 MIDI brute est ensuite utilisée pour synthétiser l'ensemble des pistes instrumentales MIDI, par exemple la piste de piano, de basse, de batterie, ou de synthétiseurs. Autrement dit, dans l'invention, à partir d'une ligne monophonique (la ligne de voix), on

élabore une sonnerie polyphonique, c'est-à-dire une sonnerie qui est une superposition de plusieurs pistes musicales, et poly-instrumentale, c'est- à-dire que des pistes de la sonnerie peuvent correspondre à des instruments différents.

[000137]. Comme représenté sur la figure 8, les pistes 31-33, 35-38 définissant les différentes pistes musicales de la sonnerie peuvent être obtenues par des traitements et/ou transformations de la piste 29 MIDI brute du signal de voix. Ces traitements et transformations qui font partie des règles de composition musicale dépendent notamment du type d'instrument à synthétiser et des paramètres de style.

[000138]. Les traitements peuvent être des traitements de nettoyage de la piste, et/ou de correction mélodique, et/ou de recalage rythmique. Les transformations consistent à composer automatiquement une nouvelle mélodie dérivée de la mélodie chantée : le choix des notes et du rythme est effectué en fonction des paramètres d'analyse, et de règles de construction musicales qui dépendent des paramètres de style (les règles de composition appliquées pour la musique RnB étant différentes des règles de composition pour la musique jazz).

[000139]. Pour effectuer le nettoyage, on élimine les notes indésirables tout en conservant le cas échéant les notes d'expressivité. Une note peut par exemple être considérée comme expressive si elle est inscrite dans la continuité mélodique de la phrase (proche des notes précédente et suivante) et si elle a une intensité suffisante pour appuyer les notes qu'elle accompagne.

[000140]. Le nettoyage consiste par exemple à appliquer divers traitements à la piste 29, comme la suppression ou le regroupement des notes dont la durée est inférieure à une durée de référence (par exemple 1 ms), et/ou le lissage des notes instables, et/ou la suppression des notes dont l'intensité est inférieure à un seuil, et/ou la suppression des notes dont la qualité de détection de la hauteur est inférieure à un seuil. La figure 6 montre par exemple le traitement effectué sur la piste 29 MIDI brute pour obtenir la piste 30 jouée par exemple par un piano.

[000141]. Pour effectuer une correction mélodique, on recale la hauteur des notes de la piste 29 MIDI brute suivant l'harmonie supposée, le cas échéant en conservant tout ou partie des notes expressives. Une note chantée qui ne se situe pas dans la gamme calculée est soit remplacée par la note la plus proche ou la plus probable de cette gamme, soit conservée et mise en valeur comme note d'expressivité (par exemple comme trille ou pour la mise en place d'un portamento). La correction des notes peut ainsi être contrôlée, en fonction par exemple de leur niveau d'expressivité, de leur intensité et de leur durée. La figure 6 montre une correction mélodique effectuée sur la piste nettoyée 30 de la figure 5 pour obtenir une piste 31 recalée dans une gamme majeure. A cet effet, les notes de la piste 30 sont recalées dans la gamme optimale calculée précédemment.

[000142]. Pour effectuer un recalage rythmique, les notes détectées lors de la phase d'analyse sont décalées, afin que leurs instants d'attaque respectent un motif rythmique donné. Ce motif rythmique peut être simplement un rythme régulier (par exemple les notes sont positionnées sur les croches déterminées en fonction du tempo extrait par le module

23), ou plus complexe (par exemple un rythme de bossa-nova), ou correspondant aux instants d'attaque de la mélodie chantée.

[000143]. Pour effectuer une transformation (composition automatique d'une nouvelle mélodie ou d'une piste rythmique dérivée de la voix), de nombreuses méthodes et algorithmes sont possibles : transposition, extraction des notes sur les temps forts (repérés grâce au tempo extrait par le module 23), application de patterns rythmiques, dérivation de notes de l'harmonie.

[000144]. Ainsi dans un exemple, la piste 33 correspondant à une oème ά. voix est obtenue en transposant la piste 31 trois octaves plus haut. A cet effet, trois octaves sont ajoutées au paramètre de hauteur contenu dans le fichier MIDI du signal de voix corrigé.

[000145]. Dans un exemple, la piste 35 correspondant à un choeur est obtenue en reprenant les notes de la piste 31 sur les temps les plus forts. Pour cela, on modifie la piste MIDI en éliminant toutes les notes qui ne

sont pas sur les temps, et en modifiant la durée des notes restantes afin qu'elles durent la totalité du temps.

[000146]. La piste 36 correspondant à une basse est obtenue en ne conservant que les notes sur les temps et en alternant fondamentale et quinte déterminés en fonction de la connaissance de l'harmonie. Pour cela, on modifie la piste MIDI en éliminant toutes les notes qui ne sont pas sur les temps, et en modifiant la hauteur des notes restantes en choisissant la note la plus proche de l'accord considéré (fondamental ou quinte).

[000147]. La piste 37 correspondant à une deuxième basse plus complexe que la première est basée sur la transposition d'un riff (motif rythmico-mélodique répétitif). Pour cela, on modifie la piste MIDI en éliminant toutes les notes qui ne sont pas sur les temps (ou plusieurs temps en fonction de la durée du riff), et en ajoutant les notes du riff transposées à la hauteur des notes restantes.

[000148]. La piste 38 correspondant à la batterie est obtenue en calant un motif rythmique caractéristique du style RnB sur le tempo de la voix (extrait par le module 23). Pour cela, on charge une piste MIDI batterie caractéristique du style, qu'on répète un nombre de fois suffisant pour couvrir l'ensemble de la mélodie, et on ajoute des notes complémentaires aux instants expressifs de la voix.

[000149]. Des sons percussifs complémentaires (par exemple des coups de cymbales) peuvent être ajoutés en fonction de l'expressivité de la voix (paramètres d'analyse 25 extraits par les module 22-23), par exemple sur des notes d'expressivité.

[000150]. Il est à noter que la cohérence dans l'arrangement des pistes est garantie par les paramètres d'analyse 25 qui permettent notamment de s'assurer que toutes les pistes sont dans le même tempo et/ou dans la même harmonie.

[000151]. Chaque piste MIDI de la sonnerie peut être créée à partir de la piste MIDI brut du signal de voix qui est traitée et/ou transformée, ou à

partir d'une piste MIDI dérivant de la piste MIDI brute (soit une piste MIDI déjà traitée et/ou transformée), ou à partir des paramètres d'analyse 25 et de motifs préexistants. Ainsi une piste de violon peut par exemple être dérivée directement de la piste de piano, et une piste de batterie RnB peut être construite directement à partir du tempo et d'un motif rythmique

RnB.

[000152]. Par ailleurs, des effets spécifiques au MIDI, comme le doublage des notes, l'arpégiation, l'introduction de retard, peuvent être appliqués sur les pistes obtenues 30, 31 , 33, 35-38. Ces effets sont appliqués en fonction du style musical choisi par l'utilisateur ou imposé et/ou du timbre de la voix de l'utilisateur. Par exemple, il sera possible de transformer les notes d'une piste en accords joués en arpèges, ces arpèges étant joués en fonction de l'harmonie déterminée préalablement et de la vitesse d'élocution. Dans un autre exemple d'effet, toutes les notes d'expressivité peuvent être transformées en trilles.

[000153]. En outre, une mélodie originale peut être dérivée de la voix, afin non pas de se substituer, mais de continuer celle-ci. Par exemple, le système pourra composer une réponse à la mélodie vocale (pour un dialogue avec la machine), ou une suite (afin de terminer la mélodie correctement en fonction du style choisi). Par exemple, si la ligne de basse alterne une fondamentale et une quinte, la quinte introduisant une tension musicale et la fondamentale fermant cette tension, et qu'il termine sur une quinte, le procédé continuera la phrase musicale en introduisant une fondamentale afin de fermer la tension musicale. La mélodie fredonnée peut aussi être envoyée avec ses paramètres d'analyse et notamment les paramètres harmoniques et/ou rythmiques à un logiciel de composition automatique, afin que ce logiciel compose une fin ou une réponse.

[000154]. Une fois obtenues, les pistes MIDI 30, 31 , 33, 35-38 sont intégrées dans un unique fichier MIDI pouvant être lu par tout matériel respectant la norme MIDI. Ce fichier peut être envoyé au téléphone ou à tout autre appareil ou logiciel en tant que sonnerie MIDI, ces appareils

disposant d'instruments MIDI de base pour jouer les pistes MIDI qu'il contient.

[000155]. En variante, la ou les pistes MIDI 30, 31 , 33, 35-38 sont transmises à un module 43 comportant des instruments virtuels par exemple de type VST qui permettent de synthétiser les pistes audio associées à chaque instrument. Par exemple, la piste de basse MIDI est envoyée à l'instrument VST nommé « Virtual Bass » qui transforme cette piste MIDI symbolique en une piste audio de basse. Toutes les pistes audio synthétisées à partir des pistes MIDI sont ensuite envoyées à un module 47 qui assure le mixage des pistes musicales générées.

[000156]. Par ailleurs, le module 27 élabore des pistes 49-51 de type audio, dérivant de la transformation directe du signal de voix et/ou de sons pré-enregistrés, sans passer par une représentation symbolique de type MIDI. Ces pistes 49-51 sont obtenues par transformation du signal 5 de voix et/ou par synthèse sonore à partir des paramètres d'analyse 25 extraits et de sons 53 pré-enregistrés.

[000157]. Les transformations de la voix peuvent être soit des transformations correctives (mélodiques et/ou rythmiques), soit des transformations timbrales, soit ces deux types de transformations appliquées successivement.

[000158]. La correction mélodique peut être effectuée par exemple par une technique dite de « Pitch shifting » dans laquelle on recale les notes de la voix sur les notes tempérées ou de la gamme, optimale ou non, déterminée par le module d'analyse 15, ou sur les notes d'une mélodie dérivée du signal de voix.

[000159]. La correction rythmique de la voix consiste en une synchronisation rythmique de la voix sur un rythme de référence. Cette correction rythmique peut être effectuée en calant rythmiquement la voix sur un rythme imposé (par exemple un tempo fixe). Le calage est effectué par « Time stretching », en modifiant la durée de passages sonores qui ne sont pas en rythme afin de les caler sur le rythme imposé.

Ce rythme peut être déterminé par les paramètres d'analyse ou p ar un pattern rythmique imposé.

[000160]. En variante, cette correction rythmique peut consister en une synchronisation rythmique sur le rythme de la voix, sur lequel sont calées les pistes instrumentales. Dans un exemple, on effectue un marquage rythmique par la technique de « Time Warping » dans laquelle on effectue un repérage des temps forts du signal de voix représentés par les traits verticaux 55 sur la figure 9, afin de construire un rythme de référence sur lequel toutes les pistes musicales sont synchronisées. Ce rythme de référence fera alors partie des paramètres d'analyse 25 et pourra être utilisé pour construire les pistes midi et/ou audio. Ce rythme de référence pourra aussi être utilisé comme l'entrée d'un logiciel de composition automatique qui générera automatiquement une mélodie dont le rythme coïncidera avec ce rythme de référence.

[000161]. Les transformations timbrales sont basées sur la modification du timbre de la voix obtenue par application de filtres sur le signal de voix. Cette modification du timbre peut être effectuée par transformation du signal de voix 5 en une autre voix réaliste ou non, comme par exemple une voix d'ogre ou de monstre, en utilisant par exemple un vocodeur de phase. La voix transformée peut rester intelligible ou être transformée en instrument de musique ou en son inintelligible. La voix peut également être transformée en une ambiance sonore (nappe sonore obtenue par exemple par synthèse concaténative à partir de sons divers, musicaux ou non).

[000162]. Par ailleurs, des pistes audio peuvent être obtenues en sélectionnant des notes du signal de voix et en les accentuant en fonction de l'expressivité de la voix ou des paramètres d'analyse 25, et/ou en utilisant des boucles de rythme préenregistrées que l'on cale sur le tempo mesuré (et le cas échéant modifié) du signal de voix.

[000163]. Dans une mise en œuvre, on utilise la voix pour choisir un objet sonore dans une base de données musicale, afin de composer une ou plusieurs des pistes audio. A cet effet, on extrait les paramètres d'analyse, tels que la hauteur, l'intensité et l'attaque, d'échantillons

musicaux et on stocke ces échantillons musicaux et les paramètres d'analyse qui leur sont associés dans la base de données. Ensuite, on extrait des paramètres d'analyse 25 du signal de voix sur une période de temps donnée et on sélectionne dans la base de données les échantillons musicaux présentant les paramètres d'analyse les plus proches du signal de voix sur l'intervalle de temps donné. Par exemple, pour générer la piste de batterie, on peut rechercher la rythmique RnB correspondant le mieux au rythme exprimé par la voix.

[000164]. Les échantillons musicaux peuvent présenter plusieurs niveaux de granularité. En effet, les échantillons musicaux peuvent être de petits objets musicaux, tels qu'une note d'un instrument synthétisé, ou des objets musicaux de grande taille, tels que des boucles musicales. Les paramètres d'analyse seront extraits sur une plus grande période et en plus grand nombre dans le cas d'une sélection d'objets musicaux de grande taille.

[000165]. La ou les pistes audio 49-51 ainsi dérivées du signal de voix sont transmises au module de mixage 47.

[000166]. Le module de mixage 47 effectue ensuite un traitement et un mixage sonore des pistes audio 30', 31 ', 33', 35'-38, 49-51 ' issues du traitement MIDI et/ou du traitement audio. A cet effet, le module 47 règle les volumes des différentes pistes les uns par rapport aux autres et/ou introduit des effets individuels sur chaque piste (tels que saturation ou compression sonore). Le module 47 réalise ensuite une piste de sortie audio unique, mixée à partir de toutes les pistes instrumentales individuelles. Le module 47 est également apte à appliquer des effets sonores globaux sur cette piste de sortie (par exemple une réverbération globale ou tout effet d'acoustique des salles comme par exemple un effet « église »).

[000167]. En variante, l'utilisateur pourra modifier le mixage original en choisissant par exemple d'augmenter le volume sur la basse ou de le diminuer sur un autre instrument.

[000168]. Le signal de son 59 issu du mixage est ensuite appliqué en entrée d'un module 60 qui le transforme dans un format audio lisible par le téléphone de l'utilisateur (par exemple mp3). En sortie du module 60, on obtient une sonnerie 61 qui est enregistrée dans une mémoire du téléphone portable.

[000169]. En variante, le signal de voix peut également être transmis tel quel au module de mixage 47 afin d'être injecté dans la sonnerie et sera alors considéré comme une piste audio.

[000170]. La figure 15 présente une chaîne de traitement simplifié de l'invention. Le module d'analyse est limité au module 21 qui extrait uniquement les paramètres de hauteur et d'intensité pour générer la piste MIDI brute 29. Seules deux pistes MIDI cohérentes sont dérivées : la piste 1 qui est la piste MIDI brute nettoyée, et la piste 2 jouant cette même piste une octave plus haut. [000171]. L'invention concerne également les téléphones portables comportant une zone mémoire associée à chacun des contacts du téléphone, cette zone mémoire étant destinée à stocker une sonnerie élaborée à l'aide du procédé selon l'invention.

[000172]. Ainsi l'utilisateur ou un contact, peut enregistrer dans le téléphone une phrase chantée en ayant préalablement sélectionné un style de musique. Par exemple, un contact nommé Ursula enregistre une phrase chantée du type « bonjour c'est Ursulaaaϋ » en sélectionnant un style rock.

[000173]. Le procédé selon invention décrit ci-dessus transforme alors la phrase chantée en une sonnerie.

[000174]. L'utilisateur associe alors la sonnerie obtenue au contact auquel elle est destinée, en la stockant dans la zone mémoire associée à ce contact.

[000175]. Ainsi lorsque le contact appellera, le téléphone jouera la sonnerie correspondant à ce contact.

[000176]. L'invention trouve une application particulièrement avantageuse pour l'élaboration d'une sonnerie d'un téléphone portable. Toutefois, l'invention pourrait aussi être utilisée plus généralement dans le domaine de la création musicale. Par extension, on appelle « sonnerie » tout objet musical possédant une cohérence mélodique et/ou rythmique, et contenant ou non de la voix. Ainsi un riff instrumental, un jingle, une sonnerie de téléphone, un message de répondeur sont considérés comme des sonneries au sens de l'invention.

[000177]. En outre, il est possible d'envisager une application dite « Voxgroovebox » dans laquelle on enregistre une phrase musicale en appuyant sur un bouton du clavier du téléphone, et dès qu'on relâche le bouton, la sonnerie générée par le procédé selon l'invention à partir de la phrase musicale se met à boucler sur elle-même. Ensuite, il est possible de chanter sur cette sonnerie, ou de la mixer avec des morceaux de musique stockés dans le téléphone. En fonction de l'intention musicale, on active tout ou partie des pistes: rythmique seule, basse seule, lead seul, deux de ces pistes ou les trois.

[000178]. Il est également possible d'envisager une application dite « Répondeur augmenté » dans laquelle on enregistre, déclame ou chante un message de répondeur, et le système réalise automatiquement la correction et/ou l'accompagnement musical de ce message. Dans un exemple, le signal de voix est retranscrit seul mais il est musicalement cohérent car il a été recalé à un rythme donné.

[000179]. Dans un autre exemple, on conserve une voix intelligible et on détermine un tempo moyen ou un rythme de référence du message téléphonique. On adjoindra alors au signal de voix une boucle instrumentale, constituée de une ou plusieurs pistes et dont le tempo ou le rythme correspond à celui qui a été analysé.

[000180]. En variante, l'utilisateur a la possibilité de modifier chacune des pistes. Dans ce cas, l'utilisateur reçoit par exemple une partition poly- instrumentale correspondant à la mélodie réorchestrée de ce qu'il a fredonnée ou une représentation symbolique simplifiée de la partition. Il peut alors lire chacune des pistes, par exemple à l'aide d'un éditeur de

partitions et/ou modifier manuellement chacune des pistes. Il peut par exemple modifier manuellement le rythme, les notes, ou tout paramètre d'analyse. Toute interface et par exemple un stylet ou des boutons peut être utilisée pour modifier les pistes et/ou les remixer.

[000181]. En variante, la composition peut être effectuée en plusieurs étapes ou passes. L'utilisateur commence par exemple par composer vocalement en le fredonnant le lead mélodique. Dans ce cas, une seule piste est générée : le lead mélodique corrigé à partir des paramètres d'analyse. Il fredonne ensuite par exemple la ligne de basse. Pour l'aider à fredonner en rythme et dans l'harmonie, il pourra fredonner la ligne de basse tout en écoutant le lead mélodique. La ligne de basse fredonnée sera alors corrigée en lui appliquant les paramètres d'analyse du lead mélodique. Il pourrait aussi choisir d'appliquer à chacune des deux voix un mélange de paramètres issus des deux fredonnements. Par exemple, le rythme pourrait être issu de la ligne de basse et l'harmonie de la ligne mélodique. Dans un autre exemple on calculera une harmonie globale issue des deux fredonnements et calculée en appliquant les algorithmes d'analyse d'harmonie à un fichier d'enregistrement de voix constitué de la juxtaposition temporelle des deux enregistrements de voix (c'est-à-dire en juxtaposant temporellement les deux fichiers pour créer un seul fichier d'une longueur égale à la somme de leurs deux longueurs).

[000182]. On décrit ci-après une mise en œuvre de l'invention pour extraire une mélodie à partir d'un signal de voix 5.

[000183]. Tout d'abord, on met en œuvre un algorithme permettant d'obtenir les flux de hauteur, d'énergie et de qualité instantanées du signal de voix 5, en utilisant par exemple l'algorithme décrit dans le document de brevet français de France Telecom portant le numéro d'enregistrement national 01 07284.

[000184]. On nettoie ensuite de préférence le flux des notes instantanées du signal de voix 5 au moyen d'un filtre médian, en éliminant les notes hors tessiture, et/ou les notes de faible énergie, et/ou les notes de faible qualité, et/ou les notes trop courtes (parasites), par exemple pour des segments de durée inférieure à 50ms.

[000185]. On effectue ensuite une segmentation du signal de voix 5, chaque segment du signal correspondant à un morceau de signal de voix 5 compris entre deux attaques correspondant à des variations significatives en hauteur et/ou en énergie du signal de voix et/ou en énergie dans les hautes fréquences, qui peut par exemple être détectée en mettant en œuvre une technique de type HFC (High Frequency Content), décrite dans la demande PCT/FR2007/051807. Ensuite, on recale de préférence le signal à zéro à partir de l'instant du premier segment détecté.

[000186]. On détermine la hauteur de chaque segment S1-S8 correspondant à la médiane de la hauteur de chaque segment. Ainsi, sur les figures 16, 18, 19 et 20, les segments S1-S8 sont séparés par une forte variation de hauteur.

[000187]. On effectue ensuite un accordage global du signal de voix 5. Cet accordage consiste à déterminer la note, dite « note centrale » NC, qui est la note la plus fréquente (la plus jouée sur 100 niveaux d'accordage global), à partir des notes non-tempérées de chaque segment S1-S8, puis à transposer globalement l'ensemble du signal de voix 5, de manière à faire correspondre la "note centrale" NC à sa note tempérée la plus proche.

[000188]. A cette fin, on considère le flux mélodique, c'est à dire le flux de l'ensemble des hauteurs h de notes chantées, comme montré sur la figure 16. On divise l'axe des hauteurs en bandes B correspondant aux notes de la gamme chromatique tempérée, de manière à obtenir une grille d'accordage G placée sur le signal de voix 5 construite par intervalles de 1/2 tons.

[000189]. On réalise un histogramme de la durée t des notes chantées en fonction des hauteurs h de l'ensemble des notes du signal 5, dans ces bandes, comme montré sur la figure 17. La note centrale NC est la moyenne des hauteurs de la bande la plus haute de l'histogramme

(appelée mode).

[000190]. On cherche alors la transposition des bandes (entre -1/2 et +1/2 ton) permettant d'obtenir un histogramme optimal, dans lequel le mode est maximal, autrement dit le mode dans lequel la note centrale NC est la plus prédominante. Cette transposition optimale correspond à l'accordage global de la mélodie. On transpose ensuite l'ensemble du signal de voix 5 de cette valeur optimale, afin que la note centrale NC soit transposée sur une hauteur tempérée. Par exemple, sur la figure 18, la transposition permet d'aligner la note centrale NC de hauteur initiale 54.2 sur la note tempérée la plus proche de hauteur 54.0.

[000191]. On effectue ensuite un tempérage du signal de voix qui consiste à assigner pour chaque segment S1-S8 du signal de voix 5 une hauteur tempérée, à partir de la hauteur effectivement chantée. Pour cela, on considère la mélodie accordée, sa note centrale NC, et les 128 notes tempérées correspondant aux 128 notes Midi.

[000192]. Pour chacune de ces 128 notes Midi, on crée un modèle de la hauteur effectivement chantée (plus précisément de la différence de hauteur entre la note centrale et les notes chantées). Dans le modèle initial, chaque note Midi est modélisée par une hauteur de l'échelle chromatique accordée sur la note centrale. Ainsi, comme représenté sur la figure 18, le modèle initial des notes Midi correspond à la grille G de notes à intervalles e constants placée sur le signal de voix 5 centrée par rapport à la note centrale de hauteur 54.0, le modèle initial de la note Midi 54 correspondant dans notre exemple à la hauteur 54.0, le modèle initial de la note Midi 55 à la hauteur 55.0, et ainsi de suite.

[000193]. La hauteur de la note centrale NC restant invariable, on ajuste progressivement le modèle de chaque note tempérée par rapport aux hauteurs effectivement chantées.

[000194]. De préférence, on commence par modéliser les hauteurs des dernières notes chantées, puis on affine le modèle en remontant vers le début de la mélodie suivant le sens d'analyse SA. Cette technique repose sur l'hypothèse que la précision du chant s'améliore au cours de la mélodie (la voix se place), et que la hauteur des dernières notes chantées est plus stable: cela permet d'utiliser un modèle robuste pour

déterminer les hauteurs des notes, généralement imprécises, chantées en début de mélodie.

[000195]. L'affectation d'une note tempérée pour chaque segment S1-S8 suit l'algorithme suivant : - en boucle, pour chaque segment Sj, en partant de préférence du dernier jusqu'au premier, on détermine, à partir du modèle courant, la note tempérée la plus probable pour le segment Sj. Par exemple, on considère que la note tempérée la plus probable est la note tempérée dont le modèle est le plus proche de la note chantée, - on affecte cette note tempérée au segment Sj, et

- on met à jour le modèle de cette note Midi tempérée, en prenant en compte la hauteur chantée sur le segment Sj: la hauteur du modèle de cette note tempérée évolue. A cet effet, le modèle de la note tempérée peut par exemple être égal à la moyenne des hauteurs des notes réelles (chantées) auxquelles a été affectée la note du modèle, ces hauteurs de notes pouvant être pondérées le cas échéant par leur durée ou leur intensité.

[000196]. Par exemple, au départ, le modèle de la note tempérée 54 correspond à la hauteur 54.0 (la note centrale) et le modèle de la note tempérée 55 correspond à la hauteur 55.0. Si un segment analysé Sj a une hauteur de note valant 54.2, il sera associé à la note tempérée 54, puisque l'écart entre la hauteur analysée 54.2 et le modèle de la note 54 de hauteur 54.0 est plus petit que l'écart entre la hauteur analysée 54.2 et le modèle de la note 55 de hauteur 55.0 (54.2-54.0=0.2 plus petit que 55.0-54.2=0.8). Ensuite, on met à jour le modèle de la note 54 qui est égal à la moyenne m des notes auxquelles on a assigné la note tempérée 54, à savoir dans l'exemple m=(54.0+54.2)/2=54.1. Le modèle de la note tempérée 54 correspond donc maintenant à la hauteur 54.1 , alors qu'il correspondait à la hauteur 54.0 avant analyse du segment Sj. On recommence ensuite pour un nouveau segment.

[000197]. En poursuivant ce même exemple (Figure 19), le modèle de la note tempérée 57 correspond à la note 57.0 et le modèle de la note tempérée 56 correspond à la note 56.0. Si un nouveau segment analysé

Sk a une hauteur de note valant 56.8, il sera associé à la note tempérée 57, puisque l'écart entre la hauteur analysée 56.8 et le modèle de la note 57 de hauteur 57.0 est plus petit que l'écart entre la hauteur analysée 56.8 et le modèle de la note 56 de hauteur 56.0 (57.0-56.8=0.2 plus petit que 56.8-56.0=0.8). Ensuite, on met à jour le modèle de la note 57 qui est égal à la moyenne m des notes auxquelles on a assigné la note tempérée 57, à savoir dans l'exemple m=(57.0+56.8)/2=56.9. Le modèle de la note tempérée 57 correspond donc maintenant à la hauteur 56.9, alors qu'il correspondait à la hauteur 57.0 avant analyse du segment Sk. On recommence ensuite pour le segment suivant, et ainsi de suite jusqu'à analyse de l'ensemble des segments.

[000198]. Ainsi, comme montré sur la figure 20, pour la partie 61 traitée de la fin du signal 5, la hauteur du modèle de la note 54 monte et la hauteur du modèle de la note 57 descend vers les hauteurs effectivement chantées.

[000199]. A la fin de l'algorithme, une note tempérée a été affectée à chaque segment S1-S8. On a ainsi défini une échelle G' dont les écarts e' de hauteur ne correspondent plus à des demi-tons, mais aux hauteurs effectivement chantées, comme montré sur la figure 20.

[000200]. Le modèle de note a été décrit pour des notes de type MIDI mais il est clair qu'il peut être défini pour n'importe quel type de note tempéré pouvant être associé à une hauteur de signal.