Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR PRODUCING AN AUDIO FILE
Document Type and Number:
WIPO Patent Application WO/2016/207128
Kind Code:
A1
Abstract:
The invention relates to a method for producing an audio file by a processing device, characterised in that it comprises the following steps: acquiring a first musical file; acquiring a second voice file; acquiring a placement file; producing third and fourth musical files by duplication from the first musical file; and mixing the second, third and fourth files: the third and fourth files start simultaneously, the second file starts according to a placement parameter read in the placement file, on a first date equal to the placement parameter minus a predetermined value, a fade out is applied in order gradually to cut the power of the third file during a fade interval running from the first date to the value of the placement parameter, and a fade in is applied at the end of the second file in order gradually to restore the power of the third file from the end of the second file and for a time substantially equal to that of the fade in.

Inventors:
LOES, Dave (9Rue des Bleuets, Barberey Saint Suplice, Barberey Saint Suplice, 10600, FR)
DELAHAYE, Eric (9 Rue Denis Papin, Troyes, Troyes, 10000, FR)
DUBREUIL, Gilles (34 Rue des Hortensias, Salbris, Salbris, 41300, FR)
Application Number:
EP2016/064242
Publication Date:
December 29, 2016
Filing Date:
June 21, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
PHONE DESIGN (9 Rue Denis Papin, Troyes, Troyes, 10000, FR)
International Classes:
G11B27/038; G11B27/10; G10L21/0316; G10L21/0364; H04M3/53; H04M3/533; H04M3/487
Foreign References:
US20030120726A12003-06-26
US20090171487A12009-07-02
Other References:
JEFF AYARS ET AL: "Synchronized Multimedia Integration Language (SMIL 2.0), W3C Proposed Edited Recommendation - THE SMIL 2.0 TIMING AND SYNCHRONIZATION MODULE - THE SMIL 2.0 TIME MANIPULATIONS MODULE", INTERNET CITATION, 5 November 2004 (2004-11-05), pages 1 - 15,1, XP002509689, Retrieved from the Internet [retrieved on 20090107]
None
Attorney, Agent or Firm:
CAMUS, Olivier et al. (25 rue de maubeuge, Paris, 75009, FR)
Download PDF:
Claims:
REVENDICATIONS

1 . Procédé de production, par un dispositif (100) de traitement, d'un fichier sonore caractérisé en ce qu'il comporte les étapes suivantes :

acquisition (301 ) d'un premier fichier musical,

acquisition (302) d'un deuxième fichier (230) vocal,

acquisition (303) d'un fichier de placements

production (310) d'un troisième fichier (210) musical et d'un quatrième fichier (220) musical à partir du premier fichier musical, la puissance du troisième fichier musical et la puissance quatrième fichier musical correspondant à des fractions de la puissance du premier fichier musical

mixage des deuxième fichier, troisième fichier et quatrième fichier :

le troisième (210) fichier et le quatrième (220) fichier commencent (321 ) simultanément

le deuxième fichier commence (323) selon un paramètre de placement lu dans le fichier de placements à une première date égale au paramètre de placement moins une valeur prédéterminée on applique (322) un fondu à la fermeture pour couper progressivement la puissance du troisième fichier durant un intervalle de fondu allant de la première date à la valeur du paramètre de placement, à la fin du deuxième fichier on applique un fondu à l'ouverture pour restaurer progressivement la puissance du troisième fichier depuis la fin du deuxième fichier et sur une durée sensiblement égale à celle du fondu en ouverture.

2. Procédé de production d'un fichier sonore selon la revendication 1 , caractérisé en ce que le fichier de placements comporte au moins une date de départ du fichier vocal relativement à une date de départ du fichier sonore produit.

3. Procédé de production d'un fichier sonore selon l'une des revendications précédentes, caractérisé en ce que les dates et paramètres ont une précision au centième de seconde.

4. Procédé de production d'un fichier sonore selon l'une des revendications 1 ou 2 caractérisé en ce que les dates et paramètres ont une précision au millième de seconde.

5. Procédé de production d'un fichier sonore selon l'une des revendications précédentes, caractérisé en ce que la puissance du troisième fichier musical correspond à 40 à 50 pour cent de la puissance du premier fichier musical.

6. Procédé de production d'un fichier sonore selon l'une des revendications 1 à 4, caractérisé en ce que la puissance du troisième fichier musical correspond à 50 à 60 pour cent de la puissance du premier fichier musical.

7. Procédé de production d'un fichier sonore selon l'une des revendications précédente caractérisé en ce que l'intervalle de fondu est sensiblement égal à une demi-seconde.

8. Procédé de production d'un fichier sonore selon l'une des revendications 1 à 6 caractérisé en ce que l'intervalle de fondu est sensiblement égal à une seconde. 9. Dispositif de stockage numérique comportant un fichier correspondant à des codes instructions de mise en œuvre le procédé selon l'une des revendications précédentes.

10. Dispositif mettant en œuvre le procédé selon l'une des revendications 1 à 8.

Description:
Procédé et dispositif de production d'un fichier sonore DOMAINE TECHNIQUE DE L'INVENTION

[ 0001] L'invention se rapporte à un procédé de production d'un fichier sonore. L'invention se rapporte également à un dispositif de production d'un fichier sonore.

[ 0002 ] Plus particulièrement l'invention se rapporte à la production de fichier sonore mélangeant un fichier musical avec un fichier vocal. Encore plus particulièrement l'invention se rapporte à la production d'un message destiné à être utilisé par des serveurs vocaux de type répondeur ou interactif. Un tel message est aussi apte à être utilisé par un IPBX, un PABX, un CENTREX et les réseaux de télécommunications en général.

[ 0003 ] De tels serveurs vocaux incluent au moins les répondeurs et messages d'accueil, ainsi que les dispositifs de diffusion de messages d'ambiance ou d'annonce dans les lieux publics. Cette énumération n'est pas limitative. Les fonctions de ces dispositifs sont en général : le pré-décroché, l'attente musicale, répondeur, les boîtes vocales, menu interactif (aussi appelé serveur vocal interactif), ... l'énumération n'est pas limitative. D'une manière générale les messages produits sont destinés à être remixé musicalement de façon automatique, instantanée et à volonté.

ETAT DE LA TECHNIQUE ANTERIEURE

[ 0004 ] Dans un souci de professionnalisme il est souhaitable de pouvoir présenter des messages vocaux mixés avec une musique, par exemple des messages vocaux d'absence ou d'attente, qui aient le meilleur rendu possible, c'est-à-dire des messages qui soient parfaitement audible à l'oreille, notamment lors d'une écoute téléphonique où les gammes de fréquence sont restreintes, de 300Hz à 3400Hz en analogique par exemple.

[ 0005] Un tel message est un message dans lequel on distingue clairement la voix qui énonce le message sans avoir à se concentrer, au-delà de la concentration requise par une conversation téléphonique courante, à cette fin.

[ 0006 ] Il faut aussi que le message global soit agréable à entendre et laisse une bonne impression, d'où l'accompagnement musical de ce type de message. [0007] Une solution pour réaliser un tel message est de recourir aux services d'un studio d'enregistrement. Il faut alors mobiliser différentes compétences, acteur, monteur, ingénieurs du son ... C'est une première étape, incontournable si on souhaite le meilleur rendu possible.

[0008] Il est donc illusoire de vouloir changer un fond sonore d'un message acquis, par le recours aux services dudit studio d'enregistrement : les coûts deviennent tout simplement trop importants.

[0009] Une autre solution, par exemple pour changer le fond sonore d'un message, est d'utiliser les capacités stéréophoniques des formats des fichiers sonores. Une piste, par exemple la droite, comporte une musique, l'autre piste, ici la gauche, comporte le message vocal. Les dispositifs de restitution étant monophoniques, ils restituent les deux pistes en une seule mélangeant les deux.

[0010] L'inconvénient de cette solution est que :

Soit la voix est trop faible et donc le message inaudible même avec une concentration accrue,

Soit la voix est trop forte ce qui peut provoquer des saturations,

Soit la musique est trop faible et donc inaudible ce qui induit une impression générale négative. EXPOSE DE L'INVENTION

[0011] L'invention vise à remédier à tout ou partie des inconvénients de l'état de la technique identifiés ci-dessus, et notamment à proposer des moyens pour permettre de produire un fichier sonore dans lequel un message vocal se mêle harmonieusement à un fond musical tout en permettant une audition claire du message vocal.

[0012] Dans ce dessein, un aspect de l'invention se rapporte à un procédé de production, par un dispositif de traitement, d'un fichier sonore caractérisé en ce qu'il comporte les étapes suivantes :

acquisition d'un premier fichier musical,

- acquisition d'un deuxième fichier vocal,

acquisition d'un fichier de placements

production d'un troisième fichier musical et d'un quatrième fichier musical à partir du premier fichier musical, la puissance du troisième fichier musical et la puissance du quatrième fichier musical correspondant à des fractions de la puissance du premier fichier musical

mixage des deuxième fichier, troisième fichier et quatrième fichier :

le troisième fichier et le quatrième fichier commencent simultanément

le deuxième fichier commence selon un paramètre de placement lu dans le fichier de placements à une première date égale au paramètre de placement moins une valeur prédéterminée on applique un fondu à la fermeture pour couper progressivement la puissance du troisième fichier durant un intervalle de fondu allant de la première date à la valeur du paramètre de placement, à la fin du deuxième fichier on applique un fondu à l'ouverture pour restaurer progressivement la puissance du troisième fichier depuis la fin du deuxième fichier et sur une durée sensiblement égale à celle du fondu en ouverture.

[ 0013 ] Outre les caractéristiques principales qui viennent d'être mentionnées dans le paragraphe précédent, le procédé selon l'invention peut présenter une ou plusieurs caractéristiques complémentaires parmi les suivantes, considérées individuellement ou selon les combinaisons techniquement possibles:

le fichier de placements comporte au moins une date de départ du fichier vocal relativement à une date de départ du fichier sonore produit, cette date est aussi appelée paramètre de placement dans la mesure ou elle contribue à placer un fichier dans le fichier final;

les dates et paramètres ont une précision au centième de seconde ; les dates et paramètres ont une précision au millième de seconde ; la puissance du troisième fichier musical correspond à 40 à 50 pour cent de la puissance du premier fichier musical ;

la puissance du troisième fichier musical correspond à 50 à 60 pour cent de la puissance du premier fichier musical ;

l'intervalle de fondu est sensiblement égal à une demi-seconde ;

l'intervalle de fondu est sensiblement égal à une seconde. [0014] L'invention se rapporte également à un dispositif de stockage numérique comportant un fichier correspondant à des codes instructions de mise en œuvre d'un procédé selon l'une combinaison possible des caractéristiques précédentes.

[0015] L'invention se rapporte également à un dispositif de mise en œuvre d'un procédé selon une combinaison possible des caractéristiques précédentes

BREVE DESCRIPTION DES FIGURES

[0016] D'autres caractéristiques et avantages de l'invention ressortiront à la lecture de la description qui suit, en référence aux figures annexées, qui illustrent :

la figure 1 , une illustration d'un dispositif de mise en œuvre du procédé selon l'invention ;

la figure 2, une illustration de la répartition des puissances des différents fichiers dans le fichier sonore final ;

- la figure 3, une illustration d'étapes du procédé selon l'invention.

[0017] Pour plus de clarté, les éléments identiques ou similaires sont repérés par des signes de référence identiques sur l'ensemble des figures.

[0018] L'invention sera mieux comprise à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent. Celles-ci sont présentées à titre indicatif et nullement limitatives de l'invention.

DESCRIPTION DETAILLEE D'UN MODE DE REALISATION

[0019] La figure 1 montre un dispositif 100 de traitement. Le dispositif de traitement comporte :

- un microprocesseur 1 10 ;

des moyens de stockage 120, par exemple un disque dur qu'il soit local ou distant, qu'il soit simple ou en grille (par exemple RAID) ; une interface 130 de communication, par exemple une carte de communication selon le protocole Ethernet. D'autres protocoles sont envisageables comme « Fibre Channel » ou InfiniBand.

[0020] Le microprocesseur 1 10 du dispositif de stockage, les moyens 120 de stockage du dispositif de traitement et l'interface 130 de communication du dispositif de traitement sont interconnectés par un bus 150. [ 0021] Lorsque l'on prête une action à un dispositif celle-ci est en fait effectuée par un microprocesseur du dispositif commandé par des codes instructions enregistrés dans une mémoire du dispositif. Si l'on prête une action à une application, celle-ci est en fait effectuée par un microprocesseur du dispositif dans une mémoire duquel les codes instructions correspondant à l'application sont enregistrés. Lorsqu'un dispositif, ou une application émet un message, ce message est émis via une interface de communication dudit dispositif ou de la dite application.

[ 0022 ] La figure 1 montre que les moyens 120 de stockage du dispositif 100 de traitement comportent :

une zone 120.1 de mixage comportant des codes instructions correspondant à une mise en œuvre du procédé selon l'invention ;

une zone 120.2 correspondant à un premier fichier musical ; une zone 120.3 correspondant à un deuxième fichier vocal ; - une zone 120.4 correspondant à un fichier de paramètres de placements, aussi appelé fichier de placements.

[ 0023 ] On ne représente ici que des zones directement utiles pour l'invention. On omet aussi volontairement de décrire une mémoire de travail sa présence étant une évidence. On note ici que tout ou partie des fichiers parmi le premier fichier musical, le deuxième fichier vocal et le fichier de placements peuvent n'être présents qu'en mémoire de travail.

[ 0024 ] La figure 3 montre une étape 301 d'acquisition d'un premier fichier musical. Dans cette demande on entend par acquisition le fait de préciser à un programme mettant en œuvre le procédé selon l'invention comment il peut accéder audit fichier. On parle aussi de désigner audit programme ledit fichier. Il s'agit donc de passer des paramètres à un programme.

[ 0025] Pour cette description, sauf stipulation contraire, les étapes de procédé décrite sont mise en œuvre par le dispositif 100 de traitement.

[ 0026 ] Des modes de désignation classique sont, par exemple :

- un fichier de configuration, ici cela peut être le fichier de placements ; un paramètre en ligne de commande.

[ 0027 ] Dans un exemple le premier fichier musical est enregistré sur les moyens de stockage du dispositif de traitement. La désignation du fichier se fait par la précision d'un chemin d'accès sur les moyens de stockages. Un tel chemin a, par exemple la syntaxe suivante :

[protocole:/ ][chemin]/[nom du fichier]

[ 0028 ] Dans cette syntaxe générale, protocole peut prendre les valeurs parmi au moins la liste formée de : file, http, https, ftp, smb... Cette liste n'est pas exhaustive. On aura reconnu ici une version simplifiée d'un Localisateur Universel de Ressource ou URL. Cela permet surtout d'illustrer que la mise en œuvre de l'invention n'est pas limitée par la localisation des fichiers, ni par le mode d'accès aux fichiers.

[ 0029 ] La figure 3 montre une étape 302 d'acquisition d'un deuxième fichier vocal. L'étape 302 d'acquisition du deuxième fichier est identique à l'étape 301 d'acquisition du premier fichier.

[ 0030 ] Les premier et deuxième fichiers diffèrent par leurs destinations. Dans cette description le premier fichier est destiné à être un fond sonore, le deuxième fichier est destiné à être le message. Pour ces raisons, on qualifie le premier fichier de musical car la plupart du temps il contiendra une musique. Ici par musical on entend toute forme de musique, y compris des musiques comportant des paroles, donc des données vocales, chantées ou non. Pour ces raisons encore, on qualifie le deuxième fichier de vocal car le deuxième fichier est destiné à contenir un message vocal et uniquement un message vocal, c'est-à-dire à ne pas contenir de musique. Un tel fichier est un enregistrement d'un comédien, un enregistrement d'une voix personnelle, ou un fichier issu d'un logiciel de texte vers voix (aussi connu sous le nom de Text To Speech)

[ 0031] La figure 3 montre une étape 303 d'acquisition d'un fichier de placements. Cette étape est identique aux autres étapes d'acquisition.

[ 0032 ] Un fichier de placements est un fichier structuré qui comporte des informations relatives au placement du fichier vocal dans le fichier sonore final. Un tel placement s'exprime, par une date relative au début du fichier sonore final. Une telle date relative s'exprime, dans une variante préférée avec une précision à la milliseconde. Dans une autre variante la précision peut être le centième de seconde mais alors le rendu final sera de moins bonne qualité.

[ 0033 ] Dans cette description, lorsque l'on parle d'une précision pour un paramètre cela signifie que non seulement le paramètre est exprimé avec cette précision, mais également qu'il est exploité avec cette précision, c'est-à-dire que, pour un paramètre à la milliseconde, la synchronisation se fait à plus ou moins une milliseconde. A contrario une synchronisation à la seconde se fait à plus ou moins une seconde. C'est-à-dire qu'avec une synchronisation à la seconde le troisième fichier musical et le quatrième fichier musical pourraient être en décalage de deux secondes.

[ 0034 ] Un fichier de placements comporte donc, par exemple, au moins une ligne ayant la structure suivante :

[désignation du deuxième fichier][séparateur][date relative]

[ 0035] La [date relative] permet de placer le [deuxième fichier] dans le fichier à produire.

[ 0036 ] Dans cette structure le séparateur est classiquement un ;, une tabulation ou un autre caractère. On comprendra que la structuration peut également se faire par l'utilisation d'un format hiérarchique comme par exemple XML ou JSON.

[ 0037 ] En ajoutant un niveau de structuration il est également possible de définir un type. On a alors un fichier de placements comme suit :

[type1 ];[désignation du premier fichier]

[type2];[désignation du deuxième fichier]; [date relative]

[type2];[désignation d'un second deuxième fichier]; [date relative]

[ 0038 ] Dans cet exemple, typel est un code qui permet de désigner la ligne, ou d'une manière plus général l'enregistrement, comme étant la désignation d'un premier fichier musical. Dans cet exemple, type2 est un code qui permet de désigner la ligne, ou d'une manière plus général l'enregistrement, comme étant la désignation d'un deuxième fichier vocal. Cette structuration n'est pas limitée à deux valeurs de codes, on peut l'étendre au besoin, par exemple avec un code pour désigner le nom du fichier sonore à produire, et/ou un code pour désigner la durée d'un fondu. On parle aussi d'un intervalle de fondu pour désigner cette durée.

[ 0039 ] Dans cet exemple on a deux lignes dont le code vaut type 2. Cela illustre le fait qu'avec l'invention il est possible de traiter plusieurs fichiers vocaux pour les intégrer dans un fichier sonore final. [ 0040 ] La figure 3 montre une étape 310 dans laquelle on produit un troisième fichier 210 musical et un quatrième fichier 220 musical. Le troisième fichier musical et le quatrième fichier musical sont des atténuations du premier fichier musical. C'est-à-dire que le troisième fichier musical correspond à x% de la puissance du premier fichier musical et le quatrième fichier musical correspond à y% de la puissance du premier fichier musical. X et y désigne des fractions, ou parties, du premier fichier musical. On a en général x + y = 100. Cependant cette règle est à adapter en fonction de l'atténuation initiale du premier fichier musical. En effet si ce premier fichier musical est atténué, il faut en augmenter le puissance, et cela est faisable en ayant x + y supérieur à 100. On applique le même raisonnement s'il faut atténuer la puissance du premier fichier musical, à savoir que l'on peut avoir x + y < 100. En d'autres termes le mixage simple des troisième et quatrième fichiers permettrait d'obtenir une copie du premier fichier musical avec une puissance d'écoute convenable. Dans une variante préférée, les troisième et quatrième fichiers sont présents uniquement en mémoire de travail. Le procédé selon l'invention est également valable si on enregistre ces fichiers sur les moyens de stockage du dispositif de traitement.

[ 0041] Le troisième fichier musical et le quatrième fichier musical sont des copies du premier fichier musical à une atténuation près.

[ 0042 ] Dans cette description on entend par puissance, la puissance sonore aussi appelée volume.

[ 0043 ] Dans une variante préférée x vaut 40 donc y 60. Dans une autre variante x vaut 60 donc y vaut 40. x peut ainsi varier de 40 à 60 avec un rendu final satisfaisant.

[ 0044 ] Un principe de l'invention, qui est de diviser le premier fichier musical en deux fichiers musicaux, reste valable quelques soient les valeurs de x et y. On ne fait ici que décrire les valeurs les plus à même de produire un résultat ayant le meilleur rendu possible.

[ 0045] La figure 3 montre une étape 320 de mixage produisant un fichier sonore final. Dans l'étape 320 de mixage on effectue les opérations suivantes :

lancement 321 simultané des troisième et quatrième fichiers ; a une date dO, issue du fichier de placement, création (322) d'un fondu en fermeture sur le troisième fichier musical et sur une durée de fondu pf, la puissance du troisième fichier musical passe donc de x à 0. La date dO est égale à une date lue dans le fichier de placements moins la durée du fondu. La date lue est la date relative à laquelle doit commencer le message vocal ;

- à une date dO + pf, lancement (323) du premier deuxième fichier vocal ; à la fin du deuxième fichier vocal, création d'un fondu en ouverture sur le troisième fichier musical et sur une période pf, la puissance du troisième fichier musical passe donc de 0 à x.

[ 0046 ] La simultanéité est à la précision des paramètres et dates près. Par exemple, dans une variante dans laquelle on donne des paramètres à la milliseconde, la synchronisation se fera à la milliseconde.

[ 0047 ] La valeur de la durée de fondu est prédéterminée ou obtenue via un paramétrage. Un tel paramétrage se fait par un commutateur de ligne de commande ou par le fichier de placements. Dans une variante préférée, la durée du fondu est sensiblement égale à une demi-seconde.

[ 0048 ] Dans la présente demande on entend par sensiblement plus ou moins dix pour cent.

[ 0049 ] Dans une autre variante de l'invention la durée du fondu est sensiblement égale à une seconde. Dans d'autres variantes la durée du fondu est comprise entre une demi-seconde et deux secondes.

[ 0050 ] Le mixage se termine à une date relative prédéterminée. Cette date est relative par rapport à la date de lancement des troisième et quatrième fichiers. Il s'agit de la durée du message sonore à produire. Dans la pratique cette durée est supérieure à la durée du deuxième message vocal et inférieure ou égale à la durée du premier fichier musical. Cette durée est prédéterminée, c'est-à-dire déterminée avant le lancement du procédé décrit. Dans la pratique cette durée est soit obtenue par un paramètre de ligne de commande, soit par le fichier de placements, soit par une valeur par défaut.

[ 0051] A la fin de l'étape de mixage le résultat du mixage est un fichier sonore comportant un fond sonore musical s'atténuant progressivement avant la diffusion du message vocal et persistant à un volume atténué durant la diffusion du message. La puissance du fond sonore est à nouveau augmentée progressivement à la fin du message vocal. [ 0052 ] Avec le procédé décrit il est possible d'automatiser la production d'un fichier sonore. Le fichier sonore ainsi produit est apte à être utilisé sur des serveurs vocaux, et plus généralement par tout type de dispositif de diffusion de messages. Il est en effet simple de modifier la désignation du premier fichier musical pour obtenir un nouveau message sonore avec un fond musical correspondant. Les étapes du procédé selon l'invention peuvent donc être exécutées de manière automatique par une application comme par exemple un site web. Un utilisateur d'un tel site web peut alors lui-même adapter un message vocal en changeant le fond sonore et obtenir un résultat professionnel, c'est-à-dire le meilleur rendu possible.

[ 0053 ] Avec le procédé décrit il est également possible de produire un fichier sonore comportant plusieurs messages vocaux. Il suffit de spécifier autant de deuxième fichier vocal qu'il le faut avec leurs dates de départ relatives correspondantes.

[ 0054 ] Avec le procédé décrit il est aussi possible de prévoir une répétition du message vocal, c'est-à-dire de mixer plusieurs fois le deuxième fichier vocal. On note que dans la pratique, un serveur vocal est déjà pourvu d'une option de répétition d'un message sonore.