Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
TRANSAURAL SYNTHESIS METHOD FOR SOUND SPATIALIZATION
Document Type and Number:
WIPO Patent Application WO/2013/121136
Kind Code:
A1
Abstract:
The present invention relates to a method for producing a digital spatialized stereo audio file from an original multichannel audio file, characterized in that it comprises: a step of performing a processing on each of the channels for cross-talk cancelation; a step of merging the channels in order to produce a stereo signal; and a dynamic filtering and specific equalization step for increasing the sound dynamics.

Inventors:
ROSSET FRANCK (BE)
HAURAIS JEAN-LUC (FR)
Application Number:
PCT/FR2013/050278
Publication Date:
August 22, 2013
Filing Date:
February 11, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ROSSET FRANCK (BE)
HAURAIS JEAN-LUC (FR)
International Classes:
H04S3/00
Foreign References:
MX2008011994A2008-11-27
EP1545154A22005-06-22
US20070011025A12007-01-11
Other References:
PLOGSTIES J ET AL: "MPEG Sorround binaural rendering - Sorround sound for mobile devices (Binaurale Wiedergabe mit MPEG Sorround - Sorround sound fuer mobile Geraete)", TONMEISTERTAGUNG. INTERNATIONALER KONGRESS, XX, XX, no. 24th, November 2006 (2006-11-01), pages 1 - 19, XP007902572
Attorney, Agent or Firm:
FIDAL INNOVATION (FR)
Download PDF:
Claims:
Revendications

1 — Procédé pour la production d'un fichier numérique audio stéréo spatialisé à partir d'un fichier audio multicanal originel, caractérisé en ce qu'il comporte :

• une étape de traitement, sur chacun des canaux, pour la suppression des trajets croisés (cross talk cancelation)

• une étape de fusion des canaux pour construite un signal stéréo

· une étape de filtrage dynamique et d'équalisation spécifique pour l'augmentation de la dynamique du son.

2 — Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la revendication principale caractérisé en ce que l'étape de suppression des trajets croisés consiste à ajouter au signal de chacun des canaux un signal correspondant au signal déphasé et pondéré des autres canaux. 3 — Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la revendication principale caractérisé en ce que le signal originel est un signal multicanal 5.n natif. 4 — Procédé pour la production d'un fichier numérique audio stéréo spatialisé selon la revendication principale caractérisé en ce que le signal originel est un signal multicanal 5.n natif calculé à partir d'un signal stéréo.

Description:
PROCÉDÉ DE SYNTHÈSE TRANSAURALE POUR LA SPATIALISATION SONORE

Domaine de 1 ' invention La présente invention concerne le domaine de la spatialisation sonore, dite rendu spacialisé, de signaux audio, intégrant en particulier un effet de salle, notamment dans le domaine des techniques transaurales. Le terme " binaural " vise la restitution sur un casque stéréophonique, ou une paire d'écouteurs ou encore une paire d'enceintes, d'un signal sonore avec néanmoins des effets de spatialisation. L'invention ne se limite toutefois pas à la technique précitée et s'applique, notamment, à des techniques dérivées du "binaural" telles que les techniques de restitution "transaurale" (nom commercial), c'est-à-dire sur des hauts parleurs distants, installés par exemple dans une salle de concert ou de cinéma avec un système sonore multipoint .

Une application spécifique de l'invention est, par exemple, l'enrichissement des contenus audio diffusé par une paire d'enceintes afin de plonger un auditeur dans une scène sonore spatialisée, incluant en particulier un effet de salle ou d'espace extérieur.

Etat de la technique

Pour la mise en oeuvre des techniques "binaurales" sur casque ou haut-parleurs, on définit dans l'état de la technique une fonction de transfert, ou filtre, d'un signal sonore entre une position d'une source sonore dans l'espace et les deux oreilles d'un auditeur. La fonction de transfert acoustique de la tête précitée est désignée HRTF pour "IHead Related Transfer Function" en anglais dans sa forme fréquentielle et HRIR pour "JHead Related Impulse Response" en anglais dans sa forme temporelle. Pour une direction de l'espace, on obtient au final deux HRTF : une pour l'oreille droite et une pour l'oreille gauche.

En particulier, la technique binaurale consiste à appliquer de telles fonctions de transfert acoustique de la tête à des signaux audio monophoniques, afin d'obtenir un signal stéréophonique qui permet, lors d'une écoute au casque, d'avoir la sensation que les sources sonores proviennent d'une direction particulière de l'espace. Le signal de l'oreille droite est obtenu en filtrant le signal monophonique par la HRTF de l'oreille droite et le signal de l'oreille gauche est obtenu en filtrant ce même signal monophonique par la HRTF de l'oreille gauche.

Lorsque, dans le rendu spatial, l'on prend en compte le fait, pour l'auditeur, de percevoir les sources sonores plus ou moins éloignées de la tête, phénomène connu sous le nom d ' externalisation, et ce de manière indépendante de la direction de provenance des sources sonores, il arrive fréquemment, dans un rendu 3D binaural, que les sources soient perçues à l'intérieur de la tête par l'auditeur. La source ainsi perçue est dite non externalisée .

Différents travaux ont montré que l'ajout d'un effet de salle dans les méthodes de rendu 3D binaurales permet d'augmenter considérablement 1 ' externalisation des sources sonores .

On connaît dans l'état de la technique la demande de brevet US 2007/011025A décrivant un procédé de spatialisation de son comportant une étape de détermination d'une matrice acoustique pour un ensemble réel de sources sonores à un emplacement réel et une étape de calcul d'une matrice acoustique pour la transmission d'un signal acoustique d'un ensemble de sources sonores apparentes, à des emplacement différents des emplacements réels de l'auditeur. La méthode inclut plus loin une étape de résolution d'une matrice de fonction de transfert pour présenter à l'auditeur signal audio créant une image audio de son émanant la source apparente. Inconvénients de l'art antérieur

Les solutions de l'art antérieur sont figés et ne permettent pas de choisir une ambiance spatiale parmi plusieurs ambiances possibles. Elles sont généralement basées sur une matrice de transformation calculée à partir d'une tête virtuelle .

Les solutions de l'art antérieur ne permettent généralement pas une impression d'externalisation de l'environnement sonore.

Solution apportée par l'invention

Les salles physiques et enceintes physiques permettent de calculer les filtres qui seront utilisés pour générer les multicanaux.

Description détaillée d'un exemple de réalisation non limitatif La présente invention sera mieux comprise à la lecture de la description qui suit, faisant référence aux dessins annexés où :

- la figure 1 représente un schéma de principe général de l'installation destiné à la phase de construire de la base de données de signaux impulsionnelle

- la figure 2 représente une vue schématique de l'installation pour l'acquisition des signaux impulsionnels

- la figure 3 représente un schéma de principe de l'installation d'écoute. Le procédé selon l'invention comporte un premier traitement (1) consistant à produire une base de données de signaux impulsionnels à partir de l'acquisition de signaux acoustiques dans une pluralité d'espaces physiques, par

l'enregistrement des signaux produits par des enceintes

acoustiques en réponse à un signal multifréquence de référence.

Ensuite, pour chaque séquence audio à spatialiser, le procédé consiste à appliquer une succession de

traitements :

- lorsque le signal à spatialiser est un signal stéréo, le procédé comporte une étape préliminaire (2) de construction d'un signal N.i à partir du signal stéréo

- une étape (3) de transformation du signal de chacun des N.i canaux à partir de l'un des fichiers de réponse impulsionnel sélectionné dans la base de données susvisée

- une étape (4) de recombinaison des signaux des N.i canaux ainsi transformés pour construire un signal stéréo spatialisé .

Ce signal stéréo pourra ensuite être diffusé par un couple d'enceintes acoustiques standard, pour restituer une ambiance sonore spatialisée correspondant à l'espace qui a servi à la production des signaux de réponse impulsionnel ou à une combinaison de tels espaces. Etape initiale de construction de la base de

réponses impulsionnelles.

Cette étape est répliquée une pluralité de fois.

Elle est illustrée par la figure 2.

Elle consiste, pour chaque série de réponses

impulsionnelles, à disposer dans un espace physique tel qu'une salle de concert, un lieu ouvert ou fermé, un local donnée, une série d'enceintes acoustiques (5 à 11 ; 17) connues, associées à un amplificateur (14), de préférence de qualité reconnue, ainsi qu'un couple de microphone (12, 13) dont la position par rapport à la série d'enceintes (5 à 11 ; 17) est figée pour la série en cours d'acquisition.

On applique ensuite successivement à chacune des enceintes (5 à 11) un signal multifréquence d'origine à l'aide de l'amplificateur (14). Ce signal d'origine est par exemple une séquence d'une durée comprise entre 10 et 90 secondes, avec une variation fréquentielle dans le spectre sonore. Ce signal est par exemple une variation linéaire entre 20Hz et 20 Khz, ou encore un signal quelconque couvrant l'ensemble du spectre de l'enceinte.

Le signal sonore produit par l'enceinte active est capté par le couple de microphone (12, 13) et produit un signal stéréo enregistré. A partir de ce signal on procède à un échantillonnage à 96 Khz de manière connue et à une

déconvolution par transformée de Fourier rapide entre le signal d'origine et le signal enregistré, pour construire une réponse impulsionnelle pour l'enceinte considérée dans

l'espace physique considéré.

On reproduit cette étape pour chacune des enceintes (5 à 11) de la série, puis pour différents espaces physiques où on réimplante une série d'enceintes, identiques ou

différentes, avec un amplificateur identique ou différent et des microphones identiques.

Cette première étape conduit à la construction d'une base de données de réponses impulsionnelles stéréo.

Etape de préparation d'un signal spatialisé

Cette étape permet de construire un signal audio stéréo spatialisé à partir d'un signal multicanaux N.i

correspondant à un enregistrement numérique traditionnel.

Cette étape consiste à sélectionner dans la base de données constituée lors de l'étape initiale N+i réponses impulsionnelles . La sélection va consister à associer à chacun des N+1 signaux l'une des réponses impulsionnelles de ladite base de données, en veillant à ce que la position d'acquisition dans l'espace de la réponse impulsionnelle correspond à la position dans l'espace du canal auquel elle est associée.

Pour chaque couple «signal mono/réponse impulsionnel stéréo», on applique un traitement de convolution pour calculer une coupe de signaux spatialisé stéréo S sG et S sD .

On produit ainsi N+i couples de j signaux

spatialisés S 3 sG et S 3 sD , avec J compris entre 1 et N+i.

Par exemple, si l'enregistrement de départ était de type 5.1, on va construire 6 couples de signaux spatialisés.

Optionnellement , on procède à une égalisation des canaux pour améliorer la dynamique des j signaux.

Construction du signal stéréo spatialisé

L'étape finale consiste à recombiner les j signaux pour construire un couple de signaux droit et gauche

spatialisé.

Pour cela, on additionne les j signaux S 3 sG

correspondant à l'espace situé à gauche, pour construire la voie gauche du signal stéréo spatialisé. On procède de même pour les j signaux S 3 sD correspondant à l'espace situé à droite, pour construire la voie droite du signal stéréo spatialisé.

Optionnellement, on procède à une égalisation des canaux pour améliorer la dynamique des deux voies. Cas d'un signal de départ stéréo ; augmentation du nombre de canaux et création de canaux intermédiaires

Lorsque le signal à spatialiser n'est pas de type N.i mais simplement un signal stéréo, on procède à une étape intermédiaire consistant à construire un signal N.i par des traitements d'extraction par phase entre la piste gauche et droite, pour construire différents signaux nouveaux.

Cette extraction par phase consiste à produire un signal correspondant à une voie centrale reconstruite, par un traitement consistant à additionner le signal de la voie gauche avec un signal de la voie droite déphasée, par exemple en opposition de phase.

Pour créer les autres voies « reconstruites » , on procède à des déphasages des pistes gauche et droite, avec des angles de déphasage différents, et on additionne les couples de signaux déphasés, avec des pondérations déterminées

empiriquement afin de restituer une ambiance sonore

spacialisée .

On applique de surcroit des filtres fréquentiels sur les signaux droit et gauche, lors de la créations de canaux « reconstruits », afin d'augmenter la dynamique du signal et conserver une qualité de haute fidélité du son. Restitution du signal

La figure 3 représente une vue schématique de l'installation de restitution, à partir d'une paire d'enceintes réelles (17, 18).

Ce couple d'enceintes (17, 18) reçoit un signal permettant de simulé des enceintes calculées (20 à 27 et 30 à 37) .

Le nombre effectif d'enceintes calculées (20 à 27) correspond au nombre d'enceintes physiques (5 à 11 ; 17) utilisés pour la production de la base de données de signaux impulsionnels, ou au nombre d'enceintes virtuelles reconstruites selon le procédé susvisé.

On crée en outre des enceintes virtuelles (30 à 37) produisant une perception dans l'espace sonore d'une combinaison des enceintes réelles voisines, afin de combler les trous sonores.

Ces enceintes virtuelles sont créées par une modification du signal alimentant les enceintes réelles voisines.

On produit ainsi quinze fichiers sonores, 8 (7.1) correspondant au traitement à partir des signaux impulsionnels, et 7 calculés par une combinaisons de ces quinze fichiers.

On répartie les signaux en fonction de leur composante droite, gauche ou centrale pour produire un signal gauche (17) destiné à l'enceinte gauche, et un signal droit destiné à l'enceinte droite (18) :

- le signal « droite» correspond à l'addition des signaux « droite «calculés (21, 22, 23) et des signaux « droite » virtuels (30, 31, 32), ainsi que les signaux « centraux » calculé (20, 27) et virtuel (33) avec une pondération de l'amplitude de 50%

- le signal « gauche » correspond à l'addition des signaux calculés gauche (24, 25, 26) et des signaux virtuels gauche (34, 35, 36), ainsi que les signaux centraux calculé (20, 27) et virtuel (33) avec une pondération de l'amplitude de 50%.

Ce signal stéréo est ensuite appliqué à un équipement audio classique, raccordé à une paire d'enceintes (18, 19), qui reproduiront une ambiance sonore spatialisée correspondant à l'ambiance sonore de l'installation qui a servi à la construction de la base de signaux impulsionnels, ou à une ambiance sonore virtuelle correspondant à la combinaison de plusieurs ambiances originelles, le cas échéant enrichie avec des ambiances virtuelles.