Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR CALCULATING A MEASUREMENT OF SIMILARITY BETWEEN A REPRESENTATION OF A REFERENCE AUDIO SEGMENT AND A REPRESENTATION OF AN AUDIO SEGMENT TO BE TESTED, AND METHOD AND DEVICE FOR TRACKING A REFERENCE SPEAKER
Document Type and Number:
WIPO Patent Application WO/2007/051940
Kind Code:
A1
Abstract:
The invention relates to a method for calculating a measurement of similarity between a representation of a reference audio segment and a representation of an audio segment to be tested, the audio segment to be tested belonging to a class comprising a number of audio segments, the measurement of similarity being obtained from basic measurements of similarity between the reference segment and each of the segments of said class. The method comprises the following steps: determining a weighting factor for each of the segments of said class; attributing the determined weighting factor to the basic measurement of similarity of the corresponding segment, and; obtaining the measurement of similarity from basic measurements of similarity thus weighted. The invention also relates to the use of this method for calculating a measure of similarity in a speaker tracking method. Lastly, the invention relates to devices for carrying out the respective methods.

Inventors:
COLLET MIKAEL (FR)
CHARLET DELPHINE (FR)
Application Number:
PCT/FR2006/051105
Publication Date:
May 10, 2007
Filing Date:
October 25, 2006
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FRANCE TELECOM (FR)
COLLET MIKAEL (FR)
CHARLET DELPHINE (FR)
International Classes:
G10L15/10; G10L17/00; G10L17/08
Foreign References:
EP0559415A21993-09-08
Other References:
LIN H ET AL: "A weighted minimum distance classifier for pattern recognition", ELECTRICAL AND COMPUTER ENGINEERING, 1993. CANADIAN CONFERENCE ON VANCOUVER, BC, CANADA 14-17 SEPT. 1993, NEW YORK, NY, USA,IEEE, 14 September 1993 (1993-09-14), pages 904 - 907, XP010118157, ISBN: 0-7803-1443-3
COLLET M ET AL: "A Correlation Metric for Speaker Tracking Using Anchor Models", ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 2005. PROCEEDINGS. (ICASSP '05). IEEE INTERNATIONAL CONFERENCE ON PHILADELPHIA, PENNSYLVANIA, USA MARCH 18-23, 2005, PISCATAWAY, NJ, USA,IEEE, 18 March 2005 (2005-03-18), pages 713 - 716, XP010792137, ISBN: 0-7803-8874-7
Attorney, Agent or Firm:
FROGER, Marie-Hélène (38-40 rue du Général Leclerc, Issy Les Moulineaux, FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé de calcul d'une mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio, la mesure de similarité étant obtenue à partir de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe, caractérisé en ce qu'il comporte les étapes suivantes: détermination d'un facteur de pondération pour chacun des segments de ladite classe; attribution du facteur de pondération déterminé, à la mesure de similarité élémentaire du segment correspondant; et - obtention de la mesure de similarité à partir des mesures de similarité élémentaires ainsi pondérées.

2. Procédé selon la revendication 1, caractérisé en ce que le facteur de pondération pour un segment donné de ladite classe est représentatif d'une mesure de similarité dite intraclasse entre une représentation du segment audio à tester et une représentation dudit segment.

3. Procédé selon la revendication 2, caractérisé en ce que le facteur de pondération est de faible valeur lorsque la mesure de similarité intraclasse est faible et élevée dans le cas contraire.

4. Procédé selon la revendication 2 ou 3, caractérisé en ce que la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul de mesure de similarité différente de celle utilisée pour le calcul de mesure de similarité élémentaire.

5. Procédé selon la revendication 2 ou 3, caractérisé en ce que la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul

de mesure de similarité identique à celle utilisée pour le calcul de mesure de similarité élémentaire.

6. Procédé selon l'une des revendications 1 à 5, caractérisé en ce que le segment de référence appartient à une classe de référence comportant une pluralité de segments audio de référence et en ce qu'il comporte en outre une étape d'attribution d'un second facteur de pondération pour chacun des segments de référence de la classe de référence.

7. Procédé selon la revendication 6, caractérisé en ce que le second facteur de pondération pour un segment de référence donné, est fonction d'une mesure de similarité entre une représentation d'un segment de référence courant et une représentation dudit segment de référence donné, les segments appartenants à la classe de référence.

8. Procédé de suivi d'un locuteur de référence dans un document audio, caractérisé en ce qu'il comporte les étapes suivantes: - segmentation du document à tester en une pluralité de segments audio;

- affectation de chacun des segments issus de l'étape de segmentation à une classe de segments; pour chacun des segments issus de la segmentation:

- calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation du segment courant de la segmentation par la mise en oeuvre d'un procédé conforme à l'une des revendications 1 à 7; et

- décision quant à la reconnaissance du locuteur de référence pour le segment courant par comparaison à un seuil prédéterminé de la mesure de similarité correspondante issue du calcul.

9. Dispositif de calcul de mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio, le dispositif comportant des moyens de calcul de mesures de similarité dites

élémentaires entre le segment de référence et chacun des segments de ladite classe, caractérisé en ce qu'il comporte en outre:

- des moyens de détermination d'un facteur de pondération pour chacun des segments de ladite classe; - des moyens d'attribution du facteur de pondération issu des moyens de détermination à la mesure de similarité élémentaire du segment correspondant; et

- des moyens d'obtention de la mesure de similarité à partir des mesures de similarité élémentaires pondérées. 10. Dispositif selon la revendication 9, caractérisé en ce qu'il comporte en outre des moyens de calcul de mesure de similarité dite intraclasse entre le segment audio à tester et chacun des segments de ladite classe.

11. Dispositif de suivi d'un locuteur de référence dans un document audio, caractérisé en ce qu'il comporte: - des moyens de segmentation du document à tester en une pluralité de segments audio;

- des moyens d'affectation de chacun des segments provenant des moyens de segmentation à une classe de segments;

- un dispositif de calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation d'un segment provenant des moyens de segmentation, conforme à l'une des revendications 9 à 10, le dispositif étant appliqué à chacun des segments provenant des moyens de segmentation; et

- des moyens de décision quant à la reconnaissance du locuteur de référence appliqués à chacun des segments provenant des moyens de segmentation, comportant des moyens de comparaison à un seuil prédéterminé de la mesure de similarité correspondante provenant du dispositif de calcul de mesure de similarité.

12. Programme d'ordinateur comportant des instructions de programme adaptées à la mise en œuvre d'un procédé de calcul de mesure de similarité selon l'une quelconque des revendications 1 à 7 et/ou d'un procédé de suivi de locuteur

selon la revendication 8, lorsque le dit programme est chargé et exécuté dans un système informatique.

Description:

Procédé et dispositif de calcul de mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester et procédé et dispositif de suivi d'un locuteur de référence

La présente invention se rapporte un procédé de calcul de mesure de similarité entre un segment audio de référence et un segment audio à tester notamment lors d'une application dans un procédé de suivi d'un locuteur de référence dans un document audio.

Pour comparer et mesurer des similarités entre segments audio, plusieurs techniques existent. On peut par exemple calculer une mesure de similarité entre deux représentations de segments de parole X et Y en utilisant une modélisation par les modèles d'ancrage comme explicité dans le document de D,Sturim; D,Reynolds; E,Singer et J,Campbell intitulé "speaker indexing in large audio databases using anchor models" (ICASSP2001, pages 429-432). Dans ce type de calcul, la confiance apportée à la mesure de similarité est d'autant plus faible que les segments X et Y sont courts.

Pour pallier à ces inconvénients et augmenter la fiabilité d'une mesure de similarité sur un segment X qui peut être court, il est connu de répertorier les segments audio Yj provenant par exemple d'un même document audio, en classes de segments, chaque classe regroupant des segments Yk les plus proches en terme de similarité. Ces segments proches proviennent de préférence d'un même locuteur.

Ainsi, la mesure de similarité entre une représentation (X ) d'un segment de référence X et une représentation (Y 1 ) d'un segment Yj à tester appartenant à une classe C comportant k segments s'effectue par le calcul d'une moyenne de toutes les mesures de similarité entre X et les représentations des segments Yk de la classe. Ceci est par exemple formulé comme possibilité d'obtention de mesure de distance entre deux segments dans le document intitulé "Speaker tracking in broadcast audio material in the framework of the THISL project" proposé par Couvreur,L et Boite, J.M (Proc.of the ESCA ETRW workshop Accessing Information in Spoken audio, pages 84-89, 1999). Ce document décrit également un moyen de construire de telles

classes et de répertorier de façon automatique les segments audio, issus par exemple d'un document audio, dans leur classe respective.

Un inconvénient d'une telle technique est que ce type de construction automatique de classe de segments engendre des regroupements de segments non homogènes provenant par exemple de locuteurs différents. Un calcul de mesure de similarité basé sur l'utilisation de telles classes, comme mentionné précédemment, sera alors imprécis. La non homogénéité des segments d'une même classe a en effet une influence non négligeable sur le calcul d'une mesure de similarité d'un élément de cette classe. L'invention a pour but de pallier à ces inconvénients en proposant un procédé de calcul de mesure de similarité qui utilise les avantages d'un calcul basé sur l'utilisation de classes de segments tout en limitant l'influence de la non homogénéité des segments au sein d'une classe.

A cet effet, l'invention propose un procédé de calcul d'une mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio, la mesure de similarité étant obtenue à partir de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe. Le procédé selon l'invention comporte les étapes suivantes: détermination d'un facteur de pondération pour chacun des segments de ladite classe; attribution du facteur de pondération déterminé, à la mesure de similarité élémentaire du segment correspondant; et - obtention de la mesure de similarité à partir des mesures de similarité élémentaires ainsi pondérées.

Ainsi, l'attribution d'un facteur de pondération adapté à chaque segment de la classe permet de différencier l'influence des segments sur le calcul de la mesure de similarité entre une représentation d'un segment de référence et une représentation d'un segment à tester appartenant à la classe.

Dans un mode préféré de réalisation, le facteur de pondération pour un segment donné de ladite classe est représentatif d'une mesure de similarité dite intraclasse entre une représentation du segment audio à tester et une représentation dudit segment. Ainsi, l'influence d'un segment de la classe est plus ou moins importante selon que ce segment est proche du segment à tester.

Avantageusement, le facteur de pondération est de faible valeur lorsque la mesure de similarité intraclasse est faible et élevée dans le cas contraire.

Dans un mode particulier de réalisation, la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul de mesure de similarité différente de celle utilisée pour le calcul de mesure de similarité élémentaire.

Ceci a pour avantage d'adapter le calcul de mesure de similarité à l'environnement dans lequel se trouvent les segments et ainsi optimiser le procédé.

Dans un autre mode particulier de réalisation, dans un souci de simplification, la mesure de similarité intraclasse est obtenue par l'application d'une fonction de calcul de mesure de similarité identique à celle utilisée pour le calcul de mesure de similarité élémentaire.

Dans une variante de réalisation, le segment de référence appartient à une classe de référence comportant une pluralité de segments audio de référence et le procédé comporte en outre une étape d'attribution d'un second facteur de pondération pour chacun des segments de référence de la classe de référence.

De manière préférée, le second facteur de pondération pour un segment de référence donné, est fonction d'une mesure de similarité entre une représentation d'un segment de référence courant et une représentation dudit segment de référence donné, les segments appartenants à la classe de référence.

L'invention vise également un procédé de suivi d'un locuteur de référence dans un document audio, qui comporte les étapes suivantes:

- segmentation du document à tester en une pluralité de segments audio;

- affectation de chacun des segments issus de l'étape de segmentation à une classe de segments;

- A -

pour chacun des segments issus de la segmentation:

- calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation du segment courant de la segmentation par la mise en oeuvre d'un procédé tel que décrit précédemment; - décision quant à la reconnaissance du locuteur de référence pour le segment courant par comparaison à un seuil prédéterminé de la mesure de similarité correspondante issue du calcul.

L'utilisation du procédé de calcul de mesure de similarité selon l'invention dans un procédé de suivi de locuteur augmente ainsi la précision du résultat issu de ce procédé de suivi de locuteur.

L'invention vise également un dispositif de calcul de mesure de similarité entre une représentation d'un segment audio de référence et une représentation d'un segment audio à tester, le segment audio à tester appartenant à une classe comportant une pluralité de segments audio. Le dispositif comporte des moyens de calcul de mesures de similarité dites élémentaires entre le segment de référence et chacun des segments de ladite classe, et comporte en outre:

- des moyens de détermination d'un facteur de pondération pour chacun des segments de ladite classe;

- des moyens d'attribution du facteur de pondération issu des moyens de détermination à la mesure de similarité élémentaire du segment correspondant; et

- des moyens d'obtention de la mesure de similarité à partir des mesures de similarité élémentaires pondérées.

L'invention vise aussi un dispositif de suivi d'un locuteur de référence dans un document audio. Ce dispositif comporte:

- des moyens de segmentation du document à tester en une pluralité de segments audio;

- des moyens d'affectation de chacun des segments provenant des moyens de segmentation à une classe de segments;

- un dispositif de calcul de la mesure de similarité entre une représentation d'un segment correspondant au locuteur de référence et une représentation d'un segment provenant des moyens de segmentation, tel que décrit précédemment, le dispositif étant appliqué à chacun des segments provenant des moyens de segmentation;

- des moyens de décision quant à la reconnaissance du locuteur de référence appliqués à chacun des segments provenant des moyens de segmentation, comportant des moyens de comparaison à un seuil prédéterminé de la mesure de similarité correspondante provenant du dispositif de calcul de mesure de similarité. Ces dispositifs mettent en œuvre les procédés de calcul de mesure de similarité et de suivi de locuteur respectivement.

L'invention concerne également un programme d'ordinateur comportant des instructions de programme adaptées à la mise en œuvre d'un procédé de calcul de mesure de similarité selon l'invention tel que décrit précédemment et/ou d'un procédé de suivi de locuteur tel que décrit précédemment, lorsque le dit programme est chargé et exécuté dans un système informatique.

Enfin, l'invention vise un moyen de stockage, éventuellement totalement ou partiellement amovible, lisible par un ordinateur, stockant un jeu d'instructions exécutables par ledit ordinateur pour mettre en œuvre le procédé de mesure de similarité et/ou le procédé de suivi de locuteur selon l'invention.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels: la figure 1 représente un mode de réalisation d'un dispositif mettant en oeuvre l'invention; la figure 2 illustre les principaux éléments constitutifs du dispositif de calcul de mesure de similarité et de suivi de locuteur selon l'invention;

Ia figure 3 représente un organigramme illustrant les principales étapes du procédé de calcul de mesure de similarité selon l'invention; et

La figure 4 représente un organigramme illustrant les principales étapes du procédé de suivi de locuteur selon l'invention.

Selon un mode de réalisation choisi et représenté à la figure 1, un dispositif mettant en oeuvre l'invention est par exemple un micro-ordinateur 10 qui comporte de façon connue, notamment une unité de traitement 12 équipée d'un microprocesseur, une mémoire morte de type ROM 13, une mémoire vive de type RAM 14. Le micro-ordinateur 10 peut comporter de manière classique et non exhaustive les éléments suivants: un clavier, un écran, un microphone, un haut- parleur, une interface de communication, un lecteur de disque, un moyen de stockage... La mémoire morte 13 comporte des registres mémorisant un programme d'ordinateur PGl comportant des instructions de programme adaptées à mettre en oeuvre un procédé de calcul d'une mesure de similarité selon l'invention tel que décrit ultérieurement en référence à la figure 3. Ce programme PGl est ainsi adapté à calculer une mesure de similarité entre une représentation d'un segment de référence X que l'unité de traitement reçoit en entrée 15 et une représentation d'un segment Y que l'unité de traitement reçoit en entrée 11 via un document audio à tester par exemple.

La mémoire morte 13 comporte également un programme PG2 comportant des instructions de programme adaptées à mettre en œuvre un procédé de suivi de locuteur tel que décrit en référence à la figure 4. Ce programme PG2 est adapté à effectuer un suivi de locuteur correspondant au locuteur de référence représenté par le segment X en entrée 15 du module de traitement, dans un document audio 11 fourni en entrée de l'unité de traitement. L'unité de traitement mettant en oeuvre le programme PG2 fournit en sortie 16, les segments correspondants au locuteur de référence qui ont été détectés dans le document audio à tester 11.

Ces entrées, segment X 15 et document audio 11, peuvent provenir d'une base de données externe (via un réseau informatique par exemple) ou interne au dispositif.

Lors de la mise sous tension, les programmes PGl et PG2 stockés dans la mémoire morte 13 sont transférés dans la mémoire vive qui contiendra alors le code exécutable de l'invention ainsi que des registres pour mémoriser les variables nécessaires à la mise en œuvre de l'invention.

De manière plus générale un moyen de stockage, lisible par un ordinateur ou par un microprocesseur, intégré ou non au dispositif, éventuellement amovible, mémorise un programme mettant en œuvre le procédé de calcul de mesure de similarité selon l'invention et/ou un programme mettant en œuvre le procédé de suivi de locuteur selon l'invention.

En référence à la figure 2, on va décrire les éléments constitutifs d'un dispositif de suivi de locuteur selon l'invention, intégrant un dispositif de calcul de mesure de similarité selon l'invention. Le dispositif de calcul de similarité peut être indépendant ou être intégré dans d'autres dispositifs nécessitant ce type de mesure de similarité.

Le dispositif ainsi décrit est par exemple intégré dans un ordinateur ou un appareil de traitement du son. Le dispositif de suivi de locuteur 20 comporte un module de segmentation

22 d'un document audio. Un document audio à tester 21, provenant par exemple d'une base de données de documents audio, est fourni au module de segmentation 22 qui comporte des moyens de segmentation adaptés à segmenter ce document audio en une pluralité de segments audio Y 1 , i allant de 1 à N. Un module d'affectation de classe 23 comporte des moyens d'affectation aptes à affecter chacun des segments Y 1 provenant du module de segmentation à une classe C YJ de segments comportant une pluralité de segments proches en terme de similarité. Une classe C Y1 comporte par exemple les segments Y k , k allant de 1 à K.

Un dispositif de calcul de mesure de similarité 25, que l'on va décrire ultérieurement est adapté à mettre en oeuvre le procédé de calcul de mesure de

similarité selon l'invention. Un calcul pondéré est effectué par le dispositif 25, à partir d'un segment X de référence, référencé 24 sur la figure 2, fourni en entrée de ce dispositif et qui provient d'un locuteur de référence. En sortie de ce dispositif, un module de décision 29 comporte des moyens de décision aptes à comparer la mesure de similarité reçue du dispositif de calcul 25 à un seuil prédéterminé afin de décider de la similarité de Y 1 (représentation du segment Yj courant) avec X (représentation du segment de référence X). Ce module de décision fournit en sortie, un ensemble de segments 30 qui sont considérés comme appartenant au locuteur de référence.

Le dispositif de calcul de mesure de similarité 25 comporte un module de calcul de mesure de similarité intraclasse 26 comportant des moyens de calcul de mesure de similarité adaptés à calculer une mesure de similarité intraclasse entre une représentation (Y 1 ) d'un segment à tester Y 1 courant appartenant à une classe Cγi et une représentation ( Y k ) d'un segment Yk de la même classe. Ce calcul s'effectue à partir d'un segment à tester Y 1 courant, pour tous les segments Yk de la même classe. Un module d'attribution d'un facteur de pondération comporte des moyens de détermination d'un facteur de pondération pi k en fonction des mesures de similarité intraclasses reçues en sortie du module 26 et des moyens d'attribution du facteur de pondération ainsi déterminé à une mesure de similarité élémentaire entre une représentation ( X ) du segment de référence X et une représentation ( Y k ) d'un segment Yk de la classe C YJ qui contient le segment Yj à tester. En sortie du module 27, se trouve un module 28 d'obtention de la mesure de similarité entre une représentation du segment de référence X et une représentation du segment à tester Yi, à partir des mesures de similarités élémentaires pondérées. Ce module 28 comporte des moyens de calcul pondéré aptes à prendre en compte les facteurs de pondération associés aux mesures de similarité élémentaires.

Cette mesure de similarité peut être effectuée pour tous les segments à tester Yi contenu dans le document audio 21, afin qu'une décision soit prise par le module de décision 29 pour tous les segments du document audio.

On va décrire à présent, en référence à la figure 3, les principales étapes d'un procédé de calcul de mesure de similarité selon l'invention. Le procédé de calcul de mesure de similarité entre une représentation d'un segment audio de référence X et une représentation d'un segment audio à tester Yj selon l'invention est mis en œuvre par le dispositif de calcul de mesure de similarité 25 décrit en référence à la figure 2.

A partir d'un segment audio à tester Yj appartenant à une classe de segment Cγi regroupant K segments Y k , une étape préalable 32 calcule une mesure de similarité intraclasse entre une représentation du segment à tester Yj appartenant à la classe Cγi et une représentation de chacun des segments Y k appartenant à la même classe C YJ .

Une représentation d'un segment est par exemple obtenue après une étape d'analyse acoustique et une étape de traitement spécifique. On peut par exemple utiliser une représentation par modèle d'ancrage comme ceci est décrit dans le document intitulé "speaker indexing in large audio databases using anchor models" des auteurs D,Sturim; D,Reynolds, E,Singer et J,Campbell (ICASSP2001, pages 429-432).

L'étape 33 est une étape d'obtention d'un facteur de pondération pj k pour chacun des segments Yk de la classe Cγi dans laquelle le segment à tester Yj est inclus. Ce facteur de pondération est selon un mode préféré de réalisation fonction d'une mesure de similarité intraclasse obtenue dans l'étape préalable 32.

L'étape 33 est suivie de l'étape 34 où le facteur de pondération pj k déterminé est attribué à une mesure de similarité élémentaire entre une représentation du segment de référence X référencé ici en 35 et provenant d'un locuteur de référence et une représentation d'un segment Yk de la classe C YJ . Cette attribution permet d'obtenir à l'étape 36, des mesures de similarité élémentaires pondérées qui vont permettre d'obtenir la mesure de similarité entre une représentation d'un segment de référence X et une représentation d'un segment à tester Yj, par une fonction défini selon l'équation (1) du type:

dλX,Y,) = ∑P ιk d(X,%) (1)

∑λ≈l P* k=1

où pi k est fonction, comme décrit précédemment, de la mesure de similarité intraclasse δ(Y t , Y k ) . Ce facteur de pondération peut être défini par exemple par l'équation (2): p λ = l + tmh(β(fl.S - δ(Y ι t Ϋ k ))) (2)

Dans un mode particulier de réalisation, les fonctions de calcul de mesures de similarité d et δ sont les mêmes. Ceci a pour avantage d'utiliser des moyens communs et ainsi de simplifier la mise en œuvre. Ces mesures de similarités sont définies par exemple par une mesure de similarité de type mesure de similarité de corrélation p proposée par les auteurs Collet,M; Charlet,D; et Bimbot,F dans le document intitulé "A corrélation metric for speaker tracking using anchor models" (IEEE international Conférence on Acoustics, Speech and signal processing; 2005). Dans un autre mode particulier de réalisation, les fonctions de calcul d et δ sont différentes.

Ainsi, la première fonction de calcul de mesure de similarité élémentaire d entre représentations de segments audio provenant de documents audio différents, donc avec des conditions acoustiques différentes, doit être robuste aux variations d'environnement acoustique.

De même, une représentation des segments utilisés pour ce calcul peut être avantageusement obtenue par une étape d'analyse acoustique robuste aux variations d'environnement acoustique.

La fonction δ de calcul de mesure de similarité intraclasse n'a quant à elle, pas besoin d'être robuste aux variations d'environnement acoustique. De même, l'analyse acoustique utilisée pour obtenir une représentation du segment, n'a pas besoin d'être robuste aux variations environnement acoustique.

Ainsi, l'utilisation de fonctions différentes pour l'obtention de mesure de similarité élémentaire et intraclasse, voire l'utilisation de représentations de segment

différentes pour chacune des mesures, présente l'avantage d'obtenir des mesures adaptées et optimales.

La première fonction, d peut par exemple être basée sur une fonction de corrélation comme mentionné précédemment, la deuxième fonction peut être une fonction utilisant une mesure angulaire comme mentionné dans le même document

"A corrélation metric for speaker tracking using anchor models" (IEEE international

Conférence on Acoustics, Speech and signal processing; 2005).

Le procédé de calcul d'une mesure de similarité entre une représentation d'un segment de référence X et une représentation d'un segment à tester Y 1 s'achève par l'obtention de cette mesure de similarité d p (X , Y 1 ) .

Dans cet exemple de réalisation, il a été considéré qu'un seul segment de référence X provenant d'un locuteur de référence. Dans une variante de réalisation, le procédé de calcul de similarité peut s'effectuer entre deux classes, le segment de référence X appartenant alors à une classe de référence nommée Cx comportant Kx segments et le segment à tester Y appartenant une classe nommée C Y comportant K γ segments.

Dans cette variante, le procédé détermine un premier facteur de pondération pjk, fonction d'une mesure de similarité intraclasse de C Y entre des représentations de segments Yj et Yk appartenants à la classe C Y et un second facteur de pondération pik, fonction d'une mesure de similarité intraclasse de Cx entre des représentations de segments de référence Xi et Xk appartenants à la classe de référence Cx.

Le calcul pondéré s'effectue alors selon l'équation (4) suivante:

d p (C x ,C γ ) = ∑∑a ι a ] d(X ι ] ) (4) ι=l j=l

Nous allons à présent décrire, en référence à la figure 4, le procédé de suivi de locuteur selon l'invention.

A l'étape 42, une segmentation en locuteurs est effectuée sur le document audio à tester 41. Cette segmentation permet de découper le document audio à tester en segments homogènes, c'est-à-dire prononcés par un même locuteur. Une méthode de segmentation est proposée par les auteurs P.Delacourt et C.J;Wellekens dans un document intitulé "Segmentation en locuteurs d'un document audio" (CORES A99: 5ièmes journées d'études et d'échanges Compression et Représentation des Signaux Audiovisuels, Sophia Antipolis 1999).

A l'issue de l'étape 42, on obtient une pluralité de segments audio à tester Y 1 , i allant de 1 à N. L'étape 42 est suivie de l'étape 43 d'affectation des segments Yj à une classe de segments C YJ . Cette étape d'affectation de classe encore appelée en anglais "clustering" consiste dans un premier temps à regrouper dans une même classe un segment et son plus proche voisin. Dans un deuxième temps, on fusionne les classes qui ont une intersection vide. On obtient ainsi un ensemble de classes dans lesquelles sont répartis les segments Yj issus de la segmentation. L'étape 43 est suivie de l'étape 45 de calcul pondéré mettant en œuvre le procédé de calcul de mesure de similarité décrit en référence à la figure 3. Ce calcul pondéré est effectué par rapport à un segment de référence X, référencé 44, provenant d'un locuteur de référence que l'on veut retrouver dans le document à tester. A l'issue de l'étape 45, on obtient une mesure de similarité entre une représentation du segment de référence X et une représentation du segment courant Yi provenant du document audio. Cette étape de calcul pondéré est effectuée pour tous les segments audio à tester Y 1 appartenant au document audio à tester. Toutes ces mesures de similarité sont ensuite comparées à un seuil θ à l'étape 46. Le seuil θ peut par exemple avoir une valeur de 0,5. Si la mesure de similarité rf p (Z,J^) est inférieure au seuil θ, alors une décision est prise quant à l'appartenance du segment Yj au locuteur de référence. Tous les segments ainsi détectés comme étant des segments audio prononcés par le locuteur de référence sont regroupés en 47 ce qui termine le procédé de suivi de locuteur.