SYSTEM FOR IDENTIFYING A SPEAKER

Title:

SYSTEM FOR IDENTIFYING A SPEAKER

Document Type and Number:

WIPO Patent Application WO/2021/239280

Kind Code:

Abstract:

The invention concerns a method for identifying a particular speaker among a set of speakers, by means of a computer which comprises a computer memory in which voice signatures are recorded, each associated with one of the speakers of said set, the method comprising the steps of: - acquiring a voice signal (S41) emitted by the particular speaker, - preparing a new voice signature as a function of said voice signal, - comparing the new voice signature with at least one of the voice signatures recorded in the computer memory, and - identifying the particular speaker as a function of the result of this comparison. According to the invention, before the preparation step, a step is provided of generating a complete signal (S4) which comprises said voice signal and at least one predetermined extension signal (S31, S32), and it is provided that in the preparation step, the new voice signature is also prepared as a function of each extension signal.

More Like This:

WO/2020/085769	SPEECH RECOGNITION METHOD AND APPARATUS IN ENVIRONMENT INCLUDING PLURALITY OF APPARATUSES
JP6897879	Voice feature compensator, method and program
JP2005202014	AUDIO SIGNAL PROCESSOR, AUDIO SIGNAL PROCESSING METHOD, AND AUDIO SIGNAL PROCESSING PROGRAM

Inventors:

ROSSELLO NORBERT (FR)

Application Number:

PCT/EP2021/055164

Publication Date:

December 02, 2021

Filing Date:

March 02, 2021

Export Citation:

Click for automatic bibliography generation Help

Assignee:

RENAULT SAS (FR)

International Classes:

G10L17/02; G10L17/04

Other References:

TIWARI VIBHA: "MFCC and its applications in speaker recognition", INTERNATIONAL JOURNAL ON EMERGING TECHNOLOGIES, 1 January 2010 (2010-01-01), XP055773015, Retrieved from the Internet [retrieved on 20210205]
PODDAR ARNAB ET AL: "Speaker verification with short utterances: a review of challenges, trends and opportunities", IET BIOMETRICS, IEEE, MICHAEL FARADAY HOUSE, SIX HILLS WAY, STEVENAGE, HERTS. SG1 2AY, UK, vol. 7, no. 2, 1 March 2018 (2018-03-01), pages 91 - 101, XP006076454, ISSN: 2047-4938, DOI: 10.1049/IET-BMT.2017.0065

Download PDF:

View/Download PDF PDF Help

Claims:

REVENDICATIONS

1. Procédé d’identification d’un locuteur particulier parmi un ensemble de locuteurs, au moyen d’un calculateur qui comporte une mémoire informatique dans laquelle est enregistrée au moins une signature vocale de référence associée à un des locuteurs dudit ensemble, le procédé comprenant des étapes de :

- acquisition d’un signal vocal d’identification (S4i) émis par le locuteur particulier, - élaboration d’une signature vocale d’identification en fonction dudit signal vocal d’identification (S4i),

- comparaison de ladite signature vocale d’identification avec l’au moins une signature vocale de référence enregistrée dans la mémoire informatique, et - identification du locuteur particulier en fonction du résultat de ladite comparaison, caractérisé en ce que l’au moins une signature vocale de référence enregistrée dans la mémoire informatique a été déterminée en fonction d’un signal vocal d’enregistrement et d’un signal d’extension (S3i, S3₂) prédéterminé, en ce qu’il est prévu, avant l’étape d’élaboration, une étape de génération d’un signal complet (S4) qui comprend ledit signal vocal d’identification (S4i) et ledit signal d’extension (S3i, S3₂) prédéterminé, et en ce que, à l’étape d’élaboration, la signature vocale d’identification est élaborée en fonction également dudit signal d’extension (S3i, S3₂).

2. Procédé d’identification selon la revendication précédente, dans lequel la mémoire informatique comporte une pluralité de signatures vocales de référence respectivement associées à une pluralité de locuteurs dudit ensemble, le signal d’extension (S3i, S3₂) étant associé à un des locuteurs et étant différent des signaux d’extension associés aux autres locuteurs, ladite mémoire stockant chaque signal d’extension de manière associée à un des locuteurs .

3. Procédé d’identification selon la revendication précédente, dans lequel : - à l’étape de génération, le calculateur génère au moins autant de signaux complets (S4) qu’il y a de locuteurs dans ledit ensemble, chaque signal complet (S4) comprenant ledit signal vocal d’identification (S4i) et un desdits signaux d’extension (S3i, S3₂) enregistrés dans ladite mémoire,

- à l’étape d’élaboration, le calculateur élabore une signature vocale d’identification pour chaque signal complet (S4),

- à l’étape de comparaison, le calculateur compare chaque signature vocale d’identification avec chaque signature vocale de référence enregistrée dans la mémoire afin d’en déduire un score, et

- à l’étape d’identification, le locuteur particulier est identifié compte tenu des scores déduits.

4. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal complet (S4) est élaboré en apposant le signal d’extension (S3i, S3₂) avant et/ou après ledit signal vocal d’identification(S4i).

5. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal d’extension (S3i, S3₂) est une fonction d’une somme d’au moins une sinusoïde de fréquence comprise entre 50 et 650 Hz, et de préférence entre 100 et 500 Hz.

6. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal d’extension (S3i, S3₂) est issu du produit d’une fonction paramétrable (S1) et d’une fonction fenêtre d’observation (S2), ladite fonction paramétrable (S1) étant préférentiellement modulée en amplitude et/ou en fréquence.

7. Procédé d’identification selon l’une des revendications précédentes, dans lequel :

- l’amplitude maximum du signal d’extension (S3i, S3₂) est inférieure ou égale à l’amplitude maximum du signal vocal d’identification (S4i), et est de préférence inférieure ou égale à 80% de l’amplitude maximum du signal vocal d’identification (S4i), et/ou

- la durée maximum dudit au moins un signal d’extension (S3i, S3₂) est inférieure ou égale au tiers de la durée totale du signal complet (S4), et est de préférence égale à 20% de la durée totale du signal complet (S4).

8. Procédé d’identification selon l’une des revendications précédentes, dans lequel le signal vocal d’identification (S4i) comporte un nombre de syllabes inférieur ou égal à quatre.

9. Procédé d’enregistrement d’un locuteur particulier au moyen d’un calculateur qui comporte une mémoire informatique, le procédé comprenant des étapes de :

- acquisition d’un signal vocal d’enregistrement émis par le locuteur particulier,

- détermination d’un signal d’extension, - génération d’un signal complet d’enregistrement qui comprend ledit signal vocal d’enregistrement et le signal d’extension,

- détermination d’une signature vocale de référence en fonction du signal complet d’enregistrement, et

- stockage de ladite signature vocale de référence dans ladite mémoire de façon associée avec le locuteur particulier.

10. Véhicule automobile comprenant un habitacle, des moyens d'acquisition d’un signal vocal émis par un locuteur particulier situé dans l’habitacle, et une unité de calcul programmé pour mettre en oeuvre un procédé conforme à l’une des revendications précédentes.

Description:

PROCEDE D’IDENTIFICATION D’UN LOCUTEUR

La présente invention concerne de manière générale le domaine de l’identification de personnes sur la base de leurs voix. Elle trouve une application particulièrement avantageuse dans l’identification d’un usager d’un véhicule automobile.

Elle concerne plus particulièrement un procédé d’identification d’un locuteur particulier parmi un ensemble de locuteurs, au moyen d’un calculateur qui comporte une mémoire informatique dans laquelle est enregistrée au moins une signature vocale de référence associée à un des locuteurs dudit ensemble, le procédé comprenant des étapes de :

- acquisition d’un signal vocal d’identification émis par le locuteur particulier,

- élaboration d’une signature vocale d’identification en fonction dudit signal vocal d’identification, - comparaison de ladite signature vocale d’identification avec l’au moins une signature vocale de référence enregistrée dans la mémoire informatique, et

- identification du locuteur particulier en fonction du résultat de ladite comparaison. Elle concerne également un procédé d’enregistrement d’un nouveau locuteur dans la mémoire du calculateur. Elle concerne enfin un véhicule automobile comportant les moyens techniques nécessaires à la mise en oeuvre de l’un et/ou l’autre de ces deux procédés.

Il est connu d’utiliser des locutions de réveil pour sortir un appareil électronique de veille afin de pouvoir ensuite commander une fonction particulière. Un exemple de locution de réveil est « Hello Google ». Cette locution permet de sortir de veille un appareil Android ^® afin qu’il puisse ensuite effectuer une action particulière (rechercher une réponse à une question, allumer une lumière...).

Ces locutions de réveil sont choisies de façon à être particulièrement courtes, de manière à être rapides à prononcer par le locuteur. Une des difficultés est que le locuteur a tendance à prononcer cette locution de façon rapide et parfois tronquée. On constate alors des difficultés de détection de cette locution par l’appareil.

Dès lors, on comprend qu’il ne sera pas possible d’identifier de façon fiable le locuteur sur la base de cette seule locution de réveil.

Or, notamment dans le domaine automobile, on souhaite pouvoir identifier les passagers qui émettent des commandes vocales afin par exemple de s’assurer s’ils sont autorisés ou non à émettre ces commandes. A titre d’exemple, on souhaite pouvoir s’assurer que le passager qui commande l’ouverture totale de sa fenêtre est autorisé à le faire.

Une solution connue dans le domaine de la biométrie vocale pour identifier une personne consiste à lui demander d’émettre une locution plus longue, telles que « Ma voix est le mot de passe ». Grâce à la longueur de cette locution, il s’avère alors possible d’identifier le locuteur parmi les différents locuteurs qui se sont enregistrées dans le système.

L’inconvénient de ces locutions est que, du fait de leurs grandes longueurs, elles s’avèrent trop fastidieuses à prononcer pour être employées régulièrement.

Afin de remédier à l’inconvénient précité de l’état de la technique, la présente invention propose d’utiliser des locutions courtes puis de les enrichir informatiquement et de façon invisible pour les usagers, afin de pouvoir identifier avec une grande fiabilité toute personne qui émet une locution.

Plus particulièrement, on propose selon l’invention un procédé d’identification tel que défini dans l’introduction, dans lequel il est prévu, en amont, qu’au moins une signature vocale de référence enregistrée dans la mémoire informatique a été déterminée en fonction d’un signal vocal d’enregistrement et d’un signal d’extension prédéterminé, et dans lequel il est prévu, avant l’étape d’élaboration, une étape de génération d’un signal complet qui comprend ledit signal vocal d’identification et ledit signal d’extension prédéterminé, et dans lequel, à l’étape d’élaboration, la signature vocale d’identification est élaborée en fonction également dudit signal d’extension.

Le signal vocal d’enregistrement permet au locuteur de s’enregistrer sur l’application informatique. Ce signal est mixé avec un signal d’extension puis est traité afin d’en déduire une signature vocale d’enregistrement.

Au cours du procédé d’identification, le locuteur émet à nouveau un signal vocal d’identification, qui est mixé avec le même signal d’extension puis est traité afin d’en déduire une signature vocale d’identification.

Cette signature vocale d’identification va alors être comparée à toutes les signatures vocales d’enregistrement stockées dans la mémoire de l’application, de façon à pouvoir trouver qui est le locuteur.

Ainsi, on compare des signatures vocales enrichies grâce au signal d’extension.

En d’autres termes, grâce à l’invention, le signal vocal utilisé peut être une courte locution dans la mesure où il est ensuite rallongé au moyen du signal d’extension, ce qui permet d’en faire une locution plus longue, assurant une meilleure reconnaissance du locuteur parmi les locuteurs enregistrés dans le système.

Un avantage de cette solution est qu’elle est indolore pour l’usager, puisque ce dernier procède comme auparavant en se contentant d’énoncer une courte locution.

Un autre avantage de cette solution est qu’elle permet d’assurer une meilleure sécurité informatique. En effet, si un pirate informatique parvient à se procurer un enregistrement de la voix d’un usager enregistré, il ne pourra rien en faire puisqu’il ne connaît pas les signaux d’extension qu’il faudrait ajouter au signal vocal pour réussir l’identification.

Encore un autre avantage est que cette solution assure une meilleure robustesse aux bruits parasites extérieurs, puisque les signaux d’extension ajoutés ne sont pas bruités et abaissent donc le niveau de bruit global du signal complet servant à l’identification. D’autres caractéristiques avantageuses et non limitatives du procédé d’identification conforme à l’invention, prises individuellement ou selon toutes les combinaisons techniquement possibles, sont les suivantes :

- la mémoire informatique comporte une pluralité de signatures vocales de référence respectivement associées à une pluralité de locuteurs dudit ensemble, le signal d’extension étant associé à un des locuteurs et étant différent des signaux d’extension associés aux autres locuteurs, ladite mémoire stockant chaque signal d’extension de manière associée à un des locuteurs ;

- à l’étape de génération, le calculateur génère au moins autant de signaux complets qu’il y a de locuteurs dans ledit ensemble, chaque signal complet comprenant ledit signal vocal d’identification et un desdits signaux d’extension enregistrés dans ladite mémoire ;

- à l’étape d’élaboration, le calculateur élabore une signature vocale d’identification pour chaque signal complet ;

- à l’étape d’identification, le locuteur particulier est identifié compte tenu des scores déduits ; - le signal complet est élaboré en apposant le signal d’extension avant et/ou après ledit signal vocal d’identification ;

- le signal d’extension est une fonction d’une somme d’au moins une sinusoïde de fréquence comprise entre 50 et 650 Hz, et de préférence entre 100 et 500 Hz ;

- le signal d’extension est issu du produit d’une fonction paramétrable et d’une fonction fenêtre d’observation, ladite fonction paramétrable étant préférentiellement modulée en amplitude et/ou en fréquence ;

- l’amplitude maximum du signal d’extension est inférieure ou égale à l’amplitude maximum du signal vocal d’identification, et est de préférence inférieure ou égale à 80% de l’amplitude maximum du signal vocal d’identification ; - la durée maximum dudit au moins un signal d’extension est inférieure ou égale au tiers de la durée totale du signal complet, et est de préférence égale à 20% de la durée totale du signal complet ;

- le signal vocal d’identification comporte un nombre de syllabes inférieur ou égal à quatre. L’invention porte également sur un procédé d’enregistrement d’un locuteur particulier au moyen d’un calculateur qui comporte une mémoire informatique, le procédé comprenant des étapes de :

- acquisition d’un signal vocal d’enregistrement émis par le locuteur particulier,

- détermination d’un signal d’extension, - génération d’un signal complet d’enregistrement qui comprend ledit signal vocal d’enregistrement et le signal d’extension,

- détermination d’une signature vocale de référence en fonction du signal complet d’enregistrement, et

- stockage de ladite signature vocale de référence dans ladite mémoire de façon associée avec le locuteur particulier.

L’invention concerne aussi un véhicule automobile comprenant un habitacle, des moyens d'acquisition d’un signal vocal émis par un locuteur particulier situé dans l’habitacle, et une unité de calcul programmé pour mettre en œuvre l’un et/ou l’autre des procédés précités. Bien entendu, les différentes caractéristiques, variantes et formes de réalisation de l'invention peuvent être associées les unes avec les autres selon diverses combinaisons dans la mesure où elles ne sont pas incompatibles ou exclusives les unes des autres.

La description qui va suivre en regard des dessins annexés, donnés à titre d’exemples non limitatifs, fera bien comprendre en quoi consiste l’invention et comment elle peut être réalisée.

Sur les dessins annexés :

La figure 1 est un graphique illustrant une fonction paramétrable utilisable dans le cadre d’un procédé conforme à l’invention ;

La figure 2 est un graphique illustrant une fonction fenêtre d’observation utilisable dans le cadre du procédé conforme à l’invention ;

La figure 3 est un graphique illustrant une fonction d’extension utilisable dans le cadre du procédé conforme à l’invention ;

La figure 4 est un graphique illustrant un signal complet comprenant la fonction d’extension de la figure 3 ;

La figure 5 est un diagramme illustrant un mode de mise en œuvre d’un procédé d’identification conforme à l’invention.

L’invention peut être mise en œuvre sur tout type d’appareil.

Dans l’exemple qui sera ici décrit, elle sera mise en œuvre dans un véhicule automobile, et plus précisément dans une voiture pouvant accueillir plusieurs usagers (un conducteur et des passagers).

Ce véhicule automobile se présentera sous une forme classique.

Il comporte ainsi un châssis qui délimite un habitacle pour les usagers.

Il comporte également des moyens d’acquisition de signaux vocaux. Ces moyens d’acquisition se présentent par exemple sous la forme de microphones disposés dans le véhicule automobile de façon à pouvoir enregistrer les locutions émises par les différents passagers du véhicule automobile.

Le véhicule automobile comporte également un calculateur qui est connecté aux microphones et qui forme un système de traitement d’informations programmé de manière particulière pour mettre en œuvre l’invention.

Le calculateur comporte plus précisément au moins un processeur, une mémoire, différentes interfaces d'entrée et de sortie, ainsi qu’une interface homme-machine. Grâce à sa mémoire, le calculateur mémorise une application informatique, constituée de programmes d’ordinateur comprenant des instructions dont l’exécution par le processeur permet la mise en œuvre par le calculateur des procédés décrits ci-après.

Grâce à ses interfaces d’entrée, le calculateur peut lire les données acquises par les microphones.

Grâce à ses interfaces de sortie, le calculateur peut commander la mise en œuvre de certaines fonctions du véhicule automobile, telles que par exemple l’ouverture des fenêtres ou le démarrage du moteur.

L’interface Homme-Machine peut se présenter sous diverses formes. On considérera ici qu’elle comporte un écran tactile et des enceintes situés dans l’habitacle du véhicule.

Comme cela sera bien décrit dans la suite de cet exposé, l’invention porte principalement sur l’identification d’un locuteur sur la base d’une locution émise vocalement par ce dernier.

On entend ici par « locution » un groupe de mots constituant un syntagme figé. Il s’agit en pratique de mots clefs prédéfinis.

Dans l’exemple qui sera considéré, le locuteur sera le conducteur du véhicule, mais il pourrait en variante s’agir de n’importe quel autre passager.

Selon la présente invention, l’identification du locuteur est possible seulement si ce dernier s’est enregistré au préalable auprès du système de traitement d’informations.

Le processus d’identification du locuteur consiste en effet à déterminer, parmi un ensemble d’usagers du véhicule qui se sont au préalable enregistrés, celui qui émet la locution.

Dans une première partie de cet exposé, on décrira donc la manière selon laquelle le conducteur peut s’enregistrer auprès du système. La seconde partie de l’exposé portera quant à elle sur l’identification proprement dite du conducteur.

La procédure d’enregistrement est réalisée en plusieurs étapes successives. Elle vise à permettre de générer une signature vocale associée au locuteur.

La première étape consiste ici pour le conducteur à initier la procédure en sélectionnant un menu correspondant dans l’application informatique, au moyen de l’écran tactile.

Une fois la procédure initiée, le calculateur génère une requête au moyen de l’interface Homme-Machine, qui consiste à demander au conducteur de prononcer ou même préférentiellement de répéter plusieurs fois une même locution prédéterminée.

Cette locution est préférentiellement choisie lors de la conception de l’application informatique de façon à répondre à deux critères.

Le premier critère est un critère de compréhension.

Pour que le calculateur soit en mesure de détecter chaque moment où le conducteur prononcera cette locution, cette dernière doit être voisée. En d’autres termes, elle doit comporter des intonations à basses fréquences. On la choisira donc de manière à ce qu’elle comporte autant de voyelles que possible.

Le second critère est un critère de temps.

La locution doit en effet être rapide à énoncer de façon que le conducteur puisse la dire facilement et rapidement, sans que cela ne devienne fastidieux pour lui. Ce critère est rempli lorsque la locution comporte trois ou quatre syllabes. De cette façon, la locution peut être énoncée en une durée inférieure à la seconde.

La locution ici choisie est « Hello Renault ».

Lors de la procédure d’enregistrement, le calculateur enregistre un long signal vocal, qui est ensuite découpé en trois signaux vocaux correspondant aux trois moments où la locution a été énoncée. Ces trois signaux vocaux sont ensuite combinés en un seul signal vocal d’enregistrement S4i, dont on considère qu’il forme un exemple caractéristique d’énonciation de la locution par le conducteur.

Le calculateur peut déduire de ce signal vocal d’enregistrement S4i une signature vocale de base, en utilisant un processus de traitement classique et bien connu de l’homme de l’art, qui sera ci-après appelé « processus de génération d’empreinte acoustique ».

On peut décrire succinctement ce processus de la façon suivante.

Il comporte tout d’abord une analyse acoustique qui consiste à extraire du signal vocal d’enregistrement des informations pertinentes et caractéristiques. Pour cela, des jeux de coefficients acoustiques sont calculés à intervalles de temps réguliers (c’est-à-dire pour des fenêtres d’observations successives), sur des blocs de signal de longueur fixe. Ces jeux de coefficients constituent ensemble une matrice acoustique qui forme une signature numérique caractéristique de la voix du conducteur.

Chaque jeu de coefficient est par exemple calculé en utilisant des transformées de Cosinus Discret du logarithme de la densité spectrale d’énergie du signal. Les coefficients cepstraux issus d’une telle analyse caractérisent en effet bien la forme du spectre.

En l’espèce, les coefficients cepstraux utilisés sont les MFCC (« de l’anglais « Mel Frequency Cepstral Coefficients). Ils présentent en effet l’avantage d’être peu corrélés entre eux.

Le processus est en outre ici complété par un filtrage de type « mel-filterbank », ce qui permet de privilégier la richesse des sons voisés.

Le processus de génération d’empreinte acoustique permet ainsi de générer, en fonction du signal vocal d’enregistrement S4i, une signature vocale de base caractéristique de la voix du conducteur.

Une fois cette signature vocale de base obtenue, selon l’invention, le calculateur va chercher à calculer une autre signature vocale dite étendue.

L’idée est que la seule locution « Hello Renault » est trop courte pour permettre d’identifier de façon robuste le locuteur parmi plusieurs locuteurs enregistrés en utilisant seulement sa signature vocale de base. C’est notamment le cas lorsque le conducteur est affecté par un état pathologique particulier (maladie, émotion, fatigue...), lorsque les conditions de prise de son ne sont pas bonnes (bruit ambiant...), ou lorsque le conducteur a prononcé la locution de manière peu compréhensible (mot tronqué... ).

Pour obtenir la signature vocale étendue, le calculateur détermine tout d’abord un signal d’extension.

Ce signal d’extension est destiné à être accolé au signal vocal enregistré, afin de le prolonger, de façon à pouvoir obtenir un signal complet qui pourra être traité au moyen du processus de génération d’empreinte acoustique afin de générer la signature vocale étendue.

Le signal d’extension est associé au conducteur. Il est donc choisi de façon à être différent des signaux d’extension déjà utilisés pour les autres locuteurs enregistrés dans le système. Ce signal d’extension est issu d’une fonction paramétrable S1(t), dont un exemple est illustré sur la figure 1.

Cette fonction paramétrable S1(t) est de préférence une somme d’au moins une sinusoïde de fréquence comprise entre 100 et 500 Hz.

Dans le mode de réalisation ici décrit, cette fonction paramétrable S1(t) s’exprime sous la forme suivante :

Dans cette équation, les paramètres réglables sont :

- M : le nombre de sinusoïdes,

- A, : l’amplitude de chaque sinusoïde,

- fi : la fréquence de chaque sinusoïde, et

- cp, : la phase de chaque sinusoïde.

Cette fonction est de préférence modulée en amplitude (A, étant alors une fonction du temps t) et/ou en fréquence (f, étant alors une fonction du temps t).

Le jeu de paramètres choisis pour créer le signal d’extension est sélectionné de telle sorte que les signaux d’extension associés aux différents locuteurs soient bien distincts les uns des autres.

On pourra considérer que deux signaux d’extension sont distincts l’un de l’autre en fréquence lorsqu’au moins un pas de 20 Hz sépare chacune de deux fréquences. On pourra considérer que deux signaux d’extension sont distincts l’un de l’autre en phase lorsqu’au moins un pas de p 14 radian sépare chacune de deux phases. On pourra considérer les amplitudes proches de l’unité afin de maximiser la présence fréquentielle (énergie) du signal d’extension.

Ces jeux de paramètres pourront être choisis aléatoirement par le calculateur, auquel cas ce dernier vérifiera ensuite qu’ils satisfont bien les conditions de distinction précitées.

En variante, des jeux de paramètres pourront être prédéterminés et enregistrés dans la mémoire du calculateur, auquel cas le calculateur pourra, à chaque enregistrement d’un nouveau locuteur, aller chercher dans sa mémoire un nouveau jeu de paramètres non encore utilisé.

Dans l’exemple illustré sur la figure 1, le jeu de paramètres suivant a été utilisé :

M=3

(Ai, fi, fi)= (1, 127, 0) (A ₂, f ₂, cp ₂)= (1, 241, 0)

(A ₃, f ₃, f ₃)= (1, 353, 0)

La fonction paramétrable S1(t) obtenue est ensuite modifiée de façon qu’une fois accolée au signal vocal d’enregistrement S4-i, il n’apparaisse pas de discontinuité au niveau de la jonction entre les courbes.

Pour cela, il est prévu de calculer le produit de cette fonction paramétrable S1(t) avec une fonction fenêtre d’observation (S2(t)) prédéterminée et illustrée sur la figure 2.

La fonction fenêtre d’observation (S2(t)) est ici une fonction d’apodisation. Elle permet de s’assurer que le produit de la fonction paramétrable S1(t) avec la fonction fenêtre d’observation (S2(t)) prenne la valeur nulle au début et à la fin de la fenêtre de temps considérée. Dans l’exemple ici décrit, l’équation de la fonction fenêtre d’observation (S2(t)) est la suivante.

Dans cette équation :

- x est la durée de temps normalisée par rapport à la durée de la fenêtre de temps considérée, et

- r est un coefficient de pondération en cosinus, ici choisi égale à 0,25.

Le signal d’extension S3 est alors choisi égal au produit du signal paramétrable S1 et de cette fonction fenêtre d’observation S2. Il est représenté sur la figure 3.

A ce stade, on notera que le signal d’extension S3 est paramétré de façon que son amplitude maximum soit inférieure ou égale à 80% de l’amplitude maximum du signal vocal enregistré, et que la durée totale du ou des signaux d’extension accolé(s) au signal vocal d’enregistrement S4i ne dépasse pas 20% de la durée totale du signal complet.

Ce signal complet est ensuite obtenu en accolant le signal d’extension S3 au début et/ou à la fin du signal vocal enregistré. Il est ici accolé au début et à la fin du signal vocal.

Le signal complet S4 ainsi obtenu est représenté sur la figure 4. On y observe qu’il comporte deux signaux S3i, S3 ₂ identiques qui encadrent le signal vocal d’enregistrement S4i, et qui correspondent au signal d’extension S3. On y observe également que le signal vocal d’enregistrement S4i comporte quatre parties S4 ₂, S43, S4 ₄, S4s qui correspondent aux quatre syllabes de la locution « Hello Renault ».

A ce stade, le signal complet S4 est traité au moyen du processus de génération d’empreinte acoustique, de manière à obtenir la signature vocale étendue. Cette signature vocale étendue, la signature vocale de base et le signal d’extension S3 utilisé sont ensuite stockés dans la mémoire informatique du calculateur, de façon associée au conducteur.

Cette association peut prendre différentes formes.

Ainsi, ces différents éléments peuvent simplement être mémorisés dans un enregistrement qui stocke des droits d’accès du conducteur (droit d’ouvrir les fenêtres, droit de demander le démarrage du moteur...).

Ici, on considérera plutôt que la signature vocale de base, la signature vocale étendue et le signal d’extension S3 sont enregistrés dans trois champs d’un enregistrement d’une base de données. Cet enregistrement comporte en outre un quatrième champ qui stocke le nom du conducteur (saisi au préalable sur l’écran tactile) et un cinquième champ qui stocke les droits d’accès du conducteur (choisis par ce dernier dans un menu affiché sur l’écran tactile). Toute autre variante est également envisageable.

Quoiqu’il en soit, à l’issue de plusieurs procédures d’enregistrement successives, le calculateur mémorise un ensemble fermé de N triplets de signatures vocales (chaque triplet comprenant une signature vocale de base, une signature vocale étendue associées à l’un des N locuteurs enregistrés et un signal d’extension S3 associé). Une signature vocale étendue stockée dans la mémoire informatique à l’issue d’une procédure d’enregistrement est dite signature vocale de référence. Une signature vocale de base stockée dans la mémoire informatique à l’issue d’une procédure d’enregistrement est dite signature vocale de référence. Alternativement, dans le but de gagner de la place dans la mémoire informatique du calculateur, il est possible de stocker une signature vocale de base et des paramètres permettant de reconstruire une signature vocale étendue. On peut maintenant décrire comment le procédé d’identification du conducteur est mis en œuvre.

Pour cela, on peut décrire deux modes de réalisation différents.

Le premier mode de réalisation est illustré sur la figure 5.

Dès que les portes du véhicule automobile sont déverrouillées, le calculateur est alimenté en courant et il se met dans un état de veille (étape E1). Dans cet état, il se contente de traiter les données reçues des microphones.

Ainsi, lorsqu’au cours d’une étape E2 d’initiation du procédé d’identification, le conducteur formule oralement la locution convenue (ici « Hello Renault »), le calculateur peut détecter cette locution. Il enregistre alors dans sa mémoire le nouveau signal vocal capté par les microphones et contenant cette locution. Ce nouveau signal vocal est un signal vocal d’identification.

La longueur de ce nouveau signal vocal est ajustée à la durée de formulation de la locution. Au cours d’une étape E3i, le calculateur accole le nouveau signal vocal avec le premier des N signaux d’extension enregistrés dans sa mémoire, à savoir celui qui est associé au premier locuteur qui s’est enregistré et qui est stocké dans le premier enregistrement de sa base de données. Cette opération est réalisée de la même façon que pendant la procédure d’enregistrement, ici en apposant le signal d’extension avant et après le nouveau signal vocal.

Puis, au cours d’une étape E4i, le calculateur détermine une nouvelle signature vocale étendue. Cette nouvelle signature vocale étendue est une signature vocale d’identification. Il se base pour cela sur le signal complet obtenu à l’étape E3i, en lui appliquant le processus de génération d’empreinte acoustique. Enfin, au cours d’une étape E5i, le calculateur compare cette signature vocale étendue avec la signature vocale étendue qui est stockée dans le premier enregistrement de sa base de données. Autrement dit, le calculateur compare la signature vocale d’identification avec la signature vocale de référence.

Cette étape de comparaison est réalisée de façon connue en soi, en comparant les jeux de coefficients acoustiques de ces deux signatures. Cette comparaison permet de déterminer un score, qui est ici d’autant plus élevé que les jeux de coefficients acoustiques de ces deux signatures sont proches.

Ces trois étapes E3i, E4i, E5i sont ici répétées N fois (voir les étapes E32..E3N, E42..E4N, E52..E5N, sur la figure 5), en exploitant les données mémorisées dans les N enregistrements de la base de données associés aux N locuteurs enregistrés.

Le calculateur obtient ainsi autant de scores qu’il y a de locuteurs enregistrés dans sa mémoire.

Une fois ces scores calculés, au cours d’une étape E6, le calculateur compare l’ensemble de ces scores et sélectionne le plus élevé. Ce score maximum est associé à l’un des locuteurs enregistrés, ci-après appelé locuteur sélectionné.

A ce stade, le calculateur pourrait conclure que le conducteur correspond au locuteur sélectionné.

Toutefois, pour plus de sécurité, au cours d’une étape E7, le calculateur compare ce score maximum avec un seuil prédéterminé.

Si ce score maximum est inférieur au seuil prédéterminé, au cours d’une étape E8, le calculateur affiche sur l’écran tactile ou émet sur les enceintes un message signifiant au conducteur qu’il n’a pas été reconnu. En effet, ce score est considéré comme insuffisant pour reconnaître avec une fiabilité suffisante si le locuteur sélectionné correspond bien au conducteur. Dans cette éventualité, il est proposé au conducteur soit de s’enregistrer, soit de reformuler la locution.

Dans le cas contraire, au cours d’une étape E9, le calculateur considère que le score maximum est suffisamment élevé pour considérer avec une fiabilité suffisante que le locuteur sélectionné correspond bien au conducteur. Dans cette éventualité, le conducteur est bien reconnu. Il peut alors ensuite émettre des instructions, telle que la commande de l’ouverture des fenêtres ou le démarrage du moteur. Ces instructions seront alors suivies des faits à condition que les droits d’accès du conducteur le permettent.

On peut maintenant décrire le second mode de réalisation du procédé d’identification.

Dans ce second mode, les étapes E1 et E2 sont identiques à celles précitées et décrites en référence à la figure 5.

A l’issue de l’étape E2, il est toutefois prévu que le calculateur procède au calcul d’une signature vocale de base, compte tenu du nouveau signal vocal venant d’être émis par le conducteur. Cette signature vocale de base est une signature vocale de base d’identification

Puis le calculateur compare cette signature vocale de base d’identification avec chacune des signatures vocales de base de référence enregistrées dans la mémoire du calculateur. Il procède pour cela de la même façon que précité, ce qui lui permet d’obtenir N scores.

Puis si le score maximum obtenu est supérieur à un premier seuil prédéterminé, le calculateur peut considérer que le conducteur est reconnu (étape E9).

En revanche, si le score maximum est inférieur à un second seuil prédéterminé, le calculateur peut considérer que le conducteur n’est pas reconnu et qu’il ne pourra pas l’être (étape E8).

Si le score maximum est compris entre ces deux seuils, le calculateur peut tenter de reconnaître le conducteur en procédant alors comme dans le premier mode de réalisation, en se basant non plus sur les signaux vocaux de base mais plutôt sur les signaux vocaux étendus. Pour cela, il peut mettre en œuvre les étapes E3i et suivantes du premier mode de réalisation décrit.

La présente invention n’est nullement limitée aux modes de réalisation décrits et représentés, mais l’homme du métier saura y apporter toute variante conforme à l’invention. En particulier, on pourrait prévoir que la signature associée à un locuteur soit formée non pas par un jeu de coefficients acoustiques, comme cela a été décrit supra, mais par tout autre élément. A titre d’exemple, la signature vocale d’un locuteur pourra être formée par le signal vocal d’enregistrement lui-même (par le signal brut ou par un signal éventuellement retravaillé, par exemple pour supprimer les bruits parasites).

Encore en variante, le signal d’extension pourra ne pas être accolé directement au début ou à la fin du signal vocal enregistré par les microphones, mais on pourra prévoir de laisser un laps de temps vide entre le signal d’extension et le signal vocal. On notera que de préférence, ces deux signaux ne se recouvriront pas, en tout ou partie, puisque cela aurait pour conséquence de réduire la fiabilité des résultats.

Encore en variante, les signaux d’extension utilisés pour les différents locuteurs enregistrés dans la base de données pourraient être les mêmes, mais cela aurait pour conséquence ici encore de réduire la fiabilité des résultats.

Previous Patent: METHOD OF AND SYSTEM FOR MONITORING AND DIAGNOSING A GROUNDING SYSTEM, USE OF ROTATING ELECTROSTATIC...

Next Patent: METHOD, SYSTEM, COMPUTER PROGRAM AND STORAGE MEDIUM FOR DOCUMENTING AN UPDATE OF SOFTWARE OF A COMPO...