Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM FOR HEARING-IMPAIRED PEOPLE
Document Type and Number:
WIPO Patent Application WO/2007/110551
Kind Code:
A1
Abstract:
The present invention relates to a system (1) for helping hearing-impaired people, comprising; a device (30) for capturing sounds emitted by a speaker addressing the person, a head-up display device (10), a processing system (20) for analyzing in real time sound data transmitted by the acquisition device and transmitting to the display device an at least partial phonetic transcription of this sound data, to be displayed in the field of vision of the person, so that he can observe both the movement of the lips and/or the movements of the speaker and the phonetic transcription.

Inventors:
PAVLOPOULOS PANAGIOTIS (FR)
DEBERLES SAMUEL (FR)
PAVLOPOULOS KONSTANTIN-LEO (FR)
Application Number:
PCT/FR2007/051031
Publication Date:
October 04, 2007
Filing Date:
March 28, 2007
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
PAVLOPOULOS PANAGIOTIS (FR)
DEBERLES SAMUEL (FR)
PAVLOPOULOS KONSTANTIN-LEO (FR)
International Classes:
A61F11/04
Domestic Patent References:
WO2001006298A12001-01-25
Foreign References:
US4972486A1990-11-20
US20020103649A12002-08-01
DE20103525U12003-03-13
US5671037A1997-09-23
US6384982B12002-05-07
US6349001B12002-02-19
US20050248717A12005-11-10
Attorney, Agent or Firm:
TANTY, François (3 rue de Penthièvre, Paris, FR)
Download PDF:
Claims:

REVENDICATIONS

1. Système (1) d'aide pour personne malentendante, comportant : - un dispositif (30) d'acquisition des sons émis par un interlocuteur de la personne,

- un dispositif ( 10) de visualisation tête haute,

- un système de traitement (20) pour analyser en temps réel des données sonores transmises par le dispositif d'acquisition et transmettre au dispositif de visualisation une transcription phonétique au moins partielle de ces données sonores en phonèmes, à afficher dans le champ de vision de la personne, de façon à lui permettre d'observer à la fois le mouvement des lèvres et/ou les gestes de l'interlocuteur et la transcription phonétique.

2. Système d'aide pour personne malentendante, comportant :

- un dispositif d'acquisition de bruits émis dans renvironnement sonore de la personne malentendante,

- un dispositif de visualisation tête haute,

- un système de traitement pour analyser en temps réel des données sonores transmises par le dispositif d'acquisition, agencé pour reconnaître des bruits autres que la parole, et transmettre au dispositif de visualisation une transcription visuelle au moins partielle de ces bruits pour leur affichage dans le champ de vision de la personne malentendante.

3. Système selon la revendication 1 ou 2, le dispositif d'acquisition des sons comportant :

- au moins un microphone agencé pour être porté par l'interlocuteur, ou - au moins un microphone directionnel dirigé vers l'interlocuteur et préférentiellement intégré dans le dispositif de visualisation tête haute.

4. Système selon la revendication 2, les bruits étant choisis parmi Tun des bruits suivants : klaxon, alarme, bruit de circulation, cris cTenfant(s).

5. Système selon la revendication 3, le dispositif d'acquisition comportant un microphone intégré à une oreillette ou un microphone cravate.

6. Système d'aide selon la revendication 2, le système de traitement étant agencé pour reconnaître des unités phonétiques.

7. Système d'aide selon la revendication 1, le système de traitement étant agencé pour reconnaître des bruits prédéfinis.

8. Système d'aide selon Tune quelconque des revendications précédentes, le système de traitement étant agencé pour décomposer les données sonores en unités paramétrées et sélectionner des phonèmes par modélisation stochastique.

9. Système d'aide selon Tune quelconque des revendications précédentes, le dispositif de visualisation étant agencé pour recevoir des données à afficher par une liaison sans fil.

10. Système d'aide selon Tune quelconque des revendications précédentes, le dispositif de visualisation comportant des lunettes.

11. Système d'aide selon la revendication 3, comportant au moins un microphone directionnel et au moins un microphone omnidirectionnel, le système de traitement étant agencé pour éliminer le bruit ambiant non utile à la compréhension de la parole par un traitement différentiel de signaux reçus des microphones omnidirectionnel et directionnel.

12. Système selon la revendication 1, étant agencé pour transmettre au dispositif de visualisation une transcription phonétique complète des données sonores en phonèmes.

13. Système selon Tune quelconque des revendications précédentes, l'affichage dans le champ de vision de la personne des bruits et/ou des sons étant effectué avec un retard inférieur à 100 ms.

14. Système selon la revendication 2, la transcription ne comportant aucun caractère alphanumérique.

15. Système selon la revendication 1, la transcription phonétique comportant la représentation de gestes de mains.

16. Procédé d'affichage d'une transcription phonétique de mots prononcés par rinterlocuteur d'une personne malentendante, comportant les étapes consistant à :

- capter, notamment au moyen d'au moins un microphone porté par rinterlocuteur ou directionnel et dirigé vers celui-ci, les mots prononcés par rinterlocuteur, - analyser en temps réel ces mots pour reconnaître des unités phonétiques et générer une transcription phonétique en phonèmes au moins partielle de ces mots,

- afficher dans le champ de vision de la personne, grâce à un dispositif de visualisation tête haute, la transcription phonétique de façon à lui permettre de voir simultanément à la fois le mouvement des lèvres de Tinterlocuteur et/ou ses gestes et la transcription phonétique. 17. Procédé d'affichage d'une transcription visuelle de bruits présents dans renvironnement sonore d'une personne malentendante, notamment des bruits de machines ou d'appareils ou des cris d'enfants ou d'animaux, comportant les étapes consistant à :

- capter les bruits,

- analyser en temps réel ces bruits et générer une transcription visuelle au moins partielle de ces bruits lorsque reconnus,

- afficher dans le champ de vision de la personne, grâce à un dispositif de visualisation tête haute, la transcription visuelle.

Description:

Système pour personne malentendante

La présente invention concerne les systèmes d'aide pour personnes malentendantes et notamment ceux qui peuvent avantageusement venir en complément des aides médicales déjà apportées à ces personnes (prothèses, implants.) lesquelles, parfois, ne permettent pas une réception complète de la parole.

Il est établi que la perception des expressions faciales augmente considérablement la compréhension et l'apprentissage du langage oral.

La compréhension de la parole augmente ainsi avec la lecture labiale chez les implantés cochléaires de 45 % à 85 % en un mois de rééducation pour atteindre presque 100 % après un an, selon la publication S. Lagleyre, Service ORL, Hospital Purpan, « Rôle of visuo-auditory intégration in speech compréhension in deaf subjects with cochlear implants », 6th Annual Meeting of the International Multisensory Research Forum, June 5-8, 2005 - University of Trento, Department of Cognitive Sciences and Education, Trento, Italy. Pour les personnes sourdes, la lecture labiale ne suffit pas à avoir une représentation visuelle de l'ensemble du système phono logique du Français, car il y a 36 sons auxquels correspondent seulement 12 images labiales. Par exemple {pa}, {ba}, {ma} ont la même image labiale.

Les adultes devenus sourds connaissent la langue et avec leur mémoire auditive peuvent suppléer mentalement aux incertitudes de la réception du discours de leur interlocuteur. Pour les jeunes enfants sourds qui n'ont pas acquis la langue et qui n'en ont pas de modèle phonologique, la lecture labiale est un exercice très aléatoire.

Pour remédier à ce problème, le langage parlé complété (LPC) associe cinq positions de la main par rapport au visage pour distinguer les voyelles et huit configurations des doigts pour discriminer les consonnes. Ces gestes permettent d'éliminer les ambiguïtés dues aux sosies labiaux et constituent un moyen pour les sourds, et notamment les enfants, d'appréhender la langue française par la vue, comme l'entendant la reçoit par rouie. Par exemple, aux trois sosies labiaux {pa} {ba} {ma} correspondent trois clefs différentes du LPC. Comme la langue des signes, l'alphabet des kinèmes assistés, le Français signé, le LPC impose un apprentissage qui n'est pas trivial, tant de la part du malentendant que de son entourage privé, professionnel ou administratif. L'implication d'un apprentissage risque de rejeter le malentendant du reste des bien-entendants.

Selon M. Molander, « Experiment with asynchrony in multimodal speech communication », Master thesis, Department of Speech, Music and Hearing (TMH) at the

Royal Institute of Technology (KTH), Stockholm, Sweden, June 2003, le décalage entre la perception des informations visuelles et auditives ne doit pas excéder 100 ms, sous peine de nuire à la compréhension de la parole et de produire des illusions sensorielles.

On connaît par le brevet US 5 029 216 un système d'aide comportant des lunettes destinées à être portées par la personne malentendante, munies de microphones et d'un système de traitement permettant d'indiquer à la personne la direction d'où les sons captés émanent. Le système de traitement est également agencé pour indiquer Tintensité des sons émis.

Le brevet US 6 975 991 divulgue un système d'aide destiné à permettre à une personne malentendante de recevoir une information concernant la localisation d'un orateur au sein d'une assemblée.

La demande de brevet US 2002/0101537 divulgue un système d'aide comportant des lunettes destinées à être portées par la personne malentendante, et un système de traitement permettant l'affichage sur ces lunettes de sous-titres correspondant par exemple à un programme télévisé regardé par la personne malentendante.

La demande de brevet JP 08-160366 divulgue un système d'aide similaire.

L'utilisation dans ces deux dernières demandes d'un système de reconnaissance de la parole ou de dictée pour « sous-titrer » la scène audio-visuelle présente l'inconvénient de faire appel au contexte de la phrase complète pour reconstituer sa grammaire et sa syntaxe, ce qui entraîne un retard important et variable du texte écrit par rapport à la scène audio-visuelle et la phase écrite peut comporter des erreurs. Dans ce dernier cas, l'auditeur devra repasser à une représentation phonétique de la phrase pour la comprendre. Il en résulte qu'un tel système est inadapté à l'exploitation de la lecture labiale pour la réception du message et donc à l'appropriation de la langue orale et puis écrite. De plus, ce système exige que la personne sache lire, ce qui n'est pas le cas des jeunes enfants.

De plus, le système d'aide selon la demande de brevet US 2002/0101537 n'est pas prévu pour aider une personne malentendante face à un interlocuteur quelconque pouvant se situer dans un environnement relativement bruyant et qui entamerait un dialogue spontané.

Le brevet US 4 972 486 divulgue un dispositif de transcription en symboles visuels d'informations sonores, dans lequel chaque symbole est associé à un groupe de consonnes particulier.

Enfin, rien n'est prévu pour signaler à la personne malentendante un danger ou une alerte, en cas d'émission d'une alarme incendie ou d'un cri d'un bébé par exemple.

Il a été proposé dans Particle « Accessibilité des sourds aux moyens de communication audiovisuels par le Langage Parlé Complété, accompagné de sous- titrage », de commander une main virtuelle codant en LPC en surimpression soit sur une image vidéo, soit sur une tête de synthèse 3D. Cette solution impose l'apprentissage du codage LPC et implique une incrustation d'image ou un affichage sur un écran vidéo suffisamment grand pour être visible par les élèves d'une salle de classe, par exemple.

Il existe un besoin pour perfectionner encore les systèmes d'aide pour personnes malentendantes et notamment permettre à celles-ci de bénéficier d'un système d'aide à la lecture labiale qui a pour objectif l'acquisition et la transmission de la langue orale et la compréhension d'un interlocuteur quelconque dans un environnement pouvant être relativement bruyant, le cas échéant.

Il existe un besoin pour améliorer la réception du message oral par l'enfant sourd par une aide à la lecture labiale, et l'acquisition et la transmission de la langue orale, afin de donner aux jeunes sourds plus de facilité à utiliser la lecture labiale et à exercer une suppléance mentale.

Il existe encore un besoin pour aider une personne entendante à communiquer avec la personne sourde sans obliger la personne entendante à acquérir des compétences particulières pour communiquer avec la personne sourde.

Il existe également un besoin pour bénéficier d'un système d'aide capable d'aider les personnes malentendantes dans leur vie quotidienne afin de les avertir de l'existence de dangers, par exemple.

L'invention vise à répondre à tout ou partie de ces besoins.

L'invention a pour objet un système d'aide pour personne malentendante, comportant : - un dispositif d'acquisition des sons émis par un interlocuteur de la personne malentendante, qui peut être avec ou sans prétraitement intégré visant à tenir compte de l'environnement sonore afin de réduire des bruits de fond,

- un dispositif de visualisation tête haute,

- un système de traitement pour analyser en temps réel des données sonores transmises par le dispositif d'acquisition et transmettre au dispositif de visualisation une transcription phonétique au moins partielle de ces données sonores, à afficher dans le champ de vision de la personne, de façon à lui permettre d'observer à la fois le mouvement des lèvres et/ou les gestes de rinterlocuteur, notamment faciaux, et la transcription phonétique.

Par « dispositif d'affichage tête haute », il faut comprendre un dispositif ayant au moins une surface transparente à travers laquelle la personne malentendante peut observer, et sur laquelle ou dans le voisinage de laquelle l'information peut être affichée, afin de permettre à la personne d'observer à la fois l'information affichée et la scène située derrière la surface transparente. Cette dernière peut être définie par un verre minéral ou organique, éventuellement correcteur ou teinté, fixe ou porté par l'utilisateur.

De plus, le dispositif de visualisation pouvant être porté par la personne malentendante dans certains exemples de mise en œuvre de Tinvention, le système d'aide peut être utilisé très facilement en de nombreuses situations.

La transcription phonétique des données sonores peut être complète. La transcription phonétique, partielle ou complète, des données sonores peut être effectuée en phonèmes. Un phonème est un élément sonore d'un langage donné, déterminé par les rapports qu'il entretient avec les autres sons de ce langage. Par exemple, le mot « cou » est formé des phonèmes « keu » et « ou ». Le Français en comprend 36, dont 16 voyelles et 20 consonnes.

Dans un exemple de mise en œuvre de Tinvention, le système d'aide permet à l'utilisateur de désactiver l'affichage de la transcription phonétique en fonction par exemples de préférence de l'utilisateur ou de la qualité de la reconnaissance de la parole, qui peut être dépendante de l'environnement sonore.

L'affichage d'une transcription phonétique au moins partielle ne nécessite pas une analyse grammaticale d'une phrase complète par le système de traitement et permet de gagner en rapidité, ce qui permet l'affichage de la transcription phonétique de façon quasi simultanée avec le mouvement des lèvres.

Ainsi, la personne malentendante ne souffre d'aucun décalage sensoriel excessif par rapport à la scène observée, l'affichage de la transcription phonétique pouvant être effectué avec un retard par rapport à rémission des données sonores pouvant être inférieur à 100 ms. La transcription phonétique peut s'effectuer avec des signes divers, lesquels peuvent comporter des images, des pictogrammes, des photographies ou représentations de gestes de mains et/ou d'expressions faciales, notamment une main et/ou un visage virtuel, des caractères alphanumériques ou spéciaux, des phonèmes, graphèmes, voire éventuellement des signes personnalisés dont l'aspect est décidé à Tavance par l'utilisateur. La transcription phonétique peut ne faire intervenir aucune grammaire et ne comporter aucun caractère alphanumérique, afin d'être facilement appréhendable par un enfant ne sachant pas lire.

Les signes susceptibles d'être affichés peuvent être sélectionnés dans une base d'images mémorisées par le système de traitement. Dans le cas où une main, qui peut être virtuelle, est affichée, celle-ci peut prendre une configuration sélectionnée parmi celles du LPC.

La personne malentendante peut éventuellement interpréter elle-même la transcription phonétique pour reconstituer le mot et la phrase, et corriger éventuellement d'elle-même des transcriptions phonétiques qui seraient erronées en fonction du contexte. Les signes affichés permettent de lever l'ambiguïté existant entre plusieurs phonèmes correspondant au même mouvement des lèvres. Il peut être avantageux que les signes affichés pour la transcription phonétique soient internationaux et indépendants d'une langue particulière.

L'invention peut iàciliter l'intégration de sourds dans des classes d'entendants et/ou Tintervention de professeurs non formés dans des classes comportant des élèves sourds, et d'éviter la présence de « codeurs ».

L'élève sourd peut alors disposer de la lecture labiale accompagnée d'équivalent des clés du LPC sans un apprentissage spécifique, ni de lui ni de son professeur, ni d'intervention conjointe de renseignant et du codeur, une telle intervention demandant une importante préparation et réflexion commune.

Le système de traitement peut être agencé pour paramétrer le signal vocal du locuteur, segmenter les données sonores en segments linguistiques élémentaires, et les identifier.

Le paramétrage peut consister à obtenir une « empreinte » caractéristique du son en appliquant successivement à son signal électrique un traitement mathématique, fondé sur la décomposition fréquentielle du signal, par exemple la transformée de Fourier, sans connaissance a priori de sa structure fine. Cette empreinte caractéristique du son peut être représentée par un « spectrogramme », i.e. un graphique donnant révolution de l'amplitude et de la fréquence en fonction du temps. Le décodage acousticαphonétique mis en œuvre par le système de traitement peut permettre de décrire le signal acoustique en termes d'unités linguistiques discrètes et a pour but la segmentation du signal en segments élémentaires. Si ces unités linguistiques sont longues, comme les syllabes, les mots ou une phrase, la reconnaissance en elle-même sera facilitée, mais leur identification est difficile. Si les unités linguistiques courtes sont choisies, comme les « phones », la localisation serait plus facile, mais l'effort du malentendant sera plus important pour les exploiter. Les « phonèmes » peuvent constituer un bon compromis, leur nombre étant limité.

Les données sonores, après paramétrage, peuvent être comparées à des données de référence en termes d'images acoustiques tempo-fréquentielles. Une base de données contenant des empreintes phonétiques moyennes peut être utilisée afin d'autoriser la reconnaissance de plusieurs voix indépendamment du locuteur et rendre le système d'aide « multilocuteur ».

Le système de traitement peut alors accepter et comprendre différents timbres de voix, accents, etc., et être robuste face aux éventuelles nuisances sonores. Le système de traitement peut, dans un exemple de mise en œuvre de

Tinvention, ne pas nécessiter d'entraînement préalable à la voix de l'interlocuteur, ce qui facilite l'utilisation du système d'aide.

La fabrication des modèles des mots à reconnaître peut se faire grâce à l'agencement de modèles de phonèmes préalablement fabriqués et non à partir de nombreux enregistrements des mots. Leur identification peut se faire en fonction de données articulatoires et phonétiques. Les consignes d'agencement peuvent impliquer la phonémisation des mots à reconnaître.

Une modélisation stochastique, sous forme de modèles markoviens et/ou de modèles neuro-mimétiques, peut permettre de choisir le son le plus ressemblant, indépendamment des durées et des rythmes prononcés. A titre d'exemples de modélisations, on peut citer : - Y. Laprie et Ch. Cerisara, « Vers le succès en reconnaissance vocale », Projet

PAROLE, INRIA Lorraine/ LORIA,

- L. R. Rabiner, «A tutorial on hidden Markov models and selected applications in speech récognition », Proc. IEEE, vol. 77, n° 2, 1989, p. 257,

- Présentations dans XXIII èmes Journées d'Etude sur la Parole, Aussois, 19-23 juin 2000, par exemple : M. Adda-Decker et L. Lamel, « Systèmes d'alignement automatique & études de variantes de prononciation » et autres,

- V. Luba et A. Younes « Projet Multimédia : Modèles de Markov Cachés. Reconnaissance de la parole », Faculté Polytechnique de Mons, 2005,

- B. Jacob, « Un outil informatique de gestion de modèles de Markov cachés : expérimentations en reconnaissance automatique de la parole », Université P. Sabatier,

Toulouse, 1995,

- The Hidden Markov Model Toolkit (HTK): http://htk.eng.cam.ac.uk/.

- H. Schwenk and J. -L. Gauvain, « Using Continuons Space Language Models or Conversational Speech Récognition »; IEEE workshop on Spontaneous Speech Récognition, 2003, et

- J. L. Gauvain, L. Lamel, and G. Adda, « The LIMSI Broadcast News Transcription System. Speech Communication ». 37(1-2): 89-108, 2002, dont les contenus sont incorporés par référence.

La modélisation peut utiliser des modèles acoustiques de phones et d'autres types de segments, comme les respirations, hésitations, et bruits divers d'environnement fréquemment observés.

Une meilleure prédiction des modèles de phones peut être obtenue en distinguant, pour un phone donné, différents modèles suivant le contexte phonémique.

Un arbre de décision phonémique peut permettre de partager un même nombre de gaussiennes entre un grand nombre de contextes et réduire ainsi le nombre d'hypothèses à évaluer et le coût global du décodage en temps de calcul. On pourra se référer utilement à la publication G. Linares, P. Nocera et D. Matrouf, « Partitionnement dynamique des

distributions pour le calcul des émissions dans un décodeur acoustico-phonétique Markovien », XXIII èmes Journées d'Etude sur la Parole, Aussois, 19-23 juin 2000, dont le contenu est incorporé par référence.

Ainsi, des systèmes de traitement mobiles de petite taille tels que des assistants personnels numériques peuvent être suffisants pour parvenir à un niveau très performant et robuste de transcription phonétique.

Selon un autre de ses aspects, indépendamment ou en combinaison avec ce qui précède, Tinvention a pour objet un système d'aide pour personne malentendante, comportant : - un dispositif d'acquisition, avec ou sans prétraitement intégré, des sons émis par un interlocuteur de la personne, comportant :

- au moins un microphone agencé pour être porté par l'interlocuteur, ou

- au moins un microphone directionnel dirigé vers l'interlocuteur,

- un dispositif de visualisation tête haute, permettant préférentiellement Tintégration des microphones,

- un système de traitement pour analyser en temps réel des données sonores transmises par le dispositif d'acquisition et transmettre au dispositif de visualisation une transcription phonétique au moins partielle de ces données sonores, à afficher dans le champ de vision de la personne de façon à lui permettre d'observer simultanément, c'est-à- dire sans décalage sensoriel sensible, à la fois le mouvement des lèvres et/ou les gestes de Tinterlocuteur et la transcription phonétique.

La présence d'au moins un microphone directionnel, intégré ou pas dans le dispositif de visualisation tête haute, ou d'un microphone porté par la personne permet d'augmenter le rapport signal sur bruit et facilite la reconnaissance de la parole même dans un environnement sonore relativement bruyant.

Selon un autre de ses aspects, indépendamment ou en combinaison avec ce qui précède, Tinvention a encore pour objet un système d'aide pour personne malentendante, comportant :

- un dispositif d'acquisition de bruits émis dans renvironnement sonore de la personne,

- un dispositif de visualisation tête haute,

- un système de traitement pour analyser en temps réel des données sonores transmises par le dispositif d'acquisition, agencé pour reconnaître des bruits autres que la parole, et transmettre au dispositif de visualisation une transcription phonétique au moins partielle de ces bruits pour son affichage dans le champ de vision de la personne malentendante.

Ainsi, la personne malentendante peut être renseignée sur l'ambiance sonore et être avertie de la présence d'un danger, par exemple.

Les bruits reconnus par le système de traitement peuvent être Tun des bruits suivants : klaxon, alarme, bruit de circulation, cris cfenfant(s), cris d'animaux, sonneries du téléphone, etc.

Le cas échéant, le système de traitement peut être agencé pour permettre à l'utilisateur lui-même de programmer la reconnaissance d'un bruit particulier, par exemple une sonnerie d'un appareil donné, et l'affichage d'une information correspondante, qui peut présenter un graphisme défini à Tavance par l'utilisateur, le cas échéant. Cela peut permettre une adaptation personnalisée du système d'aide à un environnement sonore particulier, voire à un danger particulier.

Selon d'autres aspects non limitatifs de Tinvention, le dispositif d'acquisition peut comporter un microphone intégré à une oreillette ou un microphone cravate.

Lorsque le microphone est intégré à une oreillette, cela peut permettre, en particulier dans le cadre de la vie privée ou dans le cas de la rééducation, que l'interlocuteur de la personne malentendante reçoive l'information diffusée par un haut-parleur de roreillette, permettant non seulement la transmission des sons originaux, mais aussi rinformation affichée, transformée en son par l'unité de calcul. Pour cela, l'unité de calcul peut utiliser un logiciel de synthèse vocale de type connu en soi, permettant la transcription du texte affiché en parole (Text-To-Speech). Ainsi les interlocuteurs des malentendants peuvent contrôler que l'information projetée est correcte et la répéter le cas échéant.

Le système de traitement peut être agencé pour reconnaître à la fois des unités phonétiques et des bruits prédéfinis.

La transcription phonétique des bruits émis dans renvironnement sonore de la personne peut ne faire intervenir aucune grammaire et ne comporter aucun caractère alphanumérique, afin d'être facilement appréhendable par un enfant ne sachant pas lire.

L'affichage dans le champ de vision de la personne portant le dispositif des bruits sonores émis dans renvironnement peut être effectué avec un retard par rapport à leur émission inférieur à 100 ms.

Le système de traitement peut utiliser des modèles acoustiques généraux, qualifiés sur des corpus volumineux, y compris plusieurs interlocuteurs avec une distribution statistique d'âge, de sexe, et de régions géographiques (accents) afin de représenter une situation moyenne du langage parlé et garantir des performances excellentes dans les situations les plus courantes.

Cependant, quand il y a une certaine particularité d'un locuteur qui dévie de la parole standard, une adaptation des modèles acoustiques peut être nécessaire pour améliorer les performances.

Ainsi, dans un exemple de mise en œuvre de Tinvention, le système de traitement est agencé pour effectuer un apprentissage phonétique permettant l'individualisation des mots non stockés, mais fréquemment utilisés, et l'intégration des variantes de prononciation imprévus pour les mots stockés. Cela peut être particulièrement utile en cas d'interlocuteurs de langue maternelle étrangère ou d'accents régionaux.

Toujours dans un exemple de mise en œuvre, le système de traitement peut être agencé pour effectuer une adaptation des modèles acoustiques avec les données vocales collectées sur le terrain pendant l'utilisation, améliorant ainsi la précision de la modélisation acoustico-phonétique.

L'adaptation des modèles acoustiques peut permettre une adaptation au locuteur, notamment à une manière de parler ou à une langue ou à un accent, à un ou plusieurs canaux d'entrée et/ou à un environnement sonore particulier.

Le système de traitement peut être agencé pour recevoir une mise à jour du ou des programmes et/ou fichiers utilisés pour analyser les données sonores, notamment des modèles acoustiques.

Le système de traitement peut également être agencé pour pouvoir télécharger des programmes et/ou fichiers, notamment des modèles acoustiques, en fonction de critères sélectionnés par l'utilisateur, par exemple la langue de l'interlocuteur, la zone géographique, les signes à afficher pour la transcription phonétique, les bruits à reconnaître..

Le dispositif de visualisation peut être agencé pour recevoir des données à afficher par une liaison sans fil.

Le dispositif de visualisation peut comporter des lunettes. En variante, le dispositif de visualisation peut être intégré à un casque, à un pupitre ou à un guichet, entre autres. Le dispositif de visualisation peut comporter un dispositif de projection monochrome ou couleur. Le système d'aide peut comporter au moins un microphone directionnel et au moins un microphone omnidirectionnel, le système de traitement étant agencé pour éliminer le bruit ambiant non utile à la compréhension de la parole par un traitement différentiel des signaux reçus des microphones omnidirectionnel et directionnel.

L'invention a encore pour objet un procédé d'affichage d'une transcription visuelle de mots prononcés par l'interlocuteur d'une personne malentendante, comportant les étapes consistant à :

- capter les mots prononcés par rinterlocuteur, de préférence au moyen d'au moins un microphone porté par rinterlocuteur ou directionnel et dirigé vers celui-ci, intégré de préférence dans le dispositif de visualisation tête haute, - segmenter et analyser en temps réel ces mots pour reconnaître des unités phonétiques et générer une transcription phonétique au moins partielle de ces mots, par exemple sous forme d'une séquence de signes phonétiques,

- afficher dans le champ de vision de la personne, grâce à un dispositif de visualisation tête haute, la transcription phonétique de façon à lui permettre de voir à la fois simultanément le mouvement des lèvres et/ou les gestes de rinterlocuteur et la transcription phonétique.

Dans une variante, la transcription phonétique des mots peut être complète. Cette transcription phonétique peut être effectuée en phonèmes.

L'invention a encore pour objet, selon un autre de ses aspects, un procédé d'affichage d'une transcription visuelle de bruits présents dans renvironnement sonore d'une personne malentendante, comportant les étapes consistant à :

- capter, de préférence au moyen d'un microphone omnidirectionnel, intégré ou pas dans le dispositif de la visualisation tête haute, les bruits dans renvironnement sonore de la personne malentendante, notamment des bruits de machines ou d'appareils ou des cris d'enfants ou d'animaux,

- analyser en temps réel ces bruits et générer une transcription visuelle au moins partielle de ceux-ci lorsque reconnus,

- afficher dans le champ de vision de la personne, grâce à un dispositif de visualisation tête haute, une transcription visuelle de ces bruits.

L'invention pourra être mieux comprise à la lecture de la description détaillée qui va suivre, d'exemples de mise en œuvre non limitatifs de celle-ci, et à l'examen du dessin annexé, sur lequel :

- les figures 1 à 4 représentent de façon schématique différents exemples de systèmes d'aide selon Tinvention,

- la figure 5 est un schéma en blocs illustrant un exemple de procédé selon Tinvention, - la figure 6 représente des exemples d'images pouvant servir de transcription visuelle pour divers bruits correspondants,

- la figure 7 représente des positions de main et de doigts du LPC,

- la figure 8 est un exemple d'image susceptible d'être affichée, et

- la figure 9 est un spectrogramme du mot computer. On a représenté à la figure 1 un exemple de système d'aide 1 réalisé conformément à Tinvention, comportant un dispositif 10 de visualisation tête haute destiné à la personne malentendante, un système de traitement 20 agencé pour envoyer des informations au dispositif de visualisation 10 et un dispositif d'acquisition 30 destiné à transmettre des données sonores au système de traitement 20. Dans l'exemple considéré, le dispositif de visualisation comporte une paire de lunettes pourvues de moyens d'affichage dans le champ de vision de la personne malentendante.

Le dispositif de visualisation est par exemple une paire de lunettes disponible commercialement auprès de la société THE MICRO OPTICAL CORPORATION. Un exemple de telles lunettes est décrit dans WO 99/23524.

Les lunettes peuvent comporter un dispositif de projection miniature, monochrome ou couleur, porté par une branche par exemple, pour afficher des informations sur Tun des verres au moins.

Le dispositif de projection peut être un écran transparent à cristaux liquides et/ou diodes d'émission de la lumière. Il peut aussi comporter un laser, par exemple.

Les lunettes peuvent également intégrer au moins un microphone et une source d'énergie.

Les informations affichées par le dispositif de visualisation peuvent Têtre dans une région des verres permettant à la personne malentendante de percevoir simultanément ces informations et les lèvres et/ou les gestes d'un interlocuteur, notamment les expressions faciales. La région d'affichage est par exemple située dans une zone centrale du champ de vision de l'utilisateur, notamment dans le cas dun afficheur monoculaire du type micro- display, ou déportée sur une zone périphérique pour un plus grand confort.

La zone d'affichage peut couvrir tout ou partie du champ de vision de rutilisateur dès lors que l'afficheur est transparent et permet la perception concurrente de la scène audio-visuelle aux informations présentées, notamment dans le cas d'un afficheur projetant des images sur un verre transparent, ce qui est par exemple le cas des lunettes

« tête-haute » de la société THE MICRO OPTICAL CORPORATION.

Le dispositif d'acquisition 30 est par exemple destiné à être porté par Tinterlocuteur de la personne malentendante, et peut se présenter sous la forme d'une oreillette à microphone intégré.

L'oreillette est par exemple une oreillette telle qu'utilisée classiquement en association avec un téléphone portable, afin de laisser les mains de l'utilisateur libres.

Le système de traitement 20 peut échanger des données avec le dispositif de visualisation 10 et le dispositif d'acquisition 30 par des liaisons filaires ou non, par exemple par des liaisons radiofréquence ou infrarouge, la transmission des données s'effectuant par exemple selon les protocoles BlueTooth ® , Wifi ® , 802.1 lb ® ou autres.

Le système de traitement 20 comporte par exemple au moins un microprocesseur et au moins une mémoire, étant configuré pour exécuter un programme informatique de traitement des données sonores reçues du dispositif d'acquisition 30. Le système de traitement 20 est par exemple un micro-ordinateur personnel pourvu des interfaces adéquates afin de recevoir les données sonores du dispositif d'acquisition 30 et adresser sensiblement en temps réel les données d'affichage au dispositif de visualisation 10.

Dans la variante de la figure 2, le système de traitement 20 comporte une unité de traitement locale 21 pouvant communiquer avec l'unité de traitement distante 22, cette dernière effectuant tout ou partie du traitement des signaux.

L'unité de traitement locale 21 est par exemple un assistant personnel numérique pourvu des interfaces adéquates afin de recevoir des données sonores du dispositif d'acquisition 30 et transmettre les données à afficher au dispositif de visualisation 10. L'unité de traitement locale 21 peut échanger des informations avec l'unité de traitement distante 22 par une liaison filaire ou non, notamment radiofréquence ou infrarouge.

L'unité de traitement distante 22 est par exemple un micro-ordinateur ou un serveur d'un site par réseau informatique, notamment le réseau Internet. Dans une variante non illustrée, l'unité de traitement locale 21 est un téléphone sans fil et l'unité de traitement distante 22 est par exemple un serveur communiquant par le réseau téléphonique avec l'unité de traitement locale 21.

Dans la variante de la figure 3, le système de traitement 20 est intégré au dispositif de visualisation 10, ce dernier recevant directement les données sonores depuis le dispositif d'acquisition 30 par une liaison filaire ou non, notamment une liaison radiofréquence.

Dans la variante de la figure 4, le dispositif d'acquisition 30 ne se présente plus sous la forme d'une oreillette mais sous la forme d'un ou plusieurs microphones 31 qui ne sont pas portés par l'interlocuteur de la personne malentendante. Les microphones 31 sont par exemple des microphones sur pied, et peuvent être reliés au système de traitement 20 par une liaison filaire comme dans l'exemple illustré, ou en variante non filaire.

Dans une variante non illustrée, le dispositif d'acquisition 30 est un microphone cravate pouvant être porté par l'interlocuteur de la personne malentendante. Dans une autre variante non illustrée, le dispositif d'acquisition 30 est un microphone pouvant être intégré dans le dispositif de la visualisation tête haute et dirigé vers rinterlocuteur.

Lorsque le dispositif d'acquisition 30 comporte au moins un microphone porté par rinterlocuteur de la personne malentendante, ce qui est par exemple le cas de l'oreillette illustrée sur les figures 1 à 3 ou du microphone cravate de la variante précitée, la proximité du microphone avec la source sonore permet de réduire Tinfluence de l'environnement

sonore ambiant dans le traitement ultérieur des données sonores et facilite la reconnaissance de la parole.

Le système d'aide peut alors ne pas comporter de microphone additionnel.

Dans une variante de mise en œuvre, le système d'aide comporte d'une part au moins un microphone directionnel pour capter au mieux les sons émis par l'interlocuteur de la personne malentendante ou un microphone placé à proximité de celui-ci, qui peut être directionnel ou non, comme c'est le cas d'un microphone intégré à une oreillette ou un microphone cravate et d'autre part au moins un microphone additionnel permettant de capter l'environnement sonore ambiant. Un tel microphone additionnel est avantageusement un microphone omnidirectionnel.

Le système d'aide peut fonctionner comme illustré sur la figure 5.

L'acquisition des données sonores peut s'effectuer avec un ou plusieurs microphones comme mentionné ci-dessus. Dans le cas d'une acquisition à plusieurs microphones, un traitement différentiel des données peut être effectué afin de séparer les données provenant de la source sonore à analyser, à savoir l'interlocuteur de la personne malentendante, et les données correspondant à l'environnement sonore, non utiles pour la compréhension de la parole.

Le traitement des données conduit à l'affichage dans le champ de vision de la personne malentendante d'une transcription phonétique 40 qui est adaptée à une appréhension rapide par la personne malentendante.

Le système de traitement 20 est de préférence suffisamment rapide pour permettre l'affichage d'une transcription phonétique d'un son prononcé par l'interlocuteur dans un délai inférieur à 100 ms. La quantité d'informations affichée peut être choisie de façon à être compatible avec l'affichage simultané et garantir l'appréhension de l'information affichée par la personne malentendante.

Il peut ainsi être avantageux que l'information affichée soit limitée à une séquence de signes phonétiques pour chaque son prononcé, affichée son après son, sans décalage sensoriel avec le son.

Il peut s'agir par exemple de signes divers comme des caractères représentant des phonèmes, des syllabes, des graphèmes, ou des images, par exemple des

pictogrammes, et pour les indications de l'environnement sonore des courbes bi- ou tridimensionnelles.

Des positions de doigts ou de mains du LPC telles qu'illustrées à la figure 7 peuvent également être représentées, seules ou en plus de l'affichage d'un autre signe phonétique, par exemple un phonème, comme illustré à la figure 8. L'enfant sourd, qui apprend le LPC, peut ainsi apprendre en même temps le Français, et aura moins de difficultés à passer le cap de la langue écrite.

En variante ou additionnellement, les données sonores peuvent être analysées de façon à permettre l'affichage par le dispositif de visualisation d'informations associées à des bruits autres que la parole, par exemple un bruit d'avertisseur sonore, d'alarme, un cri d'enfant, un bruit de circulation.

Chacun de ces bruits peut par exemple être détecté et provoquer l'affichage sur le dispositif de visualisation d'une image correspondante. A titre d'exemple, la figure 6 représente différentes images pouvant être affichées pour signaler la présence sonore d'un klaxon, d'un bruit de moteur d'un bus ou d'une voiture, d'un cri de bébé, d'un chant du coq ou d'un aboiement.

Le cas échéant, le système de traitement peut être agencé pour permettre une personnalisation des bruits reconnus, grâce à une phase d'apprentissage du système ou au téléchargement de données sélectionnées par l'utilisateur. Dans tous les exemples illustrés, la reconnaissance des sons ou des bruits peut s'effectuer par un procédé fondé sur la décomposition temporelle, fréquentielle et énergétique du signal, par exemple la transformée de Fourier puis une classification selon des modèles stochastiques en unités linguistiques prédéfinies, par exemple phonème ou mot. Lors du traitement, le signal électrique issu du microphone lorsque le locuteur parle est échantillonné afin de générer des données numériques.

Le système de traitement est agencé pour analyser et paramétrer ces données et effectuer un traitement mathématique de celles-ci.

Ce traitement peut comporter la description du signal acoustique de parole en termes d'unités linguistiques discrètes.

Les unités les plus utilisées peuvent être les phonèmes, les syllabes, les mots..

Un phonème est un élément sonore d'un langage donné, déterminé par les rapports qu'il entretient avec les autres sons de ce langage. Par exemple, le mot « cou » est formé des phonèmes « keu » et « ou ».

Le traitement effectué peut permettre de segmenter le signal en segments élémentaires et une fois la segmentation effectuée, l'identification des différents segments peut se faire en fonction de contraintes phonétiques et/ou linguistiques.

Le signal, suite à ce traitement, dépend de trois paramètres : le temps, la fréquence et Tintensité, et peut être représenté sous la forme d'un spectrogramme.

A titre d'exemple, la figure 9 est spectrogramme du mot computer. L'axe vertical représente des fréquences jusqu'à 8000 Hz, l'axe horizontal montre le temps positif vers la droite et les couleurs représentent Tintensité des crêtes acoustiques les plus importantes d'une tranche de temps donnée, le rouge représentant les énergies les plus élevées.

Une approche analytique, qui tire parti de la structure linguistique des mots, peut être utilisée afin de détecter et d'identifier les composantes élémentaires (phonèmes et syllabes). Cette approche a un caractère plus général pour reconnaître de grands vocabulaires, car il suffit d'enregistrer dans la mémoire du système de traitement les principales caractéristiques des unités de base. Les mots peuvent ne pas être mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes. Le signal dû au locuteur est obtenu en soustrayant la densité spectrale du bruit de fond de la densité spectrale du signal détecté par le microphone. Le spectre du bruit de fond peut être approximé par la moyenne des spectres de bruit mesurés durant les silences séparant les énoncés. Lorsqu'un microphone multidirectionnel additionnel est présent, le spectre du bruit de fond peut être estimé grâce à ce microphone. L'invention n'est pas limitée aux exemples qui viennent d'être décrits.

Le dispositif de visualisation 10 peut être de tout type adapté à une vision tête haute, n'étant pas limité à des lunettes.

Le dispositif de visualisation 10 peut notamment comporter un écran transparent placé dans le champ de vision de la personne malentendante, non porté par celui-ci, de façon à lui permettre d'observer à la fois les informations affichées sur cet écran et rinterlocuteur.

Le dispositif de visualisation 10 peut aussi comporter un accessoire de table, par exemple du genre pendule moderne, avec affichage transparent à cristaux liquides

(LCD) ou à diodes à émission de lumière (LED), placée dans le champ de vision de la personne malentendante, non portée par celle-ci, de façon à lui permettre d'observer à la fois les informations affichées de manière synchrone et les mouvements de l'interlocuteur.

Le dispositif de visualisation 10 peut encore comporter, par exemple, une vitre, sur laquelle les informations sont projetées, au moyen d'au moins un laser par exemple. Cette vitre peut être présente à un guichet ou à un pupitre. Il peut encore s'agir de la visière d'un casque. Le cas échéant, les informations affichées dans le champ de vision de la personne malentendante peuvent également être affichées sur un écran annexe, voire sur une autre paire de lunettes, afin de permettre par exemple à un rééducateur de contrôler les informations que visualise la personne malentendante.

L'expression « comportant un » doit être comprise comme étant synonyme de « comportant au moins un », sauf si le contraire est spécifié.