Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PREDICTION OF THE ATTENTION OF AN AUDIENCE DURING A PRESENTATION
Document Type and Number:
WIPO Patent Application WO/2018/042133
Kind Code:
A1
Abstract:
The invention pertains to a method for predicting the attention of at least one audience during a presentation by at least one speaker. The method is such that it comprises the steps of measurements (E25) of vocal or gestural characteristics of the at least one speaker of the presentation in progress and/or of measurements of characteristics of content of the presentation in progress, measurement (E26) of at least one parameter of duration or of occurrence of the measured characteristics, consultation (E27) of a database comprising a correspondence between vocal or gestural speaker characteristics and/or presentation content characteristics, parameters of duration or of occurrence which relate to these characteristics and information relating to the evolution of the attention level for these characteristics and these parameters and recovery of the information relating to the evolution of the attention level corresponding to the measurements performed, of presentation (E28) to the at least one speaker of the presentation, of a prediction of attention level on the basis of the information recovered relating to the evolution of the attention level. The invention also pertains to a learning phase for obtaining the correspondences of the database, to a prediction device implementing the method described as well as to a learning device implementing the learning phase.

Inventors:
MONCOMBLE, Ghislain (6 rue Convenant Meur, PLESTIN LES GREVES, 22310, FR)
RONDET, Patrick (12 rue Yvonne Jean Haffen, LANNION, 22300, FR)
Application Number:
FR2017/052314
Publication Date:
March 08, 2018
Filing Date:
August 31, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ORANGE (78 rue Olivier de Serres, PARIS, 75015, FR)
International Classes:
A61B5/16; A61B5/00; A61B5/11; G06F19/24; G06K9/00; G06Q30/02; G09B19/04; G10L15/25; G10L25/63; G10L25/66
Foreign References:
US20160049094A12016-02-18
US20160078369A12016-03-17
US20110263946A12011-10-27
Other References:
WU QING; SUN BINGXI; XIE BIN; ZHAO JUNJIE, THIRD INTERNATIONAL SYMPOSIUM ON INFORMATION PROCESSING (ISIP, 2010, pages 437 - 441
XIAO FAN; BAO-CAI YIN; YAN-FENG SUN: "Yawning détection for monitoring driver", PROCEEDINGS OF THE SIXTH INTERNATIONAL CONFÉRENCE ON MACHINE LEARNING AND CYBERNETICS, 19 August 2007 (2007-08-19)
Attorney, Agent or Firm:
ORANGE IMT/OLR/IPL/PATENTS (FROGER Marie-Hélène, ORANGE GARDENS -44 avenue de la République - CS, 92326 CHATILLON CEDEX, 92326, FR)
Download PDF:
Claims:
REVENDICATIONS

Procédé de prédiction du niveau d'attention d'au moins un auditoire lors d'une présentation par au moins un locuteur, caractérisé en ce qu'il comporte les étapes suivantes :

- mesures (E25) de caractéristiques vocales ou gestuelles du au moins un locuteur de la présentation en cours et/ou mesures de caractéristiques de contenu de la présentation en cours;

- mesure (E26) d'au moins un paramètre de durée ou d'occurrence des caractéristiques mesurées ;

-consultation (E27) d'une base de données comportant une correspondance entre des caractéristiques vocales ou gestuelles de locuteur et/ou des caractéristiques de contenu de présentation, des paramètres de durée ou d'occurrence liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres, et récupération des informations relatives à l'évolution du niveau d'attention correspondant aux mesures effectuées;

- présentation (E28) à l'au moins un locuteur de la présentation, d'une prédiction de niveau d'attention à partir des informations relatives à l'évolution du niveau d'attention récupérées.

Procédé selon la revendication 1, caractérisé en ce que les informations relatives à l'évolution du niveau d'attention comprennent une probabilité sur l'évolution du niveau d'attention et en ce que cette probabilité est présentée à l'au moins un locuteur.

Procédé selon l'une des revendications 1 à 2, caractérisé en ce que les informations relatives à l'évolution du niveau d'attention sont corrigées en fonction d'une information de contexte de l'auditoire.

Procédé selon l'une des revendications 1 à 3, caractérisé en ce que les informations relatives à l'évolution du niveau d'attention sont corrigées en fonction de mesures d'émotion associées aux caractéristiques mesurées.

Procédé selon l'une des revendications 1 à 4, caractérisé en ce qu'il comporte en outre une étape de détermination de recommandations d'actions à effectuer par le locuteur pour faire évoluer le niveau d'attention du au moins un auditoire en fonction des informations relatives à l'évolution du niveau d'attention récupérées et une étape de présentation à l'au moins un locuteur des recommandations déterminées.

Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre une phase d'apprentissage d'informations d'évolution du niveau d'attention d'au moins un auditoire de présentations, la phase d'apprentissage comportant les étapes suivantes :

- collecte (E20a) de mesures de niveau d'attention d'au moins un auditoire pour un ensemble de présentations, une présentation étant effectuée par au moins un locuteur ;

- indexation (E20b) des présentations de l'ensemble, par les mesures de niveau d'attention collectées ;

- indexation (E21) des présentations de l'ensemble par des mesures de caractéristiques vocales ou gestuelles des locuteurs et/ou des mesures de caractéristiques de contenu des présentations ;

- synchronisation (E22) des indexations respectives pour déterminer des associations entre des caractéristiques et des mesures de niveau d'attention pour les présentations de l'ensemble;

- détermination (E23) d'évolution des niveaux d'attention par analyse des associations déterminés pour un ensemble de caractéristiques ou groupes de caractéristiques et selon au moins un paramètre de durée ou d'occurrence de ces caractéristiques ;

- enregistrement (E24) dans une base de données, de correspondances entre les caractéristiques vocales ou gestuelles de locuteur et/ou les caractéristiques de contenu de présentation, les paramètres de durée ou d'occurrence liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres.

Procédé selon la revendication 6, caractérisé en ce que l'information relative à l'évolution du niveau d'attention comprend une probabilité d'évolution calculée à partir de l'analyse d'un taux de répétabilité des évolutions déterminées sur l'ensemble des présentations.

Procédé selon l'une des revendications 6 à 7, caractérisé en ce que les informations relatives à l'évolution du niveau d'attention enregistrées dans la base de données sont corrigées en fonction d'une information associée de contexte de l'auditoire ou en fonction de mesures d'émotion associées aux caractéristiques correspondantes.

9. Dispositif de prédiction de l'attention d'au moins un auditoire d'une présentation effectuée par au moins un locuteur, caractérisé en ce qu'il comporte :

- un module de mesure et de détection (450) pour détecter des mesures de caractéristiques locales ou gestuelles du au moins un locuteur de la présentation en cours et/ou des caractéristiques de contenu de la présentation en cours et pour mesurer au moins un paramètre de durée ou d'occurrence des caractéristiques détectés ;

- un module de consultation (460) d'une base de données pour récupérer des informations relatives à l'évolution du niveau d'attention correspondant aux mesures détectées, la base de données comportant une correspondance entre des caractéristiques vocales ou gestuelles de locuteur et/ou des caractéristiques de contenu de présentation, des paramètres de durée ou d'occurrence liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres ;

- une interface utilisateur (470) pour présenter à l'au moins un locuteur de la présentation, une prédiction de niveau d'attention à partir des informations relatives à l'évolution du niveau d'attention récupérées.

10. Terminal caractérisé en ce qu'il comporte un dispositif selon la revendication 9.

11. Système de prédiction caractérisé en ce qu'il comporte un dispositif de prédiction selon la revendication 9 et un dispositif d'apprentissage comportant :

un module (320) de collecte de mesures de niveau d'attention d'un auditoire prises sur un ensemble de présentations, une présentation étant effectuée par au moins un locuteur ;

un module d'indexation (350, 360) pour d'une part indexer par des mesures de niveau d'attention d'un auditoire, des présentations de l'ensemble et d'autre part indexer par des mesures de caractéristiques vocales ou gestuelles des locuteurs et/ou par des mesures de caractéristiques de contenu des présentations, des présentations de l'ensemble;

un module de synchronisation (370) pour synchroniser les indexations respectives pour déterminer des associations entre des caractéristiques et des mesures de niveau d'attention pour les présentations de l'ensemble;

un module d'analyse (380) pour déterminer des évolutions des niveaux d'attention par analyse des associations déterminés pour un ensemble de caractéristiques ou groupes de caractéristiques et selon un paramètre de durée ou d'occurrence de ces caractéristiques ; un module d'enregistrement (340, 390) dans une base de données pour enregistrer des correspondances entre les caractéristiques vocales ou gestuelles de locuteur et/ou les caractéristiques de contenu de présentation, les paramètres de durée ou de temps liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres.

12. Système de prédiction selon la revendication 11, caractérisé en ce que le dispositif d'apprentissage est un serveur.

13. Programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de prédiction selon l'une des revendications 1 à 8, lorsque ces instructions sont exécutées par un processeur.

14. Support d'informations lisible par un processeur sur lequel est enregistré un programme informatique comprenant des instructions pour l'exécution des étapes du procédé de prédiction selon l'une des revendications 1 à 8.

Description:
Prédiction de l'attention d'un auditoire lors d'une présentation

La présente invention se rapporte au domaine des systèmes et méthodes de prédiction de l'attention d'un auditoire et plus particulièrement lors d'une présentation par au moins un locuteur après une phase d'apprentissage sur un ensemble de présentations déjà effectuées.

De nombreuses méthodes permettent de mesurer en temps réel l'attention d'une personne dans diverses situations, par exemple au volant d'une voiture, lors d'une écoute à une conférence ou bien lors d'une visualisation d'un contenu vidéo.

Ces méthodes reposent par exemple sur des détections de mouvement de corps, de mouvement des yeux, de changement de rythme de respiration, du bavardage, etc. Cette liste n'est pas exhaustive.

L'objectif de ces mesures est de déceler une diminution de l'attention de la personne afin d'intervenir soit pour stimuler la personne soit pour changer le contenu visualisé ou le contexte dans lequel se trouve la personne.

Dans le cas de présentations faites par un locuteur ou plusieurs locuteurs, par exemple dans le cas de formations de type « e-learning », diffusées en ligne, on constate qu'il peut être difficile de garder l'attention de l'apprenant qui est derrière son écran et qui ne bénéficie pas d'une ambiance de groupe ou du contexte de la formation. Le formateur ne peut pas non plus se rendre compte d'une baisse d'attention lors de l'enregistrement de sa présentation, en particulier si cette présentation est proposée en différé.

Dans le domaine radiophonique, on constate également que des discours homogènes sans changement de rythme ou de locuteurs font perdre l'attention des auditeurs avec pour conséquence une perte d'audience pour la chaîne radiophonique. C'est pourquoi, que ce soit dans le domaine radiophonique ou le domaine audiovisuel, des relances ou changements de rythme sont souvent prévus, des annonces publicitaires sont insérées, des reformulations par d'autres locuteurs sont effectuées afin de conserver l'attention et l'audience sur des périodes de temps plus longues.

Cependant, ces astuces sont mises en œuvre la plupart du temps de façon empirique sans savoir si cela a un impact réel sur l'attention et sans savoir si leurs mises en œuvre sont nécessaires.

De même, d'autres mesures plus efficaces pourraient être effectuées pour garder l'attention de l'auditoire.

II existe donc un besoin de prédire l'attention d'un auditoire de façon à adapter une présentation en cours pour la rendre plus attractive devant un auditoire présent ou non encore présent, sans prendre de mesures de l'attention en temps réel. La présente invention vient améliorer la situation.

Elle propose à cet effet, un procédé de prédiction du niveau d'attention d'au moins un auditoire lors d'une présentation par au moins un locuteur. Le procédé est tel qu'il comporte les étapes suivantes :

- mesures de caractéristiques vocales ou gestuelles du au moins un locuteur de la présentation en cours et/ou mesures de caractéristiques de contenu de la présentation en cours;

- mesure d'au moins un paramètre de durée ou d'occurrence des caractéristiques mesurées ;

-consultation d'une base de données comportant une correspondance entre des caractéristiques vocales ou gestuelles de locuteur et/ou des caractéristiques de contenu de présentation, des paramètres de durée ou d'occurrence liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres et récupération des informations relatives à l'évolution du niveau d'attention correspondant aux mesures effectuées;

- présentation à l'au moins un locuteur de la présentation, d'une prédiction de niveau d'attention à partir des informations relatives à l'évolution du niveau d'attention récupérées.

Ainsi, le locuteur de la présentation a une information de prédiction sur l'attention que porte ou va porter l'auditoire à la présentation qu'il est en train d'effectuer. Pour cela, il n'est pas nécessaire avec ce procédé de faire des mesures en temps réel de l'attention de l'auditoire. De même, si une présentation est enregistrée pour être diffusée plus tard, le procédé permet d'être informé sur une estimation de l'évolution du niveau d'attention qu'un auditoire peut avoir de façon à adapter au besoin la suite de la présentation.

Les différents modes particuliers de réalisation mentionnés ci-après peuvent être ajoutés indépendamment ou en combinaison les uns avec les autres, aux étapes du procédé de prédiction défini ci-dessus.

Dans un mode de réalisation particulier, les informations relatives à l'évolution du niveau d'attention comprennent une probabilité sur l'évolution du niveau d'attention et cette probabilité est présentée à l'au moins un locuteur.

La probabilité ainsi présentée permet au locuteur de savoir dans quelle mesure il doit se fier à la prédiction de l'évolution du niveau d'attention qu'il a reçu. Il peut ainsi adapter au mieux ses actions futures.

Dans un mode de réalisation, les informations relatives à l'évolution du niveau d'attention sont corrigées en fonction d'une information de contexte de l'auditoire.

En effet, selon que l'auditoire comporte une ou plusieurs personnes, selon le lieu dans lequel la présentation est faite ou diffusée, selon l'horaire de présentation, la température du lieu dans lequel se trouve un auditoire, selon le type de public présent dans l'auditoire, selon que les membres de cet auditoire ont fait ou non un repas conséquent, etc ... , l'attention de l'auditoire peut différer. L'information de contexte permet donc d'améliorer ou de modifier l'estimation du niveau d'attention qui a été mesurée.

Dans un mode de réalisation particulier, les informations relatives à l'évolution du niveau d'attention sont corrigées en fonction de mesures d'émotion associées aux caractéristiques mesurées.

En effet, l'attention de l'auditoire peut évoluer de façon significative en fonction du contenu de la présentation, et plus particulièrement de mots ou phrases clés, ou en variante d'images particulières susceptibles de générer de l'émotion, ce qui a pour effet de recentrer l'attention de l'auditoire. Les mots clés et ou phrases clés, ou les images générant de l'émotion, sont déterminées par analyse des signaux audio et ou vidéo de la présentation, par exemple par le biais d'une reconnaissance vocale et ou d'une reconnaissance d'images, et la base de données comporte des informations permettant de relier ces mots clés avec une mesure d'émotion. Ainsi, selon ces éléments clés, l'attention de l'auditoire peut également différer selon que les éléments caractéristiques sont liés ou non à une mesure d'émotion additionnelle.

L'information relative au contenu de la présentation couplée à une mesure d'émotion associée permet donc d'améliorer ou de modifier l'estimation du niveau d'attention qui a été mesurée. Cette mesure d'émotion peut également être différente selon le type d'auditoire présent ou le contexte de l'auditoire. Les deux informations d'émotion et de contexte peuvent alors être prises en compte pour améliorer ou modifier l'estimation du niveau d'attention.

Dans un mode de réalisation le procédé comporte en outre une étape de détermination de recommandations d'actions à effectuer par le locuteur pour faire évoluer le niveau d'attention du au moins un auditoire en fonction des informations relatives à l'évolution du niveau d'attention récupérées et une étape de présentation à l'au moins un locuteur des recommandations déterminées.

Ainsi, le locuteur sait comment adapter sa présentation pour augmenter le niveau d'attention de son auditoire présent ou futur. Il peut optimiser au mieux la présentation en cours.

Dans une phase préalable au procédé de prédiction, une phase d'apprentissage est mise en œuvre. L'invention se rapporte ainsi à un procédé d'apprentissage d'informations d'évolution du niveau d'attention d'au moins un auditoire de présentations. La phase d'apprentissage est telle qu'elle comporte les étapes suivantes :

- collecte de mesures de niveau d'attention d'au moins un auditoire pour un ensemble de présentations, une présentation étant effectuée par au moins un locuteur ; - indexation des présentations de l'ensemble, par les mesures de niveau d'attention collectées ;

- indexation des présentations de l'ensemble par des mesures de caractéristiques vocales ou gestuelles des locuteurs et/ou des mesures de caractéristiques de contenu des présentations ;

- synchronisation des indexations respectives pour déterminer des associations entre des caractéristiques et des mesures de niveau d'attention pour les présentations de l'ensemble;

- détermination d'évolution des niveaux d'attention par analyse des associations déterminés pour un ensemble de caractéristiques ou groupes de caractéristiques et selon au moins un paramètre de durée ou d'occurrence de ces caractéristiques ;

- enregistrement dans une base de données, de correspondances entre les caractéristiques vocales ou gestuelles de locuteur et/ou les caractéristiques de contenu de présentation, les paramètres de durée ou d'occurrence liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres.

Ce procédé d'apprentissage peut être mis en œuvre sur une pluralité de présentations faites par le même locuteur ou par des locuteurs différents de façon à avoir un panel représentatif des caractéristiques possibles de présentations et de locuteurs. La base de données résultante peut être enrichie au fur et à mesure par des mesures effectuées pour de nouvelles présentations, elle peut donc évoluer.

Ce procédé d'apprentissage permet donc d'associer des informations sur l'évolution du niveau d'attention à des caractéristiques liées à la présentation en cours. La base de données résultante peut être sauvegardée dans le terminal mettant en œuvre le procédé de prédiction par exemple le terminal du présentateur de façon à ce qu'il ait les informations d'évolution de niveau d'attention de façon simple et sans qu'il soit nécessaire d'avoir des dispositifs de mesures ni même un accès réseau.

Dans un mode de réalisation particulier, l'information relative au niveau d'attention comprend une probabilité d'évolution calculée à partir de l'analyse d'un taux de répétabilité des évolutions déterminées sur l'ensemble des présentations.

Ceci apporte donc une mesure de confiance sur les informations d'évolution du niveau d'attention qui sont déterminés et présentés lors du procédé de prédiction au locuteur.

De façon à améliorer les correspondances entre caractéristiques et informations d'évolution de niveau d'attention enregistrées dans la base de données, les informations relatives à l'évolution du niveau d'attention enregistrées dans la base de données sont corrigées en fonction d'une information associée de contexte de l'auditoire ou en fonction de mesures d'émotion associées aux éléments caractéristiques correspondants. Ainsi, la méthode d'apprentissage prend aussi en compte les caractéristiques des contextes des auditoires, ce qui permettra lors de l'utilisation de ladite base de données de sélectionner des contextes d'auditoire correspondant à ceux attendus pour une présentation sur laquelle le procédé sera appliqué. Les mêmes caractéristiques de contexte pourront également être prises en compte si on applique également des mesures d'émotion, ces mesures pouvant également différer d'un contexte à l'autre.

Corrélativement, l'invention vise un dispositif de prédiction de l'attention d'au moins un auditoire d'une présentation effectuée par au moins un locuteur. Le dispositif est tel qu'il comporte :

- un module de mesure et de détection pour détecter des caractéristiques vocales ou gestuelles du au moins un locuteur de la présentation en cours et/ou des caractéristiques de contenu de la présentation en cours et pour mesurer au moins un paramètre de durée ou d'occurrence des caractéristiques détectés ;

- un module de consultation d'une base de données pour déterminer des informations relatives à l'évolution du niveau d'attention, la base de données comportant une correspondance entre des caractéristiques vocales ou gestuelles de locuteur et/ou des caractéristiques de contenu de présentation, des paramètres de durée ou d'occurrence liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres ;

- une interface utilisateur pour présenter à l'au moins un locuteur de la présentation, une prédiction de niveau d'attention à partir des informations relatives à l'évolution du niveau d'attention récupérées.

L'invention se rapporte à un terminal qui comporte un dispositif de prédiction tel que décrit.

Ce terminal et ce dispositif présentent les mêmes avantages que le procédé décrit précédemment.

Selon un autre aspect, l'invention vise un système de prédiction tel qu'il comporte un dispositif de prédiction décrit ci-dessus et un dispositif d'apprentissage comportant :

un module de collecte de mesures de niveau d'attention d'un auditoire prises sur un ensemble de présentations, une présentation étant effectuée par au moins un locuteur ;

un module d'indexation pour d'une part indexer par des mesures de niveau d'attention d'un auditoire, des présentations de l'ensemble et d'autre part indexer par des mesures de caractéristiques vocales ou gestuelles des locuteurs et/ou des mesures de caractéristiques de contenu des présentations, des présentations de l'ensemble; un module de synchronisation pour synchroniser les indexations respectives pour déterminer des associations entre des caractéristiques et des mesures de niveau d'attention pour les présentations de l'ensemble;

un module d'analyse pour déterminer des évolutions des niveaux d'attention par analyse des associations déterminés pour un ensemble de caractéristiques ou groupes de caractéristiques et selon un paramètre de durée ou d'occurrence de ces caractéristiques ;

un module d'enregistrement dans une base de données pour enregistrer des correspondances entre les caractéristiques vocales ou gestuelles de locuteur et/ou les caractéristiques de contenu de présentation, les paramètres de durée ou de temps liés à ces caractéristiques et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres.

Ce dispositif d'apprentissage peut être avantageusement inséré dans un serveur d'un réseau de communication. Il peut également être inséré dans un terminal.

Ce dispositif présente les mêmes avantages que le procédé d'apprentissage décrit précédemment, qu'il met en œuvre.

L'invention vise enfin un système de prédiction tel qu'il comporte un dispositif d'apprentissage tel que décrit et un dispositif de prédiction tel que décrit.

L'invention vise également un programme informatique comportant des instructions de code pour la mise en œuvre des étapes du procédé de prédiction tel que décrit et/ou du procédé d'apprentissage tels que décrits précédemment, lorsque ces instructions sont exécutées par un processeur.

Elle vise aussi un support d'informations lisible par un processeur sur lequel est enregistré un tel programme informatique comprenant des instructions pour l'exécution des étapes du procédé de prédiction et/ou du procédé d'apprentissage tels que décrits.

D'autres caractéristiques et avantages de l'invention apparaîtront plus clairement à la lecture de la description suivante, donnée uniquement à titre d'exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :

- les figures la et lb illustrent des exemples de système de prédiction de l'attention d'un auditoire dans des contextes de présentation ou de conférence en temps réel ou enregistrée, animée par un locuteur, en présentielle dans une salle avec un auditoire ou en ligne à travers une communication par réseau ; la figure 2a illustre sous forme d'organigramme, les étapes principales d'un procédé d'apprentissage d'informations d'évolution du niveau d'attention, préalable à la phase de prédiction, dans un mode de réalisation de l'invention ; la figure 2b illustre sous forme d'organigramme les étapes principales d'un procédé de prédiction selon un mode de réalisation de l'invention la figure 3 illustre une configuration matérielle d'un dispositif d'apprentissage apte à mettre en œuvre le procédé d'apprentissage selon un mode de réalisation de l'invention ; et

la figure 4 illustre une configuration matérielle d'un dispositif de prédiction selon un mode de réalisation de l'invention.

La figure la représente un exemple de système et de contexte dans lequel le procédé de prédiction selon l'invention peut-être mis en œuvre. Un locuteur Ul est en train d'effectuer une présentation devant un auditoire AU. Il réalise sa présentation à l'aide d'un écran El et d'un terminal, ici un ordinateur Tl. L'ordinateur Tl est par exemple relié à un réseau R de type internet et peut être ainsi connecté à un serveur S sur lequel un procédé d'apprentissage a été mis en œuvre pour constituer une base de données DB2.

Le procédé d'apprentissage peut aussi dans un autre exemple de réalisation être mis en œuvre dans le terminal Tl. Il sera décrit plus en détails en référence à la figure 2a.

Le terminal Tl ou le serveur S met en œuvre un procédé de prédiction selon l'invention. Celui-ci sera décrit ultérieurement en référence à la figure 2b.

Pour mettre en œuvre le procédé de prédiction et/ou d'apprentissage dans le terminal Tl, celui-ci est associé à au moins un microphone non représenté apte à capter la présentation orale du locuteur. Le son ainsi capturé sera ensuite analysé pour déterminer des caractéristiques sonores du locuteur. Dans un exemple de réalisation, le terminal Tl est aussi associé à une caméra non représentée qui filme et détecte les mouvements du locuteur. Ces mouvements pourront aussi être analysés pour déterminer d'autres caractéristiques du locuteur lors de la présentation en cours.

La figure lb décrit un autre contexte d'un système de prédiction selon l'invention. Dans ce contexte, le locuteur Ul effectuant une présentation ou formation en ligne de type MOOC (pour «Massive Open Online Course » en anglais), est devant son ordinateur ou terminal Tl et diffuse sa présentation à travers le réseau R à un ensemble d'utilisateurs U2, U3 et U4, chaque utilisateur étant devant leur terminal respectif T2, T3 et T4. Ces utilisateurs représentent ainsi l'auditoire de la présentation en cours. De la même façon que pour la figure la, un serveur S peut dans un mode de réalisation mettre en œuvre le procédé d'apprentissage et/ou le procédé de prédiction selon l'invention. Dans un autre mode de réalisation, le procédé de prédiction est mis en œuvre dans le terminal Tl et le procédé d'apprentissage dans le serveur S ou bien à la fois le procédé de prédiction et le procédé d'apprentissage sont mis en œuvre dans le terminal Tl.

De la même façon que pour la figure la, le terminal Tl est associé par exemple à un microphone et à une caméra pour détecter à la fois les caractéristiques sonores du locuteur et les caractéristiques de mouvement.

La base de données DB2 est alimentée suite à la phase d'apprentissage et comporte des correspondances entre des éléments caractéristiques de locuteur comme des caractéristiques vocales ou gestuelles du locuteur et/ou de présentation comme des caractéristiques de contenu de la présentation, des paramètres de durée ou d'occurrence liés à ces caractéristiques ou éléments et des informations relatives à l'évolution du niveau d'attention pour ces caractéristiques et ces paramètres.

Ces systèmes de prédiction sont décrits ici comme exemples mais d'autres systèmes de présentation peuvent être possibles. Par exemple, une présentation de type MOOC peut être enregistrée par le présentateur de ce MOOC pour être diffusée ultérieurement en ligne ou pour être enregistrée sur le réseau afin d'être consultable à n'importe quel moment. Dans ce cas, l'auditoire est composé d'une seule personne qui consulte la présentation de façon isolée et quand il le souhaite.

En référence à la figure 2a, on décrit à présent les étapes mises en œuvre lors du procédé d'apprentissage dans un mode de réalisation de l'invention. Ce procédé d'apprentissage constitue une phase d'apprentissage mise en œuvre préalablement aux étapes du procédé de prédiction,

Pour ce procédé d'apprentissage, un ensemble de présentations déjà enregistrées est disponible par exemple sur le réseau ou dans une base de données soit du réseau soit de l'équipement mettant en œuvre cette phase d'apprentissage. Ainsi, un serveur du réseau ou bien un terminal d'un utilisateur par exemple, du locuteur de la présentation, peuvent mettre en œuvre cette phase.

A partir de cet ensemble de présentation Pi à P N , une étape E21a de détection de caractéristiques issues du locuteur de la présentation et/ou du contenu de la présentation est mise en œuvre.

Pour cela, une analyse est effectuée sur chacune des présentations P, de l'ensemble de présentations Pi à P N que l'on dénommera ensemble de référence ou ensemble de présentations de référence. Une analyse est effectuée sur des caractéristiques du présentateur, locuteur de la présentation. Par exemple, un capteur de mesure audio mesure au cours du déroulement de la présentation, le niveau sonore du locuteur, les caractéristiques de prosodie au cours du temps, c'est-à-dire les phénomènes d'accentuation et d'intonation (variation de hauteur, de durée et d'intensité) de la voix du locuteur. Un autre capteur de type vidéo, peut mesurer les gestes effectués par le locuteur lors de sa présentation enregistrée et les pauses qu'il peut effectuer. D'autres éléments d'analyse permettent de mesurer par exemple les bruitages éventuels lors de la présentation. L'analyse effectuée permet également de déterminer les caractéristiques propres au contenu lui-même, par exemple la façon dont la présentation a été filmée, l'évolution du cadrage, la présence de mots clés, d'images ou de séquences d'images clés, à l'aide par exemple d'un algorithme d'analyse d'images. Tous ces éléments d'analyse sont répertoriés et indexés, à l'étape E21b, sur la ligne de temps du déroulement de la présentation de référence. A partir de ce même ensemble de référence, une étape E20a est mise en œuvre pour mesurer l'attention d'un auditoire.

Pour cela, le dispositif d'apprentissage mesurant ce niveau d'attention est par exemple équipé d'une caméra apte à détecter les mouvements du visage, le clignement des yeux, la fréquence de bâillement, etc..

Plusieurs techniques de mesure du niveau d'attention peuvent être utilisées pour cette étape E20a. Les techniques décrites ci-après ne sont pas exhaustives. Le procédé mis en œuvre ici peut utiliser une seule de ces techniques ou bien plusieurs d'entre elles ; la combinaison de plusieurs techniques apportant alors une précision supplémentaire à la mesure de l'attention finalement obtenue.

Les mesures du niveau d'attention ainsi obtenues sont alors indexées, à l'étape E20b, sur la ligne de temps du déroulement de la présentation de référence.

Une technique de mesure du niveau d'attention est par exemple une technique basée sur l'analyse des visages de l'auditoire. Par exemple, lorsque l'auditoire est constituée de personnes consultant leur ordinateur pour suivre une conférence ou formation en ligne, la capture de l'image du visage du spectateur permet de voir quand celui-ci se détourne de son écran, s'il s'éloigne, se déplace ou est remplacé par un autre visage. Dans tous ces cas, cela veut dire que l'attention de l'utilisateur a diminué.

Une autre mesure possible est basée sur la mesure de la fréquence du clignement des yeux des personnes de l'auditoire. Lorsque le nombre de clignement dépasse un certain seuil ou lorsque les paupières de l'utilisateur sont trop longtemps fermées, cela veut dire que l'utilisateur est en phase de début de somnolence, et donc de perte d'attention.

Ces techniques sont bien connues dans le domaine des mesures de la vigilance des conducteurs. Elles peuvent être utilisées ici pour mesurer l'attention d'un participant à la présentation. Un exemple d'une telle technique est décrit dans le document intitulé « A PERCLOS-based Driver Fatigue Récognition Application for Smart Vehicle Space » des auteurs Wu Qing, Sun BingXi, Xie Bin and Zhao Junjie, dans « Third International Symposium on Information Processing (ISIP), pages 437-441 en 2010.

Une autre technique de mesure est basée sur la fréquence de bâillement des personnes de l'auditoire. Le bâillement est une réaction typique induite par la fatigue. Cela se traduit par une ouverture prolongée et incontrôlée de la bouche bien différente des autres déformations des lèvres et qui peut être mesurée par des techniques d'analyse de l'image. L'ouverture de la bouche lors d'un bâillement étant plus importante que l'ouverture de la bouche lors de la parole. Une telle technique est par exemple décrite dans l'article intitulé « Yawning détection for monitoring driver fatigue des auteurs Xiao Fan, Bao-Cai Yin, Yan- Feng Sun dnas « Proceedings of the Sixth International Conférence on Machine Learning and Cybernetics » à Hong Kong, 19-22 Août 2007. Une détection de changement d'orientation de la tête d'un auditeur peut également révéler une baisse d'attention. En effet une chute de tête vers l'avant est révélatrice de la fatigue de la personne. Si cette détection est de plus corrélée à d'autres détections décrites ci-dessus, alors la perte d'attention de cette personne est révélée.

Dans encore d'autres technologies, le niveau de bruit de bavardage ambiant peut également être détecté et peut ainsi révéler que l'auditoire n'est pas attentif à la présentation qui lui est proposée.

Ces différentes techniques de mesure du niveau d'attention peuvent être appliquées à plusieurs personnes formant l'auditoire. Dans ce cas, les niveaux d'attention déterminés, ainsi que l'évolution de ces niveaux d'attention au cours de la présentation analysée sont conservés en association avec l'auditoire concernée. Pour une même présentation et à un instant donné, plusieurs niveaux d'attention pourront ainsi être déterminés pour des groupes différents de personnes dans l'auditoire.

Pour une approche plus précise de la mesure du niveau d'attention, une mesure individuelle peut être privilégiée par rapport à une approche globale. Dans ce cas, la mesure d'attention est effectuée pour chacune des personnes de l'auditoire, le niveau global d'attention étant alors déterminé par le cumul des niveaux d'attention unitaires.

Dans un mode de réalisation particulier, une information de contexte de l'auditoire est associée à la mesure du niveau d'attention. En effet, selon le contexte de l'auditoire, la mesure de l'attention peut varier.

Par exemple, selon l'horaire de la présentation, le niveau d'attention d'un utilisateur peut être différent pour une même présentation. Il est en effet connu qu'un état de somnolence peut être favorisé en début de digestion dans l'heure suivant un repas alors que la vigilance atteint son maximum deux à trois heures après un repas. Si l'on mesure le niveau d'attention d'une même présentation à différentes heures et pour un public similaire, on peut déterminer la correction à apporter au niveau d'attention mesuré en fonction de l'heure.

De même, d'autres paramètres de contexte peuvent demander une correction du niveau d'attention. Par exemple, une date, une durée d'ensoleillement, la chaleur dans une pièce ou le nombre de personnes assistant à la présentation peuvent être des informations de contexte à apporter pour corriger le niveau d'attention mesuré.

Le type de public présent dans l'auditoire peut également faire différer le niveau d'attention, par exemple si le public est âgé, jeune, de culture différente, parlant une langue différente, etc..

Une fois ces mesures d'attention déterminées et le cas échéant associées à un paramètre de correction, elles sont indexées sur la ligne de temps de la présentation de référence en cours d'analyse. Dans une variante de réalisation, il est également possible de mesurer un niveau d'émotion de l'auditoire selon le contenu de la présentation. Dans ce cas, une mesure de niveau d'émotion est indexée en plus des autres indexations décrites ci-avant.

Ce type de mesure est par exemple effectuée par des techniques connues d'analyse du visage détectant par exemple un sourire, une grimace particulière, des pleurs, etc..

Ces niveaux d'émotion sont liés à des niveaux d'attention. En effet, un sourire par exemple peut caractériser un regain d'attention sur le contenu présenté.

Cette indexation d'émotion des présentations de référence est rapprochée à des indexations de caractéristiques du contenu des présentations, par exemple à l'existence de mots clés, d'images ou de séquences d'images clés.

A l'étape E22, un rapprochement des différentes indexations effectuées aux étapes E20b et E21b est effectué. Pour cela une synchronisation des deux types d'indexation est mise en œuvre pour que la mesure d'attention de l'auditoire, indexée à un instant temporel de la présentation soit associée à la ou les caractéristiques du locuteur et/ou de la présentation pour ce même instant temporel de la présentation.

Ainsi, on obtient en E22, suite à cette synchronisation, une association entre des éléments de mesure du niveau d'attention et des éléments de caractéristiques de la présentation et du locuteur. Cette association peut être enregistrée dans une base de données DB1. Pour la variante comportant des mesures d'émotion, une association est effectuée entre des éléments caractéristiques du contenu, les émotions mesurées et le niveau d'attention mesuré.

Dans le cas simplifié où les durées des lignes de temps des présentations diffusés à différents moments et indexés selon différentes caractéristiques sont identiques, la synchronisation se limitera à faire coïncider les débuts des dites lignes de temps.

Dans le cas où ces durées sont différentes, par exemple lors d'un fractionnement d'une présentation lors de questions réponses, les resynchronisations peuvent être périodiques sur la base de séquences détectées comme communes (par exemple par analyse de la bande son et comparaison).

A l'étape E23, les différentes synchronisations effectuées pour chaque présentation entre caractéristiques du locuteur, caractéristiques de la présentation et les mesures de niveau d'attention, sont utilisées par un module d'analyse pour déterminer l'évolution du niveau de l'attention. Ce module détermine des probabilités de corrélation entre une baisse ou une hausse observée sur la mesure d'attention et différents groupes d'éléments caractéristiques de la présentation et/ou du locuteur. A cette étape, on détermine également un paramètre de durée de cause à effet entre des groupes d'éléments caractéristiques du locuteur et/ou de la présentation et les évolutions de mesures d'attention pour distinguer par exemple les groupes d'éléments qui engendrent soit immédiatement soit après une durée de répétition de ces éléments, un taux de perte d'attention ou un taux de hausse d'attention. A cette étape est également déterminée l'influence d'un paramètre d'occurrence d'apparition d'un groupe d'éléments caractéristiques dans une présentation.

La liste n'est pas exhaustive, et d'autres déterminations seraient possibles, comme par exemple les interactions entre groupes d'éléments caractéristiques.

Ainsi, l'étape E23 permet de déterminer une évolution du niveau d'attention en fonction d'un groupe d'éléments caractéristiques du locuteur ou bien du contenu de la présentation ou encore des deux et en fonction d'au moins un paramètre de durée ou d'occurrence de ces éléments caractéristiques.

Par exemple, un ton monocorde d'un locuteur d'une présentation pendant une durée de plusieurs minutes fait évoluer progressivement le niveau d'attention à la baisse alors que la prononciation de mots clés ou la projection d'images clés (par exemple de violence ou de beau paysage) peut faire évoluer le niveau d'attention brutalement à la hausse.

Dans un mode de réalisation avantageux, des seuils de hausse et de baisse d'attention sont définis de façon à ne garder que des caractéristiques significatives du locuteur et/ou de la présentation. Le seuil peut par exemple être de 1 ou 2%.

Ces analyses de corrélation étant effectuées à l'ensemble de présentations de référence, l'étape E23 met également en œuvre une vérification de la répétabilité des évolutions déterminées pour chacune des représentations de référence. Dans le cas où une correspondance entre éléments caractéristiques ou groupes d'éléments caractéristiques et taux de baisse de niveau d'attention ou hausse de niveau d'attention se retrouve dans plusieurs présentations de l'ensemble, alors cette correspondance est enregistrée dans une base de données DB2, dite aussi base d'apprentissage.

Un calcul de probabilité d'évolution du niveau d'attention peut être effectué à partir de cette analyse du taux de répétabilité des évolutions de niveau d'attention déterminées sur l'ensemble de référence. Cette probabilité peut alors être enregistrée dans la base de données DB2, en association avec la correspondance évolution/caractéristiques qui lui correspond.

Ainsi, à l'étape E24, est enregistré dans une base de données DB2, un ensemble d'informations relatives à l'évolution du niveau d'attention (évolution du niveau à la hausse ou à la baisse, taux d'évolution, i.e un indice de progressivité de l'évolution, par exemple brusque ou progressive, une probabilité de l'évolution, par exemple le taux de répétabilité dans l'ensemble de référence , ...) en correspondance avec des éléments ou groupes d'éléments caractéristiques du locuteur et/ou de la présentation et au moins un paramètre de durée ou d'occurrence de ces éléments.

Ladite base DB2 peut dans sa version simplifiée se limiter à des fichiers de sauvegarde séparée, ou à une conservation des informations dans une table de base de données relationnelle distincte des autres tables constituant DB1. Un avantage de ladite distinction de la base DB2 est bien entendu que celle-ci pourra par la suite être utilisée de façon distincte de la base DB1 dans le cadre du processus de prédiction décrit en référence à la figure 2b. Plutôt donc que de devoir utiliser la très conséquente base DB1 avec les différentes indexations de présentations, seuls les résultats des analyses contenus dans la base DB2, à savoir la liste des groupes d'éléments caractéristiques et les paramètres de durée ou d'occurrence associés provoquant une probabilité d'évolution de l'attention et les informations d'évolution associées (tels que décrits ci-dessus), est nécessaire. La faible taille potentielle de la base DB2 permet donc des usages autonomes en mode embarqué, sans nécessiter de connexion réseau vers un serveur dédié à la base de données DB1. Dans une variante de réalisation, plusieurs ensembles de référence peuvent être prévus. Les différents ensembles étant par exemple créés en fonction des thèmes des présentations ou encore en fonction du type d'auditoire.

Ainsi, le fait de classer les présentations de référence en plusieurs groupes permet de trouver plus de points communs entre les présentations et ainsi plus de répétabilité des évolutions déterminées.

Un exemple d'enregistrement dans la base de données DB2 peut être, pour une caractéristique de silence du locuteur avec un paramètre de durée de quelques secondes, une correspondance avec une information relative à l'évolution du niveau d'attention qui est une hausse immédiate de l'attention.

Un autre exemple est une correspondance entre le un niveau sonore de la voix du locuteur qui reste invariant pendant plusieurs minutes et une baisse progressive du niveau d'attention.

Le changement de locuteur peut par exemple être associé à une hausse immédiate du niveau d'attention, de même le changement de cadrage de l'affichage de la présentation peut être associé à une hausse immédiate de l'attention.

Un taux de hausse ou de baisse de niveau d'attention, c'est-à-dire un indice de progressivité de l'évolution peut également être associé aux éléments caractéristiques déclencheurs.

Ainsi, à l'issue de cette phase d'apprentissage, la base de données DB2 est enrichie par un ensemble d'informations relatives à l'évolution du niveau d'attention en correspondance avec des éléments ou groupes d'éléments caractéristiques de présentation et/ou de locuteurs et des paramètres de durée ou d'occurrence de ces éléments.

Il est aussi possible d'y inclure le délai moyen et sa variance entre un événement déclencheur, c'est-à-dire un élément caractéristique, et son effet en termes d'évolution du niveau d'attention.

Les informations d'évolution de niveau d'attention sont caractérisées par une tendance d'évolution, baisse ou hausse, le cas échéant, un taux d'évolution, c'est-à-dire un indice lié à la progressivité de l'évolution de l'attention, pour distinguer les effets immédiats et les effets lissés sur une plus longue durée et une probabilité que cette tendance s'applique. Une information relative au délai moyen de survenue de l'évolution de l'attention peut également être enregistrée.

La figure 2b illustre les étapes mises en œuvre lors du procédé de prédiction selon l'invention. Ce procédé est mis en œuvre par exemple dans le terminal Tl du présentateur ou bien dans un serveur S du réseau de communication R. Il s'applique sur une présentation en cours, animée par au moins un locuteur. On parlera de présentation courante Pc.

Une première étape E25 effectue une analyse de cette présentation. Cette analyse porte par exemple sur les caractéristiques du locuteur, sa voix, son niveau sonore, ses gestes, ses temps de pause ou de respiration, etc..

Pour mesurer les caractéristiques de la voix du ou des locuteurs, un module d'analyse vocale est prévue dans le dispositif de prédiction, sur le son capté par un microphone associé aux équipements de la présentation.

L'analyse peut porter aussi sur le contenu de la présentation, ce qui est présenté à l'écran, la fréquence de changement de page, le cadrage de ce qui est montré, les couleurs utilisées, la détection de mots clés, d'images clés, etc..

Ce type d'analyse peut être effectué par exemple par une détection d'une action du présentateur pour le changement de page, par un analyseur d'image pour en détecter des couleurs ou des mouvements ou des images clés, etc..

A cette détection d'éléments caractéristiques de la présentation et/ou du locuteur est associée en E26 une détermination d'au moins un paramètre de durée de ces éléments caractéristiques ou de répétition dans le temps de ces éléments caractéristiques.

Une recherche dans la base de données DB2 de ces éléments caractéristiques du locuteur et/ou de la présentation et des paramètres associés est effectuée en E27 pour y retrouver les informations relatives à l'évolution du niveau d'attention probable correspondantes.

Ces informations permettent donc d'obtenir une prédiction du niveau d'attention que va avoir la présentation si les éléments caractéristiques correspondants perdurent pendant la durée associée ou sont répétés selon l'occurrence associée et si le locuteur ne change pas sa présentation ou ses caractéristiques.

Cette information de prédiction du niveau d'attention est présentée au locuteur de la présentation en E28 afin qu'il puisse réagir en temps réel sur sa présentation.

Une probabilité de cette prédiction de niveau d'attention et du taux d'évolution peut également être présentée.

Dans un mode de réalisation particulier, la prédiction du niveau d'attention est associée à une détermination de recommandations d'actions à effectuer sur la présentation pour faire évoluer le niveau d'attention dans le sens voulu, suivi de la présentation de ces recommandations au locuteur. Un exemple de recommandation est de demander d'augmenter le niveau sonore de la voix du locuteur si il a été détecté que le niveau de la voix diminue au cours du temps et que le temps pour lequel le niveau d'attention baisse, est dépassé.

Pour cela, la détermination de recommandations peut être mise en œuvre par:

* une interface de sélection du sens souhaité d'évolution du niveau d'attention : faire baisser l'attention (si par exemple le présentateur doit absolument évoquer tel sujet, mais qu'il préfère que personne ne s'en souvienne) ou l'augmenter. Un mode par défaut simplifiant l'interface du point de vue du locuteur serait d'améliorer l'attention par rapport à un niveau pertinent donné, fixé par exemple en référence au début de la présentation, phase où l'attention est classiquement considérée comme à son maximum.

* un moyen de détermination des caractéristiques permettant de faire évoluer avec une probabilité acceptable le niveau d'attention du ou des auditoires. Cette détermination peut s'effectuer selon les étapes suivantes:

a) sélection d'un premier ensemble de groupes de caractéristiques dans la base DB2 qui influent sur l'attention dans le sens voulu,

b) filtrage de l'ensemble en fonction du nombre d'occurrences de chacun de ces groupes de caractéristiques déjà mis en œuvre (déterminés) lors des phases antérieures de la présentation en cours, et en fonction du délai depuis la dernière occurrence rencontrée pour chaque groupe de caractéristiques (si la dernière occurrence est lointaine, on peut logiquement considérer qu'elle n'a plus d'impact sur l'efficacité du groupe de caractéristiques concerné)

c) et enfin sélection dans le sous ensemble résultant du filtrage, du groupe de caractéristiques dont la probabilité d'impact est la plus élevée. En variante, en cas d'égalité, différentes possibilités seraient présentées, et ou une serait choisie aléatoirement parmi le sous ensemble restant.

Par exemple, la recommandation pourrait consister à proposer de diffuser une image, par exemple d'un beau paysage, dont l'impact sur la probabilité d'évolution de l'attention est connu. Cette suggestion pourrait aussi consister en la proposition de groupes de mots clés à prononcer.

Ainsi le présentateur peut modifier sa présentation en fonction des recommandations et ainsi améliorer le niveau d'attention de son auditoire.

Le présentateur est ainsi informé des évolutions potentielles d'attention de son auditoire et ce même s'il n'y a pas de mesure en cours de l'attention de l'auditoire ou même s'il n'y a pas d'auditoire. En effet, la présentation peut être simplement en cours d'enregistrement sans personne devant pour une diffusion ultérieure devant un auditoire. En variante, le présentateur peut être simplement en train de répéter la présentation qu'il fera ultérieurement, et ce afin d'être plus efficace au moment opportun. Ainsi, il n'est pas nécessaire d'avoir des équipements de mesure de l'attention pour être informé de l'évolution du niveau d'attention en temps réel.

Dans un mode de réalisation particulier, ces informations sur l'évolution du niveau d'attention peuvent être corrigées en fonction d'informations de contexte liées à l'auditoire présent ou prévu. Ces informations peuvent être par exemple l'horaire de la présentation ou celle prévue pour être diffusée, le nombre de personnes de l'auditoire, la température de la pièce dans laquelle la présentation est faite, etc..

La correction à apporter est par exemple enregistrée dans les bases de données DB1 et DB2 en association avec les caractéristiques du locuteur et/ou de la présentation.

Dans une autre variante liée à la mesure d'émotion qui a pu être faite lors de la phase d'apprentissage, une pondération du niveau d'attention peut être prévue et enregistrée dans la base de données DB2. Cette pondération est alors appliquée aux informations relatives à l'évolution du niveau d'attention obtenues lors du procédé de prédiction lorsque les éléments caractéristiques déclencheurs sont associés à des mesures d'émotions comme décrit précédemment.

Cette pondération peut ainsi corriger la prédiction d'évolution présentée au locuteur. La présentation de la prédiction de niveau d'attention peut être faite sous différentes formes. Dans un exemple de réalisation elle peut être présentée au locuteur par un symbole de différente couleur. L'intensité de couleur peut par exemple correspondre au taux d'évolution du niveau d'attention. Cette présentation peut être faite sur l'écran personnel du présentateur ou, s'il s'agit de lumière, sur le micro de celui-ci. L'évolution du niveau d'attention peut également être représentée par une flèche pointant vers le haut en cas de hausse et vers le bas en cas de baisse, de hauteur plus ou moins grande selon le taux d'évolution associé. Une autre façon d'afficher le résultat de cette prédiction est par exemple d'afficher en début de séquence une valeur moyenne du niveau d'attention puis au fur et à mesure de l'avancement de la présentation de représenter les prévisions de niveau d'attention par une courbe pouvant passer en dessous ou au-dessus de cette valeur moyenne. La prédiction sur l'évolution du niveau est alors bien lisible par le présentateur. En variante un % représentant le taux d'exactitude constaté sur la base de données d'apprentissage pour la prévision en cours peut être présenté. Le délai dans lequel la prédiction d'évolution de l'attention est attendue peut aussi être présenté en secondes par exemple.

Ainsi, un tel procédé de prédiction peut permettre au présentateur d'une formation ou d'une présentation de l'améliorer en tenant compte des évolutions de niveau d'attention qui lui sont présentées. Il peut par exemple s'entraîner avant une présentation réelle afin d'optimiser son intervention et éviter les baisses de niveau d'attention. Il peut également prévoir des présentations différentes en fonction d'informations différentes de contexte d'auditoire. Par exemple, suivant l'horaire de diffusion de la présentation, il peut rendre la présentation plus dynamique avec des changements de locuteur ou de tonalité, si la présentation est diffusée à une heure de digestion et la prévoir moins dynamique sinon.

En variante encore, si les présentations sont diffusées à l'auditoire en différé (par exemple un MOOC peut être diffusé non pas en direct, mais peut être réalisé à un temps T, puis diffusés en 3 sessions plus tard aux temps Tl, T2 et T3), le procédé de prédiction et celui de suggestion pourrait conduire à diffuser 3 variantes différentes de la même vidéo de MOOC, l'une de ces dernières étant à la fois plus courte et plus dynamisée du fait que la session est planifiée en début d'après-midi sur une zone et période pour lesquelles une température élevée est prévue.

La figure 3 représente une architecture matérielle simplifiée d'un mode de réalisation d'un dispositif d'apprentissage mettant en œuvre le procédé d'apprentissage décrit en référence à la figure 2a.

On notera que l'invention qui est décrite ici peut être mise en œuvre au moyen de composants logiciels et/ou matériels. Dans cette optique, les termes « module » et « entité » utilisés dans ce document peuvent correspondre soit à un composant logiciel, soit à un composant matériel, soit encore à un ensemble de composants matériels et/ou logiciels, aptes à mettre en œuvre la ou les fonctions décrites pour le module ou l'entité concerné(e). Ce dispositif est équipé d'une interface de collecte de mesures 320 apte à collecter les mesures capturées par les capteurs Cl à CN représentés ici en 310i, 310 2 , 310 3 et 310 N .

Ces capteurs sont prévus d'une part pour mesurer les caractéristiques vocales du ou des locuteurs, par exemple grâce à un ou plusieurs microphones, pour mesurer les caractéristiques de mouvement du locuteur par exemple grâce à une caméra et d'autre part pour mesurer le niveau d'attention de l'auditoire. Pour cela aussi une caméra peut être prévue.

Le dispositif comprend une unité de traitement 330 équipée d'un processeur et pilotée par un programme informatique Pg 345 stocké dans une mémoire 340 et mettant en œuvre la phase d'apprentissage selon l'invention.

A l'initialisation, les instructions de code du programme informatique Pg sont par exemple chargées dans une mémoire RAM non représentée et exécutées par le processeur de l'unité de traitement 330. Le processeur de l'unité de traitement 330 met en œuvre les étapes du procédé d'apprentissage décrit précédemment en référence à la figure 2a, selon les instructions du programme informatique Pg.

Dans l'exemple de réalisation de l'invention considéré, le dispositif 300 comprend donc une interface d'entrée permettant de recevoir des présentations déjà enregistrées d'une base de données DB comportant un ou plusieurs ensembles de présentations de référence.

Il comprend un module d'indexation de caractéristiques propres au locuteur de la présentation et/ou de caractéristiques propres au contenu de la présentation. Pour cela, le module d'indexation reçoit des mesures collectées par l'interface 320 et effectuées par les capteurs Cl à CN pour déterminer le niveau d'intensité sonore du présentateur, sa tonalité, ses silences ou bien le niveau d'intensité sonore environnant. Il reçoit aussi des informations sur les changements dans le contenu présenté, par exemple un changement dans le cadrage, un changement de page de présentation, un zoom sur l'image, un mot clé, une image clé, en provenance de l'interface 320.

Le dispositif d'apprentissage comporte également un module d'indexation de mesures de niveau d'attention. Ces niveaux de mesure d'attention sont obtenus par l'interface 320 qui collecte les mesures effectuées par les capteurs Cl à CN et notamment les données mesurer par une ou plusieurs caméras à partir desquelles des algorithmes de détection de clignement des yeux ou de bâillement ou encore de positionnement de la tête sont mis en œuvre pour obtenir une mesure de niveau d'attention.

Cette mesure de niveau d'attention est indexée sur la présentation en cours de traitement de l'ensemble de présentations de référence. Un module de synchronisation 370 est également prévu pour synchroniser les deux types d'indexation et obtenir une association entre les éléments caractéristiques du locuteur et/ou de la présentation du module 350 et les mesures de niveau d'attention du module d'indexation 360.

Cette association d'éléments peut être enregistrée dans une base de données DB1 intégrée au dispositif ou disponible par un réseau de communication via un module de communication 390.

Un module d'analyse 380, piloté par le processeur 330, analyse les associations de niveaux d'attention mesurées et caractéristiques pour les présentations de référence et détermine une évolution du niveau d'attention selon au moins un paramètre de durée ou un paramètre d'occurrence des caractéristiques.

L'analyse permet d'associer une caractéristique ou une succession de caractéristiques à une évolution de niveau d'attention. Elle permet aussi de déterminer une durée ou nombre d'occurrence pour laquelle la caractéristique mesurée fait évoluer le niveau d'attention.

A la sortie du module d'analyse 380, une correspondance est faite entre des éléments caractéristiques ou groupes d'éléments caractéristiques du locuteur et /ou de la présentation, des paramètres de durée ou d'occurrence associés à ces éléments avec des informations relatives à l'évolution du niveau d'attention de l'auditoire.

Ces correspondances étant effectuées pour l'ensemble ou les ensembles de présentation de la base de données DB, le module d'analyse détermine dans un mode de réalisation particulier, le taux de répétabilité des associations définies. Seules les correspondances ayant un taux de répétabilité suffisant peuvent être enregistrées dans la base de données DB2. Cette base de données peut être stockée sur un serveur distant accessible par un réseau de communication via le module de communication 390 du dispositif. Le réseau de communication est par exemple un réseau IP. Dans un autre mode de réalisation, cette base de données DB2 est intégrée au dispositif d'apprentissage. Elle peut aussi être envoyée ou téléchargée sur un terminal, par exemple celui d'un locuteur de présentation.

Ce dispositif d'apprentissage est soit un serveur du réseau communiquant avec le terminal du présentateur soit le terminal du présentateur lui-même.

La figure 4 représente une architecture matérielle simplifiée d'un mode de réalisation d'un dispositif 400 de prédiction mettant en œuvre le procédé de prédiction décrit en référence à la figure 2b.

On notera que l'invention qui est décrite ici peut être mise en œuvre au moyen de composants logiciels et/ou matériels. Dans cette optique, les termes « module » et « entité » utilisés dans ce document peuvent correspondre soit à un composant logiciel, soit à un composant matériel, soit encore à un ensemble de composants matériels et/ou logiciels, aptes à mettre en œuvre la ou les fonctions décrites pour le module ou l'entité concerné(e). Ce dispositif est équipé d'une interface d'entrée apte à consulter une base de données DB2 interne au dispositif ou disponible sur un réseau de communication et comportant des correspondances entre éléments caractéristiques de locuteur et / ou de présentations, des paramètres de durée ou d'occurrence liés à ces éléments et des informations relatives à l'évolution du niveau d'attention d'auditoire pour ces éléments et paramètres et telles que apprises lors d'une phase d'apprentissage telle que décrite en référence à la figure 2a.

Le dispositif comprend une unité de traitement 430 équipée d'un processeur et pilotée par un programme informatique Pg 445 stocké dans une mémoire 440 et mettant en œuvre le procédé de prédiction selon l'invention.

A l'initialisation, les instructions de code du programme informatique Pg sont par exemple chargées dans une mémoire RAM non représentée et exécutées par le processeur de l'unité de traitement 430. Le processeur de l'unité de traitement 430 met en œuvre les étapes du procédé de prédiction décrit précédemment, selon les instructions du programme informatique Pg.

Dans l'exemple de réalisation de l'invention considéré, le dispositif 400 comprend donc une interface d'entrée permettant de recevoir le flux de données de la présentation en cours Pc. Cette interface peut également recevoir des informations de contexte de l'auditoire de cette présentation (Inf.Ctx).

Il comprend un module de détection 450 de caractéristiques du ou des locuteurs de la présentation et/ou de la présentation en cours. Un paramètre de durée de la caractéristique détectée ou de répétition (d'occurrence) de cette caractéristique est également détecté par le module 450. Ainsi, à la sortie de ce module de détection, des éléments caractéristiques sont obtenus. Le processeur 430 met en œuvre le module de détermination d'informations relatives à l'évolution du niveau d'attention en recherchant dans la base de données DB2, via l'interface 420 ou via la mémoire 440, si une correspondance comportant l'élément détecté et le paramètre associé est enregistrée. Le cas échéant, une prédiction sur l'évolution du niveau d'attention issue des informations relatives à l'évolution du niveau d'attention ainsi déterminées est envoyée à l'interface utilisateur 470 pour qu'une présentation de cette prédiction d'évolution soit effectuée au locuteur de la présentation en cours. Des recommandations d'actions à effectuer par le locuteur peuvent également être envoyées sur cette interface utilisateur pour qu'il fasse évoluer le niveau d'attention de sa présentation.

Ce dispositif de prédiction peut être compris dans le terminal du locuteur de la présentation. Dans ce cas, la prédiction est directement affichée sur l'écran de son terminal via l'interface utilisateur ou bien sur un accessoire branché sur son terminal, comme par exemple un microphone.

Le dispositif peut également être intégré à un serveur d'un réseau de communication, par exemple un réseau IP ; dans ce cas, la prédiction est présentée au locuteur de la présentation via un module de communication 490 qui transmet l'information au terminal du présentateur.

L'information de contexte de l'auditoire peut être utilisée par le module de détermination 460 pour corriger le cas échéant l'évolution déterminée.

Dans un mode de réalisation de l'invention, à la fois le dispositif d'apprentissage et le dispositif de prédiction sont inclus dans un même équipement, soit le terminal du locuteur, soit un serveur du réseau. Dans un autre mode réalisation, ces deux dispositifs sont distants, le procédé d'apprentissage et le procédé de prédiction étant mis en œuvre dans un système comprenant les deux dispositifs communiquant entre eux via un réseau.