Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR CREATING A PREDICTIVE MODEL FROM A SET OF CONTEXTUAL DATA
Document Type and Number:
WIPO Patent Application WO/2019/072713
Kind Code:
A1
Abstract:
The invention relates to a method for creating a predictive model implemented by a computer to estimate a quantitative value corresponding to one characteristic of an environment, the estimation of said quantitative variable by said predictive model being carried out using contextual data, characterised in that it includes a step of collecting contextual data from the environment, a step of measuring the quantitative variable in the environment, a step of determining an attribute linked to the measurement of the quantitative variable, and steps of implementation, calibration and validation of a machine-learning model that make it possible to estimate the quantitative variable using the attribute and the contextual data.

Inventors:
CHERRIER RAPHAEL (FR)
Application Number:
PCT/EP2018/077134
Publication Date:
April 18, 2019
Filing Date:
October 05, 2018
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
QUCIT (FR)
International Classes:
G06Q30/02
Foreign References:
FR3032286A12016-08-05
Other References:
ALSHAWISH RAJA A ET AL: "Big data applications in smart cities", 2016 INTERNATIONAL CONFERENCE ON ENGINEERING & MIS (ICEMIS), IEEE, 22 September 2016 (2016-09-22), pages 1 - 7, XP033004876, DOI: 10.1109/ICEMIS.2016.7745338
PIYUSHIMITA THAKURIAH ET AL: "Big data and urban Informatics: innovations and challenges to urban planning and knowledge discovery", PROC. OF NSF WORKSHOP ON BIG DATA AND URBAN INFORMATICS, 1 January 2016 (2016-01-01), pages 4 - 32, XP055462463, Retrieved from the Internet
ZHENG YIXIAN ET AL: "Visual Analytics in Urban Computing: An Overview", IEEE TRANSACTIONS ON BIG DATA, IEEE, vol. 2, no. 3, 1 September 2016 (2016-09-01), pages 276 - 296, XP011626504, DOI: 10.1109/TBDATA.2016.2586447
Attorney, Agent or Firm:
DESCHAMPS, Samuel (FR)
Download PDF:
Claims:
R E V E N D I C A T I O N S

Procédé de création d'un modèle prédictif mis en œuvre par un calculateur pour estimer une variable quantitative correspondant à une caractéristique d'un environnement, l'estimation de ladite variable quantitative par ledit modèle prédictif étant réalisée à partir de données contextuelles, caractérisé en qu'il comporte :

- une étape de collecte des données contextuelles dans l'environnement ;

- une étape de mesure de la variable quantitative dans l'environnement ;

- une étape de détermination d'au moins un attribut spatial ou temporel lié à la mesure de la variable quantitative dans l'environnement ;

- une étape d'implémentation sur le calculateur d'au moins un modèle initial d'apprentissage automatique permettant d'estimer ladite variable quantitative en fonction de l'au moins un attribut et des données contextuelles ;

- une étape de calibrage dudit au moins un modèle initial d'apprentissage automatique avec au moins une première mesure de la variable quantitative, au moins un attribut lié à ladite au moins une première mesure de la variable quantitative et les données contextuelles ;

- une étape de sélection d'un modèle final calibré d'apprentissage automatique ;

- une étape de validation du modèle final calibré d'apprentissage automatique avec au moins une deuxième mesure de la variable quantitative différente de ladite au moins une première mesure, au moins un attribut lié à ladite deuxième mesure de la variable quantitative et les données contextuelles.

2. Procédé selon la revendication 1 , dans lequel la variable quantitative dépend d'au moins deux variables d'intérêt, chacune desdites variables d'intérêt correspondant à une caractéristique particulière de l'environnement.

3. Procédé selon la revendication 1 ou la revendication 2, dans lequel les données contextuelles comportent des données dynamiques qui varient avec le temps et des données statiques constantes dans le temps, sur au moins un temps caractéristique.

4. Procédé selon la revendication 3, dans lequel l'étape de collecte des données contextuelles dans l'environnement est caractérisée en ce que les données dynamiques sont collectées en temps réel.

5. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'étape de mesure de la variable quantitative dans l'environnement comprend N mesures de ladite variable quantitative et dans lequel l'étape de détermination d'au moins un attribut comprend N déterminations d'au moins un attribut lié à chacune des N mesures de la variable quantitative, N étant un entier naturel supérieur ou égal à deux.

6. Procédé selon la revendication 5, dans lequel les N mesures de la variable quantitative et les N déterminations d'au moins un attribut lié à chacune des N mesures de la variable quantitative sont rangées en N couples (variable quantitative, au moins un attribut, données contextuelles).

7. Procédé selon la revendication 6, dans lequel le modèle final calibré d'apprentissage automatique permet d'obtenir la variable quantitative correspondant à l'au moins un attribut et aux données contextuelles dans chaque couple d'une partie des N couples.

8. Procédé selon la revendication 7, dans lequel l'étape de validation consiste à comparer une variable quantitative prédite par le modèle final calibré à partir de l'au moins un attribut et des données contextuelles dans chaque couple de l'autre partie des N couples avec la variable quantitative mesurée appartenant audit couple.

9. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'environnement est un espace public et dans lequel la variable quantitative est mesurée par un sondage sur un échantillon d'usagers dudit espace public.

10. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce qu'il comporte deux attributs liés à chaque mesure de la variable quantitative, un attribut spatial et un attribut temporel, l'attribut spatial étant une position de la mesure dans l'environnement et l'attribut temporel étant une date de ladite mesure.

1 1 . Procédé selon la revendication 9 et la revendication 10, dans lequel la variable quantitative est un indice du confort ressenti par les usagers de l'espace public.

Description:
Procédé de création d'un modèle prédictif à partir d'un ensemble de données contextuelles

DOMAINE TECHNIQUE

La présente invention appartient au domaine général de l'analyse prédictive et concerne plus particulièrement les modèles de prédiction par apprentissage automatique (ou Machine Learning en terminologie anglo-saxonne).

Plus particulièrement encore, l'invention concerne une méthode d'élaboration d'un modèle prédictif à partir d'un sondage mettant en œuvre des données contextuelles.

ÉTAT DE L'ART II est connu de réaliser des analyses prédictives à partir d'observations fournies sous la forme de données en utilisant un modèle appelé « modèle prédictif ». Un tel modèle est un algorithme mathématique codé sous la forme d'un programme d'ordinateur, mis en œuvre par un calculateur, qui fournit en sortie le ou les événements les plus probables de se produire à partir d'hypothèses prédictives relatives à un contexte ou un environnement prédéterminé. De tels événements sont appelés de manière connue « scores prédictifs ». Un tel modèle prédictif peut être généré à partir d'un ensemble de données dites données d'apprentissage puis, une fois le modèle prédictif généré, le modèle est utilisé sur un ou plusieurs ensembles de données dites sources afin de calculer des scores prédictifs. À titre d'exemple, un ensemble de données sources peut comprendre des données relatives à des utilisateurs, des données de machines, des données météorologiques, ...etc. Ces modèles sont très superficiels dans leur analyse de la situation de l'utilisateur, leurs conclusions étant directement liées à des informations brutes recueillies par un ou plusieurs capteur(s) sans aucune interprétation sémantique de ces informations.

PRÉSENTATION DE L'INVENTION

La présente invention a pour but principal de pallier les limitations de l'art antérieur et concerne un procédé de création d'un modèle prédictif mis en œuvre par un ordinateur pour estimer une variable quantitative correspondant à une caractéristique d'un environnement, l'estimation de ladite variable quantitative par ledit modèle prédictif étant réalisée à partir de données contextuelles, ce procédé est remarquable en ce qu'il comporte :

- une étape de collecte des données contextuelles dans l'environnement ;

- une étape de mesure de la variable quantitative dans l'environnement ;

- une étape de détermination d'au moins un attribut lié à la mesure de la variable quantitative dans l'environnement ;

- une étape d'implémentation d'au moins un modèle initial d'apprentissage automatique permettant d'estimer ladite variable quantitative en fonction de l'au moins un attribut et des données contextuelles ;

- une étape de calibrage du modèle initial d'apprentissage automatique avec au moins une première mesure de la variable quantitative, au moins un attribut lié à ladite au moins une première mesure de la variable quantitative et les données contextuelles ;

- une étape de sélection d'un modèle final calibré d'apprentissage automatique ;

- une étape de validation du modèle final calibré d'apprentissage automatique avec au moins une deuxième mesure de la variable quantitative différente de ladite au moins une première mesure, au moins un attribut lié à ladite deuxième mesure de la variable quantitative et les données contextuelles. Selon un mode de réalisation la variable quantitative dépend d'au moins deux variables d'intérêt, chacune desdites variables d'intérêt correspondant à une caractéristique particulière de l'environnement.

Plus particulièrement, les données contextuelles comportent des données dynamiques qui varient avec le temps et des données statiques constantes dans le temps, sur au moins un temps caractéristique.

Avantageusement, l'étape de collecte des données contextuelles dans l'environnement est caractérisée en ce que les données dynamiques sont collectées en temps réel.

De façon avantageuse, l'étape de mesure de la variable quantitative dans l'environnement comprend N mesures de ladite variable quantitative, et l'étape de détermination d'au moins un attribut comprend N déterminations d'au moins un attribut lié à chacune des N mesures de la variable quantitative, N étant un entier naturel supérieur ou égal à deux.

Par exemple, les N mesures de la variable quantitative et les N déterminations d'au moins un attribut lié à chacune des N mesures de la variable quantitative sont rangées en N couples (variable quantitative, au moins un attribut, données contextuelles).

Avantageusement, le modèle final calibré d'apprentissage automatique permet d'obtenir la variable quantitative correspondant à l'au moins un attribut et aux données contextuelles dans chaque couple d'une partie des N couples.

Plus particulièrement, l'étape de validation consiste à comparer une variable quantitative prédite par le modèle final calibré à partir de l'au moins un attribut et des données contextuelles dans chaque couple de l'autre partie des N couples avec la variable quantitative mesurée appartenant audit couple.

Selon un mode de réalisation, l'environnement est un espace public et la variable quantitative est mesurée par un sondage sur un échantillon d'usagers dudit espace public.

Selon un mode de réalisation, le procédé emploie deux attributs liés à chaque mesure de la variable quantitative, un attribut spatial et un attribut temporel, l'attribut spatial étant une position de la mesure dans l'environnement et l'attribut temporel étant une date de ladite mesure. Selon un mode réalisation, la variable quantitative est un indice du confort ressenti par les usagers de l'espace public.

Les concepts fondamentaux de l'invention venant d'être exposés ci-dessus dans leur forme la plus élémentaire, d'autres détails et caractéristiques ressortiront plus clairement à la lecture de la description qui suit et en regard des dessins annexés, donnant à titre d'exemple non limitatif un mode de réalisation d'un procédé de création d'un modèle prédictif conforme aux principes de l'invention.

BRÈVE DESCRIPTION DES FIGURES Les différentes figures ainsi que les éléments d'une même figure ne sont pas nécessairement représentés à la même échelle. Sur l'ensemble des figures, les éléments identiques portent le même repère.

Il est ainsi illustré en :

Figure 1 : un plan de la place de la Nation (Paris, France) dans laquelle est mis en œuvre le procédé selon un mode de réalisation de l'invention ;

Figure 2 : un schéma simplifié des principales étapes du procédé selon un mode de réalisation de l'invention ;

Figure 3a : une modélisation de la distribution des arbres sur la place de la Nation ;

Figure 3b : une carte de densité d'arbres sur la place de la Nation ;

Figures 4a et 4b : des cartes de densité de smartphones avec WiFi activé sur la place de la nation pendant un jour ordinaire à 6h00, figure 4a, et 18h00, figure 4b ; Figure 5 : un graphique d'un résultat partiel d'une enquête terrain selon un mode de réalisation de l'invention.

DESCRIPTION DÉTAILLÉE DE MODES DE RÉALISATION

Dans le mode de réalisation de l'invention décrit ci-après, on fait référence à un procédé de création d'un modèle prédictif destiné à l'aménagement des espaces publics. Cet exemple n'est nullement exclusif des applications de l'invention à d'autres domaines nécessitant une prise de décision en fonction d'un résultat extrait d'une grande quantité de données, ou une prédiction quelconque.

Il est utile de rappeler que l'aménagement d'un espace public doit principalement tenir compte de l'évolution des comportements des usagers et de la qualité de vie devant leur être garantie. Parmi les données nécessaires à la définition de modalités dans un projet d'aménagement d'un espace public, l'avis d'éventuels futurs usagers revêt un caractère fondamental. Cet avis peut simplement prendre la forme de réponses à des questions spécifiques et être recueilli par un sondage par exemple. Les données statistiques ainsi générées sont souvent biaisées par des facteurs contextuels non pris en compte dans l'étude, et pouvant influencer les réponses données par les personnes sondées. Les facteurs contextuels représentent une quantité conséquente de données qu'il est nécessaire d'inclure dans l'analyse statistique des résultats du sondage en vue d'une meilleure fiabilité. De ce fait, l'aménagement des espaces publics, tout comme d'autres disciplines de l'urbanisme, s'ouvre progressivement aux approches dites data driven, ou orientées par les données.

Une application de l'invention à un cas réel est exposée dans la suite de la description. Ce cas concerne un projet de réaménagement de la place de la Nation dans la ville de Paris.

La figure 1 représente un plan de la place de la Nation sur lequel on aperçoit l'anneau central correspondant et les voies y convergeant.

Le procédé de création d'un modèle prédictif a pour but d'estimer un indice du confort ressenti par les usagers se trouvant place de la Nation, en se basant sur des données contextuelles issues de la place de la Nation et décrivant par exemple l'environnement urbain, la météo, les espaces verts, etc.

Selon l'invention, le procédé de création d'un modèle prédictif du confort ressenti par les usagers dans un espace public comprend principalement les étapes suivantes, représentées schématiquement à la figure 2 :

- Une étape 1 10 de définition d'un indice du confort IC et de variables d'intérêt Yi permettant un calcul dudit indice du confort ;

- Une étape 120 de recensement et collecte de données contextuelles permettant de décrire le contexte naturel, humain et urbain de l'espace public ;

- Une étape 130 de définition d'attributs permettant d'établir un lien entre les données contextuelles collectées et les variables d'intérêt ; Une étape 200 de réalisation d'une enquête terrain permettant de mesurer sur un échantillon d'usagers de l'espace public les valeurs des variables d'intérêt Yi et des attributs ;

Une étape 300 d'implémentation de modèles initiaux d'apprentissage automatique avec les variables d'intérêt et les attributs mesurés et les données contextuelles collectées pour estimer les variables d'intérêt à partir des attributs et d'au moins une partie des données contextuelles ;

Une étape 400 de calibrage des modèles d'apprentissage automatique implémentés à l'aide des variables d'intérêt et des attributs mesurés et des données contextuelles collectées ;

Une étape 500 de sélection du modèle d'apprentissage automatique présentant les meilleures estimations ;

Une étape 600 de validation du modèle final d'apprentissage automatique choisi à l'étape précédente.

Dans la suite de la description, l'expression « espace public » et le terme « place » désigneront, sauf indication contraire, la place de la Nation.

L'étape 1 10 de définition de l'indice du confort IC et des variables Yi consiste à établir une formule de calcul d'un indicateur quantitatif du confort ressenti par les piétons dans un espace public en fonction de variables indépendantes Y.

Dans un mode de réalisation de l'invention, la définition (le calcul) de l'indice du confort IC inclut six variables Yi à Ye qui représentent respectivement les critères suivants caractérisant l'espace public : le caractère agréable

le stress ;

la sécurité ;

la beauté ;

la propreté ; et

la désorientation. Les variables d'intérêt Yi sont des variables statistiques quantitatives.

Par exemple, l'indice du confort IC peut être obtenu par une combinaison linéaire des variables d'intérêt Yi, chacune desdites variables étant alors pondérée par un coefficient en fonction de son importance dans le calcul de l'indice en question.

En fonction de la nature des coefficients linéaires, l'indice du confort IC peut être un nombre réel compris entre 0 et 1 ou un entier naturel compris entre 0 et 10 par exemple.

L'étape 120 de recensement et collecte des données contextuelles consiste à répertorier des grandeurs dont peut éventuellement dépendre l'indice du confort IC, autrement dit, des grandeurs pouvant directement agir sur les valeurs prises par les variables d'intérêt Y, lesdites grandeurs devant être mesurables. De telles données contextuelles sont par exemple des informations personnelles sur des usagers de l'espace public, des flux de piétons et/ou de véhicules mesurés sur l'espace public, des données météorologiques, la topologie urbaine, la distribution et la densité d'arbres dans l'espace public, etc.

Selon le mode de réalisation illustré, les variables d'intérêt Y représentent des jugements subjectifs exprimant le ressenti des usagers de l'espace public quant aux critères spécifiques (stress, sécurité, etc.) sur lesquels est basé le calcul de l'indice du confort IC. De ce fait, les données contextuelles ont un rôle déterminant dans ces jugements subjectifs par un lien de causalité parfois implicite. Par exemple, le sentiment de stress ressenti par les usagers d'un espace public sera d'autant plus grand que les conditions météorologiques seront mauvaises ou que le niveau de bruit sera élevé. Il est donc avantageux de répertorier un maximum de données contextuelles pouvant avoir une influence sur les valeurs prises par les variables d'intérêt définissant l'indice du confort.

Les données contextuelles utilisées dans la présente invention seront classées dans deux catégories, les données dynamiques et les données statiques, selon leur dépendance au temps.

Les données dynamiques Uj représentent toute donnée contextuelle qui varie avec le temps comme par exemple le niveau de bruit dans l'espace public ou le nombre de voitures stationnées sur la place, et comprennent également les données personnelles des usagers de la place comme par exemple leurs âges et leurs catégories socioprofessionnelles.

Les données statiques Vk représentent quant à elles toute donnée contextuelle constante dans le temps telle que le nombre d'arbres, de bancs, de commerces, ...etc. sur la place ou les données cartographiques de la place. Il est important de noter que toute donnée contextuelle constante pendant un temps de l'ordre du temps nécessaire à la collecte des données dans le procédé de création du modèle prédictif selon l'invention sera considérée comme donnée statique.

Les données contextuelles peuvent soit provenir de plusieurs sources libres d'accès (Open Data) disponibles, soit être directement relevables ou mesurables dans l'espace public en question. Ces données contextuelles sont donc des données multi sources hétérogènes et nécessitent une analyse préliminaire et un prétraitement avant leur incorporation dans le modèle prédictif.

Selon un mode de réalisation de l'invention, 73 données contextuelles, dynamiques et statiques, ont été définies pour l'élaboration du modèle prédictif du confort ressenti par les usagers de la place de la Nation.

Dans la suite, quelques exemples de données contextuelles utilisées seront décrits à titre indicatif et nullement exhaustif.

La position et la densité des arbres dans l'anneau central de la place de la Nation sont par exemple des données contextuelles statiques qui peuvent être obtenues via des sources Open Data, telles que OpenStreetMap ou Open Data de Paris, disponibles sur Internet.

La figure 3a représente la distribution des arbres sur la place, chaque point noir correspondant à un arbre. Cette distribution permet par exemple de connaître exactement le nombre d'arbres dans un rayon déterminé autour d'un usager se trouvant sur la place, générant ainsi une donnée contextuelle dérivée qui permettra ensuite de quantifier l'effet des arbres à proximité sur le ressenti d'un usager en matière de confort.

À partir des mêmes sources Open Data, il peut être obtenu, outre la position des arbres sur la place, la densité d'arbres dans ladite place comme illustré sur la figure 3b. La densité d'arbres cartographiée dans ce cas particulier correspond au nombre d'arbres par unité de surface, ladite densité est représentée en niveaux de gris, la valeur de la densité étant croissante en allant des tons clairs aux tons foncés. Par exemple, la zone 10 est une zone de grande densité tandis que la zone 20 est une zone de faible densité.

Chaque donnée contextuelle, dynamique ou statique, peut être rattachée à un facteur contextuel plus général dont peuvent dériver plusieurs données contextuelles du même type. Par exemple, les données contextuelles distribution des arbres et densité d'arbres dans l'espace public peuvent être rattachées à un facteur contextuel « arbre ». De ce fait, selon un mode de réalisation d'un procédé de création du modèle prédictif du confort ressenti par les usagers de la place de la Nation, les données contextuelles statiques peuvent par exemple être rattachées aux 35 facteurs contextuels statiques énumérés ci-dessous :

Boulangerie Traversée Parcmètre Route primaire

Banc Piste cyclable Place de stationnement Gare

Location de vélos Fast food Pharmacie Restaurant

Poubelle Passage piéton Jardinière Route tertiaire

Borne vélo Espace vert Route secondaire Ecole

Arrêt de bus Eclairage Poteau Boite aux lettres

Café Rue animée Poteau vélo Abri

Boutique Marches Entrée du métro Autre route

Feux de circulation Arbre Route résidentielle

De la même façon, des facteurs contextuels dynamiques peuvent être définis.

Avantageusement, les sources Open Data précitées permettent un accès simple à une multitude de données contextuelles à partir des facteurs contextuels énumérés ci-dessus. Pour le facteur contextuel « arbre » par exemple, on dispose, outre leurs positions et leur densité, de données telles que la circonférence, la hauteur, le type botanique et l'année de plantation. En outre, les données contextuelles disponibles ne seront pas nécessairement toutes utilisées avec une même importance dans le modèle prédictif du confort.

En complément des données statiques disponibles en majeure partie sur les sources Open Data ou pouvant être relevées simplement par une action humaine, les données dynamiques sont principalement recueillies via des capteurs installés sur la place de la Nation tels que des capteurs de flux de piétons, différentes caméras, des capteurs de bruit, de qualité d'air, etc.

Selon un mode de réalisation du procédé de création du modèle du confort, des données issues de capteurs WiFi et de caméras de comptage ont été utilisées.

Les capteurs WiFi précités sont des bornes WiFi installées sur la place de la Nation permettant la collecte de données de connexion des appareils de télécommunication sans fil se trouvant sur la place de la Nation et dont la fonctionnalité WiFi est activée.

Lorsqu'un appareil, tel qu'un smartphone, cherche une connexion à un réseau WiFi, il envoie un signal qui est alors collecté par le réseau de capteurs WiFi installé. L'intensité et le décalage temporel de ce signal émis sont ensuite analysés par le réseau de capteurs qui permet de retrouver approximativement la position de l'appareil émetteur sur la place. En outre, l'adresse MAC de l'appareil est également collectée par le réseau de capteur, ce qui lui permet d'analyser la récurrence de passage dudit appareil sur la place à plusieurs heures ou jours d'intervalle.

Les figures 4a et 4b représentent la densité de smartphones présents sur la place de la Nation en une journée ordinaire à 6h00 et à 18h00 respectivement, les données ayant été préalablement traitées en vue de limiter tout bruit indésirable. On constate en effet une forte concentration de smartphones au centre de la place à 18h00, ce qui correspond aux usagers qui se dirigent vers les entrées de métro après leur travail et aux usagers profitant de l'espace vert situé à cet endroit.

Les caméras de comptage permettent de compter les objets qui traversent des lignes virtuelles en distinguant des familles desdits objets comme par exemple des vélos, des voitures et des piétons. Les caméras peuvent opérer des comptages indépendants suivant le sens de traversée des lignes virtuelles. Les lignes de comptage peuvent être disposées en des endroits pour lesquels les données de passage sont jugées utiles tels que des passages piétons, des entrées de métros, des voies stratégiques, etc.

Selon un mode de réalisation de l'invention, les caméras de comptage disposées sur la place de la Nation permettent de collecter des données contextuelles dynamiques telles que les flux de piétons et les flux de véhicules dans différentes zones de la place.

Il ressort clairement de la description de l'étape 120 de recensement et collecte des données contextuelles que les exemples donnés sont susceptibles d'être complétés et/ou modifiés. De manière générale, les données contextuelles représentent une quantité très conséquente de données nécessitant l'utilisation de techniques spécifiques au domaine des mégadonnées (ou Big data) en vue de leur analyse et de leur traitement. Ainsi, il est par exemple fait appel aux techniques dites de réseaux de neurones, connues dans le domaine de l'intelligence artificielle, pour l'exploration de tels volumes de données.

De ce fait, le modèle prédictif obtenu par le procédé objet de la présente invention est un modèle d'apprentissage automatique mettant en œuvre un volume important de données contextuelles dans le but de comprendre leur influence sur l'indice du confort IC introduit plus haut, pour pouvoir ensuite prédire ledit indice sur la base desdites données contextuelles uniquement.

L'étape 130 de définition des attributs consiste à déterminer des paramètres qui permettront d'établir un lien entre les données contextuelles collectées et les variables d'intérêt mesurées. Selon le mode de réalisation décrit, les attributs sont les positions (en coordonnées géographiques) dans l'espace public des personnes sondées et les dates auxquelles les sondages sont réalisés.

Par exemple, la position d'une personne sondée permet, à partir de la donnée statique de la densité d'arbres, de déterminer le nombre d'arbres entourant ladite personne dans un rayon donné, et la date permet d'estimer par exemple, à partir de la donnée dynamique du flux de piétons, le flux de piétons instantané au voisinage de la personne durant le sondage. Ces attributs permettent donc d'établir un lien entre données contextuelles et variables d'intérêt dans la mesure où les valeurs prises par les variables d'intérêt (réponses aux questions du sondage) dépendent des données contextuelles dérivées conditionnées par ces attributs.

L'étape 200 de réalisation d'une enquête terrain consiste à collecter un ensemble de valeurs des variables d'intérêt Y,, des attributs ainsi que des données contextuelles définies, pour entraîner le modèle d'apprentissage automatique qui sera établi. Selon un mode de réalisation de l'invention, l'ensemble de valeurs des variables, des attributs et des données contextuelles est recueilli sur un échantillon de N usagers de la place de la Nation et comprend donc N séries de données rangées comme suit : ((¾i<i<6 , (x. y. t), ( u j) 1≤j≤n > Ofc)i≤fc≤m)

Avec n et m les nombres de données dynamiques et statiques respectivement, et (x,y,t) les attributs de position et de date.

On obtient alors N séries de (n+m+9) éléments, ou (n+m+6)-uplets, qui peuvent être rangées dans une matrice N x (n+m+9), ou dans plusieurs matrices blocs.

Autrement dit, pour chaque usager de la place de la Nation pris dans l'échantillon d'étude, il est nécessaire de connaître les valeurs des variables d'intérêt, et par là même la valeur de l'indice du confort calculée à partir desdites valeurs des variables d'intérêt, ainsi que toutes les valeurs des attributs et des données contextuelles définies afin de permettre au modèle d'apprentissage automatique de comprendre au mieux les liens entres variables d'intérêt et données contextuelles.

Selon un mode de réalisation de l'invention, les variables d'intérêt ainsi que les données personnelles des usagers sont collectées par sondage.

Selon un mode de réalisation de l'invention, les attributs de position et de date peuvent être relevés par un terminal mobile servant à la réalisation du sondage, par l'intermédiaire des données GPS par exemple.

Les autres données contextuelles sont relevées par des mesures comme décrit plus haut.

En raison du caractère qualitatif des variables d'intérêt précitées, une échelle de valeurs de 1 à 4 a été choisie afin de quantifier le ressenti des usagers de la place par rapport auxdites variables, la valeur 1 correspondant à « Pas du tout » et la valeur 4 à « Complètement ». Par exemple un piéton qui se trouve sur la place et qui estime que la place n'est pas du tout agréable répondrait « 1 » à la question « trouvez-vous que la place de la Nation est agréable ? » qui lui serait posée. Ainsi, les variables Yi correspondent à des niveaux normalisés des critères qu'elles désignent, et une manière simple de recueillir ces niveaux chez un usager d'un espace public serait de lui poser des questions du type « Pourriez vous noter sur une échelle de 1 à 4, 1 correspondant à Pas du tout et 4 à Complètement, le niveau de propreté de cet espace public ? ».

La figure 5 représente par exemple les notes obtenues pour la variable « Beauté » avec un échantillon représentatif de 1200 usagers de la place de la Nation.

L'étape 300 d'implémentation d'un ensemble de modèles d'apprentissage automatique consiste à tester des modèles de calcul des variables d'intérêt Yi en fonction des données contextuelles, dynamique Uj et statiques Vk, et des attributs. Ces modèles initiaux implémentent des algorithmes développés spécialement pour tenir compte au mieux de la dépendance des variables d'intérêt vis-à-vis des données contextuelles et des attributs.

Les variables d'intérêt Yi vont permettre le calcul de l'indice du confort IC et représentent donc les sorties des modèles prédictifs, les données contextuelles ainsi que les attributs représentent les entrées desdits modèles prédictifs.

Les modèles initiaux établis seront ensuite entraînés avec des ensembles de variables d'intérêt, de données contextuelles et d'attributs réellement relevées sur le terrain comme décrit à l'étape 200.

L'étape de calibrage 400 des modèles initiaux d'apprentissage automatique permet de régler des paramètres desdits modèles de sorte que pour des entrées données, les modèles prédictifs puissent générer les sorties correspondant auxdites entrées reproduisant ainsi, moyennant une marge d'erreur minimum, les séries de variables, d'attributs et de données telles qu'elles ont été injectées dans lesdits modèles.

L'étape 500 de sélection du modèle final d'apprentissage automatique consiste à choisir, parmi les modèles testés, le modèle présentant les meilleures estimations, autrement dit, le modèle avec le moins de marge d'erreur globale.

Enfin, l'étape 600 de validation du modèle prédictif consiste à vérifier si ledit modèle reproduit pour des entrées données des sorties qui sont des bonnes approximations des sorties réelles relevées sur le terrain, la validation étant effectuée sur un ensemble de valeurs des variables et données contextuelles non injecté dans le modèle prédictif. Par exemple, la validation peut être une validation croisée, ou cross-validation, selon l'une des techniques bien connues de ce type de validations. Le procédé de création d'un modèle prédictif de l'indice du confort dans un espace public selon l'invention permet alors d'obtenir un modèle prédictif capable d'estimer l'indice du confort dans un espace public donné et transposable à d'autres espaces publics similaires, dans lesquels des données contextuelles similaires peuvent être recueillies. Le modèle prédictif permet d'estimer l'indice du confort dans un espace public sans recourir à un quelconque sondage des usagers dudit espace offrant ainsi une alternative viable et économique aux acteurs de l'aménagement et de l'urbanisme.

Cependant, les principes de l'invention tels que venant d'être exposés peuvent s'appliquer à d'autres cas dans d'autres domaines d'activités.