SYSTEM AND METHOD FOR AUTOMATED ACTION SELECTION, IMPLEMENTATION OF SAID SYSTEM AND METHOD FOR TRAINING PREDICTIVE MACHINES AND PROMOTING THE EVOLUTION OF SELF-LEARNING DEVICES

Title:

SYSTEM AND METHOD FOR AUTOMATED ACTION SELECTION, IMPLEMENTATION OF SAID SYSTEM AND METHOD FOR TRAINING PREDICTIVE MACHINES AND PROMOTING THE EVOLUTION OF SELF-LEARNING DEVICES

Document Type and Number:

WIPO Patent Application WO/2022/122108

Kind Code:

Abstract:

The invention is a machine learning (ML) platform that enables the prediction, the intelligent management and the interpretation of behaviours. By virtue of this tool, effective predictive models can be analysed, learnt and put into large-scale production in a totally autonomous manner.

Inventors:

GAUDE NICOLAS (FR)

Application Number:

PCT/EP2020/025572

Publication Date:

June 16, 2022

Filing Date:

December 10, 2020

Export Citation:

Click for automatic bibliography generation Help

Assignee:

PREVISION IO (FR)

International Classes:

G06N5/00; G06N20/20; G06Q10/04; G06Q30/02; G06Q40/06; G06N3/04; G06N10/00

Foreign References:

EP4291912A

2004-07-27

Other References:

XUDONG SUN ET AL: "ReinBo: Machine Learning pipeline search and configuration with Bayesian Optimization embedded Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 10 April 2019 (2019-04-10), XP081167750
WU JIA ET AL: "Efficient hyperparameter optimization through model-based reinforcement learning", NEUROCOMPUTING, ELSEVIER, AMSTERDAM, NL, vol. 409, 23 June 2020 (2020-06-23), pages 381 - 393, XP086249268, ISSN: 0925-2312, [retrieved on 20200623], DOI: 10.1016/J.NEUCOM.2020.06.064
SZWARCMAN DANIELA ET AL: "Quantum-Inspired Neural Architecture Search", 2019 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), IEEE, 14 July 2019 (2019-07-14), pages 1 - 8, XP033622291, DOI: 10.1109/IJCNN.2019.8852453
LI YANGYANG ET AL: "Quantum inspired high dimensional hyperparameter optimization of machine learning model", 2017 INTERNATIONAL SMART CITIES CONFERENCE (ISC2), IEEE, 14 September 2017 (2017-09-14), pages 1 - 6, XP033243915, DOI: 10.1109/ISC2.2017.8090826
LENTZAS ATHANASIOS ET AL: "Hyperparameter Tuning using Quantum Genetic Algorithms", 2019 IEEE 31ST INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI), IEEE, 4 November 2019 (2019-11-04), pages 1412 - 1416, XP033713805, DOI: 10.1109/ICTAI.2019.00199

Attorney, Agent or Firm:

CANTONI, Thomas (FR)

Download PDF:

View/Download PDF PDF Help

Claims:

REVENDICATIONS :

1. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs, caractérisé en ce qu'un outil, hébergé sur une plateforme d'autoML, associant une masse des données d'entraînement ou de tests à des algorithmes associant la masse des données d'entraînement ou de tests à des algorithmes obtient un premier score au moyen de la connaissance par retour en arrière de la contribution élémentaire de chacune des variables dans le modèle élémentaire et de l'entraînement de l'algorithme écartant l'aléatoire.

2. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs selon la revendication 1, caractérisé en ce qu'un outil permet le déploiement continu des données et l'obtention de prédictions approchées dès les premiers calculs sans attendre que l 'ensemble des estimations soient effectuées.

3. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta- modèles prédictifs selon les revendications 1 et 2, caractérisé en ce qu'un outil obtient une meta- modélisation par un processus d'inférence bayesienne.

4. Système de machine d'apprentissage automatisé capable de créer rapidement des modèles ou meta-modèles prédictifs selon les revendications 1 à 3, caractérisé en ce qu'un outil obtient une meta- modélisation par un processus d'apprentissage par renforcement.

5. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs selon les revendications 1 à 4, caractérisé en ce que les algorithmes sont remplacés par le calcul quantique, ce qui permet d'accélérer de façon quadratique le tirage d'hyper paramètres parmi les meilleurs.

6. Système de machine d'apprentissage automatisé capable de créer des modèles ou meta-modèles prédictifs selon les revendications 1 à 5, caractérisé en ce que la plateforme met en production et monitore des modèles ou meta-modèles prédictifs autonomes, totalement indépendants de la plateforme, incorporant à la fois une méthode d'apprentissage autonome et d'observation des hyperparamètres.

REVENDICATIONS MODIFIÉES reçues par le Bureau international le 28 October 2021 (28.10.21)

1. Système de Machine Learning automatisé (AutoML) capable de créer des modèles ou meta-modèles prédictifs, caractérisé en ce que ce système est composé d'une plateforme d'autoML accessible via un navigateur web et d'un outil, hébergé sur ladite plateforme d'autoML, qui permet la création des modèles ou meta-modèles prédictifs en associant une masse des données d'entraînement ou de tests à des algorithmes, obtenant ainsi un premier score, ou modèle élémentaire, au moyen d'une méthode itérative permettant la connaissance de la contribution élémentaire de chacune des variables dans ce modèle élémentaire et de l'entraînement des algorithmes pour écarter le caractère aléatoire desdites variables.

2. Système de Machine Learning automatisé (AutoML) capable de créer des modèles ou meta-modèles prédictifs selon la revendication 1, caractérisé en ce qu'un outil permet la récupération en continu des données et l'obtention de prédictions approchées dès les premiers calculs sans attendre que l'ensemble des estimations sur lesdites prédictions soient effectuées.

3. Système de Machine Learning automatisé (AutoML) capable de créer des modèles ou meta- modèles prédictifs selon les revendications 1 et 2, caractérisé en ce qu'un outil obtient une meta-modélisation par un processus d'inférence bayesienne.

4. Système de Machine Learning automatisé (AutoML) capable de créer rapidement des modèles ou meta-modèles prédictifs selon les revendications 1 à 3,

FEUILLE MODIFIEE (ARTICLE 19) caractérisé en ce qu'un outil obtient une meta- modélisation par un processus d'apprentissage par renforcement.

5. Système de Machine Learning automatisé (AutoML) capable de créer des modèles ou meta-modèles prédictifs selon les revendications 1 à 4, caractérisé en ce que les algorithmes sont remplacés par le calcul quantique, ce qui permet d'accélérer de façon quadratique le tirage d'hyper paramètres parmi les meilleurs.

6. Système de Machine Learning automatisé (AutoML) capable de créer des modèles ou meta-modèles prédictifs selon les revendications 1 à 5, caractérisé en ce que la plateforme met en production et monitore des modèles ou meta-modèles prédictifs incorporant à la fois une méthode d'apprentissage automatisée et une méthode d'observation des hyperparamètres, et susceptibles d'être utilisés de manière autonomes sur d'autres plateformes ou supports.

FEUILLE MODIFIEE (ARTICLE 19)

Description:

DESCRIPTION :

SYSTEME ET PROCEDE DE SELECTION D'ACTION AUTOMATISEE, MISE EN OEUVRE DE CES SYSTEME ET PROCEDE POUR ENTRAINER DES MACHINES DE PREDICTION ET FAVORISER L'EVOLUTION DE DISPOSITIFS A AUTOAPPRENTISSAGE

Domaine technique

L'invention couvre l'ensemble de la chaîne automatisée que constitue la société Prevision. io en réalisant une solution complète de traitement totalement automatisé de grandes masses de données permettant d'effectuer dans quasiment tous les secteurs d'activité des analyses prédictives sans écriture de code ou définition d'hyperparamètres.

Des exemples de prédiction :

• la sécurité de données : des milliers de nouveaux logiciels malveillants étant tous les jours découverts, les similitudes existant entre une nouvelle version et les versions antérieures d'un logiciel ouvrent des voies pour la prédiction de fichiers malveillants. En outre, les outils d'apprentissage automatique sont aussi capables de rechercher des tendances dans l'accès aux données dans le cloud et signaler des anomalies susceptibles de prédire des failles de sécurité ;

• la sécurité personnelle : l'apprentissage automatique peut permettre d'anticiper les fausses alarmes (ce qui peut permettre d'accélérer les processus dans les aéroports, stades, etc.) mais aussi de repérer les éléments susceptibles d'échapper à des agents de contrôle ; • le trading dans les marchés financiers : prédire le cours des marchés boursiers est un véritable challenge, de plus en plus approché par des algorithmes d'apprentissage. De nos jours, de nombreuses sociétés de trading développent des outils pour prédire l'état du marché et effectuer des transactions à grande vitesse et en volume important ;

• les services de recommandations : les algorithmes intelligents d'apprentissage automatique permettent suite à l'analyse de l'activité en ligne d'un utilisateur, et en la comparant à des millions d'autres utilisateurs, de déterminer ce qu'il est susceptible d'acheter (pour un site de vente), de regarder (pour les sites de visionnage de contenus audiovisuels en ligne comme Netflix), etc. Ces recommandations permettent non seulement de reconnaître si un utilisateur a acheté un article pour lui-même ou bien pour en faire un présent, mais aussi de classifier les membres d'une famille sur la base des contenus que chacun visionne ;

Etat de la technique antérieure :

En l'état de l'art de la technique, deux approches sont établies :

1. une première approche manuelle des problèmes via des algorithmes d'apprentissage automatique, très souvent développés par des équipes d'experts scientifiques très spécialisés du fait de la complexité liée à la définition des modèles et architectures (apprentissage profond, etc.) et de leurs hyperparamètres pour une application donnée, etc.

La mise en production d'outils est relativement difficile, allant de l'ordre du mois au trimestre, notamment due à la lenteur des cycles de développement du fait d'éventuelles nécessités à ré-entrainer des modèles, etc. Les techniques de « Machine Learning » (ML) sont regroupées en trois groupes sur la base desquelles de nombreux paradigmes, mécanismes et algorithmes sont construits.

• l'apprentissage supervisé : ce concept regroupe les méthodes de ML pour lesquelles l'apprentissage nécessite des données d'entrainement dont les résultats en sortie sont connues (sorties connues a priori) ;

• l'apprentissage non supervisé : ce concept regroupe des techniques de ML pour lesquelsl'entrainement ne requiert pas données d'entrainement dont les sorties sont connues a priori ;

• apprentissage par renforcement : lorsque l'apprentissage est effectué sur la base des interactions avec un environnement externe.

2. Une deuxième approche automatisée et rendue générique pour un grand nombre de problèmes, appelée AutoML-Automated Machine Learning.

De nouveaux outils appelés AutoML - Automated Machine Learning permettent de rendre le ML plus accessible aux non spécialistes, aux personnes « data driven » (Business & Data Analyst), etc. tout en conservant une performance élevée et une accélération de la productivité avec une mise en production immédiate.

Ils se concentrent davantage sur le concept d' « apprentissage » que sur les algorithmes, telles les approches d'apprentissage par représentation (representation learning), d'apprentissage profond (deep learning), d'apprentissage distribué (distributed learning), de transfert d'apprentissage (transfer learning), etc.

S'agissant des algorithmes de ML à proprement parlé, il en existe plusieurs parmi lesquels les arbres de décision, Random Forest, Boosting et Réseaux de neurones : les arbres de décision permettent de résoudre des problèmes de régression ou de classification en faisant une modélisation hiérarchisée de tests sur les valeurs d'un ensemble de variables.

Pour dépasser les limites de cet algorithme qui est statique (donc ne permet pas d'apprendre à partir de nouvelles instances qui viendraient s'ajouter à l'ensemble d'entraînement) et sensible au bruit (propension à apprendre des relations entre les données et le bruit présent dans l'ensemble d'apprentissage), l'algorithme Random Forest a été introduit.

Random Forest utilise le bagging en combinant plusieurs modèles d'arbres de décision et introduit un caractère aléatoire en basant la construction de l'arbre à chaque étape sur un sous-ensemble de variables tirées aléatoirement.

Une des complexités pour développer les arbres de décision est le compromis délicat dans la construction de l'arbre pour déterminer la profondeur de celle- ci permettant le meilleur arbitrage entre le biais et la variance.

En effet, plus l'arbre est profond, plus le bais est faible et la variance forte ; en revanche, pour un arbre court, le bais est fort et la variance faible, ce qui implique un compromis très complexe que le data scientist doit résoudre ;

Boosting & Gradient Boosting Machines (GBM) : le terme « boosting » désigne une approche consistant à construire séquentiellement des décisions précises à partir d'une même méthode d'apprentissage dite « apprenant faible ». Chaque nouvelle construction utilise une nouvelle distribution sur l'échantillon d'apprentissage, dans laquelle sont favorisés les exemples « mal appris » par les hypothèses précédemment construites. A la fin l'ensemble des constructions est pondéré en allouant les poids les plus forts aux constructions ayant l'erreur la plus faible. Il s'agit donc d'un point de vue algorithmique d'une approche cherchant à minimiser l'erreur de prédiction à chaque étape. Lorsque cette minimisation de l'erreur est effectuée avec une méthode de descente du gradient, nous parlons de méthode GBM. Pour développer cette méthode, la définition du meilleur choix d' « apprenant faible » peut être très difficile pour le data scientist et le problème d'optimisation lié à la minimisation de l'erreur est souvent très complexe à résoudre numériquement ;

Réseaux de neurones : ils sont inspirés du cerveau humain et sont décrits comme des graphes orientés dont les noeuds correspondent à des neurones. L'objectif de ces algorithmes est de déterminer les « poids » associés à chaque neurone en procédant paritérations avec une méthode d'optimisation de descente du gradient. Nous parlons de réseau de neurones profond lorsque le graphe présente plusieurs couches cachées. Ces algorithmes sont assez complexes à cause d'un nombre de paramètres importants à déterminer et la définition des hyperparamètres est extrêmement délicate car l'espace de recherche de ces derniers croit de manière exponentielle avec les couches cachées. ste des outils comme Auto-Sklearn, TPOT, AutoML Google...

Auto-Sklearn est fondé sur l'hypothèse selon laquelle les ensembles de données d'entraînement et de tests sont identiquement distribués, ce qui n'est généralement pas vérifié dans la pratique. La prise en considération de cet aspect est à la charge de l'utilisateur de l'outil, ce qui exige une certaine compétence en datascience. L'outil s'appuie sur des avancées en optimisation bayésienne, sur le concept de méta-apprentissage et de réalisation d'ensemble de modèles (dont les pondérées permettent généralement de gagner en précision avec la réduction de variance). Auto-Sklearn conçoit automatiquement un ensemble de 50 modèles qui mettent en marche un pré-processeur de données (déterminé parmi 14 possibilités) et des opérations de transformation de variables (déterminées parmi 4 possibilités) et un algorithme de ML (déterminé parmi 15 possibilités).

Un aspect intéressant de cet outil est la possibilité de maîtriser les ressources en temps de calcul et en mémoire (en les budgétisant) à chaque tâche d'optimisation. Les challenges de ML remportés par cet outil permettent de montrer toute sa puissance.

Cependant, ce dernier manque de flexibilité pour développer des modèles complexes du fait qu'il génère des modèles qui mettent en marche un certain nombre de pré-processeurs de données, de transformation de variables et d'algorithmes de ML, et ceci dans un ordre bien défini en plus.

En outre, Auto-Sklearn est basée sur l'hypothèse selon laquelle les ensembles d'entraînement et de tests sont identiquement distribuées. Cette hypothèse est une limitation de cet outil car étant rarement vérifiée en pratique. La prise en considération de l'asymétrie entre les données d'entrainement et de test (de même que la budgétisation des ressources) est gérée par le datascientist, ce qui fait que cet outil nécessite des compétences solides en datascience ou statistique pour se baser dessus alors que nous souhaitons réaliser un outil qu'une personne sans compétence dans ce domaine puisse utiliser. TPOT-Tree-based Pipeline Optimization Tool TPOT produit le code d'un algorithme de machine learning utilisable par un datascientist qui transforme ce code et le mettre en adéquation avec ses contraintes, ce qui fait qu'il est toujours nécessaire d'être expert dans le domaine pour se baser sur cet outil.

L'outil permettant d'automatiser certaines étapes de la réalisation d'un outil d'apprentissage (prétraitements, sélection d'algorithme et optimisation). A la différence d'Auto-Sklearn, il génère le code du meilleur modèle trouvé sur la base duquel le datascientist effectue son travail.

TPOT explore un ensemble de modèles plus conséquent qu'Auto-Sklearn. Toutefois, cet outil reste une aide au datascientist, et ne permet toujours pas une démocratisation du MLaux personnes sans compétences dans ce domaine du fait qu'au lieu de réaliser des prédictions, il fournit un code qui sera par la suite exploité par un expert afin de le transposer aux contraintes de son projet.

AutoML de Google permet de construire des architectures « réseaux de neurones » très complexes (avec des performances rivalisant ceux des datascientists très expérimentés) mais cette solution est encore au stade exploratoire et n'a pas encore atteint la maturité permettant un usage grand public.

Pour ces outils, la difficulté à automatiser complètement le ML est lié au fait qu'il est très complexe d'automatiser toutes les étapes d'un projet de datascience. Les étapes liées à la récupération des données, à leur analyse en vue du nettoyage et leur enrichissement dépendent fortement des systèmes d'où sont issues les données, et la définition des variables clés nécessite souvent une bonne connaissance du domaine d'application donc est difficilement généralisable. En outre, le test et l'optimisation et/ou validation des outils développés sont très compliqués car contrairement à un projet de développement de logiciel classique, les bugs d'un outil de Datascience peuvent se retrouver également dans la définition et dans le paramétrage des modèles et des prétraitements ou encore dans les données elles-mêmes.

La définition des modèles et de leurs hyperparamètres est une étape propre à chaque problème (comme il n'existe aucune approche permettant de résoudre tous les problèmes et quel que soit l'ensemble de données d'entrées le datascientist s'appuie sur des bonnes pratiques et sur son expérience au cours des projets de ML afin de pouvoir élaborer des modèles prédictifs performants).

Il existe des approches pour déterminer automatiquement les couples modèles /hyperparamètres, à l'instar de Grid Search mais celle-ci discrétise les espaces des hyperparamètres recherchés.

Aucun des outils de l'état de l'art accessible ne permet d'automatiser l'apprentissage depuis la préparation des données jusqu'à la validation des modèles développés.

Le brevet « One-Click-to-Prédiction » dont la demande a été déposée le 27 juillet 2004 par la société Sony France SA sous le numéro de demande 04291912 et publié le 1er février 2006 sous le numéro 1622072 Bl CIB : G06N 3/00 CPC : G06N 3/004 (avec les données relatives à la priorité : 04291912 27.07.2004 EP) recouvre trois étapes particulières que comporte tout projet de datascience classiquement mené par différents professionnels de la donnée : étape "connect" : l'analyse du problème à résoudre au regard des données d'apprentissage disponibles est classiquement réalisée par le data-analyst qui va créer ou sélectionner les données utiles et éliminer les données qui ne participent pas du problème à résoudre. étape "train" : les données constituées, le data-scientist teste un grand nombre de choix de modèles mathématiques, de choix de paramètres de croisement de données et de combinaisons de modèles afin de résoudre au mieux la problématique demandée. étape "predict" : les modèles obtenus sont alors portés en production par des data-engineers qui ont en charge de rendre robuste et scalable le modèle brut obtenu par le datascientist afin de répondre aux contraintes opérationnelles de production.

C'est dans ce contexte que la présente invention créée une solution générique et complètement automatisée d'apprentissage.

Présentation de l'invention

Cet outil ne nécessite d'écrire aucune ligne de code pour réaliser des modèles, les équipes de datascience gagnant ainsi en productivité, et donnant accès à l'analyse prédictive aux personnes sans base solide en ML comme les business analyst.

La solution est accessible au travers d'un navigateur web (ne nécessitant pas l'installation d'un client lourd) et permet la construction de modèles prédictifs fiables uniquement à partir des données de l'entreprise.

L'invention qui comprend toutes les étapes d'un projet de datascience automatisées crée une solution générique et complètement automatisée d'apprentissage en permettant : • la récupération des données en continu pouvant provenir de diverses sources, mises en forme de ces données pour constituer un tableau de données où chaque ligne représente une observation du phénomène que l'on souhaite prédire et où chaque colonne correspond à une variable potentiellement prédictive ;

Cette récupération et la préparation des données sont souvent complexes car elles sont dépendantes des différends systèmes d'information d'où proviennent les données ainsi que du fait que celles-ci peuvent être non structurée, structurées ou semi structurées ;

• le nettoyage des données récupérées, ce qui permet de supprimer les informations aberrantes et envisager une stratégie pour gérer les données manquantes ;

• la sélection des variables susceptibles de porter une information prédictive ;

La détermination des variables prédictives ainsi que celle des modèles de leurs hyperparamètres peut être propre à chaque projet - car il n'existe pas d'algorithme qui effectue des prédictions fiables dans tous les cas et quel que soit les données d'entrée

• la transformation des données afin de standardiser les unités, les formats des données, etc. ;

• l'enrichissement avec des données supplémentaires issues d'autres sources ou de résultats de calculs ;

• le développement d'un modèle prédictif, pouvant consister en la combinaison de plusieurs modèles ; • l'optimisation du « tuning » du modèle sur la base des métriques de performances obtenues ;

• la validation du modèle et estimation de sa précision.

• la réalisation de tests sur l'ensemble des modèles et des hyperparamètres afin de déterminer la meilleur combinaison.

Cette approche très directe présente l'inconvénient d'être extrêmement coûteuse en temps de calcul voir irréalisable parfois (notamment avec les réseaux de neurones profonds présentant plusieurs noeuds cachés). La méthode Random Search est une alternative à Grid Search effectuant les tests seulement sur une sélection aléatoire des valeurs d'hyperparamètres. Toutefois le risque avec cette approche est d'omettre, lorsque celles-ci sont concentrées sur une plage, des valeurs potentiellement optimales d'hyperparamètres.

La présente invention permet de :

• déterminer les variables clés portant une information prédictive de manière non assistée, étant un outil qui puisse effectuer des prédictions quel que soit le champ d'intérêt ;

• réaliser des modèles ou meta-modèles prédictifs performants sans assistance, ce qui nécessite de pouvoir déterminer grâce au déploiement continu des données les meilleurs modèles et leurs hyperparamètres sans écriture de code de la part de l'utilisateur de la solution. Description des graphiques

Les graphiques en figure 1 (Chaîne de traitement en machine learning) et figure 2 (Automatisation complète des étapes de modélisation et mise en production par la présente invention) mettent en perspective l'architecture classique d'une approche de machine learning et le système de la présente invention.

La figure 3 (Fonctionnement) décrit l'analyse des données de tests, auxquelles sont appliqués les mêmes prétraitements que pour les données d'entrainement.

La figure 4 (Illustration de l'analyse du poids de différents paramètres) illustre l'analyse du poids des différentes variables sur les performances d'un modèle entraîné.

La figure 5 (Illustration de l'évolution d'une métrique de performance) illustre la convergence de la métrique de performance vers une valeur asymptotique.

La figure 6 (Simulation du « tuning » pour l'algorithme LightGBM) expose la corrélation entre l'évolution du score de validation, après un certain nombre d'itérations, et celle du « learning rate » du modèle, sous la forme d'une valeur asymptotique constante.

Réalisation de l'invention

L'utilisateur charge - au travers d'un navigateur web - les jeux de données d'entrainement au niveau de notre outil qui réalise les prétraitements (« preprocessing »), la modélisation et le résultat obtenu représente le meilleur modèle correspondant le mieux aux données d'entrainement. Ce modèle permet ainsi d'analyser des données de tests auxquelles sont appliqués les mêmes prétraitements que pour les données d'entrainement, comme le montre la figure 3.

La première hypothèse de l'invention consiste à envisager une analyse des variables contribuant le plus à la performance du modèle (une illustration en est donnée au niveau de la figure 4 au niveau de laquelle le poids de différentes variables sur les performances d'un modèle entraîné) indifféremment de la technologie sous-jacente, que ce soit un modèle simple ou bien un métamodèle.

En outre, le volet modélisation est une étape fondamentale pour des prédictions fiables. Les prédictions sont réalisées en appliquant successivement différents modèles puis en les mélangeant en se basant sur des critères de diversité. En effet, l'entrainement est effectué d'abord sur la base de plusieurs modèles de ML puis sur la base d'approches de combinaisons, avec des regroupements entre ces différents modèles. Le traitement permettant d'obtenir les meilleurs résultats (selon les métriques de performances considérées, par exemple l'AuC qui représente l'aire sous une courbe ROC ou le score de validation croisée - cv- score,etc.) entre ces différentes approches (modèles seuls et issus de combinaisons) est celui qui sera à la base des prédictions.

Quel que soit le jeu de données, l'outil permet d'obtenir des prédictions approchées dès les premiers calculs sans attendre que l'ensemble des estimations soient effectuées puis que les estimations tendent vers une valeur asymptotique (comme l'illustre la figure 5), indiquant une erreur de prédiction de plus en plus faible au cours du traitement.

Il est à souligner que chaque métamodèle est lui-même un modèle dérivé plus performant que les modèles de base qui le constituent. Le métamodèle est obtenu lui-même par une phase d'apprentissage automatisée. Cet apprentissage considère en entrée les prédictions obtenues en cross validation et métamodèle peut également servir de modèle de base à un futur métamodèle de niveau plus élevé.

Une étape finale de sélection du meilleur modèle (modèle de base ou métamodèle) permet alors de sélectionner le modèle le plus performant selon la métrique de performance de chacun, obtenu en cross validation.

L'outil, associant la masse des données en continu d'entraînement ou de tests à des algorithmes, permet une sélection de variables, la transformation de ces données en unités, leur enrichissement avec des données supplémentaires issues d'autres sources ou de résultats de calculs, lesdits moyens étant susceptibles de porter des informations prédictives, le développement du meilleur modèle prédictif, sa validation, pouvant consister en la combinaison de plusieurs modèles et de leurs hyperparamètres, l'optimisation des modèles étant fondée sur des métriques de performances obtenues sans écriture de code ni de définition des hyperparamètres de la part de l'utilisateur de la solution.

L'outil permet donc la détermination des hyperparamètres adéquats pour les différents modèles et jeux de données. De manière générale, la définition de la meilleure combinaison d'hyperparamètres pour un algorithme de machine learning est extrêmement complexe car elle dépend aussi des jeux de données d'entrées et peut nécessiter de longs tests sur différentes combinaisons. Tester l'ensemble des combinaisons possibles est une approche trop coûteuse en puissance de calcul, voire irréalisable. Ainsi, la première idée était de déterminer une valeur maximum et minimum pour chaque hyperparamètre puis de générer une distribution aléatoire de potentielles valeurs d'hyperparamètres. Par la suite, la meilleure combinaison d'hyperparamètres suite aux tests (par rapport aux métriques de performances) est considérée pour les prédictions.

Cette approche a ensuite évolué en déterminant les meilleures plages et distributions d'hyperparamètres, se basant sur une approche expérimentale avec une simulation du « tuning » des hyperparamètres pour différents modèles de ML.

L'invention considère plusieurs jeux de données d'entrées et définit une fenêtre très large d'hyperparamètres puis s'appuie sur une méthode Grid Search afin de comprendre les relations pouvant exister entre chaque hyperparamètre candidat et les performances du modèle. L'outil obtient un premier score au moyen de la connaissance par retour en arrière de la contribution élémentaire de chacune des variables dans le modèle élémentaire et de l'entraînement de l'algorithme se battant contre l'aléatoire.

Pour donner un exemple de résultat de cette démarche, s'agissant de LightGBM, les résultats des simulations montrent qu'après un certain nombre d'itérations, le score de validation décroit et tend vers une valeur asymptotique constante.

[NB : Framework pour l'algorithme GBM - Gradient Boosted Machine (https://github.com/Microsoft/LightGBM); Pas d'échantillonnage de la descente du gradient]

De plus, comme il est signalé au niveau de la figure 6, cette asymptote semble corrélée au « learning rate » du modèle. Cette approche a permis d'analyser les hyperparamètres puis d'effectuer les Développements expérimentaux afin que l'outil puisse effectuer une meilleure détermination de ceux-ci et de manière non assistée à travers une méthode de recherche propriétaire.

Une première méthode de recherche des hyperparamètres fait appel à une inférence bayesienne des hyperparamètres pour lesquels la distribution des hyperparamètres à priori est progressivement adaptée en fonction de chacun des résultats expérimentaux obtenus via la plateforme d'AutoML-L'outil obtient ainsi une meta-modélisation par un processus d'inférence bayesienne.

Une deuxième méthode de recherche des hyperparamètres fait appel à une méthode d'apprentissage par renforcement :

• La première étape utilise un système de recommandation pour proposer des hyperparamètres candidats en fonction du « use case ».

• Dans la seconde étape concrètement ces hyperparamètres sont évalués sur le jeu de données, en utilisant la métrique d'évaluation. Sont construits ainsi n tuples de la forme (hyperparamètres, score de cross-validation).

Le but de la démarche est de rechercher un jeu d'hyperparamètres qui maximise la performance. Cependant, la fonction d'évaluation (qui passe par l'entraînement complet d'un modèle avec un jeu d'hyperparamètres) étant coûteuse, le nombre d'appel à cette dernière est limité.

Pour ce faire, l'outil obtient une meta-modélisation par un processus d'apprentissage par renforcement en déplaçant la charge de travail de l'évaluation des hyperparamètres (très coûteuse) à la recherche d'hyperparamètres à fort potentiels (raisonnablement coûteuse). Ceci est fait à travers un modèle probabiliste de la fonction d'évaluation obtenu par renforcement, sur la base des couples candidats proposés dans la première étape (les actions étant les hyperparamètres et la récompense étant le score obtenu en cross-validation).

Une troisième méthode de recherche des hyperparamètres fait appel au calcul quantique. La méthode quantique est d'évaluer dans l'espace des phases quantiques une approximation du score de cross-validation. En appliquant une superposition de l'ensemble des hyperparamètres, la méthode recherche opérationnelle dite algorithme de Grover permet alors de favoriser la probabilité d'observer un jeu d'hyperparamètres parmi les plus favorables (au sens du score de cross validation). Cette méthode, qui consiste à remplacer les algorithmes par le calcul quantique, permet d'accélérer de façon quadratique le tirage d'hyperparamètres parmi les meilleurs.

La plateforme prevision. io prend dans ces conditions en charge la totalité de ces trois méthodes : évaluation du score de cross-validation, observation d'un jeu d'hyperparamètres parmi les plus favorables et tirage accéléré d'hyparamètres sans aucune intervention humaine.

En dernier lieu, la mise en production des modèles de prévisions est également externalisée automatiquement et à la demande, en dehors de la plateforme, vers des places de marché privées ou publiques. Depuis ces plateformes, les utilisateurs peuvent consommer des prédictions performantes en autonomie de la plateforme AutoML et les propriétaires du modèles prédictifs peuvent monitorer l'utilisation et la performance en conditions réelles. La mise en production rend ainsi les modèles accessibles dans des places de marchés privées et publiques.

Previous Patent: ENDOSCOPIC SURGERY IRRIGATION DEVICE ALLOWING A CONTINUOUS FEED

Next Patent: VACUUM CLEANER STAND