Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR TRAINING A PREDICTION ALGORITHM, AND ASSOCIATED DEVICES
Document Type and Number:
WIPO Patent Application WO/2023/275295
Kind Code:
A1
Abstract:
The present invention relates to a method for training a prediction algorithm, the training being implemented using a machine learning technique, the method comprising the following steps: - receiving a current training dataset, - receiving a property regarding the invariance of the prediction made by the algorithm with respect to the inputs in accordance with an initial symmetry group described by an initial probability distribution, - determining a subgroup of the initial group described by a subgroup probability distribution and intended to apply transformations to the current set, using an optimization technique that uses the current set, the initial group and the initial distribution under an optimization constraint deduced from predetermined constraints, - generating data using the determined subgroup, the subgroup distribution and the whole of the current set, and - training the algorithm using the generated data.

Inventors:
LAGRAVE PIERRE-YVES (FR)
Application Number:
PCT/EP2022/068153
Publication Date:
January 05, 2023
Filing Date:
June 30, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
THALES SA (FR)
International Classes:
G06N20/00; G06N3/04; G06N3/08
Other References:
SHUXIAO CHEN ET AL: "A Group-Theoretic Framework for Data Augmentation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 25 July 2019 (2019-07-25), XP081605550
LAGRAVE PIERRE-YVES: "A Principal Component Analysis Approach for Embedding Local Symmetries into Deep Learning Algorithms", 8 September 2020, COMPUTER VISION - ECCV 2020 : 16TH EUROPEAN CONFERENCE, GLASGOW, UK, AUGUST 23-28, 2020 : PROCEEDINGS; [LECTURE NOTES IN COMPUTER SCIENCE ; ISSN 0302-9743], SPRINGER INTERNATIONAL PUBLISHING, CHAM, PAGE(S) 302 - 314, ISBN: 978-3-030-58594-5, XP047559314
Attorney, Agent or Firm:
DOMENEGO, Bertrand et al. (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé d’apprentissage d’un algorithme de prédiction, l’algorithme de prédiction prédisant pour des entrées données la valeur d’une ou plusieurs sorties, l’apprentissage étant mis en œuvre par ordinateur en utilisant une technique d’apprentissage machine, le procédé d’apprentissage comportant les étapes de :

- réception d’un jeu de données d’apprentissage courant,

- réception d’au moins une propriété d’invariance de la prédiction de l’algorithme de prédiction à apprendre par rapport aux entrées que l’algorithme de prédiction peut prendre en entrée selon un groupe de symétrie, dit groupe de symétrie initial, ledit groupe de symétrie étant muni d’une loi de probabilité initiale,

- détermination d’un sous-groupe du groupe de symétrie initial, le sous-groupe étant muni d’une loi de probabilité, dite loi de probabilité de sous-groupe, le sous-groupe correspondant à des transformations des entrées données à l’algorithme de prédiction, le sous-groupe étant destiné à être utilisé pour générer des données d’apprentissage par application des transformations correspondantes au jeu de données d’apprentissage courant selon la loi de probabilité de sous-groupe, le sous- groupe et la loi de probabilité de sous-groupe étant déterminés selon une technique d’optimisation sous au moins une contrainte d’optimisation, la technique d’optimisation utilisant le jeu de données d’apprentissage initial, le groupe de symétrie initial et la loi de probabilité initiale, l’au moins une contrainte d’optimisation étant déduite d’au moins une contrainte d’apprentissage prédéterminée,

- génération de données à l’aide du sous-groupe déterminé, de la loi de probabilité de sous-groupe et de l’ensemble du jeu de données d’apprentissage courant, pour obtenir des données générées, et

- mise en œuvre d’un apprentissage de l’algorithme de prédiction utilisant les données générées, l’apprentissage étant :

- soit un apprentissage utilisant une technique de génération de données itérative, chaque itération comprenant l’étape de génération, l’étape de mise en œuvre étant réalisée avec uniquement les données générées, le jeu de données d’apprentissage courant utilisé étant alors l’ensemble des données générées à l’itération courante,

- soit un apprentissage utilisant un jeu de données formé par l’ensemble des données générées et d’un jeu de données initial, le jeu de données initial étant utilisé comme jeu de données d’apprentissage courant.

2. Procédé d’apprentissage selon la revendication 1 , dans lequel la ou les entrée(s) et/ou la ou les sortie(s) sont des grandeurs physiques correspondant à des mesures issues d’un ou de plusieurs capteurs,

3. Procédé d’apprentissage selon la revendication 1 ou 2, dans lequel l’algorithme de prédiction est un algorithme de traitement d’images.

4. Procédé d’apprentissage selon la revendication 3, dans lequel l’algorithme de prédiction est un algorithme de reconnaissance de forme ou un algorithme de classification d’images.

5. Procédé d’apprentissage selon l’une quelconque des revendications 1 à 4, dans lequel l’au moins une contrainte d’apprentissage prédéterminée est choisie dans la liste constituée de :

- l’empreinte mémoire de l’algorithme appris,

- le temps d’exécution de l’algorithme appris sur un système prédéterminé,

- la quantité de calcul réalisable sur un système prédétermine sur lequel l’algorithme appris est destiné à être utilisé,

- une contrainte de confidentialité de certaines données,

- une contrainte de sécurité, le degré de robustesse de l’algorithme appris à des modifications des entrées, et

- le temps d’entraînement de l’algorithme de prédiction.

6. Procédé d’apprentissage selon la revendication 5, dans lequel au moins contrainte est le temps d’entraînement de l’algorithme de prédiction.

7. Procédé d’apprentissage selon l’une quelconque des revendications 1 à 6, dans lequel la technique d’optimisation consiste à minimiser sous contrainte d’optimisation la différence d’erreur de prédiction entre l’algorithme de prédiction obtenu à l’aide de données d’apprentissage comprenant des données générées à partir du groupe de symétrie initial et de la loi de probabilité initiale, et l’algorithme de prédiction obtenu à l’aide de données d’apprentissage comprenant des données générées à partir du sous-groupe déterminé et de la loi de probabilité de sous-groupe.

8. Procédé d’apprentissage selon l’une quelconque des revendications 1 à 7, dans lequel plusieurs contraintes d’optimisation sont prises en compte dans la technique d’optimisation.

9. Procédé d’apprentissage selon l’une quelconque des revendications 1 à 8, dans lequel la technique d’optimisation est une optimisation d’une fonction cible quadratique sous des contraintes d’optimisation quadratiques.

10. Procédé d’apprentissage selon l’une quelconque des revendications 1 à 9, dans lequel, le sous-groupe présente une dimension, au moins une contrainte étant une limitation d’au moins un moment de la loi de probabilité de sous-groupe avec une borne, notamment une borne supérieure sur la dimension du sous-groupe ou une borne supérieure sur la variance de la loi de probabilité de sous-groupe.

11. Procédé d’apprentissage selon l’une des revendications 1 à 10, dans lequel la loi de probabilité initiale est obtenue à partir de la vraisemblance des transformations associées au groupe de symétrie initial mesurée pour un ensemble d’entrées correspondant aux entrées attendues dans le cadre d’une utilisation spécifique de l’algorithme de prédiction considéré.

12. Procédé d’apprentissage selon l’une des revendications 1 à 11 , dans lequel la loi de probabilité initiale est une distribution uniforme ou une distribution gaussienne.

13. Procédé d’apprentissage selon l’une des revendications 1 à 12, dans lequel le groupe de symétrie initial est un groupe de Lie, notamment le groupe de symétrie initial est le groupe des roto-translations du plan.

14. Produit programme d’ordinateur (12) comportant des instructions de programme formant un programme d’ordinateur mémorisé sur un support lisible d’informations (32), le programme d’ordinateur étant chargeable sur une unité de traitement de données (20) et mettant en œuvre un procédé d’apprentissage selon l’une quelconque des revendications 1 à 13.

15. Support lisible d’informations (32) comportant des instructions de programme formant un programme d’ordinateur, le programme d’ordinateur étant chargeable sur une unité de traitement de données (20) et mettant en œuvre un procédé d’apprentissage selon l’une quelconque des revendications 1 à 14 lorsque le programme d’ordinateur est mis en œuvre sur l’unité de traitement de données (20).

Description:
Procédé d’apprentissage d’un algorithme de prédiction et dispositifs associés

DOMAINE DE L’INVENTION

La présente invention concerne un procédé d’apprentissage d’un algorithme de prédiction. Elle se rapporte à un produit programme d’ordinateur et un support lisible d’informations.

ARRIERE-PLAN TECHNOLOGIQUE DE L’INVENTION

La présente invention se situe dans le domaine de la mise au point d’algorithmes de prédiction ayant été appris par utilisation d’une technique d’apprentissage machine.

L’apprentissage machine est désigné par de nombreux termes différents comme le terme anglais de « machine learning », le terme « apprentissage automatique », le terme « apprentissage artificiel » ou encore le terme « apprentissage statistique ». L’apprentissage machine consiste à utiliser des données pour apprendre un algorithme de prédiction.

Toutefois, cela implique de disposer d’un jeu de données très important, ce qui est difficile en pratique.

Pour cela, il est connu des techniques d’augmentation des données d’un ensemble de données.

Selon le type de données, différentes transformations peuvent être envisagées pour la construction d’un jeu de données augmenté, comme par exemple des transformations géométriques ou encore des changements de couleurs et/ ou de tailles dans le cadre d’images.

L’application d’une suite de transformations aux éléments d’un ensemble de données constitue une stratégie d’augmentation. Ainsi, appliquer des rotations d’angles aléatoires aux éléments d’un ensemble constitué d’images constitue une stratégie, tout comme celle consistant à appliquer des changements de couleur à chacun des éléments de l’ensemble considéré.

Cependant, une telle approche n’est souvent pas viable en pratique du fait de la présence de contraintes exogènes, comme par exemple des restrictions sur l’empreinte mémoire de l’algorithme entraîné, sur son temps d’exécution sur l’architecture cible ou encore sur son degré de robustesse à des modifications de ses entrées.

RESUME DE L’INVENTION Il existe donc un besoin pour un procédé d’apprentissage d’un algorithme de prédiction apte à être mis en œuvre par un système réel sur un jeu de données de taille restreinte.

A cet effet, la description décrit un procédé d’apprentissage d’un algorithme de prédiction, l’algorithme de prédiction prédisant pour des entrées données la valeur d’une ou plusieurs sorties, l’apprentissage étant mis en œuvre par utilisation d’une technique d’apprentissage machine, le procédé d’apprentissage comportant les étapes de :

- réception d’un jeu de données d’apprentissage courant,

- réception d’au moins une propriété d’invariance de la prédiction de l’algorithme de prédiction à apprendre par rapport aux entrées que l’algorithme de prédiction peut prendre en entrée selon un groupe de symétrie, dit groupe de symétrie initial, ledit groupe de symétrie étant muni d’une loi de probabilité initiale,

- détermination d’un sous-groupe du groupe de symétrie initial, le sous-groupe étant muni d’une loi de probabilité, dite loi de probabilité de sous-groupe, le sous-groupe correspondant à des transformations des entrées données à l’algorithme de prédiction, le sous-groupe étant destiné à être utilisé pour générer des données d’apprentissage par application des transformations correspondantes au jeu de données d’apprentissage courant selon la loi de probabilité de sous-groupe, le sous- groupe et la loi de probabilité de sous-groupe étant déterminés selon une technique d’optimisation sous au moins une contrainte d’optimisation, la technique d’optimisation utilisant le jeu de données d’apprentissage initial, le groupe de symétrie initial et la loi de probabilité initiale, l’au moins une contrainte d’optimisation étant déduite d’au moins une contrainte d’apprentissage prédéterminée,

- génération de données à l’aide du sous-groupe déterminé, de la loi de probabilité de sous-groupe et de l’ensemble du jeu de données d’apprentissage courant, pour obtenir des données générées, et

- mise en œuvre d’un apprentissage de l’algorithme de prédiction utilisant les données générées, l’apprentissage étant :

- soit un apprentissage utilisant une technique de génération de données itérative, chaque itération comprenant l’étape de génération, l’étape de mise en œuvre étant réalisée avec uniquement les données générées, le jeu de données d’apprentissage courant utilisé étant alors l’ensemble des données générées à l’itération courante,

- soit un apprentissage utilisant un jeu de données formé par l’ensemble des données générées et d’un jeu de données initial, le jeu de données initial étant utilisé comme jeu de données d’apprentissage courant. Selon des modes de réalisation particuliers, le procédé d’apprentissage présente une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou selon toutes les combinaisons techniquement possibles :

- la ou les entrée(s) et/ou la ou les sortie(s) sont des grandeurs physiques correspondant à des mesures issues d’un ou de plusieurs capteurs, l’algorithme de prédiction est un algorithme de traitement d’images, l’algorithme de prédiction est un algorithme de reconnaissance de forme ou un algorithme de classification d’images. l’au moins une contrainte d’apprentissage prédéterminée est choisie dans la liste constituée de :

- l’empreinte mémoire de l’algorithme appris,

- le temps d’exécution de l’algorithme appris sur un système prédéterminé,

- la quantité de calcul réalisable sur un système prédétermine sur lequel l’algorithme appris est destiné à être utilisé,

- une contrainte de confidentialité de certaines données,

- une contrainte de sécurité, le degré de robustesse de l’algorithme appris à des modifications des entrées, et

- le temps d’entraînement de l’algorithme de prédiction. au moins contrainte est le temps d’entraînement de l’algorithme de prédiction, la technique d’optimisation consiste à minimiser sous contrainte d’optimisation la différence d’erreur de prédiction entre l’algorithme de prédiction obtenu à l’aide de données d’apprentissage comprenant des données générées à partir du groupe de symétrie initial et de la loi de probabilité initiale, et l’algorithme de prédiction obtenu à l’aide de données d’apprentissage comprenant des données générées à partir du sous-groupe déterminé et de la loi de probabilité de sous- groupe. plusieurs contraintes d’optimisation sont prises en compte dans la technique d’optimisation. la technique d’optimisation est une optimisation d’une fonction cible quadratique sous des contraintes d’optimisation quadratiques.

- le sous-groupe présente une dimension, au moins une contrainte étant une limitation d’au moins un moment de la loi de probabilité de sous-groupe avec une borne, notamment une borne supérieure sur la dimension du sous-groupe ou une borne supérieure sur la variance de la loi de probabilité de sous-groupe.

- la loi de probabilité initiale est obtenue à partir de la vraisemblance des transformations associées au groupe de symétrie initial mesurée pour un ensemble d’entrées correspondant aux entrées attendues dans le cadre d’une utilisation spécifique de l’algorithme de prédiction considéré.

- la loi de probabilité initiale est une distribution uniforme ou une distribution gaussienne.

- le groupe de symétrie initial est un groupe de Lie, notamment le groupe de symétrie initial est le groupe des roto-translations du plan.

La description décrit aussi un produit programme d’ordinateur comportant des instructions de programme formant un programme d’ordinateur mémorisé sur un support lisible d’informations, le programme d’ordinateur étant chargeable sur une unité de traitement de données et mettant en œuvre un procédé d’apprentissage tel que précédemment décrit.

La description se rapporte aussi à un support lisible d’informations comportant des instructions de programme formant un programme d’ordinateur, le programme d’ordinateur étant chargeable sur une unité de traitement de données et mettant en œuvre un procédé d’apprentissage tel que précédemment décrit lorsque le programme d’ordinateur est mis en œuvre sur l’unité de traitement de données.

BREVE DESCRIPTION DES FIGURES

Des caractéristiques et avantages de l’invention apparaîtront à la lecture de la description qui va suivre, donnée uniquement à titre d’exemple non limitatif, et faite en référence aux dessins annexés, sur lesquels :

- la figure 1 est une représentation schématique d’un système et d’un produit programme d’ordinateur,

- la figure 2 est une représentation schématique des éléments d’un groupe et de deux sous-groupes du groupe, et

- la figure 3 est une représentation schématique des résultats obtenus pour un exemple de mise en œuvre d’un procédé d’apprentissage.

DESCRIPTION DETAILLEE DE MODES DE REALISATION PREFERES

DESCRIPTION DU SYSTEME

Un système 10 et un produit programme d’ordinateur 12 sont représentés sur la figure 1.

L’interaction entre le système 10 et le produit programme d’ordinateur 12 permet la mise en œuvre d’un procédé d’apprentissage d’un algorithme de prédiction. Le procédé d’apprentissage est ainsi un procédé mis en œuvre par ordinateur. Selon l’exemple décrit, on suppose que le système 10 implémente aussi l’algorithme de prédiction appris.

Toutefois, dans de multiples applications, ce système d’implémentation sera différent du système qui met en œuvre le procédé d’apprentissage. Ceci pourra amener des contraintes spécifiques à prendre en compte.

Dans chacun des cas, le système d’implémentation confondu ou non avec le système 10 présente des caractéristiques similaires à ce qui va maintenant être décrit.

Le système 10 est un ordinateur de bureau. En variante, le système 10 est un ordinateur monté sur un rack, un ordinateur portable, une tablette, un assistant numérique personnel (PDA) ou un smartphone.

Dans des modes de réalisation spécifiques, l'ordinateur est adapté pour fonctionner en temps réel et/ou est dans un système embarqué, notamment dans un véhicule tel qu'un avion.

Dans le cas de la figure 1 , le système 10 comprend une unité de calcul 14, une interface utilisateur 16 et un dispositif de communication 18.

L’unité de calcul 14 est un circuit électronique conçu pour manipuler et/ou transformer des données représentées par des quantités électroniques ou physiques dans des registres du système 10 et/ou des mémoires en d'autres données similaires correspondant à des données physiques dans les mémoires de registres ou d'autres types de dispositifs d'affichage, de dispositifs de transmission ou de dispositifs de mémorisation.

En tant qu’exemples spécifiques, l’unité de calcul 14 comprend un processeur monocœur ou multicœurs (tel qu’une unité de traitement centrale (CPU), une unité de traitement graphique (GPU), un microcontrôleur et un processeur de signal numérique (DSP)), un circuit logique programmable (comme un circuit intégré spécifique à une application (ASIC), un réseau de portes programmables in situ (FPGA), un dispositif logique programmable (PLD) et des réseaux logiques programmables (PLA)), une machine à états, une porte logique et des composants matériels discrets.

L’unité de calcul 14 comprend une unité de traitement de données 20 adaptée pour traiter des données, notamment en effectuant des calculs, des mémoires 22 adaptées à stocker des données et un lecteur 24 adapté à lire un support lisible par ordinateur.

L'interface utilisateur 16 comprend un dispositif d'entrée 26 et un dispositif de sortie 28.

Le dispositif d’entrée 26 est un dispositif permettant à l'utilisateur du système 10 de saisir sur le système 10 des informations ou des commandes.

Sur la figure 1, le dispositif d’entrée 26 est un clavier. En variante, le dispositif d’entrée 26 est un périphérique de pointage (tel qu'une souris, un pavé tactile et une tablette graphique), un dispositif de reconnaissance vocale, un oculomètre ou un dispositif haptique (analyse des mouvements).

Le dispositif de sortie 28 est une interface utilisateur graphique, c’est-à-dire une unité d’affichage conçue pour fournir des informations à l’utilisateur du système 10.

Sur la figure 1, le dispositif de sortie 28 est un écran d’affichage permettant une présentation visuelle de la sortie. Dans d'autres modes de réalisation, le dispositif de sortie est une imprimante, une unité d'affichage augmenté et/ou virtuel, un haut-parleur ou un autre dispositif générateur de son pour présenter la sortie sous forme sonore, une unité produisant des vibrations et/ou des odeurs ou une unité adaptée à produire un signal électrique.

Dans un mode de réalisation spécifique, le dispositif d'entrée 26 et le dispositif de sortie 28 sont le même composant formant des interfaces homme-machine, tel qu'un écran interactif.

Le dispositif de communication 18 permet une communication unidirectionnelle ou bidirectionnelle entre les composants du système 10. Par exemple, le dispositif de communication 18 est un système de communication par bus ou une interface d'entrée / sortie.

La présence du dispositif de communication 18 permet que, dans certains modes de réalisation, les composants du système 10 soient distants les uns des autres.

Selon l’exemple de la figure 1, le produit programme informatique 12 comprend un support lisible par ordinateur 32.

Le support lisible par ordinateur 32 est un dispositif tangible lisible par le lecteur 24 de l’unité de calcul 14.

Notamment, le support lisible par ordinateur 32 n'est pas un signal transitoire en soi, tels que des ondes radio ou d'autres ondes électromagnétiques à propagation libre, telles que des impulsions lumineuses ou des signaux électroniques.

Un tel support de stockage lisible par ordinateur 32 est, par exemple, un dispositif de stockage électronique, un dispositif de stockage magnétique, un dispositif de stockage optique, un dispositif de stockage électromagnétique, un dispositif de stockage à semi- conducteur ou toute combinaison de ceux-ci.

En tant que liste non exhaustive d'exemples plus spécifiques, le support de stockage lisible par ordinateur 32 est un dispositif codé mécaniquement, tel que des cartes perforées ou des structures en relief dans une gorge, une disquette, un disque dur, une mémoire morte (ROM), une mémoire vive (RAM), une mémoire effaçable programmable en lecture seule (EROM), une mémoire effaçable électriquement et lisible (EEPROM), un disque magnéto-optique, une mémoire vive statique (SRAM), un disque compact (CD-ROM), un disque numérique polyvalent (DVD), une clé USB, un disque souple, une mémoire flash, un disque à semi-conducteur (SSD) ou une carte PC telle qu'une carte mémoire PCMCIA.

Un programme d'ordinateur est stocké sur le support de stockage lisible par ordinateur 32. Le programme d'ordinateur comprend une ou plusieurs séquences d'instructions de programme mémorisées.

De telles instructions de programme, lorsqu'elles sont exécutées par l'unité de traitement de données 20, entraînent l'exécution d'étapes du procédé d’apprentissage.

Par exemple, la forme des instructions de programme est une forme de code source, une forme exécutable par ordinateur ou toute forme intermédiaire entre un code source et une forme exécutable par ordinateur, telle que la forme résultant de la conversion du code source via un interpréteur, un assembleur, un compilateur, un éditeur de liens ou un localisateur. En variante, les instructions de programme sont un microcode, des instructions firmware, des données de définition d’état, des données de configuration pour circuit intégré (par exemple du VHDL) ou un code objet.

Les instructions de programme sont écrites dans n’importe quelle combinaison d’un ou de plusieurs langages, par exemple un langage de programmation orienté objet (FORTRAN, C++, JAVA, HTML), un langage de programmation procédural (langage C par exemple).

Alternativement, les instructions du programme sont téléchargées depuis une source externe via un réseau, comme c'est notamment le cas pour les applications. Dans ce cas, le produit programme d'ordinateur comprend un signal de support de données sur lequel sont codées les instructions de programme.

Dans chaque cas, le produit programme d'ordinateur 12 comprend des instructions qui peuvent être chargées dans l'unité de traitement de données 20 et adaptées pour provoquer l'exécution du procédé d’apprentissage d’un algorithme de prédiction lorsqu'elles sont exécutées par l'unité de traitement de données 20. Selon les modes de réalisation, l'exécution est entièrement ou partiellement réalisée soit sur le système 10, c'est-à-dire un ordinateur unique, soit dans un système distribué entre plusieurs ordinateurs (notamment via l’utilisation de l’informatique en nuage).

OBJECTIF DU PROCEDE D’APPRENTISSAGE

Le fonctionnement du système 10 est maintenant décrit en référence à un exemple de mise en œuvre du procédé d’apprentissage d’un algorithme de prédiction.

L’algorithme de prédiction est propre à prédire pour des entrées données la valeur d’une ou plusieurs sorties. L’algorithme a été appris par utilisation d’une technique d’apprentissage machine et d’un jeu de données d’apprentissage.

Plus précisément, dans l’exemple qui va être décrit, l’algorithme est un algorithme d’apprentissage statistique supervisé.

Dans la suite, un tel algorithme est noté par une fonction f:X → Y où l’ensemble X désigne l’ensemble des entrées de l’algorithme et Y l’ensemble des sorties de l’algorithme.

L’algorithme de prédiction est, par exemple, une machine à vecteurs supports (plus connue sous la dénomination anglaise de « Support Vectors Machine »), un réseau de neurones (plus connu sous la dénomination anglaise de «Neural Network») ou un arbre aléatoire (plus connu sous la dénomination anglaise de « Random Forest »). Plus généralement, tout type d’algorithme de prédiction supervisé est envisageable pour le présent contexte.

Un tel algorithme de prédiction peut être utilisé pour des contextes très divers comme la classification d’images, la reconnaissance de formes tridimensionnelles ou l’aide à la décision dans le cadre du pilotage de drones autonomes.

De préférence, l’algorithme de prédiction prend en entrée et/ou donne en sortie des grandeurs physiques correspondant à des mesures issues d’un ou plusieurs capteurs.

A titre d’exemple particulier, l’algorithme est un algorithme de traitement d’images, tel un algorithme de reconnaissance de forme ou un algorithme de classification d’images.

Avant de décrire plus en détail le procédé d’apprentissage, il est intéressant d’introduire un certain nombre de notations et notions permettant de mieux comprendre ce qui va suivre.

PRESENTATION DE NOTIONS UTILES POUR LA SUITE DE LA DESCRIPTION

Apprentissage supervisé et hypothèse PAC

Soit un jeu de n données , appelé par la suite ensemble d’apprentissage. Un tel jeu de données peut être vu comme n réalisations d’une variable aléatoire (X, Y) de distribution et à valeurs dans un espace produit X x Y, où X et y sont, par exemple, deux sous espaces avec k un nombre entier positif.

Dans la suite, un algorithme d’apprentissage statistique (algorithme de prédiction) est représenté par une fonction de prédiction paramétrique f θ :X → Y , où θ e représente un ensemble de paramètres réels. Cela correspond, par exemple, à la valeur des poids dans un réseau de neurones à topologie donnée.

Dans le contexte de l’apprentissage supervisé, la qualité d’une fonction de prédiction f θ donnée est évaluée vis-à-vis de la distribution IP par utilisation du risque moyen. Le risque moyen R(f θ ,X, Y) est défini moyenne d’évaluation des l-différences relatives, c’est-à-dire comme suit : où E est l’opérateur d’espérance et la fonction est une métrique de précision donnée, aussi appelée fonction de perte.

L’objectif de l’apprentissage statistique supervisé est, étant donné l’ensemble d’apprentissage, de trouver un paramètre solution du problème d’optimisation suivant

En pratique, la distribution est inconnue et ne peut être facilement inférée à partir de l’ensemble d’apprentissage. Pour pallier cette difficulté, pour l’ensemble d’apprentissage considéré, il peut être utilisé la notion de risque empirique définie comme suit :

Il convient de noter que est un estimateur sans biais R(f θ ,X, Y) au sens de l’égalité suivante :

La minimisation du risque conduit ainsi à un estim paramètre θ 0 , qui est également convergent pour n → ∞. Cette approche est l’hypothèse PAC (renvoyant à la dénomination anglaise de « Probably Ap Correct » qui signifie littéralement « Probablement Approximativement Co stipule que les échantillons futurs pour lequel l’algorithme considéré eff prédictions sont également distribués selon la distribution

Dans ce contexte, la quantité est appelée erreur d’e et sa minimisation vise ainsi à minimiser l’erreur de généralisation est un ensemble de réalisations de la variable aléatoire (X, Y) l’ensemble d’entraînement ayant permis la dérivation du paramètre

Les notions d’erreurs d’entraînement et de généralisation se généralisen en considérant que la phase d’apprentissage s’effectue vis-à-vis d’une distri que l’algorithme entraîné sera par la suite utilisé sur des échantillons suiva distribution

En considérant tout d’abord que n → ∞ et en introduisant les notations avec l’opérateur d’espérance sous la mesure de probabilité il vient que la phase d’entraînement vise à trouver tel que : conduisant ainsi à une erreur d’entraînement

L’erreur de généralisation est quant à elle définie par

Pour n fixé, les deux erreurs sont définies à partir d’estimateurs sans biais des quantités précédentes.

Par ailleurs, le cas usuel de l’hypothèse PAC se retrouve simplement en considérant le cas

Modélisation de transformations

Dans la suite, il sera utilisé des transformations représentées par des éléments de groupes agissant sur un ensemble donné.

Ainsi, les rotations des images vues comme des éléments de seront représentées par des éléments du groupe de Lie SO( 2) opérant sur

De ce fait, il est utile de préciser les concepts mathématiques provenant de la théorie des groupes pour mieux comprendre ce qui va suivre.

Tout d’abord, un groupe est un ensemble G, muni d’une loi de composition *: G x G → G qui est associative et qui possède un élément neutre usuellement noté e e G.

De plus, chaque élément g G est inversible dans le groupe G au sens où il existe un unique élément noté g -1 tel que g * g -1 = g -1 * g = e.

Un groupe localement compact (G,*) est un groupe muni d’une topologie localement compacte telle que la loi de groupe * et l’inversion sont continues.

Un sous-groupe est un sous-ensemble du groupe G contenant l’élément neutre e et qui est stable par la loi de composition * restreinte aux éléments de H.

Parmi l’ensemble des sous-groupes du groupe G, il existe les sous-groupes normaux qui sont stables par conjugaison, au sens où

Pour un sous-groupe normal fermé H du groupe G, pour g ∈ G, l’ensemble des classes à gauche gH est défini par l’égalité suivante : g H = {g * h, h ∈ H} L’ensemble des classes d’équivalence forme lui-même un groupe, appelé groupe quotient du groupe G par H et noté G/H.

Dans le cas où le groupe G est localement compact, le groupe quotient G/H l’est également.

Lorsque H est un sous-groupe quelconque, G /H n’est pas nécessairement un groupe et on parle alors d’espace quotient.

Par ailleurs, est la projection canonique associant à un élément du groupe G sa classe dans l’espace quotient G/H.

Avec les notations précédentes, la propriété est vérifiée et l’élément est noté h g .

Enfin, un groupe G agit sur un ensemble S s’il existe un opérateur °: G x S → S compatible avec la loi de groupe * au sens où la propriété g 1 ° (, g 2 ° S) = (g 1 * g 2 ) ° S est vérifiée.

Dans la suite, à titre d’exemple, les groupes sont des groupes localement compacts, dont l’action sur un ensemble S donné est supposée continue.

Distributions sur un groupe de transformations

Le présent procédé utilise des distributions de transformations qui sont représentées comme indiqué précédemment par des éléments de groupes. Aussi est-il utile d’introduire des notions relatives à la théorie de la mesure sur les groupes compacts.

Le Théorème de Haar stipule que, modulo une constante de normalisation, il existe une unique mesure de probabilité définie sur la tribu B(G) des boréliens du groupe G et notée μ, qui soit non-triviale, σ-additive, et invariante à gauche au sens où la propriété est vérifiée.

La mesure de Haar μ associe un volume invariant au sous-ensemble du groupe G si bien que le volume invariant permet de définir une intégrale pour les fonctions opérant sur les groupes localement compacts en utilisant la théorie de l’intégration de Lebesgue.

Une mesure de probabilité sur un groupe G est une mesure v non-négative, à valeurs réelles, s-finie et telle que v(G) = 1.

Ainsi, la mesure de Haar re-normalisée à 1 , qui est notée μ G , définit une mesure de probabilité associée à une distribution de probabilité appelée loi uniforme sur le groupe G. Il convient de noter que le procédé s’applique pour d’autres distributions sur un groupe G donné. A titre d’exemple, néanmoins, la description qui suit est restreinte au cas de distributions représentées par des mesures v G absolument continues par rapport à la mesure de Haar au sens où il existe une fonction de densité p v G telle que la condition suivante est vérifiée :

Notion d’invariance

Dans la suite, il est supposé que la variable aléatoire (X, Y ) possède des propriétés de symétries correspondant à une invariance vis-à-vis d’un groupe G donné.

Par exemple, dans le cas de la classification d’une image il peut être supposé que le label y est le même pour les échantillons pour où désigne la rotation d’angle θ dans le plan

De fait, s’il s’agit de déterminer si l’image représente ou non un animal donné, le fait que l’image ait effectué une rotation ne change pas le fait que l’image comporte l’animal donné ou non. Dans cet exemple particulier, la labellisation est invariante par une rotation d’angle Q dans le plan

Pour la suite, il est introduit une variable aléatoire g sur le groupe G de distribution v G , la distribution de probabilité associée à la variable aléatoire (X, Y, g) et la mesure associée.

Il vient alors :

Du fait de la modélisation par action de groupe, les variables aléatoires X et g peuvent être considérées comme indépendantes.

De même, les symétries mentionnées précédemment se traduisent par une propriété d’invariance conditionnelle de la variable aléatoire Y vis-à-vis de la variable aléatoire g.

Pour l’équation précédente, cela se traduit mathématiquement par les équations suivantes: où représente la distribution marginale de est la mesure produit de et v G . Augmentation de données

Ce paragraphe vise à expliquer ce qu’est une technique d’augmentation de données d’apprentissage, plus simplement dénommée technique d’augmentation de données dans la suite.

Pour cela, les hypothèses suivantes sont effectuées : l’apprentissage est un apprentissage supervisé et l’ensemble d’apprentissage considéré satisfait une propriété de symétrie correspondant à une invariance conditionnelle à l’action d’un groupe G telle que décrit précédemment.

Le but d’une technique d’augmentation de données est d’améliorer les performances et la robustesse d’un algorithme d’apprentissage statistique supervisé.

La technique d’augmentation de données consiste à rajouter à l’ensemble d’apprentissage initial des échantillons de la forme pour g ∈ G distribué selon la distribution associée à la mesure v G .

Dans ce contexte, la phase d’apprentissage correspondant à une fonction de prédiction f θ vise à minimiser un risque empirique prenant en compte une pondération par la mesure de probabilité v G et permet le calcul d’un estimateur qui est une solution au problème de minimisation suivant :

En pratique, la technique d’augmentation de données peut être implémentée différemment et en particulier intégrée dans une descente de gradient stochastique.

Plus précisément, la règle de mise à jour du paramètre est dans ce cas donnée par la formule suivante, où est le taux d’apprentissage (learning rate), B t l’ensemble des indices considéré pour l’estimation du gradient (minibatch) et où les g i,t ∈ G correspondent à des réalisations de la variable aléatoire g.

En considérant n → ∞, il vient alors que les deux implémentations envisagées visent à minimiser la fonctionnelle suivante: avec l’o pérateur d’espérance sous la mesure DESCRIPTION D’UN EXEMPLE DE PROCEDE D’APPRENTISSAGE

Dans le présent exemple, le procédé d’apprentissage comporte une première étape de réception, une deuxième étape de réception, une étape de détermination, une étape de génération et une étape de mise en œuvre d’un apprentissage.

Lors de la première étape de réception, le système 10 reçoit un jeu de données d’apprentissage courant.

Comme cela sera illustré ultérieurement, ce jeu de données d’apprentissage courant dépend de la manière dont est effectivement réalisée l’étape de mise en œuvre d’un apprentissage.

Lors de la deuxième étape de réception, le système 10 reçoit au moins une propriété d’invariance de la prédiction de l’algorithme de prédiction à apprendre par rapport aux entrées que l’algorithme de prédiction peut prendre en entrée selon un groupe de symétrie G.

Un tel groupe de symétrie G est appelé groupe de symétrie initial G.

A titre d’exemple, le groupe de symétrie initial G est un groupe de Lie, notamment le groupe de symétrie initial G est le groupe des roto-translations du plan.

Le groupe de symétrie initial G est muni d’une loi de probabilité v G , la loi de probabilité est appelée loi de probabilité initiale v G .

A titre d’exemple, la loi de probabilité initiale v G est une distribution uniforme ou une distribution gaussienne.

Selon l’exemple décrit, la loi de probabilité initiale v G est obtenue à partir de la vraisemblance des transformations associées au groupe de symétrie initial G mesurée pour un ensemble d’entrées correspondant aux entrées attendues dans le cadre d’une utilisation spécifique de l’algorithme de prédiction considéré.

Selon un autre exemple, la loi de probabilité initiale v G peut être obtenue à partir de connaissance experte quant aux propriétés à satisfaire par l’algorithme de prédiction considéré.

Lors de l’étape de détermination, le système 10 détermine un sous-groupe H du groupe de symétrie initial G.

Le sous-groupe H est muni d’une loi de probabilité, dite loi de probabilité de sous- groupe

Le sous-groupe H présente également une dimension (une taille lorsque celui-ci est fini)

Le sous-groupe H correspond à des transformations des entrées données à l’algorithme de prédiction. Le sous-groupe H est, en outre, destiné à être utilisé pour générer des données d’apprentissage par application des transformations correspondantes au jeu de données d’apprentissage initial selon la loi de probabilité de sous-groupe

L’emploi d’un sous-groupe H permet ici de garantir l’existence d’une solution. Ce ne serait pas le cas si un choix aléatoire de données du groupe de symétrie initial G était effectué.

Le système 10 détermine le sous-groupe H et la loi de probabilité de sous-groupe F H selon une technique d’optimisation sous au moins une contrainte d’optimisation.

La technique d’optimisation utilise le jeu de données d’apprentissage initial, le groupe de symétrie initial G et la loi de probabilité initiale

Avantageusement, plusieurs contraintes d’optimisation sont prises en compte dans la technique d’optimisation.

Chaque contrainte d’optimisation est la traduction mathématique d’au moins une contrainte sur la mise en œuvre pratique de l’apprentissage ou contrainte d’apprentissage, ainsi que sur le déploiement de l’algorithme entraîné sur une architecture cible.

Selon un premier exemple, le système sur lequel est déployé l’algorithme entraîné (éventuellement confondu avec le système 10) étant un système physique, ses capacités sont limitées, notamment en terme de mémoire et de quantité d’opérations qui peuvent être réalisées dans un temps donné.

En ce sens, les contraintes à prendre en compte durant l’apprentissage du premier exemple sont exogènes puisque les contraintes sont liées aux capacités matérielles de l’architecture de déploiement.

A titre d’exemple de telles contraintes d’apprentissage, il peut être cité la capacité de mémorisation, la quantité de calcul réalisable par le système sur lequel est déployé l’algorithme entraîné, le temps de réponse souhaité ou encore des contraintes de liées à la confidentialité des données ou de sécurité.

Selon un deuxième exemple, le procédé d’augmentation de données se traduit en pratique par une augmentation du temps d’apprentissage et/ou une détérioration de la convergence du processus d’entraînement. Ainsi, le temps nécessaire à l’apprentissage et à la convergence de celui-ci peuvent être des contraintes pertinentes.

Des exemples de conversions de telles contraintes d’apprentissage en contraintes d’optimisation utilisables pour la technique d’optimisation sont données dans la section exemple.

En particulier, au moins une contrainte d’apprentissage prédéterminée est choisie dans la liste constituée de l’empreinte mémoire de l’algorithme appris, le temps d’exécution de l’algorithme appris sur un système prédéterminé, la quantité de calcul réalisable sur un système prédétermine sur lequel l’algorithme appris est destiné à être utilisé, une contrainte de confidentialité de certaines données, une contrainte de sécurité, le degré de robustesse de l’algorithme appris à des modifications des entrées et le temps d’entraînement de l’algorithme de prédiction.

Il convient de noter que les contraintes d’apprentissage sont prédéterminées.

Selon un exemple, les contraintes d’apprentissage sont fournies lors d’une étape de fourniture.

Selon un autre exemple, les contraintes d’optimisation déduites des conditions d’apprentissage sont connues et simplement utilisées dans la formulation de la technique d’optimisation.

Plusieurs techniques pouvant être utilisées en combinaison sont envisageables pour la technique d’optimisation.

De manière générale, la technique d’optimisation consiste à minimiser sous contraintes la différence d’erreur de prédiction théorique entre un premier algorithme de prédiction et un deuxième algorithme de prédiction.

Le premier algorithme de prédiction est obtenu à l’aide de données d’apprentissage comprenant des données générées à partir du groupe de symétrie initial G et de la loi de probabilité initiale

Le deuxième algorithme de prédiction est à l’aide de données d’apprentissage comprenant des données générées à partir du sous-groupe H déterminé et de la loi de probabilité de sous-groupe et non la loi de probabilité initiale comme le premier algorithme.

Selon un premier exemple, la technique d’optimisation est une optimisation d’une fonction cible quadratique sous contraintes quadratiques.

Selon un deuxième exemple, la technique d’optimisation utilise une contrainte qui est une limitation d’au moins un moment de la loi de probabilité de sous-groupe avec une borne.

En particulier, la borne est une borne supérieure sur la variance de la loi de probabilité de sous-groupe H.

En variante, la contrainte précédente peut être remplacée par l’utilisation d’ une borne supérieure sur la taille (ou la dimension) du sous-groupe H.

Le système 10 obtient ainsi un sous-groupe H du groupe de symétrie initial G.

Lors de l’étape de génération, le système 10 génère des données à l’aide du sous- groupe H déterminé, de la loi de probabilité de sous-groupe et de l’ensemble du jeu de données d’apprentissage courant.

Le système 10 obtient ainsi des données générées. Lors de l’étape de mise en œuvre d’un apprentissage, le système 10 apprend l’algorithme de prédiction en mettant en œuvre un apprentissage utilisant les données générées.

Selon un premier exemple, l’apprentissage utilise une technique de génération de données itérative.

Dans un tel exemple, chaque itération comprend l’étape de génération.

L’étape de mise en œuvre est réalisée avec uniquement les données générées.

Dans cet exemple, le jeu de données d’apprentissage courant utilisé est alors l’ensemble des données générées à l’itération courante.

Le premier exemple correspond à un entraînement de l’algorithme en générant des données à la volée à chaque itération de la descente de gradient. Le système 10 fait appel pour cela à l’étape de génération à chaque itération, et cela, sans dépendance par rapport à l’itération précédente. L’expression « descente de gradient stochastique » est parfois utilisée.

Selon un deuxième exemple, l’apprentissage utilise un jeu de données formé par l’ensemble des données générées et d’un jeu de données initial.

Dans un tel exemple, le jeu de données initial est utilisé comme jeu de données d’apprentissage courant.

JUSTIFICATIONS DU BON FONCTIONNEMENT DU PROCEDE DECRIT

Dans ce qui suit, il est interprété mathématiquement le procédé qui vient d’être décrit.

Il est intéressant d’observer d’abord que pour un apprentissage donné ayant des propriétés de symétrie, ce qui est représenté par le groupe G donné muni d’une loi de probabilité v G caractérisant la robustesse visée, il n’est pas toujours possible d’implémenter la stratégie d’augmentation de données présentée précédemment et cela, principalement pour des raisons de contraintes de temps de calculs et de stockage.

Tout d’abord, l’augmentation de l’ensemble d’apprentissage conduit à une augmentation du temps d’entrainement et des problématiques de convergence peuvent alors se poser.

Par ailleurs, afin de pouvoir capturer de manière adéquate les informations apportées par le jeu de données augmenté, la capacité de l’algorithme d’apprentissage doit être augmentée afin d’éviter les phénomènes de sous-apprentissage, cette dimension conduisant également à une augmentation du temps d’entraînement, du temps d’exécution de l’inférence, ainsi que de l’empreinte mémoire de l’algorithme. Ainsi, afin de pouvoir être adaptée aux contraintes opérationnelles, il peut être judicieux en pratique d’avoir une stratégie d’augmentation réduite et ceci correspond à cela l’utilisation d’un sous-groupe H du groupe G, tel que défini dans le paragraphe précédent, et d’une distribution v H sur celui-ci.

Par exemple, si G = SE( 2) est le groupe des isométries du plan et v G la distribution uniforme sur celui-ci, une stratégie réduite pourrait être de considérer un échantillonnage uniforme de H = SO( 2), c’est à dire de n’augmenter les données que par applications de rotations.

Dans ce contexte, il convient de choisir le sous-groupe H (ainsi que sa loi de probabilité associée) de manière intelligente, ce choix devant permettre notamment de réduire le biais introduit par l’utilisation d’un sous-groupe H au lieu du groupe G.

Aussi, dans un premier temps, il est utile de calculer mathématiquement le biais introduit par l’utilisation d’un sous-groupe H au lieu du groupe G.

Il est en outre fait l’hypothèse n → ∞, hypothèse qui, comme expliqué précédemment, n’implique pas de perte de généralité.

En effet, dans un tel cas, l’hypothèse PAC n’est pas satisfaite puisque seules le égalités suivantes sont considérées comme vraie.

Ainsi, il est étudié un algorithme de fonction de prédiction f θ0,H ayant été entraîné et tel que : avec une variable aléatoire à valeurs dans le sous-groupe H et associée à la mesure de probabilité l’erreur d’entraînement obtenue.

L’erreur de généralisation associée est quant à elle donnée par R La quantité peut être réécrite comme suit:

De manière similaire, il vient:

Pour ne pas surcharger les notations, il est posé θ = θ 0,H dans le développement qui suit.

Evaluer le biais introduit par l’utilisation du sous-groupe H revient à comparer les erreurs d’entraînement et de généralisation ci-dessus en définissant comme suit:

Il vient ensuite : où les quantités sont définies ainsi :

Avec cette formulation mathématique, le choix intelligent du sous-groupe H et de la mesure du sous-groupe v H est de permettre une minimisation du risque d’erreur engendrée par la sous-augmentation.

Plus précisément, il convient de choisir le sous-groupe H et la mesure du sous- groupe v H en minimisant tout en respectant les contraintes opérationnelles fixées. De manière plus formelle, cela revient à résoudre le problème d’optimisation suivant: où C( f θ ) est une fonction vectorielle associant plusieurs indicateurs de performance à la fonction de prédiction f θ , comme par exemple les temps d’entraînement et d’inférence, ou encore l’empreinte mémoire de l’algorithme entraîné correspondant, et C 0 un vecteur de valeurs associées représentant les contraintes opérationnelles considérées.

Étant donné que l’inégalité est vérifiée, il est intéressant de s’intéresser à la minimisation du terme d’une part et du terme d’autre part.

Pour le premier terme, il est possible de dériver les formules suivantes :

En supposant dans un premier temps que la fonction de prédiction sont continues, l’inégalité suivante est obtenue: où || ||x est une norme sur l’espace X.

En utilisant la continuité de l’action de groupe et le fait que , il vient : avec M y e t M y, x, G des constantes indépendantes du sous-groupe H.

Ainsi: si bien que le problème précédent revient à la minimisation du terme ∫ G ce qui revient donc à chercher à minimiser l’action des éléments de l’espace quotient G /H, pondérée par la mesure v G .

Dans le cas trivial où H = G, l’espace quotient vérifie G/H = {e} et ce terme est nul.

Un tel raisonnement peut être étendu en relaxant les contraintes de continuité afin de couvrir en particulier le cas de classification pour lequel Plus précisément, il vient ici:

Il est possible de se ramener au cas précédent en supposant une continuité à droite de la fonction de prédiction f θ et en appliquant le raisonnement ci-dessus sur chacun des segments de continuité.

Du point de vue des actions de groupes considérées, les deux termes qui définissent ne font intervenir que les éléments h g et h, qui sont des éléments du sous- groupe H.

Afin de simplifier l’expression de la différence, il est possible d’écrire le premier terme comme une intégrale sur le sous-groupe H\ avec

L’inégalité utilisée plus haut devient ainsi :

Cette expression montre qu’en l’absence de contrainte particulière sur le choix d’un sous-groupe donné H, ce terme peut être annulé en choisissant la mesure du sous- groupe v H de manière adéquate. Cette manière adéquate correspond à vérifier la condition suivante :

Il convient cependant de noter que les contraintes représentées par C 0 peuvent contenir des restrictions sur la forme de la mesure du sous-groupe v H , comme par exemple une limite en terme de variance pour des questions de convergence.

Ainsi, un choix intelligent du sous-groupe H et de la mesure du sous-groupe v H consiste à résoudre de manière optimale la condition suivante:

Les normes quadratiques utilisées dans l’équation précédente sont données à titre indicatif et peuvent être en pratique remplacées par d’autres normes.

Selon la forme de G et de ses sous-groupes éventuels, différentes techniques d’optimisation peuvent être envisagées.

D’où le fait que plusieurs techniques d’optimisation sont utilisées.

En outre, comme indiqué précédemment, ce choix intelligent rend possible l’emploi de formes paramétriques ce qui permet l’utilisation d’une descente de gradient classique.

AVANTAGES DU PROCEDE DAPPRENTISSAGE

Dans chacun des cas, le procédé d’apprentissage est un procédé outillé de sous- augmentation de données pour l’entraînement d’algorithmes d’apprentissage statistique supervisé. Le procédé d’apprentissage repose sur l’emploi d’une technique d’augmentation de données consistant à rajouter des échantillons à l’ensemble d’apprentissage initial afin d’améliorer la précision et la robustesse de l’algorithme de prédiction à apprendre.

Autrement formulé, le présent procédé permet le calcul d’une stratégie de sous- augmentation de données visant à maximiser la robustesse d’un algorithme d’apprentissage statistique supervisé vis-à-vis d’un groupe de symétries donné, dans le cadre du respect de contraintes opérationnelles préalablement fixées.

Dans le procédé décrit, il est proposé une stratégie d’augmentation de données compatible avec la dimension opérationnelle de l’utilisation des algorithmes de prédiction.

Pour cela, le procédé utilise un formalisme issu de la théorie des groupes. Dans ce cadre, le procédé utilise les notions de sous-groupes et de distributions sur ces ensembles afin de construire, via la résolution d’un problème d’optimisation sous-contraintes, une stratégie de sous-augmentation de données permettant d’obtenir un compromis entre l’incorporation des symétries au sein d’un algorithme et les différentes contraintes opérationnelles associées à l’application visée. Autrement formulé, le procédé permet de mettre en œuvre une technique d’augmentation des données impliquant un certain nombre de prérequis algorithmique (capacité d’apprentissage de l’algorithme envisagé, nombre d’itérations dans l’optimisation) en les déterminant et en les réduisant intelligemment pour les rendre compatibles avec les contraintes exogènes associées à une application opérationnelle donnée (comme par exemple l’empreinte mémoire de l’algorithme entraîné ou le temps de calcul).

Le procédé proposé permet une formalisation simple du problème considéré et sa résolution devient alors aisément réalisable par les outils d’optimisation numériques usuels.

Enfin, du fait que le procédé est capable de gérer des contraintes opérationnelles, le procédé d’apprentissage est un procédé d’apprentissage d’un algorithme de prédiction apte à être mis en œuvre par un système réel sur un jeu de données de taille restreinte.

EXEMPLE : CAS DE LA SYMETRIE ROTATIONNELLE

Un exemple mis en œuvre par la demanderesse est maintenant décrit en référence aux figures 2 et 3.

Afin d’illustrer le procédé d’apprentissage précédent, il est choisi un groupe de symétrie rotationnelle, qui intervient en particulier dans les problèmes de classification d’images.

Dans ce contexte, le but est de construire un algorithme de prédiction f θ robuste à des rotations de ses entrées.

Il est supposé qu’il est recherché une robustesse uniforme. Plus précisément, il convient de rendre l’algorithme de prédiction robuste à des rotations aléatoires de ses entrées, les angles de ces rotations étant distribués uniformément sur [0,2π],

Ainsi, le groupe G est celui des rotations plan, noté SO( 2), qui peut être représenté par le groupe matriciel rappelé ci-dessous, où la loi de groupe * correspond à la multiplication matricielle et est la matrice de rotation d’angle Q donnée par :

Pour l’exemple mis en œuvre, il est considéré les sous-groupes H k suivants : ainsi que les groupes quotients correspondants où [. ] y est l’opérateur modulo y et k est un entier naturel différent de 0.

La figure 2 propose une représentation d’exemples de sous-groupes H k tels que définis précédemment.

Dans cette figure, le cercle correspond à l’ensemble des éléments du groupe des rotations plan noté SO( 2), les points pointés correspondent à l’ensemble des éléments du sous-groupe H 18 et les points hachurés correspondent à l’ensemble des éléments du sous- groupe H 7 .

Comme visible sur la figure 2, dans l’hypothèse une distribution uniforme sur le sous-groupe G, la mesure de Lebesgue est une mesure sur le cercle unité, i.e. v G = dθ .

En raisonnant en terme d’angles, il est possible d’écrire, pour l’expression mathématique suivante :

En ce qui concerne la mesure du sous-groupe, il vient alors :

D’un point de vue opérationnel, dans le présent exemple, la demanderesse a supposé que deux contraintes étaient à remplir.

Selon une première contrainte, la taille de l’ensemble d’augmentation est contrainte. Cela se traduit en l’existence d’une borne supérieure K 0 pour la cardinalité (taille) des sous- groupes H k .

Selon une deuxième contrainte, la convergence doit être suffisamment rapide. Il est possible de traduire cette contrainte comme une borne supérieure ∑ 0 pour la variance de la distribution associée à la mesure v Hk qui est à déterminer.

Ainsi, dans cet exemple particulier, la quantité à optimiser s’écrit de la manière suivante :

Par ailleurs, il est possible de déterminer la valeur de l’intégrale selon le calcul suivant :

L’expression à optimiser devient ainsi :

Par ailleurs, en notant il vient :

Où V désigne l’opérateur de variance.

Avec ces notations, l’expression à optimiser devient alors :

Cette expression monter qu’il convient de résoudre les différents problèmes ci- dessous pour k ∈ {1,...,K 0 }, K 0 étant la borne supérieure sur la taille du sous-groupe considéré, et de garder la solution permettant d’atteindre la valeur minimale de la fonction cible:

Pour k ∈ {1,...,K 0 }, \es problèmes précédents sont des problèmes non-linéaires, dont la fonction cible et les contraintes sont quadratiques, et peuvent être résolus via les techniques d’optimisation numériques comme une optimisation quadratique. La figure 3 montre la distribution v Hk obtenue pour pour K 0 = 10 par résolution des problèmes précédents.

Pour le cas considéré, la solution optimale est obtenue pour k = K 0 , comme attendu, et il est observé une déviation par rapport à la distribution uniforme en raison des différentes contraintes considérées, ce qui était également attendu.

La solution obtenue est ainsi une solution permettant d’obtenir une bonne convergence et une taille du sous-groupe compatible avec les capacités calculatoires du système 10 tout en assurant une relativement bonne robustesse uniforme.

Cela permet d’obtenir un bon apprentissage de l’algorithme de prédiction. II peut être noté que quelques secondes de calcul numérique ont été suffisantes pour obtenir cet exemple de symétrie rotationnelle modélisé comme un problème d’optimisation quadratique sous contraintes quadratiques.

Le procédé d’apprentissage permet ainsi de construire une technique d’augmentation de données compatible avec des contraintes opérationnelles exogènes, comme par exemple l’empreinte mémoire de l’algorithme entraîné, son temps d’exécution sur l’architecture visée ou encore son degré de robustesse à des modifications de ces entrées et d’utiliser cette technique d’augmentation de données pour l’entraînement d’algorithmes de prédiction par une technique d’apprentissage machine.

En outre, le procédé d’apprentissage est compatible avec tout type d’apprentissage ou d’utilisation de celui-ci et est particulièrement adapté à la conception et à l’entraînement d’algorithmes intégrés dans des systèmes embarqués, pour lesquels un certain nombre de contraintes opérationnelles doivent être prises en compte dès la phase de conception algorithmique.

Enfin, il sera bien compris que l’ordre des étapes dans le procédé d’apprentissage qui vient d’être décrit peut être différent et notamment que certaines étapes peuvent être réalisées de manière simultanée.

Plus généralement, toute combinaison techniquement possible des modes de réalisation précédents permettant d’obtenir un procédé d’apprentissage d’un algorithme de prédiction est envisagé.