Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR DETERMINING A PREDICTION FUNCTION USING A NEURAL NETWORK, AND ASSOCIATED PROCESSING METHOD
Document Type and Number:
WIPO Patent Application WO/2021/094694
Kind Code:
A1
Abstract:
The invention relates to a method for determining a prediction function (f) using a neural network (2) and on the basis of M support examples (xc) selected from N input vectors (x), the method comprising the steps of: - randomly selecting (10) M support variables belonging to a predetermined set, each support variable being of the same dimensions as outputs of the neural network; - implementing an iterative calculation (12) comprising: • optimising (14) the support variables to minimise a predetermined cost function depending on the support variables, the input vectors and a predetermined similarity function; • for each optimised support variable, determining (16) the corresponding support example (xc), which is equal to the input vector (x) for which the corresponding output (ψθ(xc)) of the neural network is the closest to the optimised support variable with regard to a predetermined standard; and • updating, from the determined support examples, the prediction function.

Inventors:
PICARD DAVID (FR)
Application Number:
PCT/FR2020/052079
Publication Date:
May 20, 2021
Filing Date:
November 13, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ECOLE NAT DES PONTS ET CHAUSSEES (FR)
International Classes:
G06N3/08; G06N20/10; G06N3/04; G06N5/04
Foreign References:
US20190147357A12019-05-16
Other References:
SERCAN O ARIK ET AL: "ProtoAttend: Attention-Based Prototypical Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 17 February 2019 (2019-02-17), XP081493777
THILO SPINNER ET AL: "explAIner: A Visual Analytics Framework for Interactive and Explainable Machine Learning Search Space Exploration Model Quality Monitoring Comparative Analytics Data Shift Scoring XAI Strategies Knowledge Generation Provenance Tracking Reporting & Trust Building", 2 August 2019 (2019-08-02), XP055685353, Retrieved from the Internet [retrieved on 20200414]
Attorney, Agent or Firm:
AHNER, Philippe (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé de détermination d'une fonction de prédiction (f) mettant en œuvre un réseau de neurones (2), la fonction de prédiction étant fonction d'un ensemble- support (C) comprenant M exemples-supports (xc) choisis parmi N vecteurs d'entrée (x), chaque vecteur d'entrée (x) étant associé à une réponse attendue (y) correspondante, chaque vecteur d'entrée (x) et la réponse attendue (y) correspondante formant un couple d'un ensemble d'apprentissage (4) du réseau de neurones (2), M et N étant deux entiers naturels non nuis, M étant inférieur à N, le procédé de détermination étant mis en œuvre par un ordinateur et comprenant les étapes :

- choix (10) aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties (yq(c)) du réseau de neurones (2) ;

- mise en œuvre d'un calcul (12) itératif comprenant les sous-étapes :

• optimisation (14) des variables-supports pour minimiser une fonction de coût prédéterminée, la fonction de coût dépendant des variables-supports, des vecteurs d'entrée (x) et d'une fonction de similarité prédéterminée ;

• pour chaque variable-support optimisée, détermination (16) de l'exemple-support (xc) correspondant, égal au vecteur d'entrée (x) pour lequel la sortie correspondante (yq(ce)) du réseau de neurones (2) est la plus proche de la variable-support optimisée au regard d'une norme prédéterminée ; et

• mise à jour, à partir des exemples-supports (xc) déterminés, de la fonction de prédiction (f).

2. Procédé de détermination selon la revendication 1, dans lequel l'optimisation (14) des variables-supports comprend une mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût.

3. Procédé de détermination selon la revendication 2, dans lequel la mise en œuvre de la méthode de descente de gradient comprend le choix d'au moins un vecteur d'entrée (x), la détermination (16) l'exemple-support (xc) comprenant, si une réponse du réseau de neurones (2) à l'au moins un vecteur d'entrée (x) choisi est plus proche d'une variable-support optimisée que l'exemple-support (xc) associé au regard de la norme prédéterminée, l'affectation de l'au moins un vecteur d'entrée (x) choisi à l'exemple- support (xc) associé à la variable-support optimisée.

4. Procédé de détermination selon l'une quelconque des revendications 1 à 3, dans lequel la fonction de prédiction (f) met en œuvre un vecteur de fonctions intermédiaires, chaque fonction intermédiaire étant égale à une somme de M fonctions de similarité pondérée par un vecteur de pondération correspondant, chaque fonction de similarité étant associée à un exemple-support (xc) correspondant, la fonction de coût dépendant également de chaque vecteur de pondération, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l'optimisation (14) des variables-supports, une mise en œuvre d'une optimisation de chaque vecteur de pondération pour minimiser la fonction de coût prédéterminée.

5. Procédé de détermination selon la revendication 4, dans lequel l'optimisation de chaque vecteur de pondération comprend une mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût.

6. Procédé de détermination selon l'une quelconque des revendications 1 à 5, dans lequel la fonction de coût dépend également d'une fonction paramétrique représentative d'une sortie du réseau de neurones (2) en fonction des vecteurs d'entrée (x), la fonction paramétrique étant associée à un vecteur de paramètres correspondant, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l'optimisation (14) des variables-supports, une mise en œuvre d'une optimisation du vecteur de paramètres associé à la fonction paramétrique pour minimiser la fonction de coût prédéterminée.

7. Procédé de détermination selon la revendication 6, dans lequel l'optimisation du vecteur de paramètres comprend une mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût.

8. Procédé de détermination selon l'une quelconque des revendications 1 à 7, dans lequel la fonction de coût s'écrit : sous la contrainte où J est la fonction de coût ;

£emp est une entropie croisée ;

Q est une fonction de pénalité sur les variables-supports ; m est une liste de variables-supports ; a est une liste de vecteurs de pondération associés à la fonction de prédiction ; xc,i est un exemple-support quelconque de l'ensemble-support ;

« arg » est la fonction « argument » ;

« min » est la fonction « minimum » ; pc,i est une i-ème variable-support optimisée ; yq est une fonction paramétrique représentative d'une sortie du réseau de neurones (2) en fonction des vecteurs d'entrée (x) ;

Q est un vecteur de paramètres de la fonction paramétrique yq ; x est un vecteur d'entrée quelconque de l'ensemble L des vecteurs d'entrée ; et

Y est une constante positive prédéterminée. 9. Procédé de traitement d'un vecteur à tester, le vecteur à tester étant de mêmes dimensions que des vecteurs d'entrée (x) d'un ensemble d'apprentissage (4) associé à un réseau de neurones (2), le procédé de traitement comprenant les étapes : - calcul d'une similarité, au regard d'un critère prédéterminé, entre le vecteur à tester et chaque exemple-support (xc) d'un ensemble-support (C) associé au réseau de neurones (2) et déterminé par la mise en œuvre du procédé selon l'une quelconque des revendications 1 à 8 de détermination d'une fonction de prédiction mettant en œuvre ledit réseau de neurones (2) ; et -génération d'une alerte si la plus grande similarité calculée est inférieure à un seuil de similarité prédéterminé.

Description:
Titre : Procédé de détermination d'une fonction de prédiction mettant en œuvre un réseau de neurones, et procédé de traitement associé

DESCRIPTION

DOMAINE TECHNIQUE

La présente invention concerne un procédé de détermination mettant en œuvre un réseau de neurones. L'invention concerne également un procédé de traitement d'un vecteur à tester.

L'invention s'applique au domaine du traitement de données, en particulier au moyen de réseaux de neurones.

ÉTAT DE LA TECHNIQUE ANTÉRIEURE II est connu de recourir à des réseaux de neurones pour le traitement de données, par exemple pour l'analyse d'images.

Parmi ces réseaux de neurones, les réseaux de neurones convolutifs (généralement désignés par l'acronyme CNN, de l'anglais « Convolutional Neural Networks ») ont acquis une grande popularité en raison de leurs excellentes performances dans les tâches liées à la vision, telles que la classification d'images, la détection d'objets, la segmentation d'images, l'annotation d'images ou la réponse à des questions visuelles.

Toutefois, de tels réseaux de neurones ne donnent pas entière satisfaction.

En effet, un nombre considérable d'exemples est généralement utilisé lors de l'apprentissage de tels réseaux de neurones convolutifs. Il en résulte que les entrées d'un CNN sont liées à ses sorties par un très grand nombre de paramètres. Par conséquent, il est généralement difficile, voire impossible, pour un humain de déterminer les raisons pour lesquelles une entrée donnée conduit le CNN à fournir un résultat correspondant, ou encore à prédire une sortie que délivrerait le CNN à partir d'une entrée qui lui est fournie. Une telle incapacité à interpréter et prédire les résultats fournis par les réseaux de neurones, en particuliers les réseaux de neurones convolutifs, constitue un obstacle majeur à leur adoption dans des environnements critiques où la responsabilité du concepteur est mise en jeu. Par exemple, de tels environnements critiques se rapportent au domaine de la santé, de la sécurité, ou encore des véhicules autonomes.

Un but de l'invention est donc de proposer un procédé de détermination d'une fonction de prédiction d'un réseau de neurones en vue de permettre une interprétation des résultats fournis par un réseau de neurones, et de définir un domaine de vecteurs d'entrée pour lesquels un comportement du réseau de neurones est garanti.

EXPOSÉ DE L'INVENTION

A cet effet, l'invention a pour objet un procédé du type précité, dans lequel la fonction de prédiction est fonction d'un ensemble-support comprenant M exemples-supports choisis parmi N vecteurs d'entrée, chaque vecteur d'entrée étant associé à une réponse attendue correspondante, chaque vecteur d'entrée et la réponse attendue correspondante formant un couple d'un ensemble d'apprentissage du réseau de neurones, M et N étant deux entiers naturels non nuis, M étant inférieur à N, le procédé de détermination étant mis en œuvre par un ordinateur et comprenant les étapes :

- choix aléatoire de M variables-supports appartenant à un ensemble prédéterminé, chaque variable-support étant de mêmes dimensions que des sorties du réseau de neurones ;

- mise en œuvre d'un calcul itératif comprenant les sous-étapes :

• optimisation des variables-supports pour minimiser une fonction de coût prédéterminée, la fonction de coût dépendant des variables-supports, des vecteurs d'entrée et d'une fonction de similarité prédéterminée ;

• pour chaque variable-support optimisée, détermination de l'exemple-support correspondant, égal au vecteur d'entrée pour lequel la sortie correspondante du réseau de neurones est la plus proche de la variable-support optimisée au regard d'une norme prédéterminée ; et

• mise à jour, à partir des exemples-supports déterminés, de la fonction de prédiction.

En effet, un tel procédé autorise la détermination d'un ensemble d'exemples-supports pour la fonction de prédiction. De tels exemples-supports forment un ensemble de vecteurs d'entrée de référence, tels qu'une réponse du réseau de neurones est estimée de façon satisfaisante à partir d'une mesure de similarité entre chacun des exemples-supports et un vecteur d'entrée quelconque pris dans un ensemble de confiance dont les limites dépendent des exemples-supports.

Dans ce cas, l'interprétation d'une décision prise par le réseau de neurones revient à déterminer les exemples-supports ayant le plus contribué à la décision, ce qui est particulièrement avantageux : l'interprétation et la compréhension, par un observateur humain, d'une décision prise par un réseau de neurones (en particulier un CNN) est ainsi rendue possible grâce à l'invention.

Il ressort également de ce qui précède que l'ensemble de confiance forme un domaine de vecteurs d'entrée pour lesquels il est possible de garantir un comportement du réseau de neurones au regard de critères préalablement établis. Par exemple, le résultat d'un calcul de similarité entre un vecteur d'entrée quelconque et les exemples-supports est susceptible d'être utilisé comme une mesure de confiance dans la prédiction réalisée par le réseau de neurones à partir du vecteur d'entrée, et autorise la détection de prédictions hors champ, c'est-à-dire des prédictions fondées sur des vecteurs d'entrée trop dissimilaires des vecteurs d'entrée de l'ensemble d'apprentissage.

En outre, par le choix de la valeur de l'entier M, l'utilisateur est apte à contraindre le nombre d'exemples-supports, sans imposer de limite à la taille de l'ensemble d'apprentissage. Ceci est avantageux, dans la mesure où imposer une limite à la taille de l'ensemble d'apprentissage reviendrait à empêcher le réseau de neurones d'évoluer postérieurement à son apprentissage. Suivant d'autres aspects avantageux de l'invention, le procédé de détermination comporte une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles :

- l'optimisation des variables-supports comprend une mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût ;

- la mise en œuvre de la méthode de descente de gradient comprend le choix d'au moins un vecteur d'entrée, la détermination l'exemple-support comprenant, si une réponse du réseau de neurones à l'au moins un vecteur d'entrée choisi est plus proche d'une variable-support optimisée que l'exemple-support associé au regard de la norme prédéterminée, l'affectation de l'au moins un vecteur d'entrée choisi à l'exemple-support associé à la variable-support optimisée ;

- la fonction de prédiction met en œuvre un vecteur de fonctions intermédiaires, chaque fonction intermédiaire étant égale à une somme de M fonctions de similarité pondérée par un vecteur de pondération correspondant, chaque fonction de similarité étant associée à un exemple-support correspondant, la fonction de coût dépendant également de chaque vecteur de pondération, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l'optimisation des variables- supports, une mise en œuvre d'une optimisation de chaque vecteur de pondération pour minimiser la fonction de coût prédéterminée ;

- l'optimisation de chaque vecteur de pondération comprend une mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût ;

- la fonction de coût dépend également d'une fonction paramétrique représentative d'une sortie du réseau de neurones en fonction des vecteurs d'entrée, la fonction paramétrique étant associée à un vecteur de paramètres correspondant, le procédé de détermination comprenant, en outre, conjointement à la mise en œuvre de l'optimisation des variables-supports, une mise en œuvre d'une optimisation du vecteur de paramètres associé à la fonction paramétrique pour minimiser la fonction de coût prédéterminée ;

- l'optimisation du vecteur de paramètres comprend une mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût ; - la fonction de coût s'écrit : sous la contrainte 11 2 où J est la fonction de coût ;

£ emp est une entropie croisée ;

Q est une fonction de pénalité sur les variables-supports ; m est une liste de variables-supports ; a est une liste de vecteurs de pondération associés à la fonction de prédiction ; x c ,i est un exemple-support quelconque de l'ensemble-support ;

« arg » est la fonction « argument » ;

« min » est la fonction « minimum » ; p c ,i est une i-ème variable-support optimisée ; y q est une fonction paramétrique représentative d'une sortie du réseau de neurones en fonction des vecteurs d'entrée ;

Q est un vecteur de paramètres de la fonction paramétrique y q ; x est un vecteur d'entrée quelconque de l'ensemble L des vecteurs d'entrée ; et

Y est une constante positive prédéterminée.

L'invention concerne également un procédé de traitement d'un vecteur à tester, le vecteur à tester étant de mêmes dimensions que des vecteurs d'entrée d'un ensemble d'apprentissage associé à un réseau de neurones, le procédé de traitement comprenant les étapes :

- calcul d'une similarité, au regard d'un critère prédéterminé, entre le vecteur à tester et chaque exemple-support d'un ensemble-support associé au réseau de neurones et déterminé par la mise en œuvre du procédé tel que défini ci-dessus de détermination d'une fonction de prédiction mettant en œuvre ledit réseau de neurones ; et

-génération d'une alerte si la plus grande similarité calculée est inférieure à un seuil de similarité prédéterminé. BRÈVE DESCRIPTION DES DESSINS

L'invention sera mieux comprise à l'aide de la description qui va suivre, donnée uniquement à titre d'exemple non limitatif et faite en se référant aux dessins annexés sur lesquels :

- la figure 1 est une représentation schématique d'une fonction de prédiction mettant en œuvre un réseau de neurones ; et

- la figure 2 est un ordinogramme illustrant la mise en œuvre du procédé de détermination selon l'invention.

DESCRIPTION DÉTAILLÉE

Le procédé de détermination selon l'invention va être décrit en référence aux figures 1 et 2. Un tel procédé est mis en œuvre par un ordinateur.

Sur la figure 1 est représenté un réseau de neurones 2, le réseau de neurones 2 ayant été soumis à un apprentissage au moyen d'un ensemble d'apprentissage 4.

L'ensemble d'apprentissage 4 comporte N couples (x, y), N étant un entier naturel non nul. Chaque couple comprend un vecteur d'entrée, noté x, et une réponse attendue correspondante, notée y.

Les vecteurs d'entrée x de l'ensemble d'apprentissage forment un ensemble noté L, correspondant, sur la figure 1, à la partie unie de l'ensemble d'apprentissage 4. En outre, l'ensemble formé par les réponses attendues y correspond à la partie hachurée de l'ensemble d'apprentissage 4, sur cette même figure.

Le procédé de détermination selon l'invention vise, notamment, à déterminer, au sein de l'ensemble L des vecteurs d'entrée x, un sous-ensemble C, dit « ensemble-support », comprenant M exemples-supports, notés x c . M est un entier naturel non nul inférieur N, avantageusement au moins un ordre de grandeur inférieur à N. La valeur de l'entier M est, de préférence, fixée par l'utilisateur avant la mise en œuvre du procédé de détermination objet de l'invention.

En outre, le procédé de détermination selon l'invention vise à déterminer une fonction de prédiction, notée f, mettant en œuvre le réseau de neurones 2. Une telle fonction de prédiction f associe, à un vecteur d'entrée quelconque donné, une réponse (également appelée « prédiction ») correspondante. En particulier, pour un vecteur d'entrée x appartenant à l'ensemble L, la prédiction fournie par la fonction de prédiction est la réponse attendue y correspondant audit vecteur d'entrée x.

Plus précisément, la fonction de prédiction f applique une opération mathématique (portant la référence 5 sur la figure 1) à des sorties du réseau de neurones 2 pour déterminer une prédiction.

La fonction de prédiction dépend des exemples-supports, et présente une expression générale connue a priori.

Une expression particulière de la fonction de prédiction f est donnée par : f(x)=o(h(x)) (1) où s est une fonction d'activation ; et h est un vecteur de D fonctions intermédiaires, D étant un entier naturel non nul prédéterminé.

En particulier, le vecteur h de fonctions intermédiaires s'exprime selon : où Œi ,j est la j-ème composante du i-ème vecteur de pondération d'une liste a de D vecteurs de pondération ; k est une fonction de similarité prédéterminée ; et y q est une fonction paramétrique, définie par un vecteur de paramètres Q, représentative d'une sortie du réseau de neurone 2 en fonction des vecteurs d'entrée x.

L'expression (2) traduit le fait que, dans cet exemple, chaque fonction intermédiaire est égale à une somme de M fonctions de similarité, pondérée par un vecteur de pondération a, correspondant, chaque fonction de similarité étant associée à un exemple-support x c ,j correspondant. Une fonction de similarité associée à un exemple-support donné est une fonction dont le résultat est d'autant plus grand que son argument est similaire audit exemple-support. Par exemple, la fonction de similarité k est un noyau gaussien, ou encore le produit scalaire ou le cosinus de l'angle entre y q (c e ) et y q (c) lorsque y q (c) est un vecteur.

Selon un exemple particulier, y q (c) = x.

Comme cela apparaît sur la figure 2, le procédé de détermination selon l'invention comprend une étape de choix 10 et une étape de calcul 12 itérative. L'étape de calcul 12 est mise en œuvre tant qu'un critère prédéterminé n'est pas atteint (étape de décision 20).

Plus précisément, au cours de l'étape de choix 10, l'ordinateur choisit aléatoirement M variables-supports, notées m,, chacune de mêmes dimensions que des sorties du réseau de neurones 2. La liste des M variables-supports est notée m.

En particulier, chaque variable-support m, est choisie au sein d'un ensemble prédéterminé, par exemple tel que la plus grande distance, au regard d'une norme prédéterminée, entre une variable-support m, quelconque et les vecteurs d'entrée x soit plus petite qu'une distance maximale prédéterminée. La norme prédéterminée est, par exemple, la norme euclidienne.

Puis, l'ordinateur met en œuvre, de façon itérative, l'étape de calcul 12.

Plus précisément, durant l'étape de calcul 12, au cours d'une sous-étape d'optimisation 14, l'ordinateur optimise les variables-supports m, pour minimiser une fonction de coût prédéterminée.

La liste m des variables-supports à optimiser correspond :

- à la liste m des variables-supports choisie lors l'étape de choix 10 ; ou,

- lorsque l'étape de calcul 12 a déjà été mise en œuvre au cours d'une itération précédente, à une liste p c de variables-supports optimisées calculée au cours de ladite itération précédente de l'étape de calcul 12.

La fonction de coût, noté J, dépend des variables-supports m,, des vecteurs d'entrée x et de la fonction de similarité k prédéterminée. Avantageusement, au cours de la sous-étape d'optimisation 14, l'ordinateur optimise les variables-supports m, par la mise en œuvre d'une méthode de descente de gradient.

Plus précisément, et de façon connue, au moins un vecteur d'entrée x est choisi. Puis, le gradient de la fonction de coût J par rapport aux variables-supports est calculé en chaque vecteur d'entrée x choisi. Puis, pour chaque variable-support m,, une variable-support optimisée correspondante, notée p c , est obtenue en retranchant à ladite variable-support m, une fraction du gradient calculé en l'un des vecteurs d'entrée x.

Avantageusement, une telle méthode de descente de gradient est une méthode dite « stochastique ». Ceci signifie que chaque vecteur d'entrée x destiné à la mise en œuvre de la méthode de descente de gradient est choisi aléatoirement.

De préférence, la fonction de prédiction f implémente le vecteur h de fonctions intermédiaires, conformément à la relation (1). Dans ce cas, la fonction de coût J dépend également du vecteur h de fonctions intermédiaires.

En outre, dans ce cas, la sous-étape d'optimisation 14 comprend également une optimisation de chacun des D vecteurs de pondération pour minimiser la fonction de coût J.

De préférence, l'optimisation de chaque vecteur de pondération comprend la mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût J, de préférence une méthode de descente de gradient stochastique.

De préférence encore, la fonction de coût J dépend également de la fonction paramétrique y q décrite précédemment.

Dans ce cas, la sous-étape d'optimisation 14 comprend également une optimisation du vecteur de paramètres Q pour minimiser la fonction de coût J.

Ceci est avantageux, dans la mesure où l'optimisation du vecteur de paramètres Q se traduit par une meilleure adéquation de la réponse du réseau de neurones 2 à la fonction de prédiction f.

De préférence, l'optimisation du vecteur de paramètres Q comprend la mise en œuvre d'une méthode de descente de gradient appliquée à la fonction de coût J, de préférence une méthode de descente de gradient stochastique. A titre d'exemple, la fonction de coût J s'écrit : sous la contrainte où £ emp est une entropie croisée ;

Q est une fonction de pénalité positive sur les variables-supports ;

« arg » est la fonction « argument » ;

« min » est la fonction « minimum » ; p c ,i est une variable-support optimisée quelconque ; et y est une constante positive prédéterminée.

Une expression classique pour l'entropie croisée est : où « log » est la fonction logarithme et, pour tout vecteur d'entrée x dans (4), y est la réponse attendue correspondante.

Une telle expression de la fonction de coût J est avantageuse. En effet, dans un cadre classique, la fonction de coût, notée Jo, est prise égale à l'entropie croisée. Or, la minimisation d'une telle fonction de coût Jo est un problème NP-difficile, ce qui n'est pas souhaitable.

Or, la fonction de pénalité Q est une fonction positive, de sorte que J constitue une borne supérieure de Jo. En choisissant une fonction de pénalité Q différentiable adéquate, le problème NP-difficile décrit ci-dessus laisse place à un problème différentiable (même si non nécessairement convexe) pour lequel une solution est susceptible d'être trouvée aisément au moyen de la méthode de descente de gradient, comme cela a été décrit précédemment.

La fonction de pénalité Q est, par exemple, une fonction dont la valeur est d'autant plus faible que les variables-supports sont choisies dans les parties de l'ensemble L les plus denses en vecteurs d'entrée x. Dans ce cas, une expression possible de la fonction de pénalité Q est : où ||a|| est la norme euclidienne d'un vecteur a ; et -dire l'indice de l'exemple-support pour lequel la réponse du réseau de neurone 2 est la plus proche de la variable-support m,.

Une telle expression est avantageuse, dans la mesure où il est plus probable de trouver des variables-supports qui sont de bonnes approximations des exemples-supports dans les parties de l'ensemble L les plus denses en vecteurs d'entrée

X.

Une autre fonction de pénalité Q est susceptible d'être obtenue en partant de l'expression (5), et en y incluant un terme traduisant un coût topologique pour les exemples-supports. L'expression (6) suivante est ainsi obtenue : où h est un réel positif prédéterminé, de préférence supérieur ou égal à

0,3.

Une telle fonction de pénalité est avantageuse, dans la mesure où, garantissant une propagation aux plus proches voisins, est évitée une situation dans laquelle des exemples-supports pertinents ne sont jamais sélectionnés du fait d'un mauvais choix des variables-supports lors de l'étape de choix 10.

Une autre fonction de pénalité Q est susceptible d'être obtenue en partant de l'expression (6), et en y incluant un terme de stabilité. L'expression suivante est ainsi obtenue : où X m(x) désigne l'exemple-support x c le plus proche d'un vecteur d'entrée x donné quelconque.

Une telle fonction de pénalité est avantageuse, dans la mesure où elle réduit le risque qu'une variable-support m, soit associée successivement (lors d'une sous- étape 16 de détermination décrite ultérieurement) à un exemple-support x c donné puis à l'un de ses voisins à chaque itération de l'étape de calcul 12. Puis, au cours de la sous-étape 16 de détermination d'exemples- supports, l'ordinateur détermine, pour chaque variable-support p c ,i optimisée, l'exemple- support x c ,i correspondant.

L'exemple-support x c ,i correspondant à une variable-support optimisée p c ,i donnée est égal au vecteur d'entrée x pour lequel la sortie correspondante y q (c) du réseau de neurones 2 est la plus proche de ladite variable-support optimisée p c ,i au regard d'une norme prédéterminée.

Avantageusement, si, au cours de la mise en œuvre de la méthode de descente de gradient pour optimiser les valeurs des variables-supports, un vecteur d'entrée x choisi pour la mise en œuvre de ladite optimisation conduit à une réponse y q (c) du réseau de neurones 2 qui est plus proche, au regard de la norme prédéterminée, d'une variable-support optimisée p c ,i que l'exemple-support associé x c , alors la valeur dudit vecteur d'entrée x choisi est affectée à l'exemple-support associé x c ,i.

Puis, au cours d'une sous-étape 18 de mise à jour, l'ordinateur met à jour la fonction de prédiction f, à partir des exemples-supports x c déterminés.

Avantageusement, au cours de la sous-étape 18 de mise à jour, l'ordinateur met également à jour la fonction de prédiction f, à partir des vecteurs de pondération et/ou du vecteur de paramètres optimisés.

Puis, au cours de l'étape de décision 20, l'ordinateur détermine si un critère a été satisfait ou non.

Si le critère est satisfait, l'ordinateur cesse de mettre en œuvre l'étape de calcul 12. Sinon, l'ordinateur met de nouveau en œuvre l'étape de calcul 12.

Par exemple, le critère est satisfait lorsque la plus grande différence entre les variables-supports fournies par l'itération courante et par l'itération précédente de l'étape de calcul 12 est inférieure à un seuil prédéterminé.

Une fois le procédé de détermination de la fonction de prédiction exécuté, l'ordinateur est également configuré pour implémenter un procédé de traitement, par le réseau de neurones 2, d'au moins un vecteur à tester, chaque vecteur à tester étant de mêmes dimensions que les vecteurs d'entrée de l'ensemble d'apprentissage. Plus précisément, l'ordinateur calcule une similarité, au regard d'un critère prédéterminé, entre le vecteur à tester et les exemples-supports x c de l'ensemble- support C associé au réseau de neurones 2.

Dans ce cas, l'ordinateur est configuré pour générer une alerte si la plus grande similarité calculée est inférieur à un seuil de similarité prédéterminé.

Sinon, la fonction de prédiction est appliquée au vecteur à tester pour obtenir une prédiction sur la base dudit vecteur à tester.

Ceci est avantageux, dans la mesure où une telle alerte traduit le fait que le vecteur à tester est trop différent des exemples-supports pour conduire à un résultat susceptible d'être prédit et interprété par un observateur humain. La fiabilité du réseau de neurones 2 est ainsi accrue.