Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR TRANSFERRING LEARNING FROM A FIRST CONVOLUTIONAL NEURAL NETWORK TO A SECOND CONVOLUTIONAL NEURAL NETWORK
Document Type and Number:
WIPO Patent Application WO/2019/229117
Kind Code:
A1
Abstract:
The invention relates to a method, implemented by a computer (ORD), for transferring learning from a first convolutional neural network to a second convolutional neural network, comprising the following steps: a) learning by the first convolutional neural network of a database of images labelled according to a plurality of categories of the most specific level of the database, each image being able to be represented by a characteristic vector; b) for each of the categories of the most specific level, constructing at least one subcategory; c) relabelling the database of images with the set of subcategories, in order to form a database of relabelled images; d) learning by the second convolutional neural network of the database of re-labelled images.

Inventors:
TAMAAZOUSTI YOUSSEF (FR)
GIRARD JULIEN (FR)
LE BORGNE HERVÉ (FR)
HUDELOT CÉLINE (FR)
Application Number:
PCT/EP2019/063943
Publication Date:
December 05, 2019
Filing Date:
May 29, 2019
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
COMMISSARIAT ENERGIE ATOMIQUE (FR)
International Classes:
G06N3/04; G06N3/08; G06N20/10
Other References:
HUANG QIN ET AL: "Unsupervised Clustering Guided Semantic Segmentation", 2018 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), IEEE, 12 March 2018 (2018-03-12), pages 1489 - 1498, XP033337772, DOI: 10.1109/WACV.2018.00167
GE ZONGYUAN ET AL: "Subset feature learning for fine-grained category classification", 2015 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), IEEE, 7 June 2015 (2015-06-07), pages 46 - 52, XP032795532, DOI: 10.1109/CVPRW.2015.7301271
WANG XIAOSONG ET AL: "Unsupervised Joint Mining of Deep Features and Image Labels for Large-Scale Radiology Image Categorization and Scene Recognition", 2017 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV), IEEE, 24 March 2017 (2017-03-24), pages 998 - 1007, XP033096884, DOI: 10.1109/WACV.2017.116
KRIEGEL H ET AL: "A Generic Framework for Efficient Subspace Clustering of High-Dimensional Data", DATA MINING, FIFTH IEEE INTERNATIONAL CONFERENCE ON HOUSTON, TX, USA 27-30 NOV. 2005, PISCATAWAY, NJ, USA,IEEE, 27 November 2005 (2005-11-27), pages 250 - 257, XP010870453, ISBN: 978-0-7695-2278-4, DOI: 10.1109/ICDM.2005.5
CHENG-RU LIN ET AL: "Combining Partitional and Hierarchical Algorithms for Robust and Efficient Data Clustering with Cohesion Self-Merging", IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, IEEE SERVICE CENTER, LOS ALAMITOS, CA, US, vol. 17, no. 2, 17 December 2004 (2004-12-17), pages 145 - 159, XP011124630, ISSN: 1041-4347, DOI: 10.1109/TKDE.2005.21
YOUSSEF TAMAAZOUSTI ET AL: "MuCaLe-Net: multi categorical-level networks to generate more discriminating features (w/ supplementary material)", PROCEEDINGS OF THE 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR'17), 21 July 2017 (2017-07-21), pages 6711 - 6720, XP055569351, Retrieved from the Internet [retrieved on 20190216]
YOUSSEF TAMAAZOUSTI ET AL., LEARNING MORE UNIVERSAL REPRÉSENTATIONS FOR TRANSFER-LEARNING, 2017, Retrieved from the Internet
OQUAB ET AL.: "Learning and Transferring Mid-Level Image Représentations using Convolutional Neural Networks", CVPR, 2014, Retrieved from the Internet
Attorney, Agent or Firm:
PRIORI, Enrico (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé, mis en œuvre par ordinateur (ORD), de transfert d’apprentissage d’un premier réseau de neurones convolutif vers un deuxième réseau de neurones convolutif, comprenant les étapes suivantes : a) Apprentissage du premier réseau de neurones convolutif à partir d’une base de données d’images labellisées selon une pluralité de catégories du niveau le plus spécifique de la base de données, chaque image pouvant être représentée par un vecteur caractéristique ;

b) Pour chacune des catégories du niveau le plus spécifique, construction d’au moins une sous-catégorie ;

c) Relabellisation de la base de données d’images avec l’ensemble des sous-catégories, pour former une base de données d’images relabellisée ;

d) Apprentissage du deuxième réseau de neurones convolutif à partir de la base de données d’images relabellisée ;

caractérisé en ce que l’étape b) de construction d’au moins une sous- catégorie comprend les sous-étapes de :

b1 ) Partitionnement, en une pluralité de sous-groupes (C.W.M.C), des images de la catégorie (I.C) ;

b2) Pour chaque sous-groupe (C.W.M.C), détermination du nombre d’images (I.R), et si le nombre d’images (I.R) est inférieur à un seuil, rattachement de chaque image (I.R) du sous-groupe (C.W.M.C) à un sous- groupe (C.W.M.C) dont le nombre d’images est supérieur au seuil, appelé grand sous-groupe, chaque image (I.R) étant rattachée au grand sous- groupe (C.W.M.C) le plus proche, en déterminant un vecteur caractéristique d’un grand sous-groupe (C.W.M.C) le plus proche du vecteur caractéristique représentant l’image ;

b3) Détermination d’une matrice (Ms) de mesures de similarité entre chacun des grands sous-groupes (C.W.M.C) ;

b4) Fusion des grands sous-groupes en fonction de la matrice de mesures de similarité, pour former les sous-catégories (M.S.C).

2. Procédé selon la revendication 1 , le partitionnement étant mis en oeuvre, à la sous-étape b1 ), de façon aléatoire, selon un nombre prédéterminé de sous-groupes (C.W.M.C), les sous-groupes (C.W.M.C) comprenant sensiblement le même nombre d’images (I.R).

3. Procédé selon la revendication 1 , le partitionnement étant mis en oeuvre, à la sous-étape b1 ), par un partitionnement en K-moyennes appliqué au vecteur caractéristique de chaque image.

4. Procédé selon l’une des revendications précédentes, la sous-étape b3) comprenant, pour chaque couple de grands sous-groupes (A, B) :

l’apprentissage d’un classificateur, en utilisant une pluralité de vecteurs caractéristiques du grand sous-groupe, appelé premier grand sous-groupe (A), en tant que classe positive, et une pluralité de vecteurs caractéristiques d’un sous-groupe composé de vecteurs d’images issus aléatoirement d’une pluralité de grands sous-groupes, en tant que classe négative ;

pour chaque grand sous-groupe différent du premier grand sous-groupe, le grand sous-groupe différent étant appelé deuxième grand sous-groupe (B), la détermination d’un score de similarité du deuxième grand sous-groupe (B) vers le premier grand sous-groupe (A), en testant le classificateur sur une pluralité de vecteurs caractéristiques du deuxième grand sous-groupe.

5. Procédé selon la revendication 4, le classificateur étant un classificateur de type SVM.

6. Procédé selon l’une des revendications 1 à 3, la sous- étape b3) comprenant, pour chaque couple de grands sous-groupes (A, B), chaque couple étant composé d’un premier grand sous-groupe (A) et d’un deuxième grand sous-groupe (B) :

la mesure d’une distance entre chacun des vecteurs caractéristiques du premier grand sous-groupe (A) et chacun des chacun des vecteurs caractéristiques du deuxième grand sous-groupe (B) ;

la détermination d’un score de similarité entre le premier grand sous-groupe (A) et le deuxième grand sous-groupe (B), par le calcul de la moyenne des distances.

7. Procédé selon l’une des revendications 4 à 6, la sous- étape b4) comprenant la détermination d’un seuil de similarité, et, pour chaque couple de grands sous-groupes (A, B), la fusion d’un premier grand sous-groupe (A) et d’un deuxième grand sous-groupe (B) si :

- le score de similarité du deuxième grand sous-groupe (B) vers le premier grand sous-groupe (A) est supérieur au seuil de similarité ;

- le score de similarité du premier grand sous-groupe (A) vers le deuxième grand sous-groupe (B) est supérieur au seuil de similarité.

8. Procédé selon la revendication 7, la fusion du premier grand sous-groupe (A) et du deuxième grand sous-groupe (B) étant effectuée si :

- le score de similarité du deuxième grand sous-groupe (B) vers le premier grand sous-groupe (A) est le score de similarité le plus élevé parmi tous les autres scores de similarité de couples comprenant le deuxième grand sous- groupe (B) ;

- le score de similarité du premier grand sous-groupe (A) vers le deuxième grand sous-groupe (B) est le score de similarité le plus élevé parmi tous les autres scores de similarité de couples comprenant le premier grand sous- groupe (A).

9. Procédé selon l’une des revendications précédentes, les sous-étapes b3) et b4) étant réitérées jusqu’à obtenir un nombre prédéterminé de sous-catégories (M.S.C).

10. Programme d’ordinateur (PRG) téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, caractérisé en ce qu’il comprend des instructions pour l’exécution des étapes du procédé selon l’une quelconque des revendications 1 à 9, lorsque ledit programme est exécuté sur un ordinateur (ORD). 1 1. Système d’apprentissage d’un réseau de neurones convolutif, configuré pour mettre en oeuvre le procédé de transfert d’apprentissage selon l’une des revendications 1 à 9.

Description:
PROCEDE DE TRANSFERT D’APPRENTISSAGE D’UN PREMIER RESEAU DE NEURONES CONVOLUTIF VERS UN DEUXIEME RESEAU

DE NEURONES CONVOLUTIF

L'invention porte sur un procédé de transfert d’apprentissage d’un premier réseau de neurones convolutif vers un deuxième réseau de neurones convolutif. Elle porte également sur un système d’apprentissage d’un réseau de neurones convolutif, ainsi que sur un programme d’ordinateur correspondant. Elle peut trouver une application dans la recherche d’information visuelle par le contenu, ou encore dans la classification d’image, également appelée catégorisation d’image.

Les processus de classification supervisée, mis en oeuvre par un réseau de neurones convolutif (ou CNN selon la terminologie anglo- saxonne, pour Convolutional Neural Network), sont utilisés couramment en dans les domaines d’applications précités. Le processus comprend une phase d’apprentissage, et une phase de test. Durant la phase d’apprentissage, des caractéristiques visuelles, formant un vecteur caractéristique, propres à chaque catégorie, sont apprises en fonction de l’étiquette (ou label selon la terminologie anglo-saxonne) associée à chaque image d’apprentissage. Les caractéristiques visuelles forment un vecteur caractéristique. En phase de test, les caractéristiques visuelles de nouvelles images, dites images de test, sont extraites. En fonction du modèle appris conformément au modèle d’apprentissage, une étiquette est attribuée à l’image de test.

Les processus de classification supervisée requièrent de connaître a priori les catégories dans laquelle doit être classée chaque image lors de l’apprentissage. Ils sont donc adaptés uniquement à un problème source connu, par exemple reconnaître et distinguer des chiens et des chats. Si un descripteur d’image est utilisé pour un problème différent, appelé problème cible, le descripteur d’image n’est donc pas adapté. Un problème cible différent peut être par exemple de reconnaître et de distinguer des oiseaux et des rongeurs. Un problème bien connu en classification supervisée est que les réseaux de neurones convolutifs nécessitent un grand nombre de données annotées pour être appris. Or, les problèmes cibles ne sont pas toujours pourvus de telles données annotées. Une solution connue est de pratiquer le transfert d’apprentissage. Un réseau de neurones convolutif est pré-appris sur un problème source suffisamment pourvu en données annotées. Le réseau de neurones convolutif pré-appris est « tronqué » à une couche intermédiaire et est utilisé comme extracteur de caractéristiques visuelles. Ainsi, une image d’un problème cible est décrite par un vecteur de dimension fixe.

Les performances d’une telle approche sur le problème cible sont donc d’autant meilleures que la représentation utilisée y est adaptée. Or, en pratique, le problème cible n’est pas forcément connu au moment de l’apprentissage du réseau de neurones convolutif du problème source. On souhaite donc apprendre à partir du problème source un réseau de neurones convolutif pouvant fournir une représentation la plus universelle possible, à savoir qui soit adaptée au plus grand nombre possible de problème cibles, sans qu’ils soient connus a priori.

Une solution pour obtenir des descripteurs plus universels est connue du document « Learning More Universal Représentations for Transfer- Learning » (Youssef Tamaazousti et al., 2017, disponible sous lien httPSi//arxiv.org/abs/1712.09708). La combinaison d’un réseau de neurones convolutif appris sur des catégories spécifiques et d’un réseau de neurones convolutif appris sur des catégories génériques donne des représentations plus universelles. Néanmoins, le réseau de neurones convolutif générique présente des performances inférieures au réseau de neurones convolutif spécifique. Ainsi, si des données encore plus spécifiques étaient disponibles, il serait possible d’obtenir un réseau de neurones convolutif encore plus performant. Pour un concept très spécifique (une race de chien, par exemple un labrador), on peut par exemple imaginer des données annotant la pose ou le point de vue (« labrador vu de face » « labrador vu de profil » « labrador vu en entier » « tête de labrador », etc). Toutefois, il est très coûteux de produire de telles données manuellement et difficile de déterminer une telle pose automatiquement sans ces données.

L’invention vise donc à déterminer automatiquement des sous-catégories aux catégories les plus spécifiques d’une base de données d’images annotées, sans travail d’annotation manuel, et sans collecte d’images supplémentaires, afin d’apprendre un réseau convolutif sur ces catégories, ce réseau convolutif fournissant un descripteur d’image plus universel.

Un objet de l’invention est donc un procédé, mis en oeuvre par ordinateur, de transfert d’apprentissage d’un premier réseau de neurones convolutif vers un deuxième réseau de neurones convolutif, comprenant les étapes suivantes :

a) Apprentissage du premier réseau de neurones convolutif à partir d’une base de données d’images labellisées selon une pluralité de catégories du niveau le plus spécifique de la base de données, chaque image pouvant être représentée par un vecteur caractéristique ;

b) Pour chacune des catégories du niveau le plus spécifique, construction d’au moins une sous-catégorie ;

c) Relabellisation de la base de données d’images avec l’ensemble des sous-catégories, pour former une base de données d’images relabellisée ;

d) Apprentissage du deuxième réseau de neurones convolutif à partir de la base de données d’images relabellisée ;

l’étape b) de construction d’au moins une sous-catégorie comprend les sous- étapes de :

b1 ) Partitionnement, en une pluralité de sous-groupes, des images de la catégorie ;

b2) Pour chaque sous-groupe, détermination du nombre d’images, et si le nombre d’images est inférieur à un seuil, rattachement de chaque image du sous-groupe à un sous-groupe dont le nombre d’images est supérieur au seuil, appelé grand sous-groupe, chaque image étant rattachée au grand sous-groupe le plus proche, en déterminant un vecteur caractéristique d’un grand sous-groupe le plus proche du vecteur caractéristique représentant l’image ;

b3) Détermination d’une matrice de mesures de similarité entre chacun des grands sous-groupes ;

b4) Fusion des grands sous-groupes en fonction de la matrice de mesures de similarité, pour former les sous-catégories.

Avantageusement, le partitionnement est mis en oeuvre, à la sous-étape b1 ), de façon aléatoire, selon un nombre prédéterminé de sous- groupes, les sous-groupes comprenant sensiblement le même nombre d’images.

Avantageusement, le partitionnement est mis en oeuvre, à la sous-étape b1 ), par un partitionnement en K-moyennes appliqué au vecteur caractéristique de chaque image.

Avantageusement, la sous-étape b3) comprend, pour chaque couple de grands sous-groupes :

l’apprentissage d’un classificateur, en utilisant une pluralité de vecteurs caractéristiques du grand sous-groupe, appelé premier grand sous-groupe, en tant que classe positive, et une pluralité de vecteurs caractéristiques d’un sous-groupe composé de vecteurs d’images issus aléatoirement d’une pluralité de grands sous-groupes, en tant que classe négative ;

Pour chaque grand sous-groupe différent du premier grand sous-groupe, le grand sous-groupe différent étant appelé deuxième grand sous-groupe, la détermination d’un score de similarité du deuxième grand sous-groupe vers le premier grand sous-groupe, en testant le classificateur sur une pluralité de vecteurs caractéristiques du deuxième grand sous-groupe. Avantageusement, le classificateur est un classificateur de type SVM.

Avantageusement, la sous-étape b3) comprend, pour chaque couple de grands sous-groupes, chaque couple étant composé d’un premier grand sous-groupe et d’un deuxième grand sous-groupe :

la mesure d’une distance entre chacun des vecteurs caractéristiques du premier grand sous-groupe et chacun des chacun des vecteurs caractéristiques du deuxième grand sous-groupe ;

- la détermination d’un score de similarité entre le premier grand sous-groupe et le deuxième grand sous-groupe, par le calcul de la moyenne des distances.

Avantageusement, la sous-étape b4) comprend la détermination d’un seuil de similarité, et, pour chaque couple de grands sous- groupes, la fusion d’un premier grand sous-groupe et d’un deuxième grand sous-groupe si :

- le score de similarité du deuxième grand sous-groupe vers le premier grand sous-groupe est supérieur au seuil de similarité ;

- le score de similarité du premier grand sous-groupe vers le deuxième grand sous-groupe est supérieur au seuil de similarité. Avantageusement, la fusion du premier grand sous-groupe et du deuxième grand sous-groupe est effectuée si :

- le score de similarité du deuxième grand sous-groupe vers le premier grand sous-groupe est le score de similarité le plus élevé parmi tous les autres scores de similarité de couples comprenant le deuxième grand sous-groupe ;

- le score de similarité du premier grand sous-groupe vers le deuxième grand sous-groupe est le score de similarité le plus élevé parmi tous les autres scores de similarité de couples comprenant le premier grand sous-groupe.

Avantageusement, les sous-étapes b3) et b4) sont réitérées jusqu’à obtenir un nombre prédéterminé de sous-catégories.

L’invention se rapporte également à un programme d’ordinateur téléchargeable depuis un réseau de communication et/ou enregistré sur un support lisible par ordinateur et/ou exécutable par un processeur, caractérisé en ce qu’il comprend des instructions pour l’exécution des étapes du procédé précité, lorsque ledit programme est exécuté sur un ordinateur.

L’invention se rapporte également à un système d’apprentissage d’un réseau de neurones convolutif, configuré pour mettre en oeuvre le procédé précité.

D’autres caractéristiques, détails et avantages de l’invention ressortiront à la lecture de la description faite en référence aux dessins annexés donnés à titre d’exemple et qui représentent, respectivement :

les figures 1 et 2, des schémas illustrant les différentes étapes du procédé selon l’invention ;

la figure 3, une illustration des différents regroupements d’images mis en oeuvre dans le procédé selon l’invention ;

- la figure 4, un exemple de matrice de similarité mise en oeuvre dans le procédé selon l’invention ;

la figure 5, une illustration de l’ordinateur mettant en oeuvre le procédé selon l’invention. Les figures 1 et 2 illustrent schématiquement les différentes étapes du procédé. Plus particulièrement, la figure 1 est un ordinogramme représentant les différentes étapes du procédé selon l’invention. La figure 2 représente d’une autre manière le procédé selon l’invention. Le procédé de transfert d’apprentissage d’un premier réseau de neurones convolutif CNN-S vers un deuxième réseau de neurones convolutif CNN-F comprend les étapes suivantes :

a) Apprentissage du premier réseau de neurones convolutif CNN-S à partir d’une base de données d’images BdD1 labellisées selon une pluralité de catégories CAT du niveau le plus spécifique de la base de données BdD, chaque image pouvant être représentée par un vecteur caractéristique. Une telle base de données est par exemple la base ImageNet, labellisée selon environ mille catégories ;

b) Pour chacune des catégories CAT du niveau le plus spécifique, construction d’au moins une sous-catégorie S-CAT. Cette étape est détaillée par la suite ;

c) Relabellisation de la base de données d’images avec l’ensemble des sous-catégories S-CAT, pour former une base de données d’images relabellisée BdD2 ;

d) Apprentissage du deuxième réseau de neurones convolutif CNN-F à partir de la base de données d’images relabellisée BdD2. Cet apprentissage peut par exemple être effectué selon la méthode du fine- tuning (ou réglage fin), décrite notamment dans le document « Learning and Transferring Mid-Level Image Représentations using Convolutional Neural Networks » (Oquab et al. CVPR, 2014), et disponible sous le lien http://www.di.ens.fr/willow/pdfscurrent/oquab14cvpr.pdf

Ainsi, étant donné une image IM, sa représentation visuelle est, après normalisation, la combinaison de la représentation visuelle provenant du premier réseau de neurones convolutif CNN-S et celle provenant du deuxième réseau de neurones convolutif CNN-F. La représentation visuelle est par exemple la sortie de l’avant dernière couche totalement connectée d’un réseau de neurones convolutif. Une telle combinaison peut par exemple être la concaténation des représentations provenant des deux réseaux. Les figures 1 et 3 sont analysées en parallèle. L’ensemble IC représente une catégorie spécifique, à savoir la catégorie hiérarchiquement la plus basse d’une base de données d’images annotées associée à une hiérarchie de concepts. La base de données d’images annotées peut être par exemple la base de données ImageNet, associée à la hiérarchie de WordNet. La catégorie la plus spécifique peut regrouper par exemple toutes les images contenant des labradors. L’ensemble IC comprend, pour chaque catégorie spécifique, un ensemble d’images représentées par leur vecteur caractéristique IR, qui constitue une représentation de l’image. Le procédé selon l’invention est adapté pour déterminer des sous-catégories d’une catégorie la plus spécifique d’une base de données d’images annotées. Il peut donc être mis en oeuvre de la même manière pour toutes les catégories spécifiques de la base de données.

A la sous-étape b1 ), toutes les images de la catégorie sont réparties en sous-groupes. Le partitionnement en sous-groupes peut être réalisé de façon aléatoire, en répartissant toutes les images en K sous- groupes. Il est à noter que le partitionnement étant réalisé sur des catégories spécifiques, les vecteurs caractéristiques se ressemblent fortement au sein- même de la catégorie. Les K sous-groupes sont par exemple équilibrés, dans le sens où tous les sous-groupes ont sensiblement la même taille, quand le tirage aléatoire est uniforme. Cette caractéristique peut être recherchée pour la phase d’apprentissage d’un réseau de neurones convolutif.

En variante, le partitionnement en sous-groupes des images de la catégorie peut être réalisé selon la méthode des K-moyennes. Cela permet de regrouper des vecteurs caractéristiques proches les uns des autres. Pour cela, on utilise une des couches du réseau de neurones convolutif en tant que descripteur d’image. On obtient alors un vecteur caractéristique pour chaque image de la catégorie spécifique. K centroïdes sont répartis parmi l’ensemble des vecteurs caractéristiques. Chaque vecteur caractéristique est assigné à au centroïde le plus proche, pour former K sous- groupes. Le centroïde de chaque sous-ensemble est repositionné sur le barycentre du sous-ensemble, et les distances entre chaque vecteur et chacun des centroïdes sont recalculées, pour former des sous-groupes mis dont la composition est mise à jour. Lorsque la méthode des K-moyennes converge, chacun des K sous-groupes est formé par les vecteurs caractéristiques partageant le même centroïde. La distance mesurée pour cette sous-étape peut être la distance euclidienne, mais d’autres méthodes de mesure de distance sur des espaces vectoriels peuvent être employées. Sur la figure 3, les sous-groupes obtenus par la méthode des K-moyennes sont visibles sous l’intitulé C.W.M.C.

L’emploi de la méthode des K-moyennes peut aboutir à des sous-groupes peu équilibrés, à savoir certains sous-groupes ayant un nombre important d’images, et d’autres sous-groupes disposant de peu d’images. La sous-étape b2) du procédé selon l’invention vise à rééquilibrer la composition des sous-groupes, en supprimant les sous-groupes ayant un nombre trop faible d’images. On définit ainsi un seuil. Si le sous-groupe contient un nombre d’images supérieur au seuil, le sous-groupe est alors considéré comme un grand sous-groupe. Pour chaque sous-groupe dont le nombre d’images est inférieur au seuil, chaque image du sous-groupe est rattachée, individuellement, à son grand sous-groupe le plus proche. Le rattachement est réalisé en mesurant la distance entre le vecteur caractéristique décrivant l’image et chacun des vecteurs caractéristiques des grands sous-groupes. L’image est associée au grand sous-groupe dont un des vecteurs caractéristiques est le plus proche du vecteur caractéristique décrivant l’image. Sur la figure 3, les sous-groupes ayant été modifiés après rééquilibrage sont visibles sous l’intitulé P.S.C.

Le procédé selon l’invention comprend une sous-étape b3), d’évaluation de la similarité entre chacun des grands sous-groupes. L’évaluation de la similarité est effectuée individuellement, entre chacun des grands sous-groupes deux à deux. La similarité d’un grand sous-groupe vers un autre grand sous-groupe n’est pas nécessairement symétrique. Ainsi, pour chaque couple de grands sous-groupes, constitué d’un premier grand sous- groupe et d’un deuxième grand sous-groupe, on évalue la similarité du premier grand sous-groupe vers le deuxième grand sous-groupe, et la similarité du deuxième grand sous-groupe vers le premier grand sous-groupe.

En référence à la figure 4, pour un sous-groupe donné (par exemple le sous-groupe A), on considère un classificateur binaire (également appelé « classifieur » dans le domaine considéré) de préférence un classificateur linéaire, de type SVM (pour Support Vector Machine, ou Machine à Vecteurs de Support, ou encore Séparateur à Vaste Marge). Durant la phase d’apprentissage, le classificateur prend comme classe positive une pluralité de vecteurs caractéristiques du grand sous-groupe. De préférence, la classe positive est composée de l’intégralité des vecteurs caractéristiques du grand sous-groupe. La classe négative est composée d’un sous-groupe créé ad-hoc. Le sous-groupe créé ad-hoc contient par exemple des vecteurs caractéristiques issus aléatoirement d’une pluralité de grands sous-groupes. De préférence, les vecteurs caractéristiques sont issus aléatoirement de tous les grands sous-groupes A à F, de façon équiprobable. Alternativement, le sous-groupe créé ad-hoc contient par exemple des vecteurs caractéristiques issus d’images collectées aléatoirement dans une base d’images ad-hoc, par exemple sur internet.

Pour chacun des autres grands sous-groupes (B à F), on teste le classificateur sur une pluralité de vecteurs caractéristiques, de préférence sur tous les vecteurs caractéristiques de l’autre grand sous- groupe. Pour chaque autre grand sous-groupe, on obtient ainsi une série de mesures pour chacun des vecteurs caractéristiques du sous-groupe. La mesure, pour un vecteur caractéristique du sous-groupe, est égale à la probabilité que le vecteur caractéristique appartienne à la classe positive définie pour l’apprentissage du classificateur. Les mesures peuvent être rapportées à un nombre réel entre 0 et 1 , par exemple par une fonction sigmoïde. Ces mesures sont ensuite moyennées, pour aboutir à cinq scores de similarité (respectivement des grands sous-groupes B, C, D, E et F vers le grand sous-groupe A). La première ligne de la matrice Ms illustrée par la figure 4 représente ces scores de similarité. Par exemple, le score de similarité du grand sous-groupe B vers le grand sous-groupe A est égale à 0,95.

Le même procédé est appliqué pour tous les autres grands sous-groupes (lignes B à F de la matrice de similarité Ms). Le score de similarité entre chacun des grands sous-groupes peut être déterminé différemment. Par exemple, la distance entre chacun des vecteurs caractéristiques de grands sous-groupes différents peut être mesurée. Le score de similarité entre deux grands sous-groupes correspond à la moyenne des distances entre les vecteurs caractéristiques de ces grands sous-groupes.

La sous-étape b4) du procédé selon l’invention consiste à fusionner les grands sous-groupes en fonction de la matrice de mesures de similarité, pour former les sous-catégories. On détermine d’abord un seuil de similarité.

Selon un premier mode de réalisation, deux grands sous- groupes (un premier grand sous-groupe et un deuxième grand sous-groupe) sont fusionnés si toutes les conditions suivantes sont réunies :

- le score de similarité du deuxième grand sous-groupe vers le premier grand sous-groupe est supérieur au seuil de similarité ;

- le score de similarité du premier grand sous-groupe vers le deuxième grand sous-groupe est supérieur au seuil de similarité ;

- le score de similarité du deuxième grand sous-groupe vers le premier grand sous-groupe est le score de similarité le plus élevé parmi tous les autres scores de similarité de couples comprenant le deuxième grand sous-groupe ;

- le score de similarité du premier grand sous-groupe vers le deuxième grand sous-groupe est le score de similarité le plus élevé parmi tous les autres scores de similarité de couples comprenant le premier grand sous-groupe.

En référence à la figure 4, avec un seuil de similarité fixé à titre d’exemple à 0,8, on constate que :

- le score de similarité de B vers A vaut 0,95, ce qui est supérieur au seuil de similarité ;

- le score de similarité de A vers B vaut 0,9, ce qui est supérieur au seuil de similarité ;

- le score de similarité de B vers A vaut 0,95, ce qui correspond à la valeur maximale de la première ligne ;

- le score de similarité de A vers B vaut 0,90, ce qui correspond à la valeur maximale de la deuxième ligne.

Les grands sous-groupes A et B peuvent donc fusionner.

Selon un deuxième mode de réalisation, un premier grand sous-groupe et un deuxième grand sous-groupe sont fusionnés si toutes les conditions suivantes sont réunies :

- le score de similarité du deuxième grand sous-groupe vers le premier grand sous-groupe est supérieur au seuil de similarité ;

- le score de similarité du premier grand sous-groupe vers le deuxième grand sous-groupe est supérieur au seuil de similarité.

En référence à la figure 4, avec un seuil de similarité fixé à titre d’exemple à 0,8, on constate que :

- le score de similarité de F vers C vaut 0,93, ce qui est supérieur au seuil de similarité ; - le score de similarité de C vers F vaut 0,82, ce qui est supérieur au seuil de similarité.

Les grands sous-groupes C et F peuvent donc fusionner.

Selon un troisième mode de réalisation, un premier grand sous-groupe et un deuxième grand sous-groupe sont fusionnés si toutes les conditions suivantes sont réunies :

- le score de similarité du deuxième grand sous-groupe vers le premier grand sous-groupe est supérieur à un premier seuil de similarité ;

- le score de similarité du premier grand sous-groupe vers le deuxième grand sous-groupe est supérieur à un deuxième seuil de similarité.

Le deuxième seuil de similarité est inférieur au premier seuil de similarité, par exemple égale à la moitié du premier seuil de similarité. Ce troisième mode de réalisation permet de fusionner des grands sous-groupes dits « asymétriquement similaires », par opposition au premier et au deuxième modes de réalisation, qui permet de fusionner des grands sous-groupes dits « symétriquement similaires ».

Les sous-catégories d’images sont constituées des grands sous-groupes fusionnés, ainsi que des autres grands sous-groupes non fusionnés. Sur la figure 3, les sous-groupes ayant été fusionnés sont visibles sous l’intitulé M.S.C. Les sous-étapes b3) et b4) peuvent être réitérées, jusqu’à obtenir un nombre prédéterminé de sous-groupes fusionnés. Dans ce cas, après la fusion des grands sous-groupes similaires, une nouvelle matrice de similarité est générée, et de nouveaux grands sous-groupes sont éventuellement fusionnés, s’ils remplissent les critères de similarité précités. En cas d’itération, si aucun sous-groupe n’est fusionné, le processus s’arrête.

Un réseau de neurones convolutif CNN-F peut être appris avec les sous-catégories ainsi obtenues. Le réseau de neurones convolutif CNN-F peut être combiné au réseau de neurones convolutif CNN-S, qui a été appris avec les catégories initiales, afin d’obtenir des représentations plus universelles, donc adaptées au plus grand nombre de problèmes cibles. Le procédé de transfert d’apprentissage peut être mis en œuvre par ordinateur ORD. En référence à la figure 5, l’ordinateur ORD comporte une unité de traitement UT (comportant par exemple un ou plusieurs processeurs) et une mémoire MEM (comportant par exemple une mémoire RAM) pour le stockage de fichiers de données et de programmes d’ordinateurs. La mémoire MEM comporte en particulier un programme PRG comprenant des instructions pour la réalisation d’une partie ou de toutes les étapes d’un procédé de transfert d’apprentissage tel que décrit précédemment, lorsque ledit programme PRG est exécuté sur l’ordinateur par l’unité de traitement UT. Le programme PRG pourrait tout aussi bien être divisé selon toutes les combinaisons possibles en un ou plusieurs sous- programmes. Les étapes réalisées pourraient aussi être au moins en partie micro programmées ou micro câblées dans des circuits intégrés dédiés. Ainsi, en variante, l’ordinateur mettant en œuvre le procédé pourrait être remplacé par un dispositif électronique composé uniquement de circuits numériques (sans programme d’ordinateur) pour la réalisation des mêmes étapes. En alternative, les procédés peuvent être exécutés de façon répartie.