Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DEVICE FOR EXTRACTING INFORMATION FROM AN IMAGE
Document Type and Number:
WIPO Patent Application WO/2017/109358
Kind Code:
A1
Abstract:
The invention relates to a device for extracting information (10) from an image (12), the device comprising alternately two single layers (S1, S2) and two complex layers (C1, C2), - the single layer (S1) comprising a bank of filters (15) which differ in size and/or orientation, each filter (15) being configured to filter the input image (12, 14), - the first single layer (S1) including filters (15) for which each coefficient (16) is encoded on a number of bits less than or equal to 8 bits.

Inventors:
BOISARD OLIVIER (FR)
BROUSSE OLIVIER (FR)
PAINDAVOINE MICHEL (FR)
Application Number:
PCT/FR2016/053513
Publication Date:
June 29, 2017
Filing Date:
December 16, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
GLOBALSENSING TECH (FR)
International Classes:
G06K9/46
Other References:
THOMAS SERRE ET AL: "Robust Object Recognition with Cortex-Like Mechanisms", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, IEEE COMPUTER SOCIETY, USA, vol. 29, no. 3, 1 March 2007 (2007-03-01), pages 411 - 426, XP011157927, ISSN: 0162-8828, DOI: 10.1109/TPAMI.2007.56
YONG CHEOL PETER CHO ET AL: "Accelerating Multiresolution Gabor Feature Extraction for Real Time Vision Applications", JOURNAL OF SIGNAL PROCESSING SYSTEMS, vol. 76, no. 2, 9 April 2014 (2014-04-09), US, pages 149 - 168, XP055290084, ISSN: 1939-8018, DOI: 10.1007/s11265-014-0873-4
JOÃO DA SILVA GOMES ET AL: "Biological Brain and Binary Code: Quality of Coding for Face Recognition", 11 September 2012, ARTIFICIAL NEURAL NETWORKS AND MACHINE LEARNING ICANN 2012, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 427 - 434, ISBN: 978-3-642-33268-5, XP047019268
Attorney, Agent or Firm:
VUILLERMOZ, Bruno et al. (FR)
Download PDF:
Claims:
REVENDICATIONS

Dispositif d'extraction d'informations (10) à partir d'une image (12), le dispositif comportant :

une première couche simple (SI) comportant un banc de filtres (15) qui diffèrent par leurs tailles et/ou leurs orientations, chaque filtre (15) étant configuré pour filtrer l'image d'entrée (12, 14),

une première couche complexe (Cl) comportant un ensemble de filtres de maxima locaux réalisant un sous échantillonnage des images (17, 19) issues de la première couche simple (SI), chaque filtre étant configuré pour réduire par approximation la taille et/ou le nombre des images issues de la première couche simple (SI),

une seconde couche simple (S2) comportant un réseau de neurones, préalablement configuré par une phase d'apprentissage de motifs (21), chaque motif (21) étant intégré dans un ensemble de neurones, chaque neurone étant configuré pour déterminer un taux de correspondance (22) du motif préappris (21) avec l'ensemble des images (20) issues de la première couche complexe (Cl), et

une seconde couche complexe (C2) configurée pour déterminer une information (23) sur la probabilité d'apparition associée à chaque motif préappris (21) à partir de la détection du maximum du taux de correspondance (22) de chaque neurone intégrant le motif pré-appris (21),

caractérisé en ce que la première couche simple (SI) intègre des filtres (15) dont chaque coefficient (16) est codé sur un nombre de bits inférieur ou égal à 8 bits.

2. Dispositif d'extraction d'informations selon la revendication 1, caractérisé en ce qu'il comporte un organe de sous-échantillonnage (13) de l'image d'entrée (12) configuré pour limiter le codage des pixels de l'image d'entrée (12) et fournir une image d'entrée sous échantillonnée (14) à la première couche simple (SI) avec un codage inférieur ou égal à 8 bits. Dispositif d'extraction d'informations selon la revendication 2, caractérisé en ce que l'organe de sous-échantillonnage (13) de l'image d'entrée (12) est configuré pour limiter le codage des pixels de l'image d'entrée (12) avec un codage égal à 2 bits.

Dispositif d'extraction d'informations selon l'une des revendications 1 à 3, caractérisé en ce que la première couche simple (SI) intègre des filtres (15) dont chaque coefficient (16) est codé sur un seul bit correspondant à une commande.

Dispositif d'extraction d'informations selon l'une des revendications 1 à 4, caractérisé en ce que les filtres (15) de la première couche simple (SI) sont des filtres de Gabor.

Dispositif d'extraction d'informations selon l'une des revendications 1 à 5, caractérisé en ce que le réseau de neurones de la seconde couche simple (S2) est un réseau de neurones à fonction de base radiale.

Dispositif d'extraction d'informations selon l'une des revendications 1 à 6, caractérisé en ce qu'il comporte un organe de sous-échantillonnage (18) des images filtrées (17) configuré pour limiter le codage des pixels des images filtrées (17) et fournir une image d'entrée sous échantillonnée (19) à la première couche complexe (Cl) avec un codage inférieur ou égal à 8 bits.

Dispositif d'extraction d'informations selon la revendication 7, caractérisé en ce que l'organe de sous-échantillonnage (18) des images filtrées (17) est configuré pour limiter le codage des pixels des images filtrées (17) avec un codage égal à 4 bits.

Dispositif d'extraction d'informations selon l'une des revendications 1 à 8, caractérisé en ce que les filtres du banc de filtres (15) de la première couche simple (SI) diffèrent par leurs tailles et leurs orientations.

10. Dispositif d'extraction d'informations selon l'une des revendications 1 à 9, caractérisé en ce que les filtres d'approximation de la première couche complexe (Cl) sont configurés pour réduire par approximation la taille et le nombre des images issues de la première couche simple (SI).

Description:
DISPOSITIF D'EXTRACTION D'INFORMATIONS A PARTIR D'UNE IMAGE

DOMAINE TECHNIQUE

L'invention concerne un dispositif d'extraction d'informations à partir d'une image. L'information ainsi extraite peut ensuite être classifïée afin de réaliser une reconnaissance d'un élément de l'image, par exemple un objet, une personne ou un visage.

L'invention trouve une application particulièrement avantageuse dans les systèmes embarqués intégrants des moyens de reconnaissance à partir d'une image ou d'un flux d'images.

A RIE E-PLAN DE L'INVENTION

Au cours de la dernière décennie, les interactions entre les systèmes informatiques et leurs environnements se sont grandement développées pour deux raisons : le développement des moyens de capture d'image et le développement des moyens de reconnaissance. Par exemple, les robots ou les caméras intelligentes sont désormais capables de capturer une image, de reconnaître un ou plusieurs éléments de l'image et de réaliser une action en fonction de la présence ou non d'un ou plusieurs éléments. Afin que la décision soit la plus réactive possible, il est nécessaire que le temps de reconnaissance d'un ou plusieurs éléments soit le plus court possible. Cependant, pour que la décision soit la plus efficace possible, il est nécessaire que la reconnaissance soit également le plus fiable possible. Le problème majeur de la reconnaissance d'éléments dans une image est la variabilité de la présentation des éléments sur l'image. En effet, un élément connu peut être présenté à des distances plus ou moins proche du capteur et l'orientation angulaire de l'élément avec le capteur peut également varier. Ainsi, les dispositifs connus de reconnaissance d'éléments à partir d'une image mettent en œuvre des opérations successives consommatrices de mémoire et de taille de stockage. Les publications scientifiques « Distinctive Image Features from S cale-Invariant Keypoints » (Int. J. Comput. Vision, vol 60, No. 2, pp. 91-110, Nov. 2004), « Speeded- Up Robust Feature (SURF) » (Computer Vision and Image Understanding, vol. 110, no. 3, pp. 346-359, 2008) et «Rapid objet détection using a boosted cascade of simple features » (Proceeding of the 2001 IEEE Computer Society Conférence on Computer Vision and Pattern Récognition, 2001) décrivent des dispositifs de reconnaissance d'éléments à partir d'une image permettant d'isoler des éléments dans une image indépendamment de leurs tailles ou de leurs orientations en utilisant une succession de traitements d'images classiques. Ces dispositifs comportent des traitements d'images particulièrement rapides mais la fiabilité de la reconnaissance est faible, c'est-à-dire inférieure à 90%.

Une autre approche consiste à utiliser un réseau de neurones bio-inspiré pour réaliser cette reconnaissance. Ces dispositifs visent à reproduire le système de reconnaissance des neurones du système oculaire humain particulièrement performant. Ainsi, ces dispositifs permettent d'obtenir une fiabilité de reconnaissance très importante, c'est-à-dire supérieure à 90%. Cependant, ces dispositifs présentent une complexité beaucoup plus importante que les dispositifs de reconnaissance utilisant des traitements d'images classiques. Pour la plupart, ces dispositifs utilisent un dispositif d'extraction d'informations à partir d'une image permettant de détecter la présence et l'absence de différents motifs pré-appris dans une image. Un classifïeur est ensuite utilisé pour reconnaître des éléments de l'image en fonction de la présence ou non des motifs pré-appris. Ainsi, la complexité du traitement des images repose sur le dispositif d'extraction d'informations à partir de l'image.

La publication scientifique « Robust Object Récognition with Cortex-Like Mechanisms » (Pattern Analysis and Machine Intelligence, IEEE Transaction an, vol. 29, no. 3, pp. 411-426) décrit un dispositif d'extraction d'informations à partir d'une image (HMAX) particulièrement efficace. Ce dispositif HMAX présente une alternance de deux couches simples et de deux couches complexes. Une couche simple fait référence à un traitement linéaire des données issues de la couche précédente alors qu'une couche complexe fait référence à un traitement non-linéaire. Dans une première couche simple, le dispositif HMAX effectue une convolution de l'image d'entrée avec un banc de filtres de Gabor. A cet effet, chaque filtre de Gabor présente un noyau de convolution calculé à partir d'une courbe de Gauss associée à une sinusoïde orientée selon la formule suivante :

0(*, y) = exp (- ¾^) cos (^),

avec x Q = x cos Θ + y sin Θ, et y 0 =— x sin Θ + y cos 6.

Les paramètres de cette fonction de Gauss sont modulés afin d'obtenir différents noyaux de convolution. De préférence, les filtres de Gabor intègrent des noyaux de convolution de seize tailles différentes pour quatre orientations différentes. A cet effet, la variable y est fixée à 0.3 et les 16 tailles sont obtenues par une variation de la taille du noyau de convolution et des variables σ et δ. Le premier noyau présente une taille de 7x7 bits avec σ = 2.8 et δ = 3.5, le second noyau présente une taille de 9x9 bits avec σ = 3.6 et δ = 4.6 , le troisième noyau présente une taille de 11x11 bits avec σ = 4.5 et δ = 5.6... Chaque noyau de convolution de tailles différentes est ensuite modulé suivant quatre orientations différentes en modifiant les valeurs de Θ entre 0°, 45°, 90° et 135° de sorte à obtenir 64 filtres de Gabor qui diffèrent par leurs tailles et/ou leurs orientations. Dans chaque filtre de Gabor, chaque pixel traité correspond à une valeur positive ou négative déterminée par la fonction de Gauss associée à la sinusoïde. En outre, ces filtres de Gabor peuvent être déterminés indépendamment du contenu de l'image d'entrée.

L'image d'entrée est utilisée en convolution avec ces filtres de Gabor. Pour ce faire, le pixel central de chaque filtre de Gabor est déplacé sur chaque pixel de l'image. Pour chaque position du filtre de Gabor, chaque pixel de l'image est multiplié avec chaque valeur du pixel du filtre de Gabor recouvrant l'image. La somme de toutes ces multiplications est positionnée au niveau de la position du filtre de Gabor de sorte à former une nouvelle image filtrée de la même taille que l'image d'entrée. Les filtres de Gabor permettent d'obtenir 64 images filtrées, chaque image filtrée permettant d'isoler les contours de l'image d'orientation perpendiculaire à Θ et répondant à une certaine épaisseur qui dépend de la taille du noyau de convolution. Dans une première couche complexe, le dispositif HMAX effectue une approximation des images filtrées issues de la première couche simple deux à deux en considérant deux images filtrées de même orientation. Le premier filtre d'approximation compare les images filtrées issues des filtres de taille 7x7 et 9x9, le second filtre d'approximation compare les images filtrées issues des filtres de taille 11x11 et 13x13... Pour chaque filtre d'approximation, une fenêtre d'approximation est définie. Le premier pixel de cette fenêtre d'approximation est positionné sur le premier pixel des deux images filtrées et la valeur maximale contenue dans la fenêtre d'approximation des deux images est conservée. Cette fenêtre d'approximation est ensuite décalée d'un pas dépendant de la taille de la fenêtre d'approximation. La taille de la fenêtre d'approximation dépend de la taille du noyau de convolution du premier filtre de Gabor car plus la taille du noyau de convolution est importante, plus les éléments d'échelle importante sont mise en évidence. Ainsi, la taille de la fenêtre d'approximation est d'autant plus grande que la taille du noyau de convolution est importante. En pratique, pour les images filtrées issues des filtres de taille 7x7 et 9x9, la taille de la fenêtre d'approximation est de 8x8 et le pas est de 4 pixels, pour les images filtrées issues des filtres de taille 1 lxl 1 et 13x13, la taille de la fenêtre d'approximation est de 10x10 et le pas est de 5 pixels...

Les images en sortie de la première couche complexe présentent donc des dimensions différentes en fonction de la taille du filtre d'approximation. Le nombre d'images est divisé par deux, soit 32 images, et le nombre de pixels de chaque image est également réduit. La première couche complexe permet ainsi de créer une invariance des images filtrées par rapport à l'échelle et à la translation.

Dans une seconde couche simple, le dispositif HMAX présente un réseau de neurones de type fonction de base radiale comportant des fonctions gaussiennes. Ce réseau de neurones est préalablement configuré par une phase d'apprentissage de sorte à définir la largeur, l'écart-type et le centre de chaque gaussienne en fonction d'un motif spécifique avec une orientation et une taille propre. Le même motif est appris sur plusieurs neurones avec une variation de l'orientation et/ou de la taille du motif. Chaque neurone est connecté à toutes les images issues de la première couche complexe. Ainsi, chaque neurone de la seconde couche simple permet de déterminer un taux de correspondance entre les images issues de la première couche complexe et les motifs pré-appris en calculant une distance euclidienne entre les images issues de la première couche complexe et les motifs pré-appris.

Dans une seconde couche complexe, le dispositif HMAX détermine une information sur la probabilité d'apparition associée à chaque motif pré-appris à partir de la détection du maximum du taux de correspondance de chaque neurone intégrant le motif pré-appris.

L'ensemble de ces informations sont ensuite transmises à un classifieur, par exemple de type séparateur à vaste marge (en anglais « Support Vector Machine », SVM), apte à déterminer la présence ou non d'un élément dans l'image en fonction de la présence ou non des motifs pré-appris. Par exemple, si le dispositif d'extraction d'information indique qu'il y a une forte probabilité que l'image intègre deux roues, un rétroviseur et une fenêtre, le classifieur pourra déduire que l'image illustre une voiture.

Le dispositif d'extraction d'informations HMAX présente des performances particulièrement fiables au niveau de la reconnaissance d'éléments dans l'image. En outre, contrairement aux réseaux de neurones convolutionnels (également appelés CNN), il a été montré que pour une reconnaissance équivalente, il faut 100 fois plus d'images d'apprentissage pour le réseau de neurones convolutionnel CNN que pour le dispositif d'extraction d'informations HMAX. Ainsi, le processus l'apprentissage du dispositif d'extraction d'informations HMAX est particulièrement efficace.

Cependant, la première couche simple du dispositif HMAX est complexe à exécuter. En effet, la première couche simple comporte des filtres de Gabor pour quatre orientations différentes et seize échelles différentes soit un total de 64 filtres de Gabor différents. Cette première couche simple réalise un filtrage d'une image d'entrée de dimension W par H par un noyau de convolution de taille n par n sur lequel les filtres de Gabor sont appliqués, ce filtrage nécessite donc WHn 2 opérations. La complexité de cette première couche simple, c'est-à-dire le nombre d'opérations nécessaires pour cette couche, peut être déterminé par l'équation suivante :

C(51) = 4∑} 1 (W - n i ) (H - n i )n i 2 ;

dans laquelle les grandeurs W, H et n t sont, respectivement, la largeur et la hauteur de l'image d'entrée, et le côté d'un noyau de convolution de la i-ième échelle. En guise d'exemple numérique, avec les valeurs : W = H = 128, et n t = {7, 9, ... 37} , le nombre d'opérations est de C(51) = 361886784 opérations MAC (multiplication- accumulation), soit un total de 361886784 x 2 = 723773568 opérations, sur des flottants.

En outre, la formulation des coefficients des filtres de Gabor à partir d'une courbe de Gauss associée à une sinusoïde orientée induit une grande précision des coefficients des filtres de Gabor. Ainsi, le codage des coefficients de ces filtres de Gabor est classiquement effectué sur des nombres doubles flottants. Chaque opération est donc effectuée à partir d'au moins un nombre codé sur des doubles flottants avec un résultat codé sur des doubles flottants. Ainsi, toutes les opérations intervenant après la première couche simple sont également effectuées sur des nombres doubles flottants.

Le problème technique de l'invention est de réduire la complexité des opérations d'un dispositif d'extraction d'informations comportant une alternance de deux couches simples et de deux couches complexes.

EXPOSE DE L'INVENTION La présente invention est liée à une découverte des inventeurs qui a permis de montrer que, malgré la complexité de détermination des coefficients de la première couche simple, il est possible de réduire la taille d'encodage des coefficients des filtres de la première couche simple sans dégrader fortement les performances de reconnaissance d'un dispositif intégrant le dispositif d'extraction d'informations. Cette découverte est particulièrement contre intuitive dans le domaine des réseaux de neurones bio-inspirés comportant une alternance de deux couches simples et de deux couches complexes. En effet, il semblait évident que les performances du modèle HMAX était obtenue par la reproduction du modèle physiologique. Or, ce modèle physiologique est caractérisé par la précision de calcul des coefficients des filtres de Gabor. Ainsi, il était particulièrement contre-intuitif d'optimiser les performances du modèle HMAX en réduisant le codage des coefficients des filtres de la première couche simple.

Ainsi, l'invention concerne un dispositif d'extraction d'informations comportant une alternance de deux couches simples et deux couches complexes, la première couche simple intégrant des filtres dont chaque coefficient est codé sur un nombre de bits inférieur ou égal à 8 bits.

Plus précisément, l'invention concerne un dispositif d'extraction d'informations à partir d'une image, le dispositif comportant :

une première couche simple comportant un banc de filtres qui diffèrent par leurs tailles et/ou leurs orientations, chaque filtre étant configuré pour filtrer l'image d'entrée,

une première couche complexe comportant un ensemble de filtres de maxima locaux réalisant un sous échantillonnage des images issues de la première couche simple, chaque filtre étant configuré pour réduire par approximation la taille et/ou le nombre des images issues de la première couche simple,

- une seconde couche simple comportant un réseau de neurones, préalablement configuré par une phase d'apprentissage de motifs, chaque motif étant intégré dans un ensemble de neurones, chaque neurone étant configuré pour déterminer un taux de correspondance du motif pré-appris avec l'ensemble des images issues de la première couche complexe,

une seconde couche complexe configurée pour déterminer une information sur la probabilité d'apparition associée à chaque motif pré-appris à partir de la détection du maximum du taux de correspondance de chaque neurone intégrant le motif pré-appris,

- la première couche simple intégrant des filtres dont chaque coefficient est codé sur un nombre de bits inférieur ou égal à 8 bits. L'invention permet de réduire la complexité des opérations effectuées dans la première couche simple. Le codage des pixels des images filtrées en sortie de la première couche simple peut ainsi être maîtrisé limitant ainsi la complexité des opérations effectuées par les autres couches. L'invention permet ainsi d'augmenter la rapidité de calcul et de réduire la consommation de mémoire d'un dispositif d'extraction d'informations bio-inspiré.

En outre, la maîtrise du codage des pixels des images filtrées permet de limiter le codage des motifs pré-appris. Ainsi, l'invention permet de réduire la taille de stockage des motifs pré-appris. La réduction de la taille de codage des coefficients permet également de limiter la taille de stockage des filtres de la première couche simple.

Pour le même exemple numérique que précédemment, alors que l'image d'entrée présente une largeur et une hauteur de 128 pixels, le nombre d'opérations passe à 361886784 opérations sur des entiers codés sur 2 bits au lieu des 723773568 opérations sur des flottants.

Selon un mode de réalisation, le dispositif comporte un organe de sous- échantillonnage de l'image d'entrée configuré pour limiter le codage des pixels de l'image d'entrée et fournir une image d'entrée sous échantillonnée à la première couche simple avec un codage inférieur ou égal à 8 bits. La découverte des inventeurs a également permis de montrer qu'il est possible de réduire la précision de l'image d'entrée sans dégrader fortement les performances de reconnaissance d'un dispositif intégrant le dispositif d'extraction d'informations.

Ainsi, la complexité de traitement de l'image d'entrée est réduite. De préférence, l'organe de sous-échantillonnage de l'image d'entrée est configuré pour limiter le codage des pixels de l'image d'entrée avec un codage égal à 2 bits. Cette précision minimaliste réduit encore la complexité de traitement de l'image d'entrée.

Selon un mode de réalisation, la première couche simple intègre des filtres dont chaque coefficient est codé sur un seul bit, correspondant à une commande. Cette précision minimaliste réduit encore la complexité de traitement de l'image d'entrée. Cette commande correspond à un multiplexeur dirigeant les valeurs de l'image d'entrée vers un opérateur d'addition ou de soustraction.

Selon un mode de réalisation, les filtres sont des filtres de Gabor. Ce mode de réalisation est particulièrement efficace pour améliorer les performances de reconnaissance d'un dispositif intégrant le dispositif d'extraction d'informations.

Selon un mode de réalisation, le réseau de neurones de la seconde couche simple est un réseau de neurones à fonction de base radiale. Ce mode de réalisation est particulièrement efficace pour améliorer les performances de reconnaissance d'un dispositif intégrant le dispositif d'extraction d'informations.

Selon un mode de réalisation, le dispositif comporte un organe de sous- échantillonnage des images filtrées configuré pour limiter le codage des pixels des images filtrées et fournir une image d'entrée sous échantillonnée à la première couche complexe avec un codage inférieur ou égal à 8 bits. Ce mode de réalisation permet de réduire la complexité des opérations ultérieures à celles réalisées au niveau de la première couche simple. Selon un mode de réalisation, l'organe de sous-échantillonnage des images filtrées est configuré pour limiter le codage des pixels des images filtrées avec un codage égal à 4 bits. Ce mode de réalisation permet de réduire de manière minimaliste la complexité des opérations ultérieures à celles réalisées au niveau de la première couche simple sans dégrader fortement les performances de reconnaissance d'un dispositif intégrant le dispositif d'extraction d'informations.

Selon un mode de réalisation, les filtres du banc de filtres de la première couche simple diffèrent par leurs tailles et leurs orientations. Selon un mode de réalisation, les filtres de la première couche complexe sont configurés pour réduire par approximation la taille et le nombre des images issues de la première couche simple. DESCRIPTION SOMMAIRE DES FIGURES

Une manière de réaliser l'invention ainsi que les avantages qui en découlent, ressortiront bien du mode de réalisation qui suit, donné à titre indicatif mais non limitatif et dans lequel des références identiques désignent des éléments identiques ou analogues, à l'appui des figures annexées dans lesquelles les figures 1 à 5 représentent :

- Figure 1 : une représentation schématique d'un système de reconnaissance comportant un dispositif d'extraction d'informations selon un mode de réalisation de l'invention ;

- Figure 2 : une représentation en trois dimensions d'une courbe de Gauss associée à une sinusoïde orientée ;

- Figure 3 : une représentation d'un ensemble de 32 filtres de Gabor pour 8 orientations et 4 tailles différentes ;

- Figure 4 : une représentation schématique du filtrage de l'image d'entrée par un filtre de la première couche simple du dispositif de la Figure 1 ;

- Figure 5 : une représentation schématique de l'approximation des images filtrées par un filtre d'approximation de la première couche complexe du dispositif de la Figure 1 ; et

- Figure 6 : une représentation schématique d'une première couche simple du dispositif de la Figure 1 selon un mode de réalisation.

DESCRIPTION DÉTAILLÉE DE L'INVENTION

La Figure 1 illustre un système de reconnaissance comportant un dispositif d'extraction d'informations 10 selon l'invention. Le système de reconnaissance comporte un capteur d'images 11 dont chaque pixel est codé sur 8 bits. Le dispositif d'extraction d'informations 11 reçoit les images 12 du capteur d'images 11 afin d'extraire une information sur la présence ou non de motifs pré-appris 21. Un premier traitement de l'image d'entrée 12 est effectué par un organe de sous-échantillonnage 13 limitant la taille du codage de chaque pixel de l'image d'entrée 12. En sortie de l'organe de sous-échantillonnage 13, l'image d'entrée 12 conserve ses dimensions mais chaque pixel est codé sur un nombre de bits inférieur à 8 bits, par exemple 2 bits. L'image d'entrée sous échantillonnée 14 est ensuite traitée dans une première couche simple SI dans laquelle le dispositif 10 effectue une convolution de l'image 14 avec un banc de filtres de Gabor 15. Une couche simple fait référence à un traitement linéaire des données issues de la couche précédente alors qu'une couche complexe fait référence à un traitement non- linéaire.

A cet effet, chaque filtre de Gabor 15 présente un noyau de convolution dont les coefficients 16 sont calculés à partir d'une courbe de Gauss associée à une sinusoïde orientée selon la formule suivante :

0(*, y) = exp (- ¾^) cos (^),

avec x Q = x cos Θ + y sin Θ, et y 0 =— x sin Θ + y cos 6.

Un exemple de courbe de Gauss associé à une sinusoïde orientée est illustré sur la Figure 2. Les paramètres de cette fonction de Gauss sont modulés afin d'obtenir différents noyaux de convolution. Par exemple, la variable y est fixée à 0.3 et les 16 tailles sont obtenues selon le tableau suivant :

Taille du filtre σ δ

7x7 2.8 3.5

9x9 3.6 4.6

11x11 4.5 5.6

13x13 5.4 6.8

15x15 6.3 7.9

17x17 7.3 9.1

19x19 8.2 10.3

21x21 9.2 11.5

23x23 10.2 12.7

25x25 11.3 14.1

27x27 12.3 15.4

29x29 13.4 16.8

31x31 14.6 18.2

33x33 15.8 19.7

35x35 17.0 21.2

37x37 18.2 22.8 Chaque noyau de convolution de tailles différentes est ensuite modulé suivant quatre orientations différentes en modifiant les valeurs de Θ entre 0°, 45°, 90° et 135° de sorte à obtenir 64 filtres de Gabor qui diffèrent par leurs tailles et/ou leurs orientations. En variante, le nombre de filtres 15 et les paramètres de la fonction de Gauss peuvent varier sans changer l'invention. Par exemple, la Figure 3 illustre des noyaux de convolution obtenus pour quatre tailles différentes et huit orientations. En outre, le type de filtres 15 peut également varier sans changer l'invention, par exemple en utilisant des filtres de Roberts, des filtres de Sobel ou des filtres à ondelettes. Dans chaque filtre de Gabor 15 de la Figure 1, chaque pixel correspond à une valeur positive ou négative déterminée par la fonction de Gauss associée à la sinusoïde. Chaque pixel est calculé avec précision en utilisant la fonction de Gauss associée à la sinusoïde mais la valeur obtenue est codée sur un nombre de bits inférieur ou égal à 8 bits. En outre, ces filtres 15 peuvent être déterminés indépendamment du contenu de l'image d'entrée 12.

L'image 14 en sortie de l'organe de sous-échantillonnage 13 est utilisée en convolution avec ces filtres 15. Pour ce faire, le pixel central de chaque filtre 15 est déplacé sur chaque pixel de l'image 14. Tel qu'illustré sur la Figure 4, pour chaque position du filtre 15, chaque pixel de l'image 14 est multiplié avec chaque valeur du pixel du filtre 15 recouvrant l'image 14. La somme de toutes ces multiplications est positionnée au niveau de la position du filtre de sorte à former une nouvelle image filtrée 17 de la même taille que l'image d'entrée. Les filtres de Gabor permettent d'obtenir 64 images filtrées 17, chaque image filtrée 17 permettant d'isoler les contours de l'image d'orientation perpendiculaire à Θ et répondant à une certaine épaisseur qui dépend de la taille du noyau de convolution. Chaque image filtrée 17 est codée sur un nombre de bits inférieur ou égal à 8 bits. Un organe de sous-échantillonnage 18 disposé en sortie de la première couche simple SI limite la taille du codage de chaque pixel de l'image filtrée 17.

De préférence, tel qu'illustré sur la Figure 1, la valeur de chaque pixel est codée sur un seul bit dont le niveau 1 code la valeur 1, et dont le niveau 0 code la valeur -1. Ce mode de réalisation, particulièrement minimaliste, est illustré sur la figure 6. Si la fonction de Gauss associée à la sinusoïde donne une valeur positive pour le pixel considéré, le pixel sera codé à 1 et, si la fonction donne une valeur négative, le pixel sera codé à -1. Le calcul de chaque pixel de chaque image filtrée 17 sur la fenêtre considérée est réalisé par un opérateur 40 d'addition ou de soustraction. Si le coefficient 16 du filtre de Gabor 15 présente la valeur « 1 », le pixel de l'image filtrée 17 sera ajouté au résultat précédent. Si le coefficient 16 du filtre de Gabor 15 présente la valeur « -1 », le pixel de l'image filtrée 17 sera soustrait au résultat précédent. Cet opérateur 40 d'addition ou de soustraction est minimaliste et permet d'effectuer très rapidement les calculs associés à la première couche simple SI. En outre, les calculs de la première couche simple SI peuvent également être effectués en parallèle.

L'image filtrée sous échantillonnée 19 est ensuite traitée dans une première couche complexe Cl dans laquelle le dispositif 10 effectue une approximation des images filtrées 19 issues de la première couche simple SI deux à deux en considérant deux images filtrées 19 de même orientation. Le premier filtre d'approximation compare les images filtrées 19 issues des filtres de taille 7x7 et 9x9, le second filtre d'approximation compare les images filtrées 19 issues des filtres de taille 11x11 et 13x13... Pour chaque filtre d'approximation, une fenêtre d'approximation 30 est définie tel qu'illustré sur la Figure 5. Le premier pixel de cette fenêtre d'approximation 30 est positionné sur le premier pixel des deux images filtrées 19 et la valeur maximale contenue dans la fenêtre d'approximation 30 des deux images est conservée. Cette fenêtre d'approximation 30 est ensuite décalée d'un pas 31 dépendant de la taille de la fenêtre d'approximation 30 selon le tableau suivant :

Taille du filtre Taille du filtre de Taille du filtre de Pas

8x8 7x7 9x9 4

10x10 11x11 13x13 5

12x12 15x15 17x17 6

14x14 19x19 21x21 7

16x16 23x23 25x25 8

18x18 27x27 29x29 9

20x20 31x31 33x33 10

22x22 35x35 37x37 11 La taille de la fenêtre d'approximation 30 dépend de la taille du noyau de convolution du premier filtre de Gabor 15 car plus la taille du noyau de convolution est importante, plus les éléments d'échelle importante sont mise en évidence. Ainsi, la taille de la fenêtre d'approximation 30 est d'autant plus grande que la taille du noyau de convolution est importante.

Les images 20 en sortie de la première couche complexe Cl présentent donc des dimensions différentes en fonction de la taille du filtre d'approximation 30. Le nombre d'images est divisé par deux, soit 32 images, et le nombre de pixels de chaque image est également réduit. La taille de codage de chaque pixel reste inchangée. La première couche complexe Cl permet ainsi de créer une invariance des images filtrées par rapport à l'échelle et à la translation.

Les images 20 en sortie de la première couche complexe Cl sont ensuite traitées dans une seconde couche simple S2 dans laquelle le dispositif 10 comporte un réseau de neurones préalablement configuré par une phase d'apprentissage. De préférence, ce réseau de neurones correspond à un réseau de neurones de type fonction de base radiale comportant des fonctions gaussiennes. Ainsi, la phase d'apprentissage consiste à définir la largeur, l'écart-type et le centre de chaque gaussienne en fonction d'un motif 21 spécifique avec une orientation et une taille propre. Le même motif 21 est appris sur plusieurs neurones avec une variation de l'orientation et/ou de la taille du motif 21. Chaque neurone est connecté à toutes les images 20 issues de la première couche complexe Cl. Chaque neurone de la seconde couche simple S2 permet de déterminer un taux de correspondance 22 entre les images 20 issues de la première couche complexe Cl et les motifs pré-appris 21 en calculant une distance euclidienne entre les images 20 issues de la première couche complexe Cl et les motifs pré-appris 21. Dans le cas de la Figure 1, le taux de correspondance 22 est codé sur 17 bits. Dans une seconde couche complexe C2, le dispositif 10 détermine une information 23 sur la probabilité d'apparition associée à chaque motif pré-appris 21 à partir de la détection du maximum du taux de correspondance 22 de chaque neurone intégrant le motif pré-appris 21. Dans le cas de la Figure 1, l'information 23 est également codée sur 17 bits. L'ensemble de ces informations 23 sont ensuite transmisses à un classifîeur 25, par exemple de type séparateur à vaste marge (en anglais « Support Vector Machine », SVM), apte à déterminer la présence ou non d'un élément dans l'image en fonction de la présence ou non des motifs pré-appris 21.

Par exemple, si le dispositif d'extraction d'informations indique qu'il y a une forte probabilité que l'image intègre deux roues, un rétroviseur et une fenêtre, le classifîeur 25 pourra déduire que l'image illustre une voiture. En outre, le classifîeur 25 utilise également les motifs non présents pour effectuer la reconnaissance. Par exemple, si une branche n'est pas présente sur une image et qu'un tronc et des racines sont détectés, le classifîeur 25 peut conclure que l'image ne décrit pas un arbre.

L'invention permet ainsi d'améliorer la rapidité d'un dispositif bio-inspiré d'extraction d'informations 10 à partir d'une image 12 en réduisant la complexité des calculs. En outre, l'invention permet également de réduire la taille de stockage des coefficients 16 des filtres 15 de la première couche simple SI et des motifs préappris 21.