Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR THE SUPERVISED CLASSIFICATION OF CELLS INCLUDED IN MICROSCOPY IMAGES
Document Type and Number:
WIPO Patent Application WO/2013/104862
Kind Code:
A1
Abstract:
The invention relates to a method for the supervised classification of cells included in a first and a second different format of microscopy images, said method comprising the following steps: a preprocessing step carried out on the basis of the first and second different formats of images and aimed at characterizing their visual content pertaining to the cells and at transforming said content into numerical data; and a step comprising the execution of a code relating to a UNN algorithm, aimed at processing said numerical data.

Inventors:
BARLAUD MICHEL (FR)
Application Number:
PCT/FR2013/050048
Publication Date:
July 18, 2013
Filing Date:
January 09, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV NICE SOPHIA ANTIPOLIS (FR)
International Classes:
G06V10/764
Other References:
BENGTSSON E ET AL: "ROBUST CELL IMAGE SEGMENTATION METHODS", PATTERN RECOGNITION. IMAGE ANALYSIS, ALLEN PRESS, LAWRENCE, KS, US, vol. 14, no. 2, 1 April 2004 (2004-04-01), pages 157 - 167, XP009063231, ISSN: 1054-6618
AMIN ALLALOU ET AL: "Image Based Measurements of Single Cell mtDNA Mutation Load", 10 June 2007, IMAGE ANALYSIS : 15TH SCANDINAVIAN CONFERENCE, SCIA 2007, AALBORG, DENMARK, JUNE 10 - 14, 2007 ; PROCEEDINGS; [LECTURE NOTES IN COMPUTER SCIENCE;;LNCS], SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 631 - 640, ISBN: 978-3-540-73039-2, XP019080716
BEL HAJ ALI WAFA ET AL: "Biological cells classification using bio-inspired descriptor in a boosting k-NN framework", COMPUTER-BASED MEDICAL SYSTEMS (CBMS), 2012 25TH INTERNATIONAL SYMPOSIUM ON, IEEE, 20 June 2012 (2012-06-20), pages 1 - 6, XP032226989, ISBN: 978-1-4673-2049-8, DOI: 10.1109/CBMS.2012.6266359
PAOLO PIRO ET AL: "Leveraging-NN for generic classification boosting", NEUROCOMPUTING, vol. 80, 17 November 2011 (2011-11-17), pages 3 - 9, XP028356703, ISSN: 0925-2312, [retrieved on 20111117], DOI: 10.1016/J.NEUCOM.2011.07.026
PAOLO PIRO ET AL: "Multi-class Leveraged Î -NN for Image Classification", 8 November 2010, COMPUTER VISION Â ACCV 2010, SPRINGER BERLIN HEIDELBERG, BERLIN, HEIDELBERG, PAGE(S) 67 - 81, ISBN: 978-3-642-19317-0, XP019160538
RODENACKER K ET AL: "A feature set for cytometry on digitized microscopic images", ANALYTICAL CELLULAR PATHOLOGY, ELSEVIER SCIENCE, AMSTERDAM, NL, vol. 25, no. 1, 1 January 2003 (2003-01-01), pages 1 - 36, XP002342835, ISSN: 0921-8912
MARINA E PLISSITI ET AL: "Combining shape, texture and intensity features for cell nuclei extraction in Pap smear images", PATTERN RECOGNITION LETTERS, vol. 32, no. 6, 8 November 2010 (2010-11-08), pages 838 - 853, XP028182464, ISSN: 0167-8655, [retrieved on 20110122], DOI: 10.1016/J.PATREC.2011.01.008
O'GORMAN L., SAMMON. M.J., SEUL M.: "Practical Algorithms for Image Analysis", 2008, CAMBRIDGE UNIVERSITY PRESS, CAMBRIDGE, UK, article "3.10 Binarization", pages: 118 - 121, XP002680753
Attorney, Agent or Firm:
BETHENOD MARC (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé de classification supervisée de cellules, lesdites cellules étant contenues dans un ensemble d' images multimodales ou multiparamétriques d'au moins un échantillon susceptible de comprendre des cellules nucléées, lesdites images multimodales ou multiparamétriques résultant de la superposition d'un premier format d'image de microscopie dudit échantillon et d'un deuxième format d'image de microscopie dudit échantillon, lesdites images multimodales ou multiparamétriques étant produites ou converties en fichiers de données numériques et stockées dans une mémoire ou une base de données ; caractérisé en ce qu' il comprend les étapes suivantes : - prétraitement comportant o une étape de détection de cellules comprenant une étape consistant à identifier l'emplacement des cellules ou des régions cellulaires dans l'image de premier format d'un échantillon; o constitution d'un masque à partir des cellules ou des régions cellulaires détectées ; o superposition de ce masque à l'image du même échantillon selon le deuxième format d' image ; o segmentation de l'image résultante de cette superposition ;

- extraction d'un descripteur par cellule détectée, chaque descripteur correspondant aux différences de contraste du contenu visuel de chaque cellule ou région segmentée des cellules de l'image segmentée ; et - classification de la cellule segmentée dans une classe (c) prédéterminée par application d'une règle de classification à chaque descripteur.

2. Procédé selon la revendication 1, caractérisé en ce que ladite étape de détection comporte les sous-étapes de :

- vérification consistant à valider les régions cellulaires identifiées dans le premier format d' image se trouvant également dans le deuxième format d'image, et - conservation des régions cellulaires vérifiées dont la moyenne d' intensité est suffisamment grande par rapport à la moyenne d' intensité du contenu entier du premier format d' image .

3. Procédé selon la revendication 1 ou 2, caractérisé en ce que ladite étape de segmentation consiste en une application d'un algorithme de ligne de partage des eaux au résultat de la superposition.

4. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que l'étape d'extraction comprend un encodage du contenu de chaque segmentation de régions cellulaires détectées à partir de descripteurs définissant les textures de ce contenu.

5. Procédé selon la revendication 4, caractérisé en ce que l'étape d'extraction comprend la concaténation d'histogrammes de contraste. 6. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que le premier et deuxième format différent d' images se rapporte respectivement à une image dite du noyau et une image de fixation.

7. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'étape consistant à identifier l'emplacement des cellules ou des régions cellulaires dans l'image de premier format d'un échantillon est mise en œuvre par des opérateurs morphologiques.

8. Procédé selon l'une quelconque des revendications précédentes, comprenant

- une étape de filtrage par différence de gaussienne (DOG) consistant à calculer le coefficient de contraste (Cim) pour chaque position (x, y) d'une image (Im) multimodale ou multiparamétrique à une échelle (s) selon la relation suivante :

une étape d'enregistrement desdits coefficients de contraste dans une mémoire.

9. Procédé selon l'une quelconque des revendications précédentes, dans lequel l'étape de classification comprend une étape consistant à appliquer aux descripteurs extraits une règle de classification qui approxime la classe à laquelle appartient une cellule donnée d'une image donnée selon le classificateur multi classes à effet de levier h te l ¾ue fi{xq) ==∑, t jL.K(x<],xj)yjc 10. Programme d'ordinateur comprenant des instructions de code de programme pour la mise en œuvre du procédé selon l'une quelconque des revendications précédentes lorsque ledit programme est exécuté sur un ordinateur.

Description:
Procédé de classification supervisée de cellules comprises dans des images de microscopie

DOMAINE TECHNIQUE DE L'INVENTION [001] La présente invention concerne un procédé de classification supervisée de cellules comprises dans des images pouvant être multimodales ou multiparamétriques et provenant par exemple de microscopes.

[002] Par image multimodale ou multiparamétrique, on entend l'image résultant de l'acquisition de différentes images mises en correspondance et relatives à un même échantillon, obtenues par exemple par différentes techniques d'imagerie, ou par une même technique d' imagerie avec des niveaux d'énergie ou de longueur d'onde différentes, éventuellement simultanément.

[003] Par classification supervisée on entend, dans le domaine de l'apprentissage automatique (« machine learning » par anglicisme) une technique dans laquelle des images d'une base de données d'images sont classées automatiquement, à partir d'une base de données d'apprentissage contenant des exemples annotés par un expert et de règles de classification.

[004] En intelligence artificielle, l'analyse d'un système complexe nécessite une étape de classification qui vise à classifier, en quelque sorte à étiqueter, chaque donnée extraite du système en l'associant à une classe.

[005] En apprentissage supervisé, les classes sont prédéterminées, les exemples sont connus, au moins certains exemples sont préalablement étiquetés, et le système apprend à classer selon un modèle de classement. ETAT DE LA TECHNIQUE ANTERIEURE

[006] Grâce aux évolutions technologiques de ces dernières années dans le domaine de l'imagerie cellulaire, de plus en plus de phénomènes biologiques peuvent aujourd'hui être étudiés ou de mieux en mieux.

[007] La plupart de ces techniques comprennent des analyses simultanées de plus d'un paramètre utilisant différentes sondes .

[008] Mais les effets biologiques d'un même phénomène sur une population de cellules peuvent être hétérogènes. Par exemple, un changement peut se produire avec une intensité différente dans plusieurs cellules ou dépendre de l'expression de certaines protéines. Dès lors, des analyses statistiques sur de grandes populations de cellules, plus d'un millier par exemple, deviennent nécessaires.

[009] Des techniques de l'état de l'art telles que la cytométrie en flux permettant de faire défiler des cellules à grande vitesse dans un faisceau laser, en les comptant et en les caractérisant, sont des outils bien utiles pour la réalisation de telles analyses.

[0010]Ces techniques sont particulièrement adaptées pour la réalisation d'analyses puissantes sur un grand nombre de cellules isolées, mais ne peuvent être utilisées dans le cadre de localisation subcellulaire ou lorsque l'analyse doit être effectuée pour un groupement de cellules, par exemple pour une section de tissu.

[0011]Par ailleurs, on connaît dans l'état de l'art des appareils d'imagerie cellulaire à haut-débit tels que de puissants microscopes capables de produire des milliers d'images multimodales ou multiparamétriques , pouvant être utilisés notamment lors de recherches incluant de nombreuses conditions expérimentales ou d'échantillons. [0012]Cependant , le nombre important d'images produites dans le cadre de ces recherches requiert de puissants dispositifs pour la mise en œuvre de leur analyse et leur classification.

[0013]Une telle analyse exige en particulier une identification des cellules afin de pouvoir effectuer une classification de celles-ci.

[0014] !/ état de l'art consiste à utiliser une classification non supervisée c'est-à-dire en fonction de critères relatifs à leur aspect morphologique, à l'intensité de la coloration ou encore la localisation subcellulaire.

[0015]On comprend dès lors qu'un inconvénient majeur de l'art antérieur réside dans le fait qu'il est difficile d'effectuer une classification précise de cellules dès lors qu'elle porte sur un grand nombre d'entre elles et que les critères prédéterminés ne sont pas suffisamment discriminants comparés à ceux d'un expert qui font appel à de multiples facteurs de décision liés à son expérience.

[0016]Une solution usuelle est en effet d'avoir recours à un opérateur humain expérimenté, voire plusieurs, pour réaliser une telle classification de cellules.

[0017] Toutefois , l'inconvénient majeur d'une telle solution est d'être chronophage mais surtout peu reproductible.

[0018]En effet, le nombre de cellules à classer est souvent de l'ordre de plusieurs dizaines de milliers voire de millions de cellules et rend alors le comptage irréalisable par un expert humain. De plus la variabilité de la classification intra et inter-opérateurs rend l'évaluation humaine peu reproductible et peu fiable. EXPOSE DE L' INVENTION

[0019]L' invention vise à résoudre le problème lié aux difficultés techniques rencontrées dans l'identification et la classification cellulaire portant sur un nombre important de cellules.

[0020]Dans ce dessein, un aspect de l'invention se rapporte à un procédé de classification supervisée de cellules, lesdites cellules étant contenues dans un ensemble d' images multimodales ou multiparamétriques d'au moins un échantillon susceptible de comprendre des cellules nucléées, lesdites images multimodales ou multiparamétriques résultant de la superposition d'un premier format d'image de microscopie dudit échantillon et d'un deuxième format d'image de microscopie dudit échantillon, et lesdites images multimodales ou multiparamétriques étant produites ou converties en fichiers de données numériques et stockées dans une mémoire ou une base de données, le procédé comprenant les étapes suivantes :

- prétraitement comportant o une étape de détection de cellules comprenant une étape consistant à identifier l'emplacement des cellules ou des régions cellulaires dans l'image de premier format d'un échantillon; o constitution d'un masque à partir des cellules ou des régions cellulaires détectées ; o superposition de ce masque à l'image du même échantillon selon le deuxième format d' image ; o segmentation de l'image résultante de cette superposition ; - extraction d'un descripteur par cellule détectée, chaque descripteur correspondant aux différences de contraste du contenu visuel de chaque cellule ou région segmentée des cellules de l'image segmentée ; et

- classification de la cellule segmentée dans une classe

(c) prédéterminée par application d'une règle de classification à chaque descripteur.

[0021] Selon des modes de réalisation particuliers utilisables seuls ou en combinaison :

- ladite étape de détection comporte les sous-étapes de : o érification consistant à valider les régions cellulaires identifiées dans le premier format d' image se trouvant également dans le deuxième format d'image, et o conservation des régions cellulaires vérifiées dont la moyenne d' intensité est suffisamment grande par rapport à la moyenne d'intensité du contenu entier du premier format d' image ;

- ladite étape de segmentation consiste en une application d'un algorithme de ligne de partage des eaux au résultat de la superposition ; - l'étape d'extraction comprend un encodage du contenu de chaque segmentation de régions cellulaires détectées à partir de descripteurs définissant les textures de ce contenu ;

- l'étape d'extraction comprend la concaténation d'histogrammes de contraste ;

- le premier et deuxième format différent d' images se rapporte respectivement à une image dite du noyau et une image de fixation ;

- l'étape consistant à identifier l'emplacement des cellules ou des régions cellulaires dans l'image de premier format d'un échantillon est mise en œuvre par des opérateurs morphologiques ;

- le procédé comprend en outre : une étape de filtrage par différence de gaussienne (DOG) consistant à calculer le coefficient de contraste (Ci m ) pour chaque position (x, y) d'une image (Im) multimodale ou multiparamétrique à une échelle (s) selon la relation suivante :

? , et - une étape d'enregistrement desdits coefficients de contraste dans une mémoire. l'étape de classification comprend une étape consistant à appliquer aux descripteurs extraits une règle de classification qui approxime la classe à laquelle appartient une cellule donnée d'une image donnée selon le classificateur multi classes à effet de levier h

[0022]: Selon un second aspect de l'invention, un programme d' ordinateur comprend des instructions de code de programme pour la mise en œuvre du procédé ci-dessus lorsque le programme est exécuté sur un ordinateur.

BREVE DESCRIPTION DES FIGURES

[0023]: D'autres caractéristiques et avantages de l'invention ressortiront à la lecture de la description qui suit, en référence aux figures annexées :

Figure 1 représente un organigramme se rapportant au procédé de classification selon un mode de réalisation de 1 ' invention, - Figure 2 illustre l'étape d'apprentissage du procédé selon un mode de réalisation de l'invention. DESCRIPTION DETAILLEE D ' UN MODE DE REALISATION

[0024] : Légendes des figures 1 et 2

1 : Etape de détection ;

2 : Segmentation de noyau ; Légendes des figures 1 et 2

3 : Segmentation cellulaire ;

4 : Classification ;

5 : Base de données de cellules ;

6 : Base de données d' images de fixation ;

7 : Base de données d' images de noyau ;

8 : Base de données de test ;

9 : Base de données d'apprentissage ;

10 : Descripteurs bio-inspiré ;

11 : Descripteurs bio-inspiré ;

12 : Apprentissage ;

13 : Classification ;

14 : Validation ;

15 : Coefficients d histogrammes de contrastes ;

16 : Prototypes pondérés.

[0025]Comme exposé précédemment, il est parfois nécessaire d'étudier une population de cellules (animales, humaines ou végétales) de plusieurs milliers à centaines de milliers de cellules individuelles.

[0026]Dans ce cadre, les techniques actuelles permettent de produire des images multimodales ou multiparamétriques de la population de cellules, ce qui revient à produire un nombre considérable d' images à analyser, chaque image pouvant comprendre une ou plusieurs cellules nucléées.

[0027]Les images multimodales ou multiparamétriques de la population de cellules sont produites par exemple par un microscope, par exemple pour être traitées à la volée, ou stockées dans une ou plusieurs mémoires. [0028] !/ incapacité humaine à traiter de tels volumes de données et le besoin de reproductibilité de la méthode d'analyse cadrent le contexte de la présente invention.

[0029]Ainsi que l'illustre la figure 1, dans un mode de réalisation de l'invention, le procédé de classification supervisée de cellules comprises dans deux formats d' images différents comprend une étape de prétraitement réalisée à partir des deux formats d'images d'un même échantillon susceptible de comprendre des cellules nucléées. [0030]Dans un mode de réalisation, le premier format d'image correspond à l'image de l'échantillon obtenue avec une première technique d'imagerie, et le deuxième format d'image correspond à l'image du même échantillon obtenue avec une deuxième technique d'imagerie, différente de la première. [0031]Dans un mode de réalisation, le premier format d'image correspond à l'image de l'échantillon obtenue avec une technique d'imagerie selon un premier niveau d'énergie, et le deuxième format d'image correspond à l'image du même échantillon obtenue avec la même technique d' imagerie selon un deuxième niveau d'énergie.

[0032]Par exemple, l'image prétraitée est une image multimodale ou multiparamétrique de microscopie en fluorescence obtenue à partir d'un même échantillon sous deux niveaux d'énergie. [0033] Dans le cadre de ce prétraitement, le premier format d' image se rapporte à une image dont le contenu comprend essentiellement des noyaux de cellules qui sont ici mis en évidence. Une telle image est nommée « image de noyau ». Les images de noyau sont produites ou converties en fichier de données numériques et stockées dans une base de données.

[0034]Le second format d'image correspond à une image du même échantillon que l'image de noyau, mais dont le contenu se rapporte à une vue globale des cellules dont les noyaux sont mis en évidence dans « l'image de noyau ». Une telle image est ici nommée « image de fixation ». Cette image comporte les informations utiles pour la classification et correspond à un format d' image qui permet par exemple d' identifier la fixation d'un marqueur telle qu'une protéine dans une zone de la cellule. Les images de fixation sont produites ou converties en un fichier de données numériques et stockées dans une base de données. [0035]De préférence, les images de noyau et les images de fixation sont acquises avec la même géométrie, la même taille d'image. Si ce n'est pas le cas, on prévoit une étape de traitement de l'une des deux images de sorte que le second format d' image soit directement superposable au premier format d'image.

[0036]L' étape de prétraitement vise à caractériser le contenu visuel se rapportant aux cellules présentes dans ces deux formats d'images, ce contenu étant converti en données numériques . [0037] Pour ce faire, cette étape de prétraitement comporte une étape de détection de cellules (qui peuvent être déformées entre les plaques du microscope) dans le premier format d'image, l'image de noyau.

[0038]Cette étape de détection de cellules comprend une étape consistant à identifier l'emplacement des cellules ou des régions cellulaires dans l'image de noyau, et ensuite à vérifier que ces emplacements sont fiables.

[0039]A cet effet, on prévoit de localiser dans l'image de noyau les régions de son contenu qui sont susceptibles de se rapporter à des cellules, par exemple par un traitement particulier mettant en œuvre des opérateurs morphologiques, réalisé sur cette image de noyau. On peut prévoir dans un premier temps, de convertir l'image de noyau en une image binaire par seuillage automatique. Cette image binaire est alors traitée par des opérateurs morphologiques classiques.

[0040]Les cellules ou régions cellulaires détectées constituent un masque logique de régions cellulaires, permettant une étape de filtrage, en l'espèce uniquement des cellules. On prévoit alors une étape de superposition consistant à superposer le masque à une image gradient préalablement déterminée de l'image de fixation correspondante, c'est-à-dire que l'on superpose le masque obtenu par l'image de noyau d'un échantillon à l'image de fixation du même échantillon, où par « image gradient », on entend l'opérateur de dérivée première appliqué aux valeurs de l'intensité de l'image. De manière connue, on peut prévoir que l'image gradient est la dérivée première appliquée aux pixels de l'image considérée.

[0041]On prévoit alors une étape de segmentation dans laquelle un algorithme de ligne de partage des eaux est appliqué à l'image résultante de cette superposition, de sorte à obtenir une image segmentée. [0042]Une fois la segmentation effectuée, une étape d'extraction des descripteurs des cellules de l'image segmentée est alors mise en œuvre. Cette étape d'extraction vise à encoder le contenu visuel de chaque cellule ou région segmentée à partir de descripteurs représentant les cellules de l'image segmentée, comme décrit ultérieurement.

[0043]Par descripteurs, on entend des descripteurs au sens de l'apprentissage supervisé, c'est-à-dire permettant un changement de représentation.

[0044] Pour déterminer l'appartenance d'une image segmentée à une classe prédéfinie, on fait l'approximation selon laquelle il existe une fonction ou un algorithme (décrit ultérieurement) qui, appliquée aux descripteurs d'une image segmentée donnée, permet d'en déduire la classe d'appartenance. Le choix des descripteurs est donc important.

[0045]En l'espèce, les descripteurs définissent les différences de contraste du contenu visuel de chaque cellule ou région segmentée. Par « différence de contraste » on entend, de manière connue, la dérivée seconde des valeurs de l'intensité de l'image segmentée. On peut prévoir la dérivée seconde par rapport à l'espace (c'est-à-dire des pixels de l'image), au temps ou les deux. Les descripteurs représentent de manière compacte la différence de contraste localisée à l'intérieur d'une région cellulaire et également celle située à la frontière d'une cellule : pour une cellule correspond un descripteur. Une image segmentée comprenant N cellules ou régions cellulaires est encodée lors de l'étape d'extraction à partir de N descripteurs : à un descripteur correspond une cellule et vice versa. L'avantage de la présente solution est qu'un contraste est positif, alors qu'un gradient de l'art antérieur est signé (positif ou négatif) . En outre, une telle représentation par contraste se rapproche du fonctionnement de la rétine.

[0046]Ainsi, pour définir le descripteur d'une cellule ou d'une région cellulaire donnée d'une image segmentée donnée, on prévoit une étape de division consistant à diviser ladite cellule ou d'une région cellulaire donnée en sous régions, en l'espèce correspondant : à la membrane, au cytoplasme et au noyau de la cellule. Cette étape de division est typiquement mise en œuvre par des opérateurs morphologiques connus.

[0047]On notera que, dans une cellule, on trouve le noyau, le cytoplasme et la membrane. Or comme la membrane est de taille nulle, on l'associe au cytoplasme. Il y a donc trois entités, mais on ne considère que deux régions, l'une des régions regroupant la membrane et le cytoplasme. [0048]On prévoit ensuite une étape de filtrage desdites sous régions. En l'espèce, on met en œuvre un filtrage par différence de gaussienne (DOG) appliqué à ces sous régions à plusieurs échelles différentes, de sorte à créer des détails de différences de contraste à différentes résolutions spatiales. Cette création de détails de contraste à différentes résolutions spatiales permet de réaliser une représentation du contraste telle qu'elle est susceptible d'être vue par la vision humaine. Par exemple, on prévoit à quatre échelles différentes.

[0049]A cet effet, on prévoit une étape consistant à définir des coefficients de contraste local, pour chaque sous région.

[0050]Le coefficient de contraste Ci m pour chaque position (x, y) d'une image Im à une échelle s est donné selon la relation suivante :

[0051]Les valeurs calculées des coefficients de contraste sont enregistrées dans une mémoire.

[0052]Ensuite, on applique une fonction de transfert limitée R, dite cadence de tir, pour chaque valeur de coefficient de contraste Ci m telle que R (Ci m ) ( 1+Ref*G*Ci m ) , où G est le gain de contraste, de préférence égal à 2000 Hz/contraste et Ref la période réfractaire, approximant l'intervalle de temps pendant lequel un neurone réagit, et de préférence égale à 0.005 secondes. [0053]Les valeurs de cadence de tir calculées R(Ci m ) sont enregistrées dans une mémoire.

[0054]Pour chaque sous-région, les valeurs de cadence de tir calculées R(Ci m ) sont quantifiées en histogrammes normalisés puis concaténées. [0055]L' étape de calcul du descripteur de chaque cellule est ainsi réalisée par la concaténation des histogrammes de contrastes sur les sous régions calculées aux échelles considérées, créant ainsi un descripteur visuel résultant unique, spécifique d'une cellule.

[0056]Ce type de descripteur offre l'avantage de consommer des ressources matérielles du système susceptible de le mettre en œuvre très inférieures à celles des mécanismes de l'état de l'art utilisant des histogrammes de direction de gradient sur des blocs de pixels, car les blocs de pixels sont beaucoup plus petits que les régions et n'ont pas de sens physique pour les cellules. [0057]Dès lors, les histogrammes sont directement calculés sur les régions cellulaires segmentées et ces histogrammes constituent les descripteurs de ces cellules.

[0058]Cette étape de calcul permet d'obtenir, pour une cellule ou une région cellulaire donnée d'une image segmentée donnée, un descripteur bio-inspiré subcellulaire basé région, c'est- à-dire que le calcul des coefficients de contraste et leur concaténation en histogrammes donne des résultats d'inspiration biologique proches de la vision humaine, à des niveaux de sous régions de cellules, par exemple la membrane, le noyau et le cytoplasme.

[0059]Les descripteurs selon l'invention représentent donc les cellules, de façon similaire à un œil humain.

[0060]Chaque image est ainsi associée à un ou plusieurs descripteurs, un seul descripteur si l'image ne contient qu'une cellule et autant de descripteurs que l'image contient de cellules.

[0061]Pour pouvoir classer les images, ou plus exactement classer les cellules contenues dans les images, il convient alors de mettre en œuvre une étape de traitement consistant à appliquer à ces descripteurs une règle de classification, c'est-à-dire une fonction ou un algorithme, qui approxime la classe à laquelle appartient une cellule donnée d'une image donnée . [0062]Ainsi, une image à N cellules peut être classée (au maximum) dans N classes.

[0063] Pour classer une cellule donnée comprise dans une image donnée, lors de l'étape de traitement, un ordinateur, c'est- à-dire un équipement informatique de traitement automatique de données susceptible de mettre en œuvre le procédé, exécute à partir de ses moyens de traitement - microprocesseur et moyens de mémoire - un code de programme codant ladite règle de classification appliqué aux descripteurs de la cellule donnée.

[0064]A partir des histogrammes qui représentent une image, on s'en sert pour discriminer une image. La façon de le faire est la suivante : on calcule une distance entre les histogrammes, on se sert de ce calcul pour dire de quelle cellule on est le plus proche. Par exemple, si on a xi, yi deux images avec i variant de 1 à m (nombre de composants) . Quelle que soit xi et yi on a la formule suivante qui est calculée pour trouver la distance entre ces deux images : (sigma (xi-yi) 2 )/m. [0065]Le tri se fait par rapport aux distances les plus courtes .

[0066]On définit par c une classe parmi un ensemble de C classes prédéterminées ; soit c = 1, 2, C.

[0067]Pour chaque cellule, on définit un degré d'appartenance (ou score) positif ou négatif de celle-ci à chacune des classes c. On sélectionne alors la classe dont le degré d'appartenance est le plus élevé et on considère que la cellule appartient à la classe c sélectionnée.

[0068]On prévoit ensuite de comptabiliser le nombre de cellules dans chacune des classes. Ce qui permet par exemple de faire des comparaisons du nombre de cellules entre au moins deux classes. De même, on peut prévoir de réitérer le procédé dans le temps, ce qui permet de comparer le nombre de cellules dans une classe donnée à un instant t donné au nombre de cellules dans la même classe donnée à un autre instant t+dt, donc de suivre l'évolution dans le temps du nombre de cellules dans un classe prédéterminée.

[0069]La règle de classification est codée dans le programme d'ordinateur selon l'algorithme suivant, qui est une généralisation de la méthode des K plus proches voisins (k- NN) selon le classificateur multi classes à effet de levier

, ; suivant :

[0070]

'/·

hi(x () ) = £ a K(x q .X j )y ]C

' ;=1

avec :

- (¾ C : des coefficients à effet de leviers, dépendants de la classe c, qui correspondent aux coefficients de classification linéaire des prototypes et qui fournissent une règle de vote pondéré au lieu d'un vote uniforme ;

- X q : un coefficient qui désigne la requête, c'est-à- dire la requête d'appartenance d'une cellule d'une image donnée à une classe c donnée;

- Xj : un coefficient qui désigne le descripteur du prototype ;

- _) j C : est le label, défini par un expert, du prototype

(positif/négatif ) appartenant à la classe c ;

- T: correspond à la taille de l'ensemble des prototypes qui sont autorisés à voter ;

- K{. , .) : est un poids associé au rang du j eme k-NN pour la requête X q . NN k ( i ) désigne le k-plus proches voisins du prototype X±.

est le score d'appartenance de l'image Xq à la classe c.

[0071]On a donc ici le descripteur Xq, h le classifiant et c la classe. Et pour la classe c, c'est le score le / plus grand qui est élu.

[0072]Le résultat obtenu grâce à l'application de la règle de classification A c (X q > permet alors de réaliser le classement de la cellule (la classe retenue est celle qui obtient le meilleur score) , afin de la stocker dans une base de données de cellules.

[0073]Le procédé décrit est un procédé de classification supervisée qui requiert par conséquent dans le cadre de son fonctionnement une étape d'apprentissage.

[0074]En référence à la figure 2, cette étape d'apprentissage permet d'améliorer la pertinence de la classification à partir du calcul de prototypes d'un classificateur supervisé résultant de cellules annotées par un expert en minimisant une fonctionnelle de misclassification, c'est-à-dire de mauvaise classification.

[0075]Les prototypes sont définis dans l'étape (préalable) d'apprentissage dans laquelle chaque prototype est un sous ensemble d'exemples connus, c'est-à-dire des images ou cellules annotées par un expert comme appartenant à au moins une classe c, pour lesquelles la cardinalité est inférieure à une valeur seuil, par exemple le nombre d'images annotées dans la base de données d'apprentissage.

[0076]Pour ce faire, des images de cellules annotées par un expert biologiste et stockées dans une base de données d'apprentissage permettent de calculer les paramètres du procédé de classification supervisée et de les comparer à ceux résultant du traitement particulier d' images de cellules archivées dans la base de données de test, et ainsi de valider la classification en termes de précision, lors d'une étape de validation.

[0077]Cette étape d'apprentissage comporte une sous étape de formation des classificateurs consistant essentiellement en la sélection de sous-ensembles les plus pertinents de données de la base de données d'apprentissage, c'est-à-dire de prototypes dont le cardinal T est généralement plus petit que le nombre m d'instances annotées.

[0078]Ces prototypes pondérés sont sélectionnés en ajustant d'abord les coefficients -j , puis en retirant les exemples avec les plus petits coefficients -j , lesquels étant considérés comme trop peu pertinents pour être considérés comme prototypes.

[0079]On a un processus itératif.

[0080]Dans l'optique d'adapter la règle de classification ti

( q) au sous ensemble de données sélectionné, les risques de substitution exponentielle sont minimisées à partir de:

avec qui est la fonctionnelle de risque qui est la fonction de misclassification correspondant à un exemple [0081]On peut ainsi mesurer la qualité de l'ajustement de la règle de classification à partir du prototype (X±;y±) pour la classe c, en étant positif si la prédiction est d'accord avec l'exemple annoté. [0082] !/ algorithme UNN résout ce problème d'optimisation en utilisant un mécanisme itératif où la règle de classification est mise à jour en y ajoutant un nouveau prototype (Xjtyj) (classificateur faible) à chaque étape t (t = 1,2,...,T), dont le coefficient de levier (¾ est calculé avec l'expression littérale:

Avec : w et w j ~ sont les sommes des poids des bons et mauvais inverses kNN de j mis à jour à chaque itération.

A noter que pour les méthodes concurrentes comme les SVM (acronyme de Support Vector Machine qui signifie en français machines à vecteurs de support ou séparateurs à vaste marge) , le calcul des coefficients requiert la résolution d'un système d'équation.

[0083]On comprend clairement que le coût en classification linéaire au regard du nombre d'exemples est moindre que le coût quadratique de l'état de l'art en matière de classification. [0084]Dès lors on comprend bien qu'une telle solution permet de réaliser une classification supervisée automatique.

[0085] Par commodité de langage, on entend indistinctement une classification supervisée de cellules ou classification supervisée d'images (de cellules) . [0086]Grâce à l'invention, sur une base de 500 cellules annotées par un expert, la précision du procédé proposé peut être de plus de 84 %, ce qui est meilleur que la variabilité intra et inter expert. Le temps d'exécution pour la classification et le comptage est de 5s pour 5000 images sur une station de travail classique. Ce qui permet d'aborder le classement automatique de millions de cellules.