Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR ANALYSING SEDIMENTARY SAMPLES WITH AUTOMATIC RECOGNITION OF NANOFOSSILS
Document Type and Number:
WIPO Patent Application WO/2015/132531
Kind Code:
A1
Abstract:
The method for analysing sedimentary samples comprises the following steps: taking images of the samples with a microscope; pre-processing the images to extract zones of interest therefrom; analysing the zones of interest by means of artificial neural networks to carry out a first classification of objects between groups of species of nanofossils; analysing the zones of interest by at least one method of morpho-statistical recognition to carry out a second classification of objects between the groups of species of nanofossils; and gathering the results of the first and second classifications into at least one file indicating the groups of species of nanofossils respectively assigned to the zones of interest by the first and second classifications.

Inventors:
BEAUFORT LUC (FR)
BARBARIN NICOLAS (FR)
GALLY YVES (FR)
GALLY CLÉMENT (FR)
Application Number:
PCT/FR2015/050537
Publication Date:
September 11, 2015
Filing Date:
March 05, 2015
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TOTAL SA (FR)
CENTRE NAT RECH SCIENT
UNIVERSITÉ D AIX MARSEILLE (FR)
International Classes:
G01N21/23; G01N33/24; G06F19/00; G06K9/80
Other References:
BOLLMANN J ET AL: "Automated Particle Analysis: Calcareous microfossils", IMAGE ANALYSIS, SEDIMENTS AND PALEOENVIRONMENTS, FRANCUS P (ED.), SPRINGER NETHERLANDS, vol. 7, 2004, pages 229 - 252, XP009181027, ISBN: 1-4020-2061-9
BARBARIN N ET AL: "PP31B-2021: Automatic recognition of Cenozoic calcareous nannofossils: a reliable tool for paleoceanographic studies - AGU Fall Meeting 2012", December 2012 (2012-12-01), XP055148647, Retrieved from the Internet [retrieved on 20141023]
BEAUFORT L ET AL: "Optical measurements to determine the thickness of calcite crystals and the mass of thin carbonate particles such as coccoliths", NATURE PROTOCOLS, vol. 9, no. 3, 20 February 2014 (2014-02-20), pages 633 - 642, XP055148654, ISSN: 1754-2189, DOI: 10.1038/nprot.2014.028
BEAUFORT L ET AL: "Automatic recognition of coccoliths by dynamical neural networks", MARINE MICROPALEONTOLOGY, vol. 51, no. 1-2, April 2004 (2004-04-01), pages 57 - 73, XP055148356, ISSN: 0377-8398, DOI: 10.1016/j.marmicro.2003.09.003
DOLLFUS D AND BEAUFORT L: "Automatic pattern recognition of calcareous nannoplankton", NEURAL NETWORKS AND THEIR APPLICATIONS, CONFERENCE PROCEEDINGS, 20-22 MARCH 1996, MARSEILLE, FRANCE, 1996, pages 306 - 311, XP009180933
"Field Programmable Logic and Application", vol. 1451, 1998, SPRINGER BERLIN HEIDELBERG, Berlin, Heidelberg, ISBN: 978-3-54-045234-8, ISSN: 0302-9743, article SIEGFRIED BRECHNER ET AL: "Features for the classification of marine microfossils", pages: 853 - 858, XP055148548, DOI: 10.1007/BFb0033311
GARRATT JANE ET AL: "Fourier transforms of image-derived data: Application to Albian coccoliths", MICROPALEONTOLOGY,, vol. 43, no. 3, 1997, pages 303 - 317, XP009180935, ISSN: 0026-2803
DOLLFUS, D.; BEAUFORT, L.: "Fat neural network for recognition of position-normalised objects", NEURAL NETWORKS, vol. 12, 1999, pages 553 - 560
BEAUFORT, L.; DOLLFUS, D.: "Automatic recognition of coccoliths by dynamical neural networks", MARINE MICROPALEONTOLOGY, vol. 51, 2004, pages 57 - 73
DANIELSSON, P.-E.: "Eudidean distance mapping", COMPUTER GRAPHICS AND IMAGE PROCESSING, vol. 14, 1980, pages 227 - 248
MEYER, F.: "Topographic distance and watershed lines", SIGNAL PROCESSING, vol. 38, 1994, pages 113 - 125
FREUND, Y.; SCHAPIRE, R.E.: "A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting", JOURNAL OF COMPUTER AND SYSTEM SCIENCES, vol. 55, 1997, pages 119 - 139
CORTES, C.; VAPNIK, V.: "Support-vector networks", MACHINE LEARNING, vol. 20, 1995, pages 273 - 297
BREIMAN, L.: "Random forests", MACHINE LEARNING, vol. 45, 2001, pages 5 - 32
MARTINEZ, A.M.; KAK, A.C.: "PCA versus LDA", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 23, 2001, pages 228 - 233
COVER, T.; HART, P.: "Nearest neighbor pattern classification", IEEE TRANSACTIONS ON INFORMATION THEORY, vol. 13, 1967, pages 21 - 27
CUNNINGHAM, P.; DELANY, S.J.: "k-Nearest Neighbour Classifiers", TECHNICAL REPORT UCD-CSI-2007-4, 2007
Attorney, Agent or Firm:
CABINET PLASSERAUD et al. (FR)
Download PDF:
Claims:
R E V E N D I C A T I O N S

1 . Procédé d'analyse d'échantillons sédimentaires, le procédé comprenant:

- prendre des images au microscope des échantillons, comprenant trois images de chaque échantillon en lumière polarisée, avec des polarisations différentes, et une image de chaque échantillon en lumière naturelle ;

- prétraiter les images pour en extraire des zones d'intérêt ; et

- analyser les zones d'intérêt au moyen de réseaux de neurones artificiels pour opérer une première classification d'objets entre des groupes d'espèces de nannofossiles,

et étant caractérisé en ce qu'il comprend en outre :

- analyser les zones d'intérêt par au moins une méthode de reconnaissance morpho-statistique pour opérer une seconde classification d'objets entre les groupes d'espèces de nannofossiles ; et

- rassembler les résultats des première et seconde classifications en au moins un fichier indiquant les groupes d'espèces de nannofossiles respectivement affectés aux zones d'intérêt par les première et seconde classifications, les opérations d'analyse étant effectuées à partir des images en lumière polarisée pour des premiers groupes d'espèces de nannofossiles et à partir des images en lumière naturelle pour des seconds groupes d'espèces de nannofossiles moins biréfringents que les premiers nannofossiles des espèces des premiers groupes.

2. Procédé selon la revendication 1 , dans lequel les opérations d'analyse effectuées à partir des images en lumière polarisée comprennent une segmentation d'objets biréfringents dans les images en lumière polarisée, et dans lequel les opérations d'analyse effectuées à partir des images en lumière naturelle comprennent une recherche d'objets non biréfringents dans les images en lumière naturelle après exclusion de régions occupées par les objets biréfringents qui ont été segmentés.

3. Procédé selon la revendication 1 ou la revendication 2, dans lequel le prétraitement des images comprend une combinaison des trois images en lumière polarisée d'un même échantillon pour former une image combinée dont chaque pixel a une valeur donnée par le maximum des valeurs des trois pixels de même position dans les trois images en lumière polarisée.

4. Procédé selon l'une quelconque des revendications précédentes, dans lequel les réseaux de neurones artificiels sont entraînés avec des images de nannofossiles d'une base de données de plus de 10000 images de nannofossiles couvrant de l'ordre d'un millier d'espèces depuis le Cénozoïque.

5. Procédé selon l'une quelconque des revendications précédentes, comprenant en outre une étape d'affichage de zones d'intérêts sélectionnées par un utilisateur en combinant les indications de groupes d'espèces de nannofossiles affectés par les première et seconde classifications.

6. Système d'analyse d'échantillons sédimentaires, le système comprenant au moins un microscope pour prendre des images des échantillons, comprenant trois images de chaque échantillon en lumière polarisée, avec des polarisations différentes, et une image de chaque échantillon en lumière naturelle, et des ressources informatiques (1 1 , 12) configurées pour mettre en œuvre les étapes suivantes :

- prétraiter les images pour en extraire des zones d'intérêt ;

- analyser les zones d'intérêt au moyen de réseaux de neurones artificiels pour opérer une première classification d'objets entre des groupes d'espèces de nannofossiles ;

- analyser les zones d'intérêt par au moins une méthode de reconnaissance morpho-statistique pour opérer une seconde classification d'objets entre les groupes d'espèces de nannofossiles ; et

- rassembler les résultats des première et seconde classifications en au moins un fichier indiquant les groupes d'espèces de nannofossiles respectivement affectés aux zones d'intérêt par les première et seconde classifications, les opérations d'analyse étant effectuées à partir des images en lumière polarisée pour des premiers groupes d'espèces de nannofossiles et à partir des images en lumière naturelle pour des seconds groupes d'espèces de nannofossiles moins biréfringents que les premiers nannofossiles des espèces des premiers groupes.

7. Programme d'ordinateur pour un système de traitement de données (1 1 , 12) associé à au moins un microscope, le programme comprenant des instructions pour mettre en œuvre les étapes suivantes dans l'analyse d'échantillons sédimentaires lorsqu'il est exécuté sur le système de traitement de données auquel sont présentées des images des échantillons prises au microscope, comprenant trois images de chaque échantillon en lumière polarisée, avec des polarisations différentes, et une image de chaque échantillon en lumière naturelle :

- prétraiter les images pour en extraire des zones d'intérêt ;

- analyser les zones d'intérêt au moyen de réseaux de neurones artificiels pour opérer une première classification d'objets entre des groupes d'espèces de nannofossiles ;

- analyser les zones d'intérêt par au moins une méthode de reconnaissance morpho-statistique pour opérer une seconde classification d'objets entre les groupes d'espèces de nannofossiles ; et

- rassembler les résultats des première et seconde classifications en au moins un fichier indiquant les groupes d'espèces de nannofossiles respectivement affectés aux zones d'intérêt par les première et seconde classifications,

les opérations d'analyse étant effectuées à partir des images en lumière polarisée pour des premiers groupes d'espèces de nannofossiles et à partir des images en lumière naturelle pour des seconds groupes d'espèces de nannofossiles moins biréfringents que les premiers nannofossiles des espèces des premiers groupes.

8. Support d'enregistrement lisible par ordinateur, sur lequel est enregistré un programme selon la revendication 7.

Description:
PROCEDE D'ANALYSE D'ECHANTILLONS SEDIMENTAIRES AVEC RECONNAISSANCE AUTOMATIQUE DE NANNOFOSSILES

[0001] La présente invention concerne le domaine de la biostratigraphie.

[Q002] La biostratigraphie est l'étude de la répartition des espèces, en général fossiles, dans les strates sédimentaires et donc dans les temps géologiques. Elle est utilisée notamment pour estimer l'âge de formations géologiques d'origine sédimentaire.

[0003] Les techniques de repérage et de dénombrement de nannofossiles calcaires dans des échantillons de sédiments sont des outils utilisés dans la biostratigraphie.

[0004] Le terme « nannofossiles calcaires » désigne des groupes de taxons fossiles disparus (nannoconidés, discoasteridés, fasciculithes...) ou encore présents (coccolithophoridés) composés de plaques micrométriques en calcite (CaC0 3 ), d'une taille allant de 1 à 25 μιτι environ.

[0005] Les nannofossiles calcaires sont très diversifiés en forme, en taille et en comportement optique. Ils sont généralement très abondants dans les océans. Le nombre de spécimens dans les sédiments pélagiques argileux peut dépasser 1 million/cm 3 . Par leur répartition et leur abondance, les nannofossiles fournissent des enregistrements assez complets de biodiversité stratigraphique et taxonomique.

[0006] Les nannofossiles calcaires forment d'excellents marqueurs fossiles pour déterminer l'âge de sédiments, provenant de carottes de forages marins par exemple. Des biozonations temporelles standard ont été élaborées du Jurassique jusqu'à l'ère actuelle. Elles fournissent des zones consistant en des intervalles de temps dont les limites correspondent à la première apparition et à l'extinction d'une espèce. La datation des sédiments par l'observation des nannofossiles permet de réaliser un modèle d'âge fonction de la profondeur le long de la carotte.

[0007] L'observation des nannofossiles est le plus souvent effectuée à l'aide d'un microscope optique. Un échantillon provenant d'une carotte est réduit en poudre et disposé par frottis ou par décantation sur une lame de microscope. Les nannofossiles, de forme plate, se placent pour l'essentiel parallèlement à la lame, ce qui permet l'observation de leur morphologie. Les images sont obtenues soit en lumière naturelle soit en lumière polarisée. La lumière polarisée sert à l'observation de nannofossiles biréfringents dont l'image présente des parties sombres dépendant de l'orientation des cristaux de calcite et des couleurs dépendant de l'épaisseur. La lumière naturelle est utilisée pour visualiser des nannofossiles non biréfringents.

Les travaux à partir des images de microscope, pour obtenir des données suffisantes sur la présence ou l'absence, l'abondance relative ou absolue de différentes espèces de coccolithes ou autres nannofossiles, sont longs et assez fastidieux.

39] Il est souhaitable de disposer d'un système automatisé fiable de reconnaissance pour localiser rapidement les spécimens et, si possible, identifier certaines caractéristiques taxonomiques, mesurer des paramètres morphologiques pertinents et sauvegarder les images. s o] Un SYstème de Reconnaissance Automatique de COccolithes, baptisé SYRACO, a été développé en utilisant des techniques de réseaux de neurones. Il est décrit notamment dans les publications :

• Dollfus, D., Beaufort, L., "Fat neural network for récognition of position- normalised objects" Neural Networks 12, p. 553-560 (1999) ;

• Beaufort, L., Dollfus, D., "Automatic récognition of coccoliths by dynamical neural networks", Marine Micropaleontology 51 , p. 57-73 (2004).

[0011] Ce système s'est montré d'une grande fiabilité pour l'identification des espèces. Il est cependant limité à la recherche d'une dizaine d'espèces du temps présent au Pléistocène, et il donne lieu à une quantité non négligeable de faux positifs.

SYRACO a été largement utilisé dans des études océanographiques et paléo-océanographiques. Mais il reste inadapté à des applications dans le domaine de la biostratigraphie, essentiellement du fait que le nombre d'espèces prises en compte est insuffisant au regard de l'étendue des temps géologiques.

[0013] Les classifications taxonomiques effectuées par des humains entraînés sont très complexes et ne sont pas aisément reproduites par des automates. Dans le cas des nannofossiles calcaires, la complexité est augmentée par le fait que les fossiles ne sont pas isolés du reste du sédiment. Le système n'a pas seulement une tâche de classification, mais il doit aussi distinguer les nannofossiles parmi d'abondantes particules de formes très variées. Une reconnaissance de formes fiable se heurte à la difficulté que les nannofossiles calcaires présentent souvent une grande plasticité intraspécifique liée à évolution, aux contraintes environnementales et à leur conservation. En outre, des débris peuvent paraître semblables à des coccolithes. Lorsque les outils de reconnaissance font référence à une très grande base de données représentant de nombreuses espèces, par exemple de l'ordre du millier d'espèces, les méthodes actuellement connues sont mises en défaut.

[0014] Un but de la présente invention est de perfectionner les méthodes automatiques d'acquisition et de traitement d'images de sédiments pour permettre une prise en compte efficace d'un nombre élevé d'espèces de nannofossiles.

[0015] Il est proposé un procédé d'analyse d'échantillons sédimentaires, qui comprend les étapes suivantes:

- prendre des images au microscope des échantillons ;

- prétraiter les images pour en extraire des zones d'intérêt ;

- analyser les zones d'intérêt au moyen de réseaux de neurones artificiels pour opérer une première classification d'objets entre des groupes d'espèces de nannofossiles ;

- analyser les zones d'intérêt par au moins une méthode de reconnaissance morpho-statistique pour opérer une seconde classification d'objets entre les groupes d'espèces de nannofossiles ; et

- rassembler les résultats des première et seconde classifications en au moins un fichier indiquant les groupes d'espèces de nannofossiles respectivement affectés aux zones d'intérêt par les première et seconde classifications.

[0018] Le procédé enrichit les techniques antérieurement connues de reconnaissance automatique de coccolithes, ou plus généralement de nannofossiles, en ajoutant des méthodes morphométriques, ou morpho- statistiques, aux outils de type réseaux de neurones artificiels qui ont été utilisés auparavant.

[0017] En regroupant les espèces de nannofossiles en groupes aux propriétés morphologiques analogues pour l'analyse utilisant les réseaux de neurones artificiels et les méthodes de reconnaissance morpho-statistiques, on peut prendre en compte une très large variété de nannofossiles tout en évitant une trop grande spécificité qui empêcherait la reconnaissance de nombreux individus.

[0018] L'affectation à une espèce particulière de chaque objet trouvé dans une zone d'intérêt, renseignant sur l'âge des sédiments étudiés, revient finalement à un expert. Mais le travail de celui-ci est rendu beaucoup plus efficace. Cet expert se voit présenter un fichier, délivré par le procédé susmentionné, qui lui permet d'afficher les zones d'intérêt suivant des critères qu'il choisit en relation avec les classes auxquelles les réseaux de neurones et les méthodes morpho-statistiques auront affecté les zones d'intérêt. Il peut concentrer son intervention sur l'expertise qui est la sienne, c'est-à-dire reconnaître les espèces trouvées dans les sédiments étudiés, sans consacrer un temps excessif aux tâches préliminaires de prétraitement et de classification.

[0019] Un mode de réalisation comprenant ainsi une étape supplémentaire d'affichage de zones d'intérêts sélectionnées par un utilisateur en combinant les indications de groupes d'espèces de nannofossiles affectés par les première et seconde classifications. Selon les espèces qu'il recherche, l'utilisateur pourra commodément combiner les critères résultant des différentes méthodes de classification.

[0020] Le procédé permet, si nécessaire, de prendre en compte jusqu'à un millier d'espèces ou plus. En particulier, il peut couvrir l'essentiel des nannofossiles calcaires connus du Cénozoïque depuis l'Éocène supérieur. Cette échelle de temps convient pour les études biostratigraphiques, spécialement dans le domaine de la recherche d'hydrocarbures dans le sous-sol.

[0021] Dans une réalisation, la prise des images au microscope comprend la prise de trois images de chaque échantillon en lumière polarisée, avec des polarisations différentes. Cette façon de procéder facilite l'observation des nannofossiles biréfringents. Le prétraitement des images peut alors comprendre une combinaison des trois images en lumière polarisée d'un même échantillon pour former une image combinée dont chaque pixel a une valeur donnée par le maximum des valeurs des trois pixels de même position dans les trois images en lumière polarisée.

[0022] Une autre image de chaque échantillon peut être prise en utilisant de la lumière naturelle, pour l'observation de nannofossiles non biréfringents.

[0023] Les réseaux de neurones artificiels peuvent être entraînés avec des images de nannofossiles d'une base de données de plus de 10000 images de nannofossiles couvrant de l'ordre d'un millier d'espèces depuis le Cénozoïque.

[0024] Un autre aspect de la présente invention se rapporte à un système d'analyse d'échantillons sédimentaires. Ce système comprend au moins un microscope pour prendre des images des échantillons, et des ressources informatiques configurées pour mettre en œuvre les étapes susmentionnées de prétraitement, d'analyse (au moyen de réseaux de neurones artificiels et par au moins une méthode de reconnaissance morpho-statistique) et de rassemblement des résultats.

[0025] Un autre aspect encore de la présente invention se rapporte à un programme d'ordinateur pour un système de traitement de données associé à au moins un microscope. Le programme comprend des instructions pour mettre en œuvre les étapes susmentionnées de prétraitement, d'analyse et de combinaison dans l'analyse d'échantillons sédimentaires lorsqu'il est exécuté sur le système de traitement de données auquel sont présentées des images des échantillons prises au microscope. L'invention concerne encore un support d'enregistrement lisible par ordinateur, sur lequel est enregistré un tel programme.

[0026] D'autres particularités et avantages de la présente invention apparaîtront dans la description ci-après d'un exemple de réalisation non limitatif, en référence aux dessins annexés, dans lesquels :

- la figure 1 est un schéma d'un système d'analyse d'échantillons sédimentaires convenant pour mettre en œuvre l'invention ;

- la figure 2 est un diagramme illustrant un procédé selon l'invention ; - la figure 3 montre des images prises de plusieurs spécimens de nannofossiles biréfringents dans une réalisation de l'invention ;

- les figures 4a-c montrent des images prises de plusieurs spécimens de nannofossiles non biréfringents ;

- les figures 5a-d illustrent les étapes principales d'une opération de segmentation d'agrégats à partir d'une portion d'image de départ (figure 5a) : seuillage et distance de Danielsson (figure 5b), watershedding (figure 5c) et superposition des limites de séparations (figure 5d) ; et

- les figures 6 et 7 montrent des exemples de sorties fournies par le procédé à un utilisateur.

[0027] Dans l'exemple de réalisation représenté sur la figure 1 , le système d'analyse d'échantillons sédimentaires comprend un ou plusieurs microscopes optiques 10 contrôlés chacun par un micro-ordinateur 1 1 .

[0028] Le microscope 10 est par exemple de marque Leica DM6000B avec un objectif à grossissement de 100 tel qu'un objectif de marque Leica HCX PL APO 100/1 .47. Il est équipé de deux échangeurs rotatifs contenant des polariseurs et des analyseurs, et une platine automatisable selon les trois directions (x, y, z) de l'espace. Le microscope est relié à un micro-ordinateur 1 1 par une interface d'acquisition, par exemple écrite à l'aide du logiciel de marque LabView.

[0029] Les images du microscope peuvent être prises par une caméra couleur RGB sur 48 bits ou noir et blanc sur 14 bits. Le micro-ordinateur 1 1 sert à commander le microscope 10 et la caméra, mais aussi à effectuer des traitements d'image décrits ci-après, dont un traitement de segmentation.

[0030] Le micro-ordinateur 1 1 est connecté via un réseau local à un serveur de calcul 12, qui effectue des tâches de classification des images segmentées, potentiellement très nombreuses (de l'ordre d'une à quelques centaines de milliers pour une étude biostratigraphique). Le serveur de calcul 12 est par exemple équipé d'un processeur à quatre cœurs et d'une mémoire de 32 Mo.

[0031] Le réseau local peut connecter à un même serveur de calcul 12 plusieurs stations de travail comprenant chacune un micro-ordinateur 1 1 associé à un microscope 10 pour traiter un nombre élevé d'images segmentées. Il peut aussi y avoir plusieurs serveurs de calcul dans des cas où une puissance de calcul plus importante est nécessaire.

[0032] Les images prises au microscope et segmentées en zones d'intérêt par un micro-ordinateur 1 1 , ainsi que les résultats des classifications effectuées par le serveur de calcul 12 sont enregistrées dans une mémoire 13 pour être ensuite exploités par un opérateur.

[0033] Les équipements susmentionnés du système sont complétés par une base de données 14 composée d'images et de mesures qui servent à l'apprentissage des algorithmes de classification.

[0034] Pour une application biostratigraphique sur une échelle remontant à environ 40 millions d'années, les individus composant la base de données d'images 14 proviennent d'échantillons répartis entre l'Éocène et l'actuel sur différentes carottes provenant de plusieurs océans. Ces individus ont été identifiés par des experts nannopaléontologistes et/ou biostratigraphes. La base 14 contient ainsi l'essentiel des formes possibles de cette période.

[0035] Ces formes prises en compte dans la base de données 14 sont réparties en « morphogroupes », c'est-à-dire en groupes d'espèces de nannofossiles partageant des caractéristiques morphologiques. La propriété de biréfringence peut aussi intervenir dans la définition des morphogroupes.

[0036] Les morphogroupes sont en nombre réduit par rapport au nombre des espèces prises en considération, par exemple quelques dizaines de morphogroupes pour environ mille espèces des 40 millions d'années les plus récentes. Il ne serait pas réaliste de collecter suffisamment d'individus par espèce pour rechercher une classification automatique espèce par espèce. En outre, cela poserait des problèmes compte tenu des similitudes que présentent certaines espèces, qu'un expert peut distinguer compte tenu de connaissances qu'il peut avoir sur l'environnement d'extraction des échantillons ou des autres espèces identifiées dans ces échantillons, mais qu'une méthode automatique risquerait de mal classifier.

[0037] Les nannofossiles très biréfringents sont visibles dans des images prises en lumière polarisée, où ils présentent des motifs en couleurs. Ils peuvent être répartis en une dizaine de morphogroupes de type « placolithe », de forme générale annulaire, et une dizaine d'autres morphogroupes. Par exemple :

• un morphogroupe « rum » de type placolithe peut être défini comme étant composé de nannofossiles très biréfringents de forme générale elliptique de grande taille, avec de larges bordures, une grosse ouverture centrale et une luminosité moyenne à élevée. L'espèce Reticulofenestra umbilica dont un spécimen est montré sur la figure 3, appartient à ce groupe rum, qui comprend d'autres espèces comme R. Pseudoumbilica ;

• un morphogroupe « bra » peut être défini comme étant composé de nannofossiles très biréfringents de forme générale pentagonale à symétries axiale et centrale et à luminosité basse à élevée. L'espèce Braadurosphaera bigelowi dont un spécimen est montré sur la figure 3, appartient à ce groupe bra, qui comprend d'autres espèces comme Pemma sp. ou Micrantholithus sp. ;

• etc.

[Q038] Les nannofossiles peu biréfringents sont visibles dans des images prises en lumière polarisée, où ils présentent des motifs en niveaux de gris. Ils peuvent être répartis en une vingtaine de morphogroupes de type « placolithe », de forme générale annulaire, et une quinzaine d'autres morphogroupes. Par exemple :

• un morphogroupe « emi » de type placolithe peut être défini comme étant composé de nannofossiles peu biréfringents de forme générale elliptique de taille inférieure à 3 μιτι, avec une zone centrale ouverte et une faible luminosité. L'espèce Emiliania huxleyi dont un spécimen est montré sur la figure 3, appartient à ce groupe emi, qui comprend d'autres espèces comme Reticulofenestra minuta ;

• un morphogroupe « sca » peut être défini comme étant composé de nannofossiles peu biréfringents en forme générale de losange allongé, à symétrie axiale et à luminosité basse. L'espèce Scapholithus fossilis dont un spécimen est montré sur la figure 3, appartient à ce groupe sca, qui comprend d'autres espèces comme Calciosolenia brasiliensis ;

• etc. [0039] Les nannofossiles non biréfringents sont visibles dans des images prises en lumière naturelle. Ils peuvent être répartis en trois morphogroupes:

• Amaurolithes + Ceratholithes (« amau ») en forme générale de fer à cheval ou de crochet, quasiment axisymétriques (spécimens en figure 4a) ;

• Discoasters (« dis ») de forme générale en étoile (spécimens en figure 4b)

• Isthmolithus (« /si ») de forme générale en échelle, quasiment axisymétriques (spécimens en figure 4c).

[0040] La base de données 14 contient en outre des « non-nannofossiles », c'est-à-dire des images d'objets très biréfringents, peu biréfringents ou non biréfringents, vus au microscope dans des échantillons de sédiments mais qui n'ont pas été répertoriés en tant que nannofossiles. Ces « non-nannofossiles » de la base 14 permettent aux algorithmes de classification de réaliser leur apprentissage pour une classe de « riens », c'est-à-dire d'objets non classifiés en tant que nannofossiles.

[0041] Le fonctionnement du système d'analyse d'échantillons sédimentaires représenté sur la figure 1 est illustré par le diagramme de la figure 2. Dans ce diagramme, la référence 20 désigne les opérations incombant au micro-ordinateur 1 1 associé au microscope 10, tandis que la référence 30 désigne les opérations incombant au serveur de calcul 12.

[0042] La première étape du procédé consiste à acquérir des images au microscope d'échantillons sédimentaires.

[0043] Les échantillons sont préparés sur des lames de microscope pouvant comporter chacune 8 lamelles. Sous chaque lamelle, un échantillon est déposé par décantation ou par frottis. La prise d'image est pilotée par le micro-ordinateur 1 1 associé au microscope 10. Un minimum de cinq millimètres carré sur chaque lamelle (soit 240 champs) sont numérisés par la caméra et pour chacun d'eux, quatre images 15-18 sont prises, trois en lumière polarisée et une en lumière non polarisée. Le micro-ordinateur 1 1 pilote également les échangeurs rotatifs du microscope afin d'amener séquentiellement les polariseurs et analyseurs sur le chemin optique, ou de les escamoter pour les images en lumière naturelle.

[0044] La première image 15 est prise en lumière polarisée à 0° par rapport à un axe de référence du plan de la lamelle. La seconde image 16 est prise, par exemple, avec une lumière polarisée à 35° par rapport à la direction précédente. La troisième image 17 est prise, par exemple, avec lumière polarisée à 45°. La quatrième image 18 est prise en lumière naturelle. L'utilisation de la polarisation circulaire est une autre méthode permettant d'obtenir des résultats similaires.

[0045] Chaque image prise par le microscope 10 est transmise au microordinateur associé 1 1 , pour que celui-ci effectue certains prétraitements 20, et stockée dans la mémoire 13 du système pour pouvoir être examinée plus tard si nécessaire.

[0046] Le micro-ordinateur 1 1 peut notamment exécuter les prétraitements suivants sur les images prises de chaque échantillon :

- une combinaison des images prises avec différentes polarisations ;

- une segmentation en zones d'intérêt des images en lumière polarisée ;

- un tri des objets biréfringents ;

- une segmentation des images en lumière naturelle ;

- une correction gamma ;

- une normalisation.

[0047] La combinaison des images prises avec différentes polarisations permet de distinguer au mieux les objets biréfringents dans les images. Pour chaque pixel ayant une position (x, y) donnée dans les images 15-17 d'un échantillon, le micro-ordinateur 1 1 sélectionne la valeur de plus grande intensité parmi les trois valeurs du pixel dans les images prises avec les trois polarisations différentes. Ces valeurs maximales sont assemblées pixel par pixel pour former l'image combinée dans laquelle la croix noire typiquement observée pour une polarisation donnée sur l'image d'un objet biréfringent disparaît.

[0048] La figure 3 illustre ce processus de combinaison en montrant dans les colonnes « 0° », « 35° » et « 45° » des portions d'images 15-17 montrant quatre nannofossiles biréfringents. La colonne « MAX » montre le résultat de la combinaison selon le maximum. Les zones d'ombre des images individuelles 15- 17 y ont sensiblement disparu, et il reste une image relativement régulière et bien définie du nannofossile observé. [0049] Les images ainsi combinées sont soumises au traitement de segmentation.

[0050] La segmentation consiste à séparer les objets du fond de l'image afin de les étudier individuellement. Elle utilise une méthode de seuillage qui conserve la forme et le contour des objets. Toute méthode de segmentation connue peut être utilisée et adaptée pour les besoins de l'application au procédé décrit ici.

[0051] Une segmentation à fenêtres multiples permet de découper une image principale en plusieurs sous-fenêtres afin d'ajuster le calcul de la valeur du fond localement. La carte des valeurs du fond est alors soustraite de l'image pour faire apparaître les objets. On utilise par exemple neuf fenêtres pour que le traitement soit relativement rapide. Il est cependant possible de d'augmenter le nombre de sous-fenêtres. La segmentation à fenêtres multiples permet d'isoler un certain nombre d'objets dans chaque image de départ. Ces objets incluent des nannofossiles isolés et des agrégats de nannofossiles qui, pour la plupart d'entre eux, peuvent être séparés en conservant au mieux la forme initiale des individus.

[0052] La méthode de séparation peut utiliser une succession d'érosions des images binaires et de séparation de particules afin de réaliser un découpage simple lorsque les objets sont peu en contact. Dans certains cas, cela ne suffit pas et on peut alors avoir recours à seconde méthode consistant à mesurer les distances de Danielsson (Danielsson, P.-E., 1980, « Euclidean distance mapping », Computer Graphics and Image Processing, Vol. 14, pp. 227-248). Cette méthode associe à chaque pixel de l'image (figure 5a) la distance au point obstacle le plus proche tel que le contour d'une forme, croissant du bord vers l'intérieur (figure 5b), ce qui définit des centroïdes. Une fois cette carte de distances obtenue, on applique un algorithme de lignes de partage des eaux, ou watershedding (Meyer, F., 1994, « Topographie distance and watershed lines », Signal Processing, Vol. 38, pp. 1 13-125), en réinterprétant les distances de façon topographique pour que les distances les plus faibles définissent les limites de séparation (figure 5c-d).

[0053] Cette méthode peut être complétée par une reconnaissance de quelques formes prédéfinies afin de ne pas découper des formes ressemblantes, comme par exemple celle du coccolithe de Rhabdosphaera sp. qui est en forme générale de T.

[0054] Le résultat de la segmentation des images en lumière polarisée combinées est un ensemble de zones d'intérêt, ou vignettes, incluant chacune un objet détecté.

[0055] Ces objets sont alors triés en deux catégories, l'une regroupant des objets épais, c'est-à-dire apparaissant colorés dans les images prises en lumière polarisée, et l'autre regroupant des objets peu épais qui apparaissent gris dans ces mêmes images. Les objets épais (colorés) seront ensuite classifiés en référence aux morphogroupes composés de nannofossiles très biréfringents. Quant aux objets peu épais (gris), ils sont considérés comme pouvant représenter des nannofossiles peu biréfringents, et ils seront traités séparément en faisant référence aux morphogroupes de nannofossiles peu biréfringents.

[0058] Dans les images 18 prises en lumière naturelle, on ignore les régions occupées par les objets biréfringents segmentés dans les images 15-17 prises en lumière polarisée. Dans le reste de l'image, une recherche d'objets non biréfringents est effectuée. Une première méthode utilisable pour cette recherche consiste à utiliser de la reconnaissance de forme directement sur les images à partir de modèles correspondant aux quelques espèces connues de nannofossiles non biréfringents (Discoasters, Amaurolithes, Isthmolithus, ...). D'autres méthodes peuvent être utilisées, par exemple inspirées de la détection de contours du filtrage Prewitt ou de Sobel par exemple.

[0057] À la fin de l'étape de segmentation, on obtient un ensemble de zones d'intérêt, certaines par rapport à des objets très biréfringents, d'autres par rapport à des objets peu biréfringents, et d'autres encore par rapport à des objets non biréfringents.

[0058] Le contenu de ces zones d'intérêt peut être soumis à d'autres prétraitements, comme une correction gamma qui est une manipulation mathématique non-linéaire pour modifier la valeur des pixels, permettant de rehausser ou de diminuer la luminosité pour les objets faiblement lumineux ou contrastés. Cette opération correspond par exemple à l'équation suivante : intensité Corrigée = MAX X

soit, dans le cas d'images dont les pixels sont codés sur 14 bits avec γ = 1 /2,2 = 0,45 :

[0059] Enfin, une opération de normalisation peut être effectuée pour les images en lumière naturelle.

[0080] Cette opération change l'intensité des pixels d'une image pour augmenter le contraste. Elle est par exemple appliquée de manière linéaire aux images en lumière naturelle dans lesquelles l'intensité des pixels n'a pas une signification intrinsèque (l'épaisseur). Par exemple, si la gamme d'intensité des pixels est entre 50 et 180, le calcul ajuste la gamme entre 0 et 255.

[0081] Suite aux prétraitements 20, les zones d'intérêt segmentées et traitées sont enregistrées dans la mémoire 13 en relation avec l'identification de l'image dont elles sont extraites et avec leurs coordonnées (x, y) dans cette image. Elles sont également transmises au serveur de calcul 12 pour qu'il exécute les travaux d'analyse schématisés par la référence 30 sur la figure 2.

[0082] Des analyses de deux types sont effectuées sur les nombreuses zones d'intérêt segmentées qu'il reçoit du ou des micro-ordinateurs 1 1 :

• une analyse au moyen de réseaux de neurones artificiels ; et

• une analyse par une ou plusieurs méthodes de reconnaissance morphostatistique.

[0063] Il est donc effectué deux types de classification en référence aux morphogroupes qui ont été définis, l'une à base de réseaux de neurones.

[0084] L'utilisation de réseaux de neurones artificiels pour la reconnaissance de coccolithes a déjà été proposée, notamment dans les articles précités de D. Dollfus et L. Beaufort. Une technique similaire est utilisée ici, en référence à des classes correspondant à des morphogroupes d'espèces de nannofossiles et non plus à des espèces [0085] Pour l'apprentissage du réseau de neurones, il est utilisé un jeu d'apprentissage comprenant au moins 100 spécimens par morphogroupe d'espèces de nannofossiles et, en outre, plusieurs milliers de spécimens qui ne sont pas des nannofossiles. Les images du jeu d'apprentissage sont converties en niveaux de gris codés sur 8 bits, et les objets relativement grands sont réduits pour rentrer dans une fenêtre de 65 χ 65 pixels. À partir de ce jeu d'apprentissage, trois niveaux de classification ont été produits. Une première classification permet de trier les objets entre les nannofossiles et les non- nannofossiles à la fois dans les ensembles d'objets gris et d'objets colorés. Ceci est effectué par un réseau de neurones primaire. Un réseau de neurones secondaire a été entraîné pour différencier entre les objets par leur forme générale. Finalement, un réseau de neurones tertiaire classifie les catégories de forme en plusieurs groupes taxonomiques.

[0086] En complément des réseaux de neurones artificiels appliqués directement sur les images, des algorithmes statistiques de reconnaissance de formes peuvent être utilisés pour la classification. Un apprentissage est effectué pour ces algorithmes sur des variables numériques descriptives mesurées sur les objets. Différentes variables descriptives sont mesurées, par exemple :

- la longueur ;

- la largeur ;

- la luminosité ;

- la circularité ;

- l'excentricité ;

- la présence ou absence d'une zone centrale ;

- la présence ou absence d'un pont ;

- les paramètres d'une équation polynomiale du profil ;

- des caractéristiques de texture et de contours, etc.

[0087] On cite ci-après plusieurs méthodes de reconnaissance morphostatistiques pouvant être appliquées à partir de ces variables descriptives pour opérer la classification dans l'application présentée ici.

A) Arbres de classification ou régression standard [0088] Les arbres sont des algorithmes de partitionnement binaire qui divisent l'espace descriptif en sous-ensembles homogènes selon les classes (nœuds) en fonction de valeurs seuils des variables descriptives. Chaque nœud de l'arbre est fractionné en utilisant la meilleure valeur parmi les variables.

B) Adaptive boosting (« adaboost »)

[0069] L'adaboost est un algorithme itératif basé schématiquement sur les arbres à régression (voir par exemple : Freund, Y., Schapire, R.E., 1997, « A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting », Journal of Computer and System Sciences, Vol. 55, pp. 1 19-139). Au cours de l'apprentissage, l'algorithme cherche à chaque itération un classifieur optimal (= classifieur faible) en fonction de la distribution de la pondération des données d'apprentissage. Cette pondération est plus ou moins importante si le nouveau classifieur faible trie correctement les observations, ce qui influe sur le calcul d'un nouveau classifieur faible à la prochaine itération, etc.

C) Les « Support Vector Machines » (SVM)

[0070] Les SVM utilisent un algorithme qui calcule des hyperplans optimaux qui séparent les classes selon les N dimensions des données d'apprentissages (voir par exemple : Cortes, C, Vapnik, V., 1995, « Support-vector networks », Machine Learning, Vol. 20, pp. 273-297). Les hyperplans sont définis par des « vecteurs supports » qui représentent les observations à la limite entre deux classes. Afin d'optimiser leur calcul et maximiser la séparation des classes, la distribution des points est modifiée par des fonctions, appelées « kernels », qui sont linéaires, polynomiales, gaussiennes ou encore sigmoïdes. Cela permet d'adapter le calcul à différentes configurations de l'espace descriptif des classes.

D) Les forêts de décisions aléatoires, ou « Random forest »

[0071] Le random forest (voir par exemple : Breiman, L., 2001 ; « Random forests », Machine Learning, Vol. 45, pp. 5-32) est une méthode qui reprend schématiquement les algorithmes de l'adaboost et des arbres de régressions. L'algorithme effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles aléatoires de données légèrement différents. Pour chaque nœud des sous-arbres, il considère un m nombre de variables sélectionnées aléatoirement. Par défaut, la méthode calcule 500 arbres sur autant de sous-ensembles, chacun représentant 63% des données. Les prédictions de chaque arbre sont ensuite combinées pour former le modèle. La classe prédite est la classe qui a la majorité des votes sur l'ensemble des arbres. Un avantage de cet algorithme est qu'un test de validation supplémentaire n'est pas nécessaire car il génère une estimation de l'erreur de généralisation non-biaisée.

E) L'analyse discriminante linéaire (LDA)

[0072] L'analyse discriminante linéaire, ou analyse canonique, est une méthode qui consiste à extraire les combinaisons linéaires des variables descriptives qui séparent plusieurs classes (voir par exemple : Martinez, A.M., Kak, A.C., 2001 , « PCA versus LDA », IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 23, pp. 228-233). L'algorithme permet de réduire le nombre de dimensions tout en préservant les informations discrimantes. Les combinaisons minimisent la variance entre les classes (minimum de chevauchement, CP1 ) et maximisent la variance dans les classes (CP2). L'analyse discriminante quadratique est une variante qui recherche les combinaisons quadratiques. Ces méthodes peuvent être utilisées quand le nombre d'échantillons par classe est supérieur au nombre de variables.

F) Classification des plus proches voisins, ou « K-nearest neighbour classification »

[0073] La classification des plus proches voisins est une méthode simple de clustering pour classer les objets à partir de la recherche des données d'apprentissage les plus proches des nouvelles observations (voir par exemple : Cover, T., Hart, P., 1967, « Nearest neighbor pattern classification », IEEE Transactions on Information Theory, Vol. 13, pp. 21 -27). Pour chaque classe des données d'apprentissage, l'algorithme réalise une recherche de clusters, c'est-à- dire de regroupements de données, en mesurant les distances Euclidiennes des points (voir par exemple : Cunningham, P., Delany, S.J. , 2007, « k-Nearest Neighbour Classifiers », Technical Report UCD-CSI-2007-4). Lors de la classification, les données de la nouvelle observation sont comparées aux clusters appris et la classe déterminée correspond au cluster le plus proche avec l'indice de confiance le plus haut. [0074] Dans le contexte de la reconnaissance de nannofossiles, il est avantageux de combiner les classifications opérées par des outils différents. En général, des classifieurs différents font des erreurs différentes sur une nouvelle observation : ils ne conviennent pas à toutes les situations. Les prédictions de chaque classifieur sont combinées pour classer les nouvelles observations.

[0075] Selon les cas, différentes méthodes peuvent être combinées, et le type de combinaison peut aussi varier. Par exemple, une combinaison par un ET logique peut convenir lorsque l'utilisateur cherche à être assez spécifique dans sa recherche, tandis que s'il cherche surtout à éviter de manquer certains spécimens, il pourra préférer combiner les classifications offertes par différentes méthodes selon un OU logique.

[0076] En proposant une classification par réseaux de neurones artificiels et une ou plusieurs classifications par des méthodes morpho-statistiques, le procédé selon l'invention offre une grande souplesse et une grande commodité au biostratigraphe. Celui-ci peut définir une diversité de critères adaptés à ce qu'il recherche et, s'il le souhaite, affecter des pondérations à ces critères.

[0077] Les analyses opérées par le serveur de calcul 12 conduisent à attacher à chaque zone d'intérêt qui a été enregistrée dans la mémoire 13 les classifications obtenues pour cette zone d'intérêt par les différentes méthodes appliquées.

[0078] Pour chaque étude biostratigraphique, la mémoire 13 contient finalement, pour chaque position étudiée (typiquement chaque profondeur le long d'une carotte extraite d'un puits), une liste complète des objets observés avec l'identification de l'image où ils ont été observés, leur position dans cette image, les classifications qui ont été réalisées par les différentes méthodes et une représentation de la zone d'intérêt.

[0079] À partir de là, l'utilisateur peut indiquer les critères de sélection qui lui conviennent, et faire afficher sur un écran des planches du genre de celles montrées sur les figures 6 et 7. Une telle visualisation lui permet de trier très rapidement les objets, d'éliminer d'éventuels faux positifs et d'affecter les objets aux différentes espèces de nannofossiles pour finalement obtenir de l'information sur l'âge des sédiments.

[0080] Le repérage des espèces de nannofossiles peut être effectué très rapidement, en dispensant l'utilisateur des tâches délicates de segmentation et en lui livrant déjà une grande partie du travail de classification, ainsi qu'un moyen très commode de réaliser son travail.

[0081] Compte tenu du nombre d'espèces de nannofossiles qui peuvent être prises en compte (jusqu'à mille et plus), une classification directe en espèces par un processus automatique ne serait pas fiable. Ici, le procédé recherche surtout une classification en grands groupes morphologiques et laisse le travail plus fin de détection des espèces à l'expert biostratigraphe.

[0082] Les modes de réalisation décrits ci-dessus sont des illustrations de la présente invention. Diverses modifications peuvent leur être apportées sans sortir du cadre de l'invention qui ressort des revendications annexées.