Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR THE IN VITRO DETECTION AND IDENTIFICATION OF AT LEAST ONE MICROORGANISM INVOLVED IN THE PROCESS OF DEGRADATION, MODIFICATION OR SEQUESTRATION OF AT LEAST ONE CONTAMINANT PRESENT IN A BIOLOGICAL SAMPLE
Document Type and Number:
WIPO Patent Application WO/2018/041749
Kind Code:
A1
Abstract:
The invention relates to a method for the in vitro detection and identification of at least one microorganism involved in the process of degradation, modification or sequestration of at least one contaminant present in a biological sample, implementing a method of gene capturing coupled with high-throughput sequencing, the gene-capturing method allowing the capture of DNA fragments having a length of at least 6000 pairs of bases.

Inventors:
PEYRET PIERRE (FR)
PEYRETAILLADE ERIC (FR)
DENONFOUX JÉRÉMIE (FR)
GASC CYRIELLE (FR)
Application Number:
PCT/EP2017/071490
Publication Date:
March 08, 2018
Filing Date:
August 28, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV CLERMONT AUVERGNE (FR)
CENTRE NAT RECH SCIENT (FR)
International Classes:
C12Q1/68
Domestic Patent References:
WO2014143994A22014-09-18
WO2015105993A12015-07-16
Foreign References:
US20150191720A12015-07-09
US20140274741A12014-09-18
Other References:
CHRISTEL SCHMEISSER ET AL: "Metagenomics, biotechnology with non-culturable microbes", APPLIED MICROBIOLOGY AND BIOTECHNOLOGY, SPRINGER, BERLIN, DE, vol. 75, no. 5, 30 March 2007 (2007-03-30), pages 955 - 962, XP019513759, ISSN: 1432-0614, DOI: 10.1007/S00253-007-0945-5
EKATERINA PROTOZANOVA ET AL: "Fast high-resolution mapping of long fragments of genomic DNA based on single-molecule detection", ANALYTICAL BIOCHEMISTRY, vol. 402, no. 1, 1 July 2010 (2010-07-01), pages 83 - 90, XP055011256, ISSN: 0003-2697, DOI: 10.1016/j.ab.2010.03.024
MARC G. DUMONT ET AL: "Identification of a complete methane monooxygenase operon from soil by combining stable isotope probing and metagenomic analysis", ENVIRONMENTAL MICROBIOLOGY, vol. 8, no. 7, 1 July 2006 (2006-07-01), GB, pages 1240 - 1250, XP055358205, ISSN: 1462-2912, DOI: 10.1111/j.1462-2920.2006.01018.x
DUGAT-BONY E ET AL., BIOINFORMATICS, vol. 27, 2011, pages 641 - 648
ALTSCHUL, JOURNAL OF MOLECULAR BIOLOGY, 1990
LANGMEAD, NATURE METHODS, 2012
HUANG, GENOME RESEARCH, 1999
LI, BIOINFORMATICS, 2009
SCHMEIDER, BIOINFORMATICS, 2011
PENG, BIOINFORMATICS, 2012
Attorney, Agent or Firm:
PONTET ALLANO & ASSOCIES (FR)
Download PDF:
Claims:
REVENDICATIONS

1 . Méthode de détection et d'identification in vitro d'un ou plusieurs micro-organismes impliqués dans le processus de dégradation, de modification ou de séquestration d'un ou plusieurs contaminants présents dans un échantillon biologique, ladite méthode comprenant les étapes suivantes :

a) la préparation d'un mélange de sondes capables de cibler spécifiquement un ou plusieurs gènes d'intérêts impliqués dans les processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants,

b) la préparation d'une banque de fragments d'ADN à partir de l'échantillon biologique, lesdits fragments d'ADN contenus dans la banque ayant une longueur d'au moins 6 000 paires de bases,

c) l'hybridation des fragments d'ADN obtenu à l'étape b) par mise en contact desdits fragments d'ADN avec le mélange de sondes de l'étape a), d) la capture des complexes d'hybridation de l'étape c),

e) le séquençage des fragments d'ADN capturés à l'étape d),

f) la reconstruction des gènes d'intérêts et/ou du génome du ou des microorganismes à partir des fragments d'ADN capturés séquencés de l'étape e), et

g) l'identification du ou des micro-organismes impliqués dans les processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants présents dans l'échantillon biologique.

2. Méthode de détection et d'identification selon la revendication 1 , dans laquelle le ou les contaminants sont des contaminants chimiques ou des contaminants biologiques.

3. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 2, dans laquelle l'échantillon biologique est un échantillon environnemental.

4. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 3, dans laquelle les gènes d'intérêts sont choisis dans le groupe comprenant: les gènes codant pour les dioxygénases, les gènes codant pour les déhalogénases, les gènes codant pour les cytochromes P450, les gènes codant pour les enzymes lignolytiques, les gènes codant pour les hydrogènases, les gènes codant pour les enzymes de dégradation des solvants chlorés et les gènes codant pour les enzymes de dégradation des toxines.

5. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 4, dans laquelle les sondes de l'étape a) sont des sondes ARN simple brin.

6. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 5, dans laquelle les sondes de l'étape a) sont des sondes non chevauchantes et exploratoires.

7. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 6, dans laquelle les sondes de l'étape a) ont une longueur d'au moins 20 nucléotides contigus.

8. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 7, dans laquelle les sondes de l'étape a) sont des sondes ARN biotinylées.

9. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 8, dans laquelle les sondes de l'étape a) comprend un adaptateur A de séquence SEQ ID No.1 et un adaptateur B de séquence SEQ ID No.2, l'adaptateur A étant placé à l'extrémité 5' de la séquence de la sonde et l'adaptateur B étant placé l'extrémité 3' de la séquence de la sonde.

10. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 9, dans laquelle le mélange de sondes de l'étape a) comprend au moins une sonde.

1 1 . Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 10, dans laquelle le mélange de sondes est spécifique d'au moins un gène d'intérêt.

12. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 1 1 , dans laquelle la banque de fragments d'ADN comprend des fragments d'ADN ayant une longueur d'au moins 6000 paires de bases, avantageusement 20 000 paires de bases, avantageusement au moins 50 000 paires de bases.

13. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 12, dans laquelle l'étape c) d'hybridation est réalisée en solution.

14. Méthode de détection et d'identification selon l'une quelconque des revendications 1 à 13, dans laquelle l'étape d) de capture des complexes d'hybridation est réalisée au moyen de billes magnétiques recouvertes de streptavidine.

Description:
METHODE DE DETECTION ET D'IDENTIFICATION IN VITRO D'UN OU PLUSIEURS MICRO-ORGANISMES IMPLIQUES DANS LE PROCESSUS DE DEGRADATION, DE MODIFICATION OU DE SEQUESTRATION D'UN OU PLUSIEURS CONTAMINANTS

PRESENTS DANS UN ECHANTILLON BIOLOGIQUE.

DOMAINE TECHNIQUE

La présente invention concerne une méthode à haut débit de détection et d'identification in vitro d'un ou plusieurs micro-organismes impliqués dans le processus de dégradation, de modification ou de séquestration d'un ou plusieurs contaminants présents dans un échantillon biologique.

ARRIERE-PLAN TECHNOLOGIQUE

Les micro-organismes, par leurs capacités d'adaptation liées à la diversité de leurs capacités métaboliques, jouent un rôle fondamental dans tous les processus biologiques. Ils participent au bon fonctionnement de tous les écosystèmes. Cependant, l'anthropisation peut conduire à des déséquilibres des communautés microbiennes participant ainsi aux changements globaux, comme le réchauffement climatique, en partie occasionné par les émissions croissantes de méthane dans l'atmosphère. A l'inverse, les micro-organismes peuvent permettre la réduction des pollutions résultant de la dispersion de molécules comme les Hydrocarbures Aromatiques Polycycliques (HAP). Ainsi, les communautés microbiennes participent à réduire ou à augmenter les effets délétères de l'anthropisation des écosystèmes. A ce jour, il est difficile d'évaluer la diversité microbienne des écosystèmes, dans la mesure où ces écosystèmes comprennent une quantité importante de micro-organismes différents, dont la plupart sont encore non cultivables ou non caractérisés. Les méthodes utilisées classiquement pour étudier les micro-organismes nécessitent d'isoler et de cultiver au préalable le micro-organisme. De nouvelles techniques de séquençage (Séquençage de nouvelle génération (NGS)) permettent aujourd'hui d'étudier directement l'ADN total extrait d'un environnement. Ces technologies, de par leur très haut-débit et leur coût réduit, permettent l'obtention d'une information de séquence très importante et extraite à partir de communautés microbiennes complexes. Cependant, pour explorer les environnements dans leur globalité, l'effort de séquençage reste encore insuffisant même avec les capacités actuelles des NGS. De même, la quantité importante de données générées, tout comme la taille réduite des lectures ou encore le taux d'erreur de séquençage restent des problèmes majeurs pour les étapes d'assemblage. Compte- tenu de ces inconvénients majeurs, il est impossible avec les techniques actuelles d'identifier avec précision tous les micro-organismes. Il est nécessaire de pouvoir disposer de techniques exhaustives, résolutives et exploratoires permettant de décrire les gènes jouant le rôle de marqueurs phylogénétiques ou de marqueurs fonctionnels. De plus, ces techniques doivent permettre une caractérisation fine des micro-organismes au niveau de la souche nécessitant l'identification ciblée de grandes régions génomiques voire la reconstruction ciblée de génomes et ce quel que soit leur abondance dans les différents environnements explorés. Enfin, quel que soit le niveau de connaissance sur ces micro- organismes, même complètement inconnus, ils doivent pouvoir être finement décrits avec ces approches.

La demande internationale WO2015/105993 (AgBiome Inc) décrit une méthode d'identification de gènes d'intérêts mettant en œuvre une étape de capture de gènes par hybridation, suivie d'une étape de séquençage pour identifier lesdits gènes d'intérêts dans un échantillon environnemental. Toutefois, la méthode décrite dans la demande internationale WO2015/105993 nécessite l'utilisation de sondes chevauchantes complémentaires de séquences de gènes de référence pour procéder à la capture de fragments d'ADN, et est limitée à la capture de fragments d'ADN de longueur maximale égale à 1800 nucléotides. De plus, l'approche ne permet pas forcément d'identifier des gènes complets et encore moins des séquences nucléiques comprenant plusieurs gènes, voire de nouveaux gènes ou des génomes complets. La méthode décrite dans la demande internationale WO2015/105993 ne permet que d'identifier des gènes dont la séquence nucléique est proche des gènes ciblés, et ne permet pas d'identifier des gènes divergents, voire de nouveaux gènes. Par conséquent, il apparaît nécessaire de disposer d'une méthode à haut débit permettant d'évaluer la diversité microbienne des écosystèmes en détectant et en identifiant de manière plus spécifique et plus sensible les populations de micro-organismes impliqués dans les processus de dégradation, de modification ou de séquestration d'un ou plusieurs contaminants, avec notamment les micro-organismes appartenant à la biosphère rare et les populations microbiennes non cultivables à ce jour. DESCRIPTION DETAILLEE

Les demandeurs proposent donc une nouvelle méthode de détection et d'identification in vitro d'un ou plusieurs micro-organismes impliqués dans le processus de dégradation, de modification ou de séquestration d'un ou plusieurs contaminants présents dans un échantillon biologique.

Un objet de l'invention est donc une méthode de détection et d'identification in vitro d'un ou plusieurs micro-organismes impliqués dans le processus de dégradation, de modification ou de séquestration d'un ou plusieurs contaminants présents dans un échantillon biologique, ladite méthode comprenant les étapes suivantes :

a) la préparation d'un mélange de sondes capables de cibler spécifiquement un ou plusieurs gènes d'intérêts caractérisant les microorganismes impliqués dans les processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants,

b) la préparation d'une banque de fragments d'ADN à partir de l'échantillon biologique, lesdits fragments d'ADN contenus dans la banque ayant une longueur d'au moins 6 000 paires de bases,

c) l'hybridation des fragments d'ADN obtenu à l'étape b) par mise en contact desdits fragments d'ADN avec le mélange de sondes de l'étape a),

d) la capture des complexes d'hybridation de l'étape c),

e) le séquençage des fragments d'ADN capturés à l'étape d),

f) la reconstruction des gènes d'intérêts et/ou du génome du ou des microorganismes à partir des fragments d'ADN capturés séquencés de l'étape e), et

g) l'identification du ou des micro-organismes impliqués dans les processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants présents dans l'échantillon biologique.

La méthode selon l'invention permet de capturer des fragments d'ADN ayant une longueur d'au moins 6 000 paires de bases. Grâce à cette nouvelle méthode, les inventeurs sont capables d'identifier à la fois les séquences connues et inconnues d'un ou plusieurs gènes d'intérêts caractérisant les microorganismes impliqués dans les processus de dégradation dudit ou desdits contaminants, de reconstruire de grands fragments de génomes contenant le ou les gènes d'intérêts, et d'identifier le ou les micro-organismes impliqués dans les processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants présents dans l'échantillon biologique. Cette méthode, tout en permettant d'explorer de manière exhaustive la diversité génétique de gènes d'intérêts, présente l'avantage d'assurer l'identification des régions flanquantes associées aux séquences ciblées. Il est alors possible, par la caractérisation de grandes régions d'ADN, de mettre en évidence des organisations génomiques connues ou inconnues, voire de reconstruire de nouveaux génomes et donc d'identifier de nouveaux micro-organismes avec de nouveaux gènes pouvant avoir un rôle dans une voie métabolique donnée. De plus, la présente méthode permet de s'affranchir de l'utilisation de sondes chevauchantes et complémentaires de séquences de références. De ce fait, il n'est pas nécessaire d'avoir une connaissance initiale exhaustive de la séquence complète des gènes à capturer. L'approche permet de révéler des gènes inconnus grâce au caractère exploratoire des sondes se traduisant par leur dégénérescence à des positions particulières.

La méthode selon l'invention est capable de détecter et d'identifier un ou plusieurs microorganismes impliqués dans le processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants chimiques présents dans un échantillon biologique. Par « micro-organisme » ou « microbe », il est entendu tout organisme unicellulaire eucaryote (protiste), tel que les champignons dont les levures, les microalgues, les protozoaires, ou procaryote, tel que les bactéries et les archées. Avantageusement, les micro-organismes selon l'invention peuvent être des bactéries, en particulier les bactéries exprimant le ou les gènes d'intérêt recherchés. Avantageusement, les bactéries selon l'invention peuvent être des bactéries Gram positif (monoderme), Gram négatif (diderme), à paroi résistante de type BAAR (Bactéries Acido Alcoolo Résistantes) comme les mycobactéries ou sans paroi comme les mycoplasmes. A titre d'exemple, on peut citer les bactéries de la famille des Shingomonadaceae, en particulier Sphingobium indicum, les bactéries de la famille des Burkholderiaceae, en particulier Burkholderia xenovorans, les bactéries de la famille des Dehalococcoidaceae, en particulier Dehalococcoides ethenogenes, ou les bactéries de la famille des Pseudomonadaceae, en particulier Pseudomonas mendocina.

Par « dégradation », il est entendu toute réaction consistant à transformer le contaminant en une autre molécule présentant d'autres propriétés, voire en une molécule n'ayant pas de propriété de toxicité. Par « modification », il est entendu toute réaction consistant à modifier les propriétés du contaminant.

Par « séquestration », il est entendu toute réaction permettant de complexer le contaminant, le rendant ainsi inactif. Par « contaminants», il est entendu toute substance naturelle ou synthétique non naturellement présente dans l'environnement. Dans un mode de réalisation particulièrement avantageux de l'invention, les contaminants peuvent être des contaminants chimiques ou des contaminants biologiques. Dans un mode de réalisation particulièrement avantageux de l'invention, les contaminants chimiques sont choisis dans le groupe comprenant : les solvants chlorés, les retardateurs de flamme comme le tetrabromobisphenol-A ou les polybromo diphenyl ethers (PBDE), les BTEX (benzène, toluène, éthylbenzène et xylène), le cumène, les pesticides, les hydrocarbures aliphatiques et polycycliques, les dioxines, les furanes, les polychlorodibenzofuranes, le chlorobenzène, les polychlorobiphényles, les carbazoles, les perfluorocarbures (PFC), les déchets plastiques, les produits pharmaceutiques dont les antibiotiques, les produits cosmétiques, les contaminants inorganiques comme l'arsenic, le mercure, le plomb, le perchlorate ou les nanomatériaux comme les nano fibres de carbone. A titre d'exemples de solvants chlorés, il est possible de citer le perchloroéthylène, le trichloroéthylène, le dichloroéthylène. À titre d'exemple de pesticides, il est possible de citer les pesticides chlorés, tel que l'hexaclhorocyclohexane. À titre d'exemple d'hydrocarbures polycycliques, il est possible de citer le benzo[a]pyrène, le naphtalène, le phénanthrène.

Dans un mode de réalisation avantageux de l'invention, les contaminants biologiques peuvent être des toxines, comme par exemple des toxines bactériennes, telles que les shigatoxines, des mycotoxines de champignons, telles que l'aflatoxine ou l'ochratoxine, des toxines provenant d'algues ou biotoxines marines telles que l'acide domoïque, l'acide okadaïque et leurs dérivés, des toxines provenant de plantes, telles que l'hypoglycine et les glycoalcaloïdes.

Par « échantillon biologique », il est entendu tout échantillon comprenant l'ADN d'au moins un micro-organisme. Dans un mode de réalisation avantageux de l'invention, l'échantillon biologique peut être un échantillon environnemental. Avantageusement, l'échantillon environnemental peut être un échantillon de sol, avantageusement un échantillon de sol de forêt, un échantillon de terre agricole cultivée ou non cultivée, un échantillon de sol industriel, un échantillon de sol non anthropisé, un échantillon de sol gelé (permafrost), un échantillon de sédiments ; un échantillon d'eau, avantageusement un échantillon d'eau de rivière, un échantillon d'eau provenant d'un étang, un échantillon d'eau de lac, un échantillon d'eau d'une retenue artificielle, un échantillon d'eau de systèmes de distribution, un échantillon d'eau de systèmes de climatisation, un échantillon d'eau de mer, un échantillon d'océan, un échantillon d'eau de station d'épuration, un échantillon d'eaux usées, un échantillon d'eau potable, un échantillon d'eaux usées industrielles, un échantillon d'eau de sources, un échantillon de nappes phréatiques, un échantillon d'aquifères, un échantillon d'eau gelé (glaciers, banquise, iceberg), un échantillon d'atmosphère, un échantillon d'air, un échantillon de plante, un échantillon provenant d'un aliment, comme par exemple les crustacés, un échantillon de matières premières agricoles, comme par exemple les ensilages, les céréales un échantillon de digesteur naturel , comme par exemple l'intestin ou le rumen, ou artificiel, tel qu'un méthaniseur.

Avantageusement, l'échantillon environnemental comprend l'ADN d'au moins un microorganisme, avantageusement d'au moins deux micro-organismes différents, avantageusement d'au moins trois micro-organismes différents, avantageusement d'au moins quatre micro-organismes différents, avantageusement d'au moins cinq microorganismes différents, avantageusement d'au moins dix micro-organismes différents, avantageusement d'au moins 20 micro-organismes différents, avantageusement d'au moins 25 micro-organismes différents, avantageusement d'au moins 30 micro-organismes différents, avantageusement d'au moins 50 micro-organismes différents, avantageusement d'au moins 75 micro-organismes différents, avantageusement d'au moins 100 microorganismes différents, avantageusement d'au moins 200 micro-organismes différents, avantageusement d'au moins 300 micro-organismes différents, avantageusement d'au moins 400 micro-organismes différents, avantageusement d'au moins 500 micro- organismes différents, avantageusement d'au moins 600 micro-organismes différents, avantageusement d'au moins 700 micro-organismes différents, avantageusement d'au moins 800 micro-organismes différents, avantageusement d'au moins 900 microorganismes différents avantageusement d'au moins 1000 micro-organismes différents, avantageusement d'au moins 2000 micro-organismes différents, avantageusement d'au moins 3000 micro-organismes différents, avantageusement d'au moins 5000 microorganismes différents ou plus.

La méthode mise au point par les inventeurs ne nécessite pas au préalable d'isolement des micro-organismes mais est capable d'identifier directement à partir de communautés des séquences d'ADN de gènes d'intérêts caractérisant les micro-organismes recherchés, dont les produits peuvent participer aux processus de dégradation, modification ou séquestration des contaminants. Cette méthode permet directement à partir de mélanges non caractérisés de populations de micro-organismes, à partir d'échantillons biologiques bruts où les échantillons biologiques sont recueillis et non soumis à une purification préalable pour éliminer des substances inhibitrices telles que les acides humiques ou les acides fulviques présents dans les échantillons de sol par exemple, d'identifier précisément les micro-organismes recherchés. Ainsi, la méthode selon l'invention est capable d'identifier des séquences d'ADN de gènes et des variants connus ou inconnus de ceux-ci au travers de l'interrogation de l'ADN de micro-organismes de communautés microbiennes, qu'ils soient cultivables, difficiles à cultiver ou non cultivables. . Gènes d'intérêt

Des séquences d'ADN connues de gènes d'intérêts ou des variants de celles-ci, mais également des séquences d'ADN inconnues de gènes d'intérêt ou des variants de celles- ci peuvent être détectées et identifiées par la méthode selon l'invention. Au sens de la présente invention, il est entendu par « séquence d'ADN de gène d'intérêt », la séquence d'ADN de gène connu ou inconnu.

Dans un mode de réalisation selon l'invention, les gènes d'intérêts peuvent être les gènes codant pour les enzymes de dégradation des contaminants chimiques ou biologiques mais aussi des séquences caractérisant les microorganismes portant les activités recherchées.

Avantageusement, les gènes d'intérêts peuvent être choisis dans le groupe comprenant : les gènes codant pour les dioxygénases, les gènes codant pour les déhalogénases, les gènes codant pour les cytochromes P450, les gènes codant pour les enzymes lignolytiques, les gènes codant pour les hydrogénases et les gènes codant pour les enzymes de dégradation des contaminants biologiques, en particulier les gènes codant pour les enzymes de dégradation des toxines, en particulier des hydrolases, des décarboxylases, des glycosylases. Dans un mode de réalisation particulièrement avantageux, le gène d'intérêt peut être le gène HnA.

Dans un autre mode de réalisation de l'invention, les sondes peuvent être conçues pour reconnaître des séquences d'ADNr 16S, ou toute autre séquence différentielle phylogénétique comme les gènes mcrA, col ou les ITS, afin de capturer les séquences nécessaires à l'estimation de la répartition des espèces de microorganismes présentes dans l'échantillon biologique.

Dans un autre mode de réalisation de l'invention, les sondes peuvent être conçues pour reconnaître des séquences spécifiques de microorganismes impliqués dans la dégradation, la modification ou la séquestration de contaminants chimiques ou biologiques afin de capturer ces séquences nécessaires à la détection et l'identification de ces microorganismes d'intérêt dans l'échantillon biologique. La méthode selon l'invention peut identifier des variants de séquences d'ADN connus ou inconnus provenant de plusieurs familles de gènes d'intérêts. Au sens de la présente invention, le terme « variants » ou « gène variant » se réfère aux gènes montrant des similarités plus ou moins importantes. Bien que l'expression d'un variant puisse être modifiée par rapport à celui du gène d'intérêt, le variant peut conserver la même fonction que le gène d'intérêt ou aboutir à de nouvelles fonctions. Par exemple, un variant peut avoir une expression accrue, une expression réduite, un spectre d'expression différent (par exemple, pour un gène de toxine insecticide), ou toute autre modification de l'expression par rapport au gène d'intérêt ciblé. De manière générale, par « variant » il est entendu des séquences sensiblement similaires. Pour des polynucléotides, un variant comprend une délétion et/ou une insertion d'un ou plusieurs nucléotides à un ou plusieurs sites dans le polynucléotide natif, ou une substitution d'un ou plusieurs nucléotides à un ou plusieurs sites dans le polynucléotide natif voire des modifications chimiques de type méthylation ou autres. Il est entendu par « polynucléotide natif » ou « polynucléotide de type sauvage », un polynucléotide qui comprend une séquence nucléotidique naturelle. Pour les séquences codant des protéines, les variants peuvent être des variants dits « conservateurs », qui en raison de la dégénérescence du code génétique codent pour la séquence d'acides aminés native du produit du gène d'intérêt ; des variants alléliques naturels, tels que ceux qui peuvent être identifiés par des techniques bien connues de l'homme du métier, comme par exemple par amplification par polymérisation en chaîne (PCR) ou les techniques d'hybridation ou de séquençage direct sans a priori; des variants obtenus de manière artificielle, comme notamment ceux générés par mutagénèse aléatoire ou dirigée mais codant toujours pour le produit du gène d'intérêt ou montrant des similarité des séquences de structure. Avantageusement, le variant présente au moins environ 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91 %, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% ou 100% d'identité avec la séquence nucléotidique du gène d'intérêt.

Sondes

Dans un mode de réalisation de l'invention, la méthode utilise des sondes de capture spécifiques des gènes d'intérêts ou des variants connus ou inconnus de ceux-ci. Au sens de la présente invention, il est entendu par « sonde », un polynucléotide capable de s'hybrider avec la séquence du gène d'intérêt ou un variant connu ou inconnu de celui-ci. Les sondes peuvent être des séquences d'ARN ou d'ADN, chevauchantes, contiguës ou séquentielles. Dans un mode de réalisation avantageux de l'invention, les sondes sont des séquences d'ARN simple brin capables de s'hybrider à la séquence du gène d'intérêt par complémentarité des nucléotides. À titre d'exemple, la séquence d'ARN de la sonde est complémentaire de la séquence ADN issue du fragment du gène d'intérêt. Dans un mode de réalisation particulièrement avantageux, les sondes selon l'invention sont des séquences d'ARN simple brin non chevauchantes. Dans un mode de réalisation particulièrement avantageux, les sondes sont exploratoires, c'est-à-dire capables de cibler spécifiquement un ensemble de séquences connues et inconnues de gènes d'intérêts, les séquences connues et inconnues de gènes d'intérêts pouvant être des séquences d'ADN ou d'ARN ou d'ADNc. Dans un mode de réalisation encore plus avantageux de la présente invention, les sondes sont des séquences d'ARN simple brin non chevauchantes et exploratoires. Dans un mode de réalisation avantageux selon l'invention, les sondes ont une longueur d'au moins 20 nucléotides contigus, avantageusement d'au moins 30 nucléotides contigus, avantageusement d'au moins 40 nucléotides contigus, avantageusement d'au moins 50 nucléotides contigus, avantageusement d'au moins 60 nucléotides contigus, avantageusement d'au moins 70 nucléotides contigus, avantageusement d'au moins 80 nucléotides contigus, avantageusement au moins 90 nucléotides contigus, avantageusement au moins 100 nucléotides contigus, avantageusement au moins 1 10 nucléotides contigus, avantageusement au moins 120 nucléotides contigus, avantageusement au moins 130 nucléotides contigus, avantageusement au moins 140 nucléotides contigus, avantageusement au moins 150 nucléotides contigus ou plus. Avantageusement, la séquence des sondes peut comprendre 20 à 150 nucléotides contigus, avantageusement 70 à 150 nucléotides contigus, avantageusement 100 à 140 nucléotides contigus, avantageusement 1 10 à 120 nucléotides contigus, avantageusement 70 à 90 nucléotides contigus. De manière particulièrement avantageuse, les sondes ont une longueur de 80 nucléotides contigus. Dans un mode de réalisation avantageux selon l'invention, les sondes peuvent être complémentées avec un marqueur détectable pour permettre la capture du complexe d'hybridation comprenant la sonde hybridée au fragment d'ADN du gène d'intérêt ou du variant connu ou inconnu de celui-ci. Dans un mode de réalisation particulièrement avantageux, les sondes sont marquées avec de la biotine, un haptène ou un marqueur d'affinité, ou sont générées par polymérisation ou transcription en utilisant des oligonucléotides biotinylés. Dans un mode de réalisation encore plus avantageux, les sondes sont biotinylées. Dans un mode de réalisation encore plus avantageux, les sondes sont des sondes ARN simple brin biotinylées ayant une longueur de 80 nucléotides. Dans un mode de réalisation encore plus avantageux, les sondes ARN simple brin sont biotinylées aléatoirement sur la totalité de leur séquence. Les sondes oligonucléotidiques peuvent inclure des adaptateurs nécessaires pour leur amplification par PCR. Dans un mode de réalisation particulièrement avantageux, les sondes comprennent un adaptateur A de séquence SEQ ID No.1 et un adaptateur B de séquence SEQ ID No.2, l'adaptateur A étant placé à l'extrémité 5' de la séquence de la sonde et l'adaptateur B étant placé à l'extrémité 3' de la séquence de la sonde. Avantageusement, les séquences des adaptateurs A (SEQ ID No.1 ), et B (SEQ ID No.2) sont ajoutées à chaque extrémité des sondes conduisant à des sondes dont la séquence est du type « adaptateur A - sonde - adaptateur B ». La sonde peut également inclure un promoteur, en position 5' de l'adaptateur A, ou en 3' de l'adaptateur B, comme par exemple le promoteur T7, de séquence SEQ ID No.3.

Dans un mode de réalisation selon l'invention, les sondes oligonucléotidiques, une fois synthétisées, sont amplifiées à l'aide des adaptateurs A et B pour rajouter le promoteur T7, puis purifiées. L'homme du métier saura utiliser toutes les méthodes adéquates pour l'amplification et la purification. Avantageusement, les sondes peuvent être amplifiées en utilisant le kit Platinium Taq DNA Polymerase High Fidelity commercialisé par la société Invitrogen et peuvent être purifiées en utilisant le kit MinElute PCR purification commercialisé par la société Qiagen. Les sondes sont ensuite transcrites in vitro grâce au promoteur T7 en présence de dNTP biotinylés, afin d'obtenir les sondes ARN biotinylées. L'homme du métier saura utiliser toutes les méthodes adéquates pour transcrire les sondes bioyinylées et les purifier. Avantageusement, la transcription in vitro peut être réalisée en utilisant le kit MEGAScript commercialisé par la société Ambion et des dUTP biotinylés commercialisés par la société Tebu-Bio. Les sondes ARN biotinylées peuvent ensuite être purifiées en utilisant le kit RNeasy plus commercialisé par la société Qiagen. Dans un mode de réalisation selon l'invention, des sondes spécifiques de différents gènes peuvent être utilisées de manière simultanée pour s'hybrider avec les fragments d'ADN ou ARN ou d'ADNc préparés à partir de l'échantillon biologique. Par exemple, pour l'analyse d'un échantillon biologique, des sondes conçues pour chaque gène d'intérêt peuvent être combinées pour former un mélange de sondes, en amont de leur synthèse, ou au moment de la mise en contact des sondes avec la banque de fragments d'ADN obtenus à partir de l'échantillon biologique.

Dans un autre mode de réalisation avantageux selon l'invention, les sondes sont conçues pour capturer les séquences correspondantes aux gènes codant pour les enzymes de dégradation des contaminants chimiques, en particulier aux gènes codant pour les dioxygénases, aux gènes codant pour les déhalogénases, aux gènes codant pour les cytochromes P450, aux gènes codant pour les enzymes lignolytiques, aux gènes codant pour les hydrogénases et aux gènes codant pour les enzymes de dégradation des contaminants biologiques, en particulier aux gènes codant pour les enzymes de dégradation des toxines.

Au sens de la présente invention, un « mélange de sondes » se réfère à un ensemble de sondes conçues pour être spécifique d'un ou de différents gènes d'intérêts et ses variants connus ou inconnus appartenant à un microorganisme cible particulier et / ou un ensemble de sondes conçues pour être spécifiques d'un ou de différents gènes d'intérêts appartenant à des microorganismes cibles différents.

Dans un mode de réalisation particulièrement avantageux de l'invention, le mélange de sondes peut comprendre au moins une sonde, avantageusement au moins 2 sondes, avantageusement au moins 3 sondes différentes, avantageusement au moins 4 sondes différentes , avantageusement au moins 5 sondes différentes, avantageusement au moins 10 sondes différentes, avantageusement au moins 20 sondes différentes, avantageusement au moins 30 sondes différentes, avantageusement au moins 40 sondes différentes, avantageusement au moins 50 sondes différentes, avantageusement au moins 60 sondes différentes, avantageusement au moins 70 sondes différentes, avantageusement au moins 80 sondes différentes, avantageusement au moins 90 sondes différentes, avantageusement au moins 100 sondes différentes, avantageusement au moins 200 sondes différentes, avantageusement au moins 300 sondes différentes, avantageusement au moins 400 sondes différentes, avantageusement au moins 500 sondes différentes, avantageusement au moins 600 sondes différentes, avantageusement au moins 700 sondes différentes, avantageusement au moins 800 sondes différentes, avantageusement au moins 900 sondes différentes, avantageusement au moins 1000 sondes différentes, avantageusement au moins 1200 sondes différentes, avantageusement au moins 1400 sondes différentes, avantageusement au moins 1500 sondes différentes, avantageusement au moins 1600 sondes différentes, avantageusement au moins 1700 sondes différentes, avantageusement au moins 1800 sondes différentes, avantageusement au moins 1900 sondes différentes, avantageusement au moins 2000 sondes différentes, avantageusement au moins 3000 sondes différentes, avantageusement au moins 5000 sondes différentes ou plus.

Dans un mode de réalisation particulièrement avantageux de l'invention, le mélange de sondes comprend entre 1 et 5000 sondes différentes, avantageusement entre 100 et 4500 sondes différentes, avantageusement entre 500 et 4000 sondes différentes, avantageusement entre 1000 et 4000 sondes différentes, avantageusement entre 1500 et 3000 sondes différentes, avantageusement entre 1600 et 2500 sondes différentes, avantageusement entre 1900 et 2100 sondes différentes.

Dans un mode de réalisation particulièrement avantageux de l'invention, le mélange de sondes peut être spécifique d'au moins 1 , avantageusement au moins 2, avantageusement au moins 10, avantageusement au moins 50, avantageusement au moins 100, avantageusement au moins 150, avantageusement au moins 200, avantageusement au moins 250, avantageusement au moins 300, avantageusement au moins 500 gènes d'intérêt. Avantageusement, le mélange de sondes est spécifique d'au moins un gène d'intérêt. Dans un mode de réalisation particulièrement avantageux de l'invention, le nombre de gènes d'intérêt ciblés par le mélange de sondes est compris entre 1 et 500 gènes d'intérêt, avantageusement entre 1 et 400 gènes d'intérêt, avantageusement entre 1 et 3500 gènes d'intérêt, avantageusement entre 1 et 300 gènes d'intérêt.

Dans un mode de réalisation avantageux de l'invention, l'intervalle entre deux sondes est compris entre 10 paires de bases (pb) et 1000 pb, avantageusement entre 50 pb et 500 pb, avantageusement entre 100 pb et 450 pb, avantageusement entre 100 pb et 400 pb, avantageusement entre 100 pb et 350 pb, avantageusement entre 100 et 300 pb, avantageusement entre 100 pb et 250 pb, avantageusement entre 100 pb et 200 pb. Dans un mode de réalisation particulièrement avantageux de l'invention, l'intervalle entre deux sondes est compris entre 100 pb et 200 pb.

Au sens de la présente invention, une sonde spécifique d'un gène et de l'ensemble de ses variants connus ou inconnus est conçue pour hybrider l'ensemble des gènes et des variants connus ou inconnus de ce gène présents au sein de l'échantillon biologique. Une sonde est donc spécifique de l'ensemble des variants d'un gène d'intérêt. Dans un mode de réalisation avantageux, les séquences des sondes sont conçues pour cibler les gènes d'intérêts et leurs variants connus ou inconnus en utilisant des outils logiciels tels que KASpOD, HiSpOD ou ExSpOD.

Dans un mode de réalisation avantageux selon l'invention, la sonde est capable de s'hybrider avec un fragment d'ADN, d'ARN ou d'ADNc du gène d'intérêt et de ses variants connus ou inconnus d'une longueur d'au moins 6 000 nucléotides, avantageusement 20 000 nucléotides encore plus avantageusement 50 000 nucléotides, jusqu'à la longueur totale de la séquence nucléotidique du génome d'intérêt ou jusqu'à la longueur totale de la séquence nucléotidique d'intérêt. Préparation d'une banque de fragments d'ADN à partir de l'échantillon biologique

Pour obtenir la banque de fragments d'ADN capable d'être hybridée par les sondes telles que décrites ci-dessus, l'échantillon biologique contenant les ADNs d'au moins un microorganisme doit être préparé en vue de l'étape d'hybridation. L'extraction de l'ADN à partir de l'échantillon biologique peut être réalisée par n'importe quelle technique bien connue de l'homme du métier, permettant d'extraire de l'ADN de taille compatible avec la taille des fragments à capturer en vue de l'étape d'hybridation. Avantageusement, l'extraction de l'ADN à partir de l'échantillon biologique peut être réalisée en utilisant des kits d'extraction d'ADN disponibles dans le commerce, comme par exemple les kits : Bacterial Genomic DNA Mini-prep Kit commercialisé par BayGene/Sigma-AIdrich ; BACMAX DNA purification kit commercialisé par Epicentre Biotechnologies/ Cambio ; PowerSoil DNA isolation kit commercialisé par MO BIO Laboratories Inc ; PowerMax Soil DNA Isolation Kit commercialisé par MO BIO Laboratories Inc ; UltraClean Microbial DNA Isolation Kit commercialisé par MO BIO Laboratories Inc. Dans un mode de réalisation avantageux de l'invention, l'ADN extrait est ensuite fragmenté en fragments d'ADN de longueur spécifique. Avantageusement l'ADN est fragmenté en fragments ayant une longueur d'au moins 6 000 paires de bases, avantageusement d'au moins 20 000 paires de bases, avantageusement d'au moins 50 000 paires de bases. La fragmentation de l'ADN peut être réalisée par n'importe quelle technique connue de l'homme du métier permettant d'obtenir des fragments d'ADN ayant la longueur désirée. Avantageusement, les fragments d'ADN selon l'invention sont obtenus en utilisant le kit g- TUBE commercialisé par la société Covaris. Dans un mode de réalisation particulièrement avantageux de l'invention, les fragments d'ADN ont soit une longueur de 6 000 paires de bases, soit une longueur de 20 000 paires de bases d'ADN, soit une longueur de 50 000 paires de bases d'ADN. Au sens de la présente invention, il est entendu par « banque de fragments d'ADN » ou « banque », un ensemble de fragments d'ADN ayant la même longueur, lesdits fragments d'ADN étant obtenus à partir de l'échantillon biologique. Dans un mode de réalisation avantageux de l'invention, les fragments d'ADN constituants la banque ont une taille homogène. Dans un mode de réalisation particulier de l'invention, trois banques de fragments d'ADN sont obtenues à partir de l'échantillon biologique : une banque dite « 6kb » comprenant des fragments d'ADN ayant une longueur de 6 000 paires de bases, une banque dite « 20kb » comprenant des fragments d'ADN ayant une longueur de 20 000 paires de bases et une banque dite « 50kb » comprenant des fragments d'ADN ayant une longueur de 50 000 paires de bases. Dans un mode de réalisation particulièrement avantageux de l'invention, la banque de fragments d'ADN comprend des fragments d'ADN ayant une longueur d'au moins 6 000 paires de bases, avantageusement au moins 20 000 paires de bases, avantageusement au moins 50 000 paires de bases. Dans un mode de réalisation avantageux, la méthode selon l'invention peut en outre comprendre une étape sélection de taille des ADN fragmentés. Avantageusement, l'étape de sélection peut être réalisée avec le système BluePippin en utilisant les kits 0,75% Agarose Gel Cassette Mid Range Targets, 0,75% Agarose Gel Cassette Low Range Targets ou 0,75% Agarose Gel Cassette 50kb commercialisés par la société SageScience. Dans un mode de réalisation avantageux de l'invention, les banques d'ADN peuvent être enrichies par amplification, notamment par amplification isotherme par déplacement de brin, permettant d'enrichir d'au moins 1 ,5 fois, avantageusement au moins 2 fois, avantageusement au moins 5 fois, avantageusement au moins 10 fois, avantageusement au moins 20 fois, avantageusement au moins 50 fois, avantageusement au moins 100 fois, avantageusement au moins 1000 fois la population cible de fragments d'ADN. Avantageusement, l'amplification de la banque peut être réalisée avec le kit IHustraGenomPhi V2 DNA Amplification commercialisé par la société GE Healthcare.

Dans un mode de réalisation avantageux, la méthode selon l'invention peut en outre après l'étape d'amplification, comprendre une étape sélection de la taille des banques de fragments d'ADNs amplifiées. Avantageusement, l'étape de sélection de la taille des banques de fragments d'ADNs amplifiées peut être réalisée avec le système BluePippin en utilisant les kits 0,75% Agarose Gel Cassette Mid Range Targets, 0,75% Agarose Gel Cassette Low Range Targets ou 0,75% Agarose Gel Cassette 50kb commercialisés par la société SageScience. Avantageusement, cette étape de sélection de la taille des banques de fragments d'ADNs amplifiées permet de conserver uniquement les fragments d'ADN amplifiés ayant soit une longueur moyenne de 6 000 paires de bases, soit une longueur moyenne de 20 000 paires de bases, soit une longueur moyenne de 50 000 paires de bases d'ADN

Hybridation et capture des fragments d'ADN Hybridation

Les sondes peuvent être mélangées à la banque de fragments d'ADN préalablement à l'étape d'hybridation par n'importe quel moyen connu de l'homme du métier. La quantité de sondes ajoutées à la banque de fragments d'ADN doit être suffisante pour permettre la fixation des fragments d'ADN des gènes d'intérêts ou de ces variants. Dans un mode de réalisation avantageux selon l'invention, le nombre de sondes introduites dans le mélange est supérieur ou égal au nombre de fragments d'ADN contenusdans la banque. Le rapport sondes/fragments d'ADN pour l'hybridation est d'environ 1 :1 , avantageusement d'environ 250:1 , avantageusement d'environ 1000:1 , avantageusement d'environ 20000 :1 ou supérieur.

Dans un mode de réalisation avantageux selon l'invention, l'étape c) d'hybridation est réalisée en solution ou sur support solide. Avantageusement, l'étape d'hybridation est réalisée en solution. Dans un mode de réalisation avantageux selon l'invention, l'étape d'hybridation est réalisée dans des conditions stringentes.

Dans un mode de réalisation particulier, la banque de fragments d'ADN, d'ADNc ou d'ARN est hybridée avec les sondes pendant une durée d'au moins 16 heures, avantageusement d'au moins 20 heures, encore plus avantageusement d'au moins 24 heures, et à une température d'au moins 45°C, avantageusement d'au moins 50°C, avantageusement d'au moins 55°C, avantageusement d'au moins 60°C, encore plus avantageusement d'au moins 65°C. Dans un mode de réalisation particulièrement avantageux, la banque dé fragmente d'ADN ou d'ARN est hybridée avec les sondes pendant 24 heures à une température de 65°C. Avantageusement, le tampon d'hybridation peut comprendre un tampon à base d'un mélange de chlorure de sodium, d'EDTA et de phosphate, commercialisé sous le nom tampon SSPE (« Saline-Sodium Phosphate-EDTA Hybridization Buffer »), une solution Denhardt's, de l'EDTA, un tampon SDS, de l'EDTA et de l'eau. Avantageusement, le tampon d'hybridation utilisé dans la présente invention pour l'étape d'hybridation comprend du SSPE 20X à une concentration de 10X, du Denhardt's 50Xà une concentration de 10X, de l'EDTA 0,5mM pH 8 à une concentration de 10mM, du SDS 10% à une concentration de 0,2% et de l'eau.

Capture

Après l'hybridation, les sondes biotinylées peuvent être séparées en fonction de la présence du marqueur détectable, et les sondes et les fragments d'ADN non liés sont éliminés dans des conditions de lavage appropriées. Seuls sont conservés les fragments d'ADN qui se sont hybridés spécifiquement avec les sondes biotinylées. Les complexes d'hybridation peuvent être capturés et purifiés à partir du mélange de sondes non liées et des fragments d'ADN non liés de la banque. Par exemple, les complexes d'hybridation peuvent être capturés à l'aide d'une molécule de streptavidine fixée à une phase solide, telle qu'une bille magnétique. Dans un mode de réalisation particulièrement avantageux selon l'invention, les complexes d'hybridation sont capturés au moyen de billes magnétiques recouvertes de streptavidine, avantageusement en utilisant 500ng de billes Dynabeads M-280 (Life technologies). Dans un mode de réalisation avantageux selon l'invention, l'étape d) de capture est suivie de trois étapes de lavage pour éliminer les sondes et les fragments d'ADN non liés mettant en œuvre trois tampons de lavage différents.

Avantageusement, le premier lavage est réalisé en utilisant un tampon de lavage comprenant du chlorure de sodium, avantageusement à une concentration comprise entre 0,5M et 1 ,5M, avantageusement à une concentration de 1 M, du Tris-HCI, avantageusement à une concentration comprise entre 5mM et 15mM, avantageusement à une concentration de 10mM, et de l'EDTA, avantageusement à une concentration comprise entre 0,5mM et 1 ,5mM, avantageusement à une concentration de 1 mM. Avantageusement, le premier lavage est réalisé à température ambiante, avantageusement à une température comprise entre 25°C et 30°C. Avantageusement, le premier lavage est réalisé à un pH compris entre 7,0 et 8,0, avantageusement à un pH de 7,5.

Avantageusement, le deuxième lavage est réalisé en utilisant un second tampon d'élution comprenant du SSC 20X (SSC 20X = 3M NaCI, 0,3M citrate de sodium), avantageusement à une concentration comprise entre 0,5X et 1 ,5X, avantageusement à une concentration de 1 X et du SDS 10%, avantageusement à une concentration comprise entre 0,05% et 0,15%, avantageusement à une concentration de 0,1 %. Avantageusement, le second lavage est réalisé à température ambiante, avantageusement à une température comprise entre 25°C et 30°C.

Avantageusement, le troisième lavage est réalisé en utilisant un troisième tampon d'élution comprenant du SSC 20X, avantageusement à une concentration comprise entre 0,05X et 0,15X, avantageusement à une concentration de 0,1 X et du SDS 10%, avantageusement à une concentration comprise entre 0,05% et 0,15%, avantageusement à une concentration de 0,1 %. Avantageusement, le troisième lavage est réalisé à une température comprise entre 30°C et 80°C, avantageusement à une température comprise entre 40°C et 75°C, avantageusement à une température comprise entre 50 °C et 70°C, avantageusement à une température de 65°C.

Dans un mode de réalisation avantageux selon l'invention, les étapes de lavage de capture peut être suivie d'une étape d'élution par dénaturation chimique à la soude, permettant de séparer les complexes d'hybridation et ainsi libérer les fragments d'ADN capturés. Avantageusement, cette étape permet de séparer les sondes des fragments d'ADN capturés, en sédimentant les billes magnétiques recouvertes de streptavidine sur lesquelles sont fixées les sondes. Les fragments d'ADN capturés sont ensuite récupérés dans le surnageant. Dans un mode de réalisation avantageux, l'étape d'élution peut être réalisée en incubant les billes magnétiques recouvertes de streptavidine sur lesquelles sont fixés les complexes d'hybridation en présence de soude à une concentration comprise entre 0,01 M et 1 M, avantageusement entre 0,05M et 0,5 M, avantageusement 0,1 M, pendant au moins 5 minutes, avantageusement 10 minutes, à température ambiante. Les billes magnétiques recouvertes de streptavidine sédimentent et le surnageant est ensuite récupéré. Un tampon Tris-HCI, avantageusement à une concentration comprise entre 0,5M et 1 ,5M, avantageusement à une concentration de 1 M, à pH 7,5 est ensuite ajouté au surnageant.

Dans un mode de réalisation avantageux selon l'invention, l'étape d'élution peut être suivie d'une étape de purification des fragments d'ADN capturés. Avantageusement, l'étape de purification peut être réalisée avec le kit Microcon DNA flast flow PCR grade, centrifugal filters, dual cycle ETO treated, commercialisé par la société Merck Millipore.

Amplification des fragments d'ADN capturés

Dans un mode de réalisation avantageux, la méthode selon l'invention peut en outre comprendre une étape d'amplification des fragments d'ADN résultant de l'étape d) de capture. Avantageusement, l'amplification de la banque peut être réalisée avec le kit IHustraGenomPhi V2 DNA Amplification commercialisé par la société GE Healthcare.

Sélection des fragments d'ADN capturés en fonction de leur taille

Dans un mode de réalisation avantageux, la méthode selon l'invention peut en outre comprendre une étape de sélection des fragments d'ADN capturés en fonction de leur taille résultant de l'étape d) de capture. Avantageusement, l'étape de sélection peut être réalisée avec le sysème BluePippin en utilisant les kits 0,75% Agarose Gel Cassette Mid Range Targets, 0,75% Agarose Gel Cassette Low Range Targets ou 0,75% Agarose Gel Cassette 50kb commercialisés par la société SageScience. Avantageusement, cette étape de sélection permet de conserver uniquement les fragments ayant soit une longueur de 6 000 paires de bases, soit une longueur de 20 000 paires de bases, soit une longueur de 50 000 paires de bases d'ADN ou d'ARN ou d'ADNc. La distribution de la taille des ADNs capturés peut ensuite être évaluée en utilisant le kit Agilent DNA 12000 commercialisé par la société Agilent.

Séquençage des fragments d'ADN capturés

Les fragments d'ADN capturés peuvent ensuite être séquencés par n'importe quelle technique bien connue de l'homme du métier. Le séquençage des fragments d'ADN capturés peut être réalisé en utilisant les systèmes de séquençage à haut débit commercialisé par la société Illumina Inc., par exemple le système MiSeq ou HiSeq. Toutes les plates-formes connues de l'homme du métier, telles que les plates-formes de première génération telle que Sanger, de deuxième génération telle que Illumina (MiniSeq, MiSeq, NextSeq, HiSeq, Synthetic Long Read, 10X Genomics) ou 454 (Roche) ou SOLiD (Thermo Fisher) ou Ion Torrent (Thermo Fisher) ou Gene Reader (Qiagen) ou Complète Genomics (GGI) et de troisième génération telles que Pacific BioSciences (RSII ou Sequel) ou Oxford Nanopore (MinlON, GridION ou PromethlON) tout comme les nouvelles plates-formes en développement (GenapSys, Genia, Firefly, NanoString Technologies, GnuBio, Electron Optica) peuvent être utilisées pour séquencer les fragments d'ADN capturés. Selon la méthode de séquençage utilisée, l'homme du métier sera en mesure de construire les banques adaptées à partir des fragments d'ADN capturés.

Reconstruction de grands fragments de génomes

Les séquences des différents fragments d'ADN des gènes d'intérêt peuvent être assemblées par tout moyen connu de l'homme du métier. Les séquences des différents fragments d'ADN des gènes d'intérêt peuvent être assemblées pour reconstruire la séquence totale du gène d'intérêt, ou un variant connu ou inconnu de celui-ci. Les séquences des différents fragments d'ADN des gènes d'intérêt peuvent être assemblées pour reconstruire la séquence totale du gène d'intérêt, ou un variant connu ou inconnu de celui-ci et les régions flanquantes associées aux séquences ciblées voire la totalité du génome dans lequel est localisé le gène d'intérêt. Dans certains modes de réalisation, les séquences sont assemblées à l'aide des outils de bio-informatique, comme par exemple IDBA-UD, Spades, MetaVelvet. Après l'assemblage, les séquences des gènes d'intérêts, ou des variants connus ou inconnus de ceux-ci, sont confirmées par comparaison des séquences contre des bases de données de séquences connues, telle que la base GenBank du NCBI ou ENA de l'EMBL, afin de caractériser les niveaux de similarité avec les séquences connues du gène d'intérêt, ou un variant de celui-ci. Dans un mode de réalisation particulièrement avantageux de l'invention, la méthode de détection et d'identification in vitro d'un ou plusieurs micro-organismes impliqués dans le processus de dégradation, de modification ou de séquestration d'un ou plusieurs contaminants présents dans un échantillon biologique, ladite méthode comprenant les étapes suivantes : a) la préparation d'un mélange de sondes non chevauchantes et exploratoires capables de cibler spécifiquement un ou plusieurs gènes d'intérêts impliqués dans les processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants, b) la préparation d'une banque de fragments d'ADN à partir de l'échantillon biologique, lesdits fragments d'ADN contenus dans la banque ayant une longueur d'au moins 6 000 paires de bases, c) l'hybridation des fragments d'ADN obtenu à l'étape b) par mise en contact desdits fragments d'ADN avec le mélange de sondes de l'étape a), d) la capture des complexes d'hybridation de l'étape c), e) le séquençage des fragments d'ADN capturés à l'étape d), f) la reconstruction des gènes d'intérêts et/ou du génome du ou des microorganismes à partir des fragments d'ADN capturés séquencés de l'étape e), et g) l'identification du ou des micro-organismes, impliqués dans les processus de dégradation, de modification ou de séquestration dudit ou desdits contaminants, présents dans l'échantillon biologique.

Les figures 1 à 2 et les exemples 1 à 3 qui suivent illustrent l'invention.

FIGURES Figure 1 : Profil Agilent de la banque SureSelectXT de petits fragments d'ADN. L'absence de pic/de bande entre les marqueurs de taille (50 et 17000 pb) démontre l'absence d'ADN et donc l'échec de la construction de la banque SureSelectXT sur l'échantillon de sol étudié.

Figure 2 : Profil Agilent de la banque Illumina de petits fragments d'ADN. La présence d'un pic/d'une bande à 400 pb entre les marqueurs de taille (50 et 17000 pb) montre la présence d'ADN à la taille souhaitée et donc la réussite de la construction d'une banque d'ADN avec le kit TruSeq sur l'échantillon de sol étudié.

EXEMPLES

Exemple 1 : Identification de micro-organismes capables de dégrader le HCH dans un échantillon de sol pollué

AI Isolement de l'ADN :

Un échantillon de sol contaminé par l'hexachlorocyclohexane (HCH) a été collecté dans une ancienne usine de production de produits chimiques, et l'ADN génomique des microorganismes contenu dans l'échantillon de sol a été extrait en utilisant le kit PowerSoil DNA Isolation de MoBio.

B/ Détermination et synthèse des sondes :

Un jeu de 4 sondes dégénérées de 80 nucléotides a été déterminé à partir de 145 séquences du gène HnA extraites de la base de données GenBank en utilisant les logiciels KASpOD (K-mer based Algorithm for high-Specific Oligonucleotide Design) (Parisot N et al., 2012, vol 28, pages 3161 -3162) et HiSpOD (High Spécifie Oligo Design) (Dugat-Bony E et al. , Bioinformatics, 201 1 , vol 27, pages 641 -648) (SEQ ID No.4, 5, 6 et 7). Les sondes sont non chevauchantes et réparties de façon uniforme sur la séquence complète du gène HnA (471 pb), codant pour une déhydrogénase impliquée dans les premières étapes de la voie de dégradation du HCH. Les séquences des adaptateurs A (SEQ ID No.1 ), et B (SEQ ID No.2) ont été ajoutées à chaque extrémité des sondes en vue de l'amplification par PCR, conduisant à des sondes dont la séquence est du type « ATCGCACCAGCGTGT-N80- CACTGCGGCTCCTCA », où N80 correspond à la séquence spécifique de chacune des 4 sondes. Les sondes d'une longueur totale de 1 10 nucléotides ont été synthétisées sous forme d'ADN simple brin. Le promoteur T7 (SEQ ID No.3) a été ajouté en amont de l'adaptateur A par PCR avec le kit Platinium Taq DNA Polymerase High Fidelity (Invitrogen) en utilisant des amorces T7-A et B (SEQ ID No. 8 et 9) s'hybridant respectivement sur les adaptateurs A et B (SEQ ID No. 1 et 2). Les produits PCR obtenus ont été purifiés avec le kit MinElute PCR purification (Qiagen). Les sondes ARN simple brin biotinylées ont été synthétisées par transcription in vitro en utilisant le kit MEGAScript (Ambion) et des dUTP biotinylés (Tebu-Bio), et ont été purifiées avec le kit RNeasy plus (Qiagen). Tableau 1 : Séquences des adaptateurs (SEQ ID No. 1 et 2), du promoteur 17 (SEQ ID No. 3), des amorces (SEQ ID No. 8 et 9), et des sondes (SEQ ID No. 4 à 7) capables de s'hy brider au gène lin A

CI Préparation des banques de grands fragments d'ADN :

Pour la construction de la banque, 4 μg d'ADN métagénomique extraits à partir de l'échantillon de sol ont été fragmentés à une taille de 20 kb en utilisant le kit g-TUBE (Covaris). Les fragments d'une taille de 20 kb (+/- 4kb) ont été sélectionnés avec le système BluePippin (Sage Science) puis amplifiés en utilisant le Kit Illustra GenomPhi V2 DNA Amplification (ref 25-6600-32, GE Healthcare). Les fragments amplifiés d'une taille de 20 kb (+/- 4kb) ont à nouveau été sélectionnés avec le système BluePippin (Sage Science) pour obtenir une banque d'ADN de grands fragments de taille homogène. La qualité de la banque a enfin été évaluée par dosage de l'ADN au Qubit (Life Technologies) et migration sur puce Agilent DNA 12000 (Agilent Technologies). D/ Hybridation et Capture :

Pour réaliser l'hybridation, 2μg de banque ont été mélangés à 2,5 μg d'ADN de sperme de saumon (Salmon Sperm DNA, sheared (ref AM9680, Ambion)) et dénaturés pendant 5 minutes à 95°C puis incubés pendant 5 minutes à 65°C. Au terme de l'incubation, 13μΙ_ de tampon d'hybridation (SSPE 10 mol/L, Denhardt's 10 mol/L, EDTA 10 m M, pH8 et SDS 0,2 %) puis 500 ng de sondes ARN biotinylées préchauffés à 65°C ont été ajoutés au mélange. Après 24 heures d'hybridation à 65°C, les complexes d'hybridation sonde/banque ont été capturés en utilisant 500 ng de billes magnétiques recouvertes de streptavidine (Dynabeads M-280 Streptavidin (ref 1 1205D, Life Technologies)) préalablement lavées trois fois avec 200 L de NaCI 1 M / TE 10mM. Les billes ont été lavées trois fois à température ambiante avec 500 μΙ de SSC 1 X / SDS 0,1 %, puis trois fois à 65°C avec 500μί de SSC 0,1X / 0,1 % SDS préchauffé. Les fragments d'ADN capturés ont ensuite été élués avec 50μί de NaOH à 0,1 M. Après la sédimentation des billes, le surnageant contenant les banques d'ADN enrichies a été transféré dans un tube contenant 70μί de Tris-HCI à 1 M, pH 7,5. Les fragments d'ADN capturés ont ensuite été purifiés en utilisant le Kit Microcon DNA Fast Flow PCR Grade, Centrifugal Filters, Dual Cycle ΕΤ0 Treated (ref MRCF0R100ET, Merck Millipore) puis amplifiés en utilisant le Kit Illustra GenomPhi V2 DNA Amplification (ref 25- 6600-32, GE Healthcare). Enfin, les fragments amplifiés d'une taille de 20 kb (+/- 4 kb) ont été sélectionnés avec le système BluePippin (Sage Science).

El Séguençage des fragments d'ADN capturés

Les fragments d'ADN capturés ont été séquencés sur un « run » de séquençage MiSeq 2x300 bp d'Illumina, après une étape préalable de construction de librairie de séquençage selon le protocole Nextera (Illumina) en accord avec les instructions du fabricant.

FI Traitement des données de séguençage

Les lectures obtenues suite au séquençage des banques d'ADN des fragments enrichis suite à la capture ont été filtrées selon leur qualité en utilisant le script PRINSEQ-lite (Schmeider, Bioinformatics, 201 1 ). Ainsi, 15 141 059 paires de séquences ont été obtenues. Les lectures ont été assemblées de novo avec IDBA-UD v1.1 .2 (Peng, Bioinformatics, 2012). Les contigs obtenus ont ensuite été soumis à un deuxième assemblage en utilisant l'outil CAP3 (Huang, Génome Research, 1999). Les contigs portant HnA ont été identifiés par BLASTN (AltschuI, Journal of Molecular Biology, 1990) puis affiliés en utilisant BLASTN contre la base de génomes de référence (06/10/14) du NCBI. Enfin, les lectures ont été alignées avec Bowtie2 v2.1 .0 (Langmead, Nature Methods, 2012) contre les génomes des espèces identifiées.

G/ Résultats obtenus

La présente méthode a permis la détection et l'identification de 7 espèces bactériennes contenues dans l'échantillon de sol possédant le gène HnA et donc capables de dégrader le HCH, il s'agit des espèces : Sphingobium indicum, Sphingobium japonicum, Sphingobium baderi, Sphingobium sp. TKS, Sphingobium sp. Ml 1205, Novosphingobium barchaimii et Sphingomonas sp. MM-1 . Pour ces espèces, la méthode a permis la reconstruction complète du gène HnA (471 pb) mais aussi de ses régions flanquantes. Ainsi, des séquences génomiques de plusieurs de dizaines de kb (reconstruction de plus de 70 kb du génome de Novosphingobium barchaimii) et des plasmides complets de plus de 70kb (plasmide pTK4 de Sphingomonas sp. MM1 ) ont pu être reconstruits par assemblage, permettant d'identifier les bactéries possédant le gène HnA. Elles ont également révélé la présence d'autres gènes potentiellement impliqués dans la dégradation du polluant, notamment les gènes HnB, HnC et HnD de la voie de dégradation du HCH. Ainsi, les microorganismes impliqués dans la dégradation initiale du polluant ou intervenant dans des phases plus tardives de sa dégradation ont pu être mis en évidence dans l'échantillon de sol. Grâce à ces connaissances, des approches de biostimulation ciblée peuvent être mises en œuvre afin de favoriser la croissance et l'action de ces microorganismes dans le sol pollué, pour à terme accélérer la dégradation du HCH.

EXEMPLE 2 : Identification de microorganismes capables de dégrader le HCH dans un échantillon de sol pollué - Comparaison de la capture de grands fragments (Exemple 1 ) avec un kit de capture par hybridation commercial utilisé pour le reséquençage de génomes d'organismes isolés

AI Capture de gènes par hybridation en utilisant le kit SureSelectXT (Agilent Technologies)

Détermination et synthèse des sondes

Un jeu de 15 sondes non dégénérées de 120 nucléotides a été déterminé à partir d'une unique séquence de référence du gène linA en utilisant le logiciel SureDesign (Agilent Technologies) en accord avec les recommandations du fournisseur (SEQ ID No. 10 à 24). Ces sondes sont chevauchantes et sont réparties avec une couverture de 5X sur tout le gène linA. Les sondes (SEQ ID No. 10 à 24) ont ensuite été synthétisées par Agilent Technologies pour répondre aux besoins du kit SureSelectXT.

Tableau 2 : Séquences des sondes SureSelectXT capables de s'hybrider au gène linA.

SEQ ID No. Séquences des sondes

CCGGGCGGTGCGAAATGAATGCCGGCCAGCGGGGTGAAAT

10 AGTTCGTGCATGCGTTGCGCTTAGAGAACTTCCACACCCCGT

CACGGCGCTCATACTCATCCGTGAAGACCGCAGCGATA

GCCGGCCAGCGGGGTGAAATAGTTCGTGCATGCGTTGCGCT

1 1 TAGAGAACTTCCACACCCCGTCACGGCGCTCATACTCATCCG

TGAAGACCGCAGCGATAAGAATCGACTGATTACCTTC

AGTTCGTGCATGCGTTGCGCTTAGAGAACTTCCACACCCCGT

12 CACGGCGCTCATACTCATCCGTGAAGACCGCAGCGATAAGA

ATCGACTGATTACCTTCGACGAGA I I I CCAAGGAGAA

TTAGAGAACTTCCACACCCCGTCACGGCGCTCATACTCATCC

13 GTGAAGACCGCAGCGATAAGAATCGACTGATTACCTTCGACG

AG ATTTC C AAG G AG AAG G AC GTC G C C AATAC C ATTT

ACGGCGCTCATACTCATCCGTGAAGACCGCAGCGATAAGAAT

14 CGACTGATTACCTTCGACGAGA I I I CCAAGGAGAAGGACGTC

GCCAATACCA I I I ACCTTGTCCGCGCTCACAAATTC

AGAATCGACTGATTACCTTCGACGAGATTTCCAAGGAGAAGG

15 ACGTCGCCAATACCA I I I ACCTTGTCCGCGCTCACAAATTCC

AAGCGCAGATTGGTTCCATAATGAATACATTCGTGA

G AC GAG ATTTC C AAG GAG AAG G AC GTC G C C AATAC C ATTTAC

16 CTTGTCCGCGCTCACAAATTCCAAGCGCAGATTGGTTCCATA

ATGAATACATTCGTGAAACATTGGCCAGAGTACGTT GGACGTCGCCAATACCATTTACCTTGTCCGCGCTCACAAATT

17 CCAAG CG CAGATTG GTTC CATAATG AATACATTCGTG AAACA

TTGGCCAGAGTACGTTATTGGCCAAATCGAGGGCGC

ACCTTGTCCGCGCTCACAAATTCCAAGCGCAGATTGGTTCCA

18 TAATGAATACATTCGTGAAACATTGGCCAGAGTACGTTATTGG

CCAAATCGAGGGCGCCTTCCGGGCCCTTGTAGGTG

CAAG CG CAGATTG GTTC CATAATGAATACATTCGTGAAACATT

19 GGCCAGAGTACGTTATTGGCCAAATCGAGGGCGCCTTCCGG

GCCCTTGTAGGTGCCGATTCCCTCAATGGTCCACTC

AACATTGGCCAGAGTACGTTATTGGCCAAATCGAGGGCGCCT

20 TCCGGGCCCTTGTAGGTGCCGATTCCCTCAATGGTCCACTCT

G C AT CATC C C AC C AAATAG AAG C G AG AC GGCCCTCT

ATTGGCCAAATCGAGGGCGCCTTCCGGGCCCTTGTAGGTGC

21 CG ATTC CCTCAATG GTC CACTCTG CATCATCCCAC CAAATAG

AAGCGAGACGGCCCTCTTGGCGCTTGTCTACGGCAAT

CTTCCGGGCCCTTGTAGGTGCCGATTCCCTCAATGGTCCACT

22 CTGCATCATCCCACCAAATAGAAGCGAGACGGCCCTCTTGG

CG CTTGTCTACG G CAATG AG CTTGTC AG AGTAGAG GT

CCGATTCCCTCAATGGTCCACTCTGCATCATCCCACCAAATA

23 GAAGCGAGACGGCCCTCTTGGCGCTTGTCTACGGCAATGAG

CTTGTCAGAGTAGAGGTCCTGAATCGCGGCCCGGCTT

TGCATCATCCCACCAAATAGAAGCGAGACGGCCCTCTTGGC

24 G CTTGTCTACG G CAATG AG CTTGTCAG AGTAGAG GTCCTGAA

TCGCGGCCCGGCTTGCAAGTCTGTCTAGATCACTCAT

Construction de banques de petits fragments d'ADN

Deux banques de petits fragments compatibles avec le kit SureSelectXT (Agilent Technologies) ont été construites à partir de l'ADN métagénomique extrait de l'échantillon de sol.

La première banque a été construite selon les recommandations du fournisseur (SureSelectXT, Agilent Technologies). En résumé, 200 ng d'ADN ont été fragmentés par ultrasonication à une taille de 150-200 pb (Covaris). L'ADN fragmenté a ensuite été réparé, purifié avec des billes AMPure XP (Beckman Coulter), adénylé en 3', et de nouveau purifié avec des billes AMPure XP. Des adaptateurs ont ensuite été ajoutés aux extrémités des fragments d'ADN et les banques obtenues ont été purifiées avec des billes AMPure XP. Enfin, les banques de petits fragments d'ADN obtenues ont été amplifiées et purifiées avec des billes Ampure XP. La qualité de la banque a enfin été évaluée par dosage de l'ADN au Qubit (Life Technologies) et migration sur puce Agilent DNA 12000 (Agilent Technologies). La seconde banque de petits fragments d'ADN a été construite selon un protocole différent qui a été adapté pour les besoins de l'étude. Pour cela, l'ADN extrait du sol a été au préalable purifié deux fois par précipitation à l'éthanol puis une fois en utilisant le Kit Microcon DNA Fast Flow PCR Grade (Merck Millipore) pour éliminer les substances inhibitrices présentes dans les sols (acides humiques) et co-extraites en même temps que l'ADN. La banque a ensuite été construite à partir de l'échantillon purifié selon le protocole TruSeq (Illumina). En résumé, 100 ng d'ADN ont été fragmentés par ultrasonication à une taille de 350 pb (Covaris) puis purifiés. L'ADN fragmenté a ensuite été réparé, purifié et adénylé en 3'. Des adaptateurs ont ensuite été ajoutés aux extrémités des fragments d'ADN, puis les banques obtenues ont été purifiées, amplifiées, et de nouveau purifiées. La qualité de la banque a enfin été évaluée par dosage de l'ADN au Qubit (Life Technologies) et migration sur puce Agilent DNA 12000 (Agilent Technologies).

Capture de gènes SureSelectXT

La capture de gènes ciblant le gène HnA a été réalisée sur les deux banques de petits fragments d'ADN selon les recommandations du fournisseur (SureSelectXT, Agilent Technologies). En résumé, 750 ng de banques ont été hybridées pendant 24 h à 65°C avec 20 L de sondes fournies par Agilent Technologies. Suite à l'hybridation, les complexes sonde/banque ont été capturés en utilisant des billes magnétiques recouvertes de streptavidine (Dynabeads MyOne Streptavidin T1 , Life Technologies). Enfin, les banques ont été amplifiées puis purifiées à l'aide de billes Ampure XP (Beckman Coulter). La qualité des banques enrichies a enfin été évaluée par dosage de l'ADN au Qubit (Life Technologies) et migration sur puce Agilent DNA 12000 (Agilent Technologies).

Séguençage des fragments d'ADN capturés

La banque de petits fragments d'ADN obtenue en fin de capture SureSelectXT à partir de la banque TruSeq étant compatible avec les approches de séquençage Illumina, les fragments d'ADN capturés ont été séquencés sur une moitié de « run » de séquençage MiSeq 2x300 pb (Illumina).

B/ Traitement des données de séquençage de capture de grands fragments (ExempleD et SureSelectXT

Les lectures obtenues suite au séquençage des banques d'ADN des fragments enrichis par les approches de capture de grands fragments et de capture SureSelectXT ont été filtrées selon leur qualité en utilisant le script PRINSEQ-lite (Schmeider, Bioinformatics, 201 1 ). Le nombre de lectures a été normalisé entre les deux échantillons pour la suite des analyses. Ainsi, 7 055 800 paires de lectures ont été obtenues pour chacune des captures. Pour chaque échantillon, les lectures ont été assemblées de novo avec IDBA-UD v1 .1.2 (Peng, Bioinformatics, 2012). Les contigs obtenus ont ensuite été soumis à un deuxième assemblage en utilisant l'outil CAP3 (Huang, Génome Research, 1999). Les contigs portant HnA ont été identifiés par BLASTN (Altschul, Journal of Molecular Biology, 1990) puis affiliés en utilisant BLASTN contre la base de génomes de référence (06/10/14) du NCBI. Les lectures ont enfin été alignées avec Bowtie2 v2.1 .0 (Langmead, Nature Methods, 2012) contre les génomes des espèces identifiées et les fichiers obtenus ont été formatés avec SAMtools v1.3 (Li, Bioinformatics, 2009) pour calculer l'enrichissement en gène cible.

Cl Résultats obtenus et comparaison avec la méthode de l'exemple 1

Sondes de capture

Alors que seules 4 sondes de 80 nucléotides sont nécessaires à la capture de grands fragments (SEQ ID No. 4 à 7), 15 sondes de 120 nucléotides sont nécessaires à la capture de gènes avec le kit SureSelectXT (SEQ ID No. 8 à 22) (Tableau 2). Ceci s'explique par le fait que les sondes de capture du kit SureSelectXT, initialement développé pour le reséquençage de régions nucléiques connues, sont non dégénérées et chevauchantes (couverture de 5X du gène) de sorte à couvrir l'ensemble du biomarqueur, alors que les sondes de capture de grands fragments sont exploratoires (dégénérées) et réparties de façon homogène sans chevauchements sur toute la longueur du gène HnA (Tableau 2). Le caractère exploratoire permet l'enrichissement par une même sonde de tous les variants du gène HnA, alors que les sondes non dégénérées du kit SureSelect ne peuvent cibler que des variants très proches de la séquence de référence utilisée pour faire la détermination des sondes. De plus, le mode de synthèse des sondes pour la capture de grands fragments permet de produire à moindre coût un très grand nombre de sondes permettant de réaliser plusieurs milliers de captures, contrairement aux sondes du kit SureSelectXT qui ne peuvent être utilisées que pour 16 captures et sont plus onéreuses (Tableau 3). Ainsi, la taille et le nombre réduit de sondes nécessaires à la capture de grands fragments ainsi que leur mode de production conduisent à une réduction des coûts importante pour les sondes comparée à la méthode de capture SureSelectXT. Tableau 3: Tableau comparatif des sondes nécessaires à l'approche de capture de grands fragments et à la capture SureSelectXT

Construction des banques d'ADN

La capture par hybridation nécessite la réalisation au préalable d'une étape de construction de banques d'ADN à partir de l'ADN extrait. Pour la capture de grands fragments d'ADN, une banque de 20 kb de qualité a été directement construite à partir de l'ADN extrait de l'échantillon contaminé par du HCH.

Pour la capture de gènes avec le kit SureSelectXT, une première construction de banque a été réalisée selon les recommandations du fournisseur. Comme représenté sur la Figure 1 , le kit SureSelectXT n'a pas permis de construire une banque de courts fragments et de ce fait de mener l'étape de capture. Ceci est probablement dû à la contamination de l'ADN extrait par des composants chimiques inhibiteurs (par exemple des acides humiques) présents dans le sol étudié et qui se retrouvent dans l'échantillon. Ces inhibiteurs sont très fréquemment retrouvés au sein d'échantillons environnementaux et particulièrement au sein d'échantillons de sol, et ce malgré l'utilisation de méthodes d'extraction visant à les éliminer. Ainsi, l'application du kit SureSelectXT est limitée pour les applications en diagnostic environnemental. Pour pouvoir malgré tout évaluer l'efficacité du kit SureSelectXT et le comparer à la méthode de capture de grands fragments, une banque d'ADN a été construite après extraction d'ADN et plusieurs étapes de purification selon le protocole TruSeq d'Illumina, qui permet la construction de banques similaires aux banques SureSelectXT et compatibles avec les étapes ultérieures de capture du kit (Figure 2). Sans les 3 étapes préalables de purification pour éliminer les acides humiques, la construction des banques par cette approche est elle aussi inefficace.

Des étapes de purification complémentaires pourraient être appliquées sur l'échantillon de départ pour réussir la construction de banques compatibles avec l'utilisation du kit

SureSelectXT. Cependant, pour pouvoir réaliser ces étapes supplémentaires de purification, les quantités d'ADN initiales nécessaires sont très importantes (plusieurs μg d'ADN contre 200 ng pour une utilisation normale du kit), et les quantités d'ADN extraites à partir d'échantillons environnementaux sont souvent limitées.

A l'inverse, comme démontré ici, la méthode de capture de grands fragments n'est pas impactée par la présence d'inhibiteurs au sein de l'échantillon d'ADN initial et est donc parfaitement compatible avec le diagnostic environnemental.

Capture de gènes par hybridation

La méthode de capture de grands fragments d'ADN a été comparée à la capture SureSelectXT utilisant la banque construite avec le kit SureSelectXT et la banque Illumina construite après purification d'ADN utilisant un protocole dédié respectivement. Un enrichissement a été permis pour les captures de grands fragments d'ADN et la capture SureSelectXT en utilisant la banque Illumina dont l'ADN avait été préalablement purifié mais pas en utilisant la banque SureSelectXT qui n'a pas pu être construite comme précédemment expliqué. En effet, l'étape de construction de la banque d'ADN initiale ayant échoué avec le kit SureSelectXT, la seconde étape d'enrichissement par capture a elle aussi échoué, démontrant l'avantage concurrentiel du procédé de capture de grands fragments d'ADN par rapport au kit SureSelectXT. Seuls les ADN issus de la capture de grands fragments d'ADN et de la capture SureSelectXT avec la banque Illumina ont donc été séquencés et analysés.

Analyse des données de capture

Le traitement des données de capture de grands fragments d'ADN et de capture SureSelectXT réalisée avec la banque Illumina dont l'ADN avait été préalablement purifié ciblant le gène HnA a permis de comparer les deux méthodes en termes d'efficacité (enrichissement et taille de fragments reconstruits) et de diversité de séquences cibles. Les résultats montrent en premier lieu que la capture de grands fragments d'ADN permet un meilleur enrichissement que la capture SureSelectXT. En effet, avec la capture SureSelectXT, le gène HnA et les régions flanquantes qui lui sont associées représentent 8,39% des séquences alors qu'ils représentent 26.57% des séquences avec la capture de grands fragments d'ADN. Ainsi, la capture de grands fragments d'ADN permet un meilleur enrichissement du gène cible et de ses régions flanquantes.

Pour la capture de grands fragments d'ADN, l'enrichissement obtenu a permis de mettre en évidence la présence de 9 gènes HnA différents appartenant à 7 espèces bactériennes différentes : Sphingobium indicum, Sphingobium japonicum, Sphingobium baderi, Sphingobium sp. TKS, Sphingobium sp. Ml 1205, Novosphingobium barchaimii et Sphingomonas sp. MM-1 (Tableau 4). La capture SureSelectXT quant à elle n'a permis de révéler la présence que de 7 gènes HnA appartenant à 6 espèces différentes (Tableau 4). En effet, le gène HnA de N. barchaimii n'a pas été enrichi et n'a pas permis de révéler la présence de l'espèce au sein de l'échantillon, et seul un des deux gènes HnA chromosomiques de Sphingobium sp. Ml 1205 a été enrichi. La capture de grands fragments d'ADN permet donc de révéler une diversité de gènes et de microorganismes plus importante que l'approche SureSelectXT.

Tableau 4 : Nombre de gènes et d'espèces portant HnA identifiés par les deux approches de capture.

Pour chacune des espèces identifiées, la méthode de capture a permis la reconstruction complète du gène HnA. Toutefois, l'approche de capture de grands fragments d'ADN a permis de reconstruire des séquences portant HnA de tailles importantes comprises entre 1400 pb et 18600 pb (Tableau 5). Ainsi, les gènes présents dans les régions adjacentes à HnA ont pu être identifiés comme par exemple le gène HnC (impliqué en aval de HnA dans la voie de dégradation du HCH), des récepteurs TonB dépendants, des régulateurs de transcription, ou encore des séquences d'insertion 6100 (IS6100). La capture SureSelectXT n'a permis quant à elle que de reconstruire des séquences de tailles plus réduites allant de 600 pb à 3400 pb (Tableau 5). Dans ce cas, la séquence la plus longue reconstruite est celle qui porte le gène HnA ayant servi de référence à la détermination des sondes. Cette différence de taille de séquences reconstruites s'explique par la taille des fragments enrichis par les deux approches. En effet, en permettant l'enrichissement direct de longs fragments d'ADN de 20 kb, la capture de grands fragments permet d'enrichir le gène cible et ses régions flanquantes, alors que la capture SureSelectXT repose sur l'enrichissement de banques de petits fragments de quelques centaines de pb qui ne permettent pas d'étendre les connaissances au-delà du gène cible.

Tableau 5 : Comparatif des tailles de séquences reconstruites portant HnA par les deux méthodes de capture.

Conclusion :

Appliquée à un échantillon de sol contaminé au HCH en ciblant le gène HnA, la capture de grands fragments d'ADN a permis de démonter son efficacité et ses avantages comparé aux approches de capture de gènes pour le reséquençage telles que la capture SureSelectXT (Agilent). En effet, la capture de grands fragments d'ADN permet d'enrichir significativement avec un jeu de sondes minimal le gène d'intérêt, de reconstruire des régions d'ADN de plusieurs dizaines de kb portant le gène cible et ses régions flanquantes, et d'en révéler toute la diversité. EXEMPLE 3 : Identification et détection d'une bactérie capable de dégrader l'arsenic au sein d'une communauté microbienne.

A/ Préparation d'une communauté microbienne artificielle :

Un mélange artificiel de 21 espèces bactériennes et 7 espèces archées (représentant 6 phyla, 13 classes, 19 ordres, 23 familles et 26 genres) dont les génomes sont séquencés, a été réalisé à partir d'ADN génomique extrait de cultures pures des différentes espèces (DSMZ) (Tableau 6). Les abondances des différentes espèces (basées sur le nombre de génomes dans le mélange) ont été définies de sorte à ce que le profil final de la communauté reflète les variabilités d'abondance des espèces dans une communauté microbienne environnementale.

Tableau 6 : Composition de la communauté microbienne artificielle

Espèces N° DSMZ Abondances (%)

Halomicrobium mukohataei 12286 25

Saccharophagus degradans 17024 25

Tsukamurella paurometabola 20162 15

Clostridium acetobutylicum 792 10

Roseobacter denitrificans 7001 5

Novosphingobium pentaromativorans 17173 5

Geobacter lovleyi 17278 3

Ruegeria pomeroyi 15171 3

Desulfovibrio vulgaris subsp. vulgaris 644 2

Pedobacter heparinus 2366 2

Corynebacterium glutamicum

(organisme cible) 20300 1

Cellulomonas flavigena 20109 1

Pseudomonas putida 6125 1

Methanoculleus marisnigri 1498 0.5

Saccharopolyspora erythraea 40517 0.5

Halogeometricum borinquense 1 1551 0.3

Planctomyces limnophilus 3776 0.3

Lactobacillus delbrueckii subsp. bulgaricus 20081 0.2

Methanospirillum hungateii 864 0.1 Lactobacillus brevis 20054 0.07

Methanocorpusculum labreanum 4855 0.01

Flavobacterium psychrophilum 21280 0.01

Streptomyces avermitilis 46492 0.006

Listeria welshimeri 20650 0.002

Sphingobium indicum 16412 0.001

Clostridium leptum 753 0.0008

Methanobrevibacter smithii 861 0.0001

Methanococcus aeolicus 17508 0.0001

B/ Détermination et synthèse des sondes :

Le gène codant une nucléase extracellulaire (ID : 1020538) de Corynebacterium glutamicum, espèce fréquemment retrouvée dans les sols et connue pour sa capacité à dégrader l'arsenic, a été ciblé par des sondes. Ainsi, un jeu de 15 sondes spécifiques (SEQ ID No.25 à 39) de 80 nucléotides ciblant le gène d'intérêt a été déterminé, en utilisant les logiciels KASpOD (K-mer based Algorithm for high-Specific Oligonucleotide Design) (Parisot N et al., 2012, vol 28, pages 3161 -3162) et HiSpOD (High Spécifie Oligo Design) (Dugat-Bony E et al. , Bioinformatics, 201 1 , vol 27, pages 641 -648) .

Tableau 7 : Séquences des sondes capables de s'hybrider au gène ciblé de

Corynebacterium glutamicum.

SEQ ID No. Séquences des sondes

GCCGGTGCAACCGCGGCCAGCCTGGCAGTTGTTCCAGCAGCA

25

ACAGCTAATCCTGCCGGAACCGCTCCTGTCATCAACGA

ATCTACGGAGGCGGTGGAAACAGCGGATCGTTGTTCTCCAAC

26

GACTTCATTGAGCTCTACAACCCAACCTCAGGGGACAT

CAACAACACCGGCGCTCTGCCTACCCCAGACGCCACCGGTAA

27

CTTGGCAATGGGTGCCTCCCAAGGATCAGTTGCACTGA

CTGACTCTGATAACAACTCCGTAGACTTCGAGACTGGAGCTCC

28

AACTCCAACGTCCTCGGGAGGATCCGCTCCTGTTGAC

GCCGTTTACGCAGAAGGTGGCTTCAACGGTTACTACATCCAGA

29

CACCTGGATCTGGTACTGCACCAAAGGTTGCTGGCGA

CTCCTTCACCGTTTCGGACACCGCATTCGAGCCAGTAACCCCA

30

CTCGAACTGGACACCGTTCCTACTGGCGATGACATTC

CCACTCAAATGGTGGCACCGGGAGCCGAAGCGATTGCGTACG

31

AGGCGGAAAACGTCGCAAAGCAAATTACGCTGGATGAC

GTAATCTTCGATTACCGCTACGACCTGTGGAAATTCCAGCCAA

32

CCACCCCTGTCACCGGCAACACCGCAAGCTCCGACCT

AC C AG G CTG C AG C G C ATAC AG G G ATATC AAC AAC AC C C C AGT

33

C AC CGC C AAC AACT GTAAC GTCCGTGGC G CTTAC AC C G GCGATGACGCACTCAATACCCTCGTCGCAGCACTCAACGAAG

34

CAGTTGGATCCGATCGCTGGGCGGCCGTCGAATCTCCA

C AG C C ACTC G C AC AG G AATTC C AG C C ACTC AAC G AC AG C GAG

35

AAATCCTTCGTCGGCGTAGTCAACCACTTCAAGTCCAA

CAAGCCAATCTTCATCCTCGGCGACACCAACTCCTACGCCAAG

36

GAAACCGCGATGACCACCC 1 1 1 ACGGCGCTGGCTACA

GGGACATCAACGCTGACGAAGCAATCGCATTCGAATACTCCC

37

GTCGACTCAACAACACCTCCGACGTATTCGAGAACAAC

GTTAAGCCAACTGATCCGGTAGAGACCACGGATCCATCTGAG

38

CCAACCGACCCTGCAGAACCTACTGATCCAGCTGAACC

ACGCCACCATTGCAGCAATCATCGCAGCAATCCTAGGTGCCAT

39

TGC 1 1 1 GGCCTTCCAGTTCTTCCCATTCAAGTTCTAA

Les séquences des adaptateurs A (SEQ ID No.1 ), et B (SEQ I D No.2) ont été ajoutées à chaque extrémité des sondes en vue de l'amplification par PCR, conduisant à des sondes dont la séquence est du type « ATCGCACCAGCGTGT-N80-CACTGCGGCTCCTCA », où N80 correspond à la séquence spécifique de chacune des 4 sondes. Les sondes d'une longueur totale de 1 10 nucléotides ont été synthétisées sous forme d'ADN simple brin. Le promoteur T7 (SEQ ID No.3) a été ajouté en amont de l'adaptateur A par PCR avec le kit Platinium Taq DNA Polymerase High Fidelity (Invitrogen) en utilisant des amorces T7-A et B (SEQ ID No. 8 et 9) s'hybridant respectivement sur les Adaptateurs A et B (SEQ ID No. 1 et 2). Les produits PCR obtenus ont été purifiés avec le kit MinElute PCR purification (Qiagen). Les sondes ARN simple brin biotinylées ont été synthétisées par transcription in vitro en utilisant le kit MEGAScript (Ambion) et des dUTP biotinylés (Tebu-Bio), et ont été purifiées avec le kit RNeasy plus (Qiagen).

Cl Préparation des banques de grands fragments d'ADN :

Pour la construction de la banque, 4 μg d'ADN du mélange d'ADN de la communauté artificielle ont été fragmentés à une taille de 20 kb en utilisant le kit g-TUBE (Covaris). Les fragments d'une taille de 20 kb (+/- 4kb) ont été sélectionnés avec le système BluePippin (Sage Science) puis amplifiés en utilisant le Kit Illustra GenomPhi V2 DNA Amplification (ref 25-6600-32, GE Healthcare). Les fragments amplifiés d'une taille de 20 kb (+/- 4kb) ont à nouveau été sélectionnés avec le système BluePippin (Sage Science) pour obtenir une banque d'ADN de grands fragments de taille homogène. La qualité de la banque a enfin été évaluée par dosage de l'ADN au Qubit (Life Technologies) et migration sur puce Agilent DNA 12000 (Agilent Technologies). D/ Hybridation et Capture :

Pour réaliser l'hybridation, 3 de banque ont été mélangés à 2,5 d'ADN de sperme de saumon (Salmon Sperm DNA, sheared (ref AM9680, Ambion)) et dénaturés pendant 5 minutes à 95°C puis incubés pendant 5 minutes à 65°C. Au terme de l'incubation, 13μΙ_ de tampon d'hybridation (SSPE 10 mol/L, Denhardt's 10 mol/L, EDTA 10 m M, pH8 et SDS 0,2 %) puis 500 ng de sondes ARN biotinylées préchauffés à 65°C ont été ajoutés au mélange. Après 24 heures d'hybridation à 65°C, les complexes d'hybridation sonde/banque ont été capturés en utilisant 500 ng de billes magnétiques recouvertes de streptavidine (Dynabeads M-280 Streptavidin (ref 1 1205D, Life Technologies)) préalablement lavées trois fois avec 200 L de NaCI 1 M / TE 10mM. Les billes ont été lavées trois fois à température ambiante avec 500 μΙ de SSC 1 X / SDS 0,1 %, puis trois fois à 65°C avec 500μί de SSC 0,1X / 0,1 % SDS préchauffé. Les fragments d'ADN capturés ont ensuite été élués avec 50μί de NaOH à 0,1 M. Après la sédimentation des billes, le surnageant contenant les banques d'ADN enrichies a été transféré dans un tube contenant 70μί de Tris-HCI à 1 M, pH 7,5. Les fragments d'ADN capturés ont ensuite été purifiés en utilisant le Kit Microcon DNA Fast Flow PCR Grade, Centrifugal Filters, Dual Cycle ΕΤ0 Treated (ref MRCF0R100ET, Merck Millipore) puis amplifiés en utilisant le Kit Illustra GenomPhi V2 DNA Amplification (ref 25- 6600-32, GE Healthcare). Enfin, les fragments amplifiés d'une taille de 20 kb (+/- 4 kb) ont été sélectionnés avec le système BluePippin (Sage Science).

El Séguençage des fragments d'ADN capturés

Les fragments d'ADN capturés ont été séquencés sur 1/4 de « run » de séquençage MiSeq 2x300 bp d'Illumina, après une étape préalable de construction de librairie de séquençage selon le protocole Nextera (Illumina) en accord avec les instructions du fabricant. FI Traitement des données de séguençage

Les lectures obtenues suite au séquençage des banques d'ADN enrichies ont été filtrées selon leur qualité en utilisant le script PRINSEQ-lite (Schmeider, Bioinformatics, 201 1 ). Ainsi, 7 541 179 paires de séquences ont été obtenues. Les lectures ont été assemblées de novo avec IDBA-UD v1.1.2 (Peng, Bioinformatics, 2012). Les contigs obtenus ont ensuite été soumis à un deuxième assemblage en utilisant l'outil CAP3 (Huang, Génome Research, 1999). Les contigs portant le gène cible ont été identifiés par BLASTN (Altschul, Journal of Molecular Biology, 1990) puis affiliés en utilisant BLASTN contre la base de génomes de référence (06/10/14) du NCBI. Enfin, les lectures ont été alignées avec Bowtie2 v2.1 .0 (Langmead, Nature Methods, 2012) contre le génome de référence de C. glutamicum.

G/ Résultats obtenus La présente méthode a permis la reconstruction complète du gène ciblé de 2751 pb codant la nucléase extracellulaire de C. glutamicum mais aussi de ses régions flanquantes. En effet, un contig de 22,4 kb correspondant à une portion du génome de C. glutamicum portant le gène d'intérêt a pu être reconstruit. Ceci a été rendu possible grâce à l'enrichissement ciblé du gène et des régions adjacentes qui représentent 23% des séquences alors que le génome de C. glutamicum ne représentait initialement que 1 % de la communauté et que la région d'ADN reconstruite ne représentait que 0,006% de toutes les séquences de la communauté microbienne. L'enrichissement de la séquence cible permettant la caractérisation du micro-organisme est donc de l'ordre de 4000 fois. Ainsi, ce micro-organisme impliqué dans la bioremédiation de l'arsenic a pu être mis en évidence au sein de la communauté étudiée. Appliquée à des échantillons de sol, cette stratégie pourra permettre de détecter et identifier précisément C. glutamicum pour ensuite adapter les stratégies de bioremédiation sur les sites pollués.