Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PROCESS FOR DETERMINING THE PRESENCE AND QUANTIFICATION OF AT LEAST ONE MICROORGANISM IN A BIOLOGICAL SAMPLE
Document Type and Number:
WIPO Patent Application WO/2017/198956
Kind Code:
A1
Abstract:
The present invention relates to a process for determining the presence and quantification of at least one microorganism in a human biological sample comprising total nucleic acids, comprising the following steps: - extracting the total nucleic acids from said biological sample, - high-throughput sequencing of said total nucleic acids, - computer processing of the sequencing data, - filtering the non-human sequences by sequence alignment with the sequences of the reference genome of at least one microorganism from at least one reference sample, - calculating the sequencing depth of the reference genome of at least one microorganism, - determining an indicator for the quantification of at least one microorganism which is a function of said sequencing depth of the reference genome. The present invention also relates to equipment and kits for carrying out said process, for prenatal or cancer diagnosis.

Inventors:
GABILLARD SAMUEL (FR)
CHESNAIS VIRGINIE (FR)
OTT ALBAN (FR)
CHAPLAIS EMMANUEL (FR)
GINOUX ERIC (FR)
Application Number:
PCT/FR2017/051204
Publication Date:
November 23, 2017
Filing Date:
May 18, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
LIFE & SOFT (FR)
International Classes:
C12Q1/68; C12Q1/70; G06F19/00
Domestic Patent References:
WO2012101643A12012-08-02
WO2015070086A12015-05-14
WO2015070086A12015-05-14
WO2014019275A12014-02-06
Foreign References:
US4599216A1986-07-08
CN105132584A2015-12-09
Other References:
FABIAN RIPP ET AL: "All-Food-Seq (AFS): a quantifiable screen for species in biological samples by deep DNA sequencing", BMC GENOMICS, BIOMED CENTRAL LTD, LONDON, UK, vol. 15, no. 1, 31 July 2014 (2014-07-31), pages 639, XP021191569, ISSN: 1471-2164, DOI: 10.1186/1471-2164-15-639
JÉRÔME D. ROBIN ET AL: "Comparison of DNA Quantification Methods for Next Generation Sequencing", SCIENTIFIC REPORTS, vol. 6, 6 April 2016 (2016-04-06), pages 24067, XP055340141, DOI: 10.1038/srep24067
CAMARGO M CONSTANZA ET AL: "Validation and calibration of next-generation sequencing to identify Epstein-Barr virus-positive gastric cancer in The Cancer Genome Atlas", GASTRIC CANCER, SPRINGER JAPAN, TOKYO, vol. 19, no. 2, 23 June 2015 (2015-06-23), pages 676 - 681, XP035987818, ISSN: 1436-3291, [retrieved on 20150623], DOI: 10.1007/S10120-015-0508-X
ADLER, S.P.: "Screening for Cytomegalovirus during Pregnancy", INFECT. DIS. OBSTET. GYNECOL., 2011
ANKER, P.; MULCAHY, H.; CHEN, X.Q.; STROUN, M.: "Détection of circulating tumour DNA in the blood (plasma/serum) of cancer patients", CANCER METASTASIS REV., vol. 18, 1999, pages 65 - 73
BENOIST, G.; LERUEZ-VILLE, M.; MAGNY, J.F.; JACQUEMARD, F.; SALOMON, L.J.; VILLE, Y.: "Management of pregnancies with confirmed cytomegalovirus fetal infection", FETAL DIAGN. THER., vol. 33, 2013, pages 203 - 214
BLACKADAR, C.B.: "Historical review of the causes of cancer", WORLD J. CLIN. ONCOL., vol. 7, 2016, pages 54 - 86
BOLOVAN-FRITTS, C.A.; MOCARSKI, E.S.; WIEDEMAN, J.A: "Peripheral blood CD14(+) cells from healthy subjects carry a circular conformation of latent cytomegalovirus genome", BLOOD, vol. 93, 1999, pages 394 - 398
DAIMINGER, A.; BADER, U.; ENDERS, G.: "Pre- and periconceptional primary cytomegalovirus infection: risk of vertical transmission and congenital disease", BJOG INT. J. OBSTET. GYNAECOL., vol. 112, 2005, pages 166 - 172
DE VLAMINCK, I.; MARTIN, L.; KERTESZ, M.; PATEL, K.; KOWARSKY, M.; STREHL, C.; COHEN, G.; LUIKART, H.; NEFF, N.F.; OKAMOTO, J. ET: "Noninvasive monitoring of infection and rejection after lung transplantation", PROC. NATL. ACAD. SCI. U. S. A., vol. 112, 2015, pages 13336 - 13341
DUNN, W.; CHOU, C.; LI, H; HAI, R.; PATTERSON, D.; STOLC, V.; ZHU, H.; LIU, F.: "Functional profiling of a human cytomegalovirus genome", PROC. NATL. ACAD. SCI. U. S. A., vol. 100, 2003, pages 14223 - 14228
HANAHAN, D.; WEINBERG, R.A: "Hallmarks of cancer: the next génération", CELL, vol. 144, 2011, pages 646 - 674
JAMES, S.H.; D KIMBERLIN, D.W.: "Advances in the prévention and treatment of congenital cytomegalovirus infection", CURR. OPIN. PEDIATR., vol. 28, 2016, pages 81 - 85
LANGMEAD, B.; TRAPNELL, C.; POP, M.; SALZBERG, S.L.: "Ultrafast and memory-efficient alignment of short DNA sequences to the human genome", GENOME BIOL., vol. 10, 2009, pages R25
LIESNARD, C.; DONNER, C.; BRANCART, F.; GOSSELIN, F.; DELFORGE, M.L.; RODESCH, F.: "Prenatal diagnosis of congenital cytomegalovirus infection: prospective study of 237 pregnancies at risk", OBSTET. GYNECOL., vol. 95, 2000, pages 881 - 888
PETERSON, J.; GARGES, S.; GIOVANNI, M.; MCINNES, P.; WANG, L.; SCHLOSS, J.A.; BONAZZI, V.; MCEWEN, J.E.; WETTERSTRAND, K.A. ET AL.: "The NIH Human Microbiome Project", GENOME RES., vol. 19, 2009, pages 2317 - 2323
PEREIRA, L.; MAIDJI, E.; MCDONAGH, S.; TABATA, T.: "Insights into viral transmission at the uterine-placental interface", TRENDS MICROBIOL., vol. 13, 2005, pages 164 - 174
RAAB-TRAUB, N.: "Nasopharyngeal Carcinoma: An Evolving Rôle for the Epstein-Barr Virus", CURR. TOP. MICROBIOL. IMMUNOL., vol. 390, 2015, pages 339 - 363
XU, W.; LIU, Z.; BAO, Q.; QIAN, Z.: "Viruses, Other Pathogenic Microorganisms and Esophageal Cancer", GASTROINTEST. TUMORS, vol. 2, 2015, pages 2 - 13
Attorney, Agent or Firm:
MARRO, Nicolas et al. (FR)
Download PDF:
Claims:
Revendications

1 - Procédé de détermination de la présence et quantification d'au moins un microorganisme dans un échantillon biologique humain comprenant des acides nucléiques totaux, comportant les étapes suivantes :

- extraction des acides nucléiques totaux dudit échantillon biologique

- séquençage haut débit desdits acides nucléiques totaux

- traitement informatique des données de séquençage consistant à

o dénombrer le nombre total de séquences

o filtrer lesdites séquences en fonction d'un score de qualité

o filtrer des séquences humaines par alignement de séquences avec les séquences du génome de référence humain caractérisé en ce que lesdites étapes de traitement informatique comprennent en outre :

- une étape initiale de calibration consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

- une étape de masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité

- le filtrage des séquences d'au moins un micro-organisme par alignement de séquences non humaines avec les séquences du génome de référence d'au moins un micro-organisme d'au moins un échantillon de référence

- le calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme

- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme

- la détermination d'un indicateur de la quantification d'au moins un microorganisme fonction de ladite profondeur de séquençage du génome de référence

2 - Procédé de détermination de la présence et quantification d'au moins un microorganisme dans un échantillon biologique selon la revendication 1 caractérisé en ce que l'étape de calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme comprend un traitement de normalisation de la profondeur par rapport au nombre total de séquences issues du séquençage.

3 - Equipement pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique caractérisé en ce qu'il comporte un calculateur commandé par un programme d'ordinateur pour la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :

- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité

- filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences d'au moins un génome de référence dudit micro-organisme d'au moins un échantillon de référence

- calcul de la profondeur de séquençage dudit génome de référence - la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme

- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.

4 - Programme d'ordinateur pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique caractérisé en ce qu'il commande la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :

- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité

- filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence

- calcul de la profondeur de séquençage du génome de référence

- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme

- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence. 5 - Kit pour la détermination de la présence et quantification d'au moins un microorganisme dans un échantillon biologique conformément au procédé selon la revendication 1 caractérisé en ce qu'il comprend :

- une pluralité de tubes contenant chacun une dilution d'au moins une séquence d'ADN d'un génome de référence d'au moins un micro-organisme dans un

ADN contrôle

- un tube contenant de l'ADN contrôle

- la séquence nucléotidique du génome de référence d'au moins un microorganisme dont 0 à 5% des nucléotides sont masqués, lesdits nucléotides masqués correspondant à des séquences de faible complexité.

6 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 1 à la détermination de la concentration d'un parasite.

7 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 caractérisé en ce que ledit parasite est un organisme procaryote.

8 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 caractérisé en ce que ledit parasite est un virus. 9 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 caractérisé en ce que ledit parasite est un organisme eucaryote.

10 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 pour le diagnostic prénatal caractérisé en ce que ledit parasite est un cytomégalovirus.

11 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux caractérisé en ce que ledit parasite est un virus Epstein Barr.

12 - Application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique selon la revendication 6 pour le suivi d'une greffe caractérisé en ce que ledit parasite est un virus cytomégalovirus.

13 - Kit selon la revendication 5, pour le diagnostic prénatal mettant en œuvre le procédé conforme à la revendication 1 caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués.

14 - Kit selon la revendication 5, pour le suivi d'une greffe mettant en œuvre le procédé conforme à la revendication 1 caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus. 15 - Kit selon la revendication 5, pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux mettant en œuvre le procédé conforme à la revendication 1 caractérisé en ce que ladite séquences du génome de référence d'au moins un micro-organisme est un virus Epstein Barr.

16. Support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes d'un procédé selon l'une quelconque des revendications 1 ou 2 ou d'application du procédé selon l'une quelconque des revendications 6 à 12.

Description:
Procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique

Domaine de l'invention La présente invention se rapporte au domaine de la détection de contaminants dans un échantillon biologique par séquençage haut débit et au dosage desdits contaminants dans l'échantillon biologique.

Plus particulièrement, l'invention se rapporte à la détection et à la quantification de micro-organismes, par exemple dans un échantillon biologique humain, notamment plasmatique, dont on ne connaît pas préalablement la concentration en microorganismes.

Contexte de l'invention

Les techniques de séquençage haut débit (également appelée technique de séquençage de nouvelle génération) présentent un intérêt tout particulier dans les études génomiques, notamment en physiopathologie. En effet, ces techniques permettent de séquencer les acides nucléiques et notamment le génome entier ou l'exome entier d'un tissu biologique ou de séquencer de manière plus ciblée un panel de gènes d'intérêt. Il est possible à partir des données génomiques séquencées d'étudier le microbiome des tissus étudiés.

En 2008, le NIH a initié la projet HMP (Human Microbiome Project) qui avait pour objectif de caractériser le microbiome de divers tissus biologiques humains (NIH HMP Working Group et al., 2009). Plusieurs études ont ensuite permis de mettre en évidence l'impact du micro-organisme dans diverses situations pathologiques. Ainsi il est possible d'associer la présence de certains micro-organismes dans un tissu à l'émergence d'une pathologie. Par exemple, au cours de la grossesse, de nombreuses infections (parasitaires, bactériennes, virales...) peuvent avoir des conséquences graves pour la mère et le fœtus. Parmi les plus fréquentes, on retrouve les infections par le cytomégalovirus (CMV) ou par le virus de la rubéole (Pereira et al., 2005). Le dépistage de ces infections chez la femme enceinte pourrait permettre un meilleur encadrement des grossesses à risque. De même, il a été montré dans des cas de rejet de greffe que l'identification de séquences d'origine virale pouvaient être associée à l'augmentation du risque de rejet du greffon (De Vlaminck et al., 2015). Enfin, certaines infections virales peuvent être associées à des processus oncogéniques particuliers. C'est le cas notamment du virus HPV-16 associé à l'émergence d'un cancer du col de l'utérus ou du virus de l'hépatite B pouvant entraîner l'apparition de carcinomes hépatiques (Blackadar, 2016). Dans tous les cas, le dépistage d'infections particulières, de même que la quantification de ces infections, peuvent permettre d'améliorer le diagnostic et le suivi de patients atteints de diverses pathologies.

Etat de la technique

Il est connu de l'état de la technique des techniques de détection de biomarqueurs de l'état de santé d'un fœtus dans un échantillon biologique maternel.

La demande de brevet WO2015/070086 décrit une méthode d'analyse du microbiome chez un sujet comprenant le séquençage haut-débit d'un échantillon du patient, l'analyse bioinformatique des données de séquençage et détermination de la présence d'une séquence microbienne.

La demande de brevet WO2014/019275 décrit un procédé d'identification de biomarqueurs de l'état de santé fœtal à partir d'un organisme étranger tel qu'un virus, une bactérie, un champignon et un parasite, et ses utilisations pour la détermination non invasive de l'état de santé fœtal. Cette demande de brevet concerne également un système et un kit qui sont utilisés dans le procédé.

Il existe dans l'état de la technique des procédés de détection de biomarqueurs non- invasif basés sur des techniques de détection d'ADN par PCR quantitative (Polymerase Chain Reaction) ciblant spécifiquement une séquence d'ADN ayant pour origine un micro-organisme particulier. Il existe également des techniques de détection immunologique d'une infection notamment grâce à la quantification des immunoglobulines. II existe également dans l'état de la technique des procédés de détection de biomarqueurs qui nécessitent une étape invasive pouvant représenter des risques pour le patient. C'est le cas par exemple de l'amniocentèse, technique répandue pour prélever du liquide amniotique en vue d'établir une batterie de tests pour évaluer l'état de santé du fœtus chez la femme enceinte. Or l'amniocentèse n'est pas sans risque pour la femme enceinte et le fœtus puisqu'elle peut entraîner la perte du bébé. De même, les biopsies, par exemple pour évaluer le caractère cancérigène d'une tumeur, constituent un acte chirurgical pouvant être dangereux pour le patient. Les tests réalisés sur ces prélèvements peuvent être de différentes natures et plus ou moins sensibles.

Inconvénient de l'art antérieur

Les procédés de l'art antérieur et notamment de la demande WO2014/019275 permettent uniquement de déterminer la présence ou non d'un contaminant à partir des données de séquençage d'un échantillon biologique. Ces procédés ne donnent aucune information sur la concentration en contaminant dans l'échantillon. Il n'est pas non plus possible de suivre l'évolution de cette concentration dans le temps.

Le procédé du document WO2015/070086 ne comporte pas d'optimisation de la détection des micro-organismes au sein d'un sujet. En effet, un certain nombre de reads peuvent s'aligner de façon non spécifique sur le génome de référence au niveau de région génomique de basse complexité et être la source de faux positifs.

Ce document n'établit pas non plus préalablement une matrice de référence sur une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante. Ce document établit tout au plus une quantification relative mais pas de quantification absolue de la concentration en micro-organisme.

Les autres techniques de détection non-invasives en PCR quantitative par exemple présentent généralement un seuil de détection élevé et sont généralement longues et non-exhaustives. De même les techniques immunologiques présentent le plus souvent une faible spécificité de détection des micro-organismes. Ces techniques ne permettent généralement pas de dater l'infection dans le sens où un résultat positif peut résulter d'une infection antérieure.

Les techniques de détection immunologiques d'un micro-organisme peuvent également être invasives pour le patient, par exemple dans le cas de l'amniocentèse chez la femme enceinte. Ces gestes ne sont pas sans conséquences et ils peuvent représenter des risques pour le patient et/ou le fœtus. De même, le seuil de détection par ces techniques est parfois élevé ce qui ne permet pas de détecter de faibles niveaux en micro-organismes.

Dans tous les cas, la concentration en micro-organismes quantifiée par ces techniques n'est pas toujours très précise, ce qui ne permet pas d'adapter précisément les traitements. II existe donc un réel besoin de détecter et de quantifier précisément plusieurs micro-organismes dans un même échantillon biologique, dont on ne connaît pas la quantité desdits micro-organismes, de façon sûre, rapide, précise, sensible et avec un seuil de quantification très bas.

Solution apportée par l'invention

La présente invention se propose de remédier aux inconvénients de l'art antérieur par un procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique humain comprenant des acides nucléiques totaux, comportant les étapes suivantes :

- extraction des acides nucléiques totaux dudit échantillon biologique

- séquençage haut débit desdits acides nucléiques totaux

- traitement informatique des données de séquençage consistant à

o dénombrer le nombre total de séquences

o filtrer lesdites séquences en fonction d'un score de qualité

o filtrer des séquences humaines par alignement de séquences avec les séquences du génome de référence humain caractérisé en ce que lesdites étapes de traitement informatique comprennent en outre :

- une étape initiale de calibration consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

- une étape de masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité

- le filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence d'au moins un micro-organisme d'au moins un échantillon de référence

- le calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme

- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme - la détermination d'un indicateur de la quantification d'au moins un microorganisme fonction de ladite profondeur de séquençage du génome de référence.

La présente invention propose un procédé de détection rapide et précis de microorganismes présents dans des échantillons biologiques humains, permettant de mettre en évidence des dérégulations ciblées du microbiome au sein d'un tissu biologique. La présente invention permet également de quantifier de façon précise le micro-organisme dans un échantillon biologique. La présente invention permet une détection et une quantification absolue de la concentration en micro-organisme. Le procédé selon l'invention est très sensible et permet de détecter au moins un microorganisme même si ce ou ces derniers sont faiblement présents dans l'échantillon. Le seuil de détection et de quantification du procédé de l'invention est très bas. Le seuil de détection du procédé selon l'invention est inférieur au seuil de détection des techniques communément admises telle que les tests immunologiques. Le seuil de quantification du procédé selon l'invention est inférieur au seuil de quantification des techniques communément admises telle que la PCR quantitative. La qualité des résultats obtenus par le présent procédé est accrue par rapport aux solutions de l'art antérieur. L'on comprend que l'invention permet la détection d'un ou de plusieurs microorganismes dans un même échantillon dont on ne connaît pas préalablement la quantité desdits micro-organismes. Cette quantification est absolue, notamment grâce à l'étape initiale de calibration consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante.

La combinaison des étapes du procédé selon l'invention et notamment des étapes de calibration initiale, masquage, filtrage et validation de l'homogénéité de couverture permet d'obtenir des résultats reproductibles, fiables, de très bonne qualité - supérieure aux procédés de l'état de la technique.

Avantageusement, l'étape de calcul de la profondeur de séquençage du génome de référence d'au moins un micro-organisme comprend un traitement de normalisation de la profondeur par rapport au nombre total de séquences issues du séquençage.

Le procédé selon l'invention optimise et augmente la quantité d'informations issues des séquençages d'échantillons biologiques humains. Le procédé selon l'invention est rapide. Le procédé selon l'invention permet d'augmenter la qualité des résultats obtenus. Il permet également une quantification absolue de la concentration en micro-organisme.

Alternativement, le procédé selon l'invention utilise les données de séquençage d'échantillons biologiques humains prélevés à d'autres fins, par exemple aux dépistages des aneuploïdies fœtales ou de biopsies suspectées cancéreuses. Ainsi le procédé selon l'invention maximise les diagnostics possibles à partir d'échantillons biologiques.

Selon un second aspect, l'invention porte sur un équipement pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique comportant un calculateur commandé par un programme d'ordinateur pour la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :

- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité - filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences d'au moins un génome de référence dudit micro-organisme d'au moins un échantillon de référence

- calcul de la profondeur de séquençage dudit génome de référence

- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme

- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.

Dans un mode de réalisation particulier, l'invention concerne un équipement pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique comportant un calculateur commandé par un programme d'ordinateur pour la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de : dénombrement du nombre total de séquences

filtration desdites séquences en fonction d'un score de qualité

filtration des séquences humaines par alignement de séquences avec les séquences du génome de référence humain

calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité

filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence - calcul de la profondeur de séquençage du génome de référence

- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un micro- organisme

- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.

Selon un troisième aspect, l'invention porte sur un programme d'ordinateur pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique commandant la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de : calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité

filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence

calcul de la profondeur de séquençage du génome de référence

la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme

détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence. Dans un mode de réalisation particulier, l'invention concerne un programme d'ordinateur pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique commandant la réalisation des traitements, sur des données de séquençage haut débit d'une extraction d'acides nucléiques totaux dudit échantillon biologique, de :

- dénombrement du nombre total de séquences

- filtration desdites séquences en fonction d'un score de qualité

- filtration des séquences humaines par alignement de séquences avec les séquences du génome de référence humain

- calibration initiale consistant à caractériser une pluralité d'échantillons de référence dont la concentration en micro-organisme est connue, et à enregistrer une matrice correspondant à la profondeur déterminée par ladite caractérisation, et la concentration en micro-organisme connue correspondante

- masquage de 0 à 5% des nucléotides du génome de référence d'au moins un micro-organisme par rapport aux nucléotides totaux dudit génome de référence, lesdits nucléotides masqués correspondant à des séquences de faible complexité

- filtrage des séquences d'au moins un micro-organisme par alignement de séquences non-humaines avec les séquences du génome de référence dudit micro-organisme d'au moins un échantillon de référence

- calcul de la profondeur de séquençage du génome de référence

- la validation de l'homogénéité de la couverture du génome d'au moins un micro-organisme consistant à calculer l'écart-type de la profondeur de séquençage du génome à la référence dudit génome d'au moins un microorganisme

- détermination d'un indicateur de concentration en micro-organisme fonction de ladite profondeur de séquençage du génome de référence.

On peut noter que les programme d'ordinateur mentionnés dans le présent exposé peuvent utiliser n'importe quel langage de programmation, et être sous la forme de code source, code objet, ou de code intermédiaire entre code source et code objet, tel que dans une forme partiellement compilée, ou dans n'importe quelle autre forme souhaitable.

Selon un quatrième aspect, l'invention concerne un support d'enregistrement lisible par un ordinateur sur lequel est enregistré un programme d'ordinateur comprenant des instructions pour l'exécution des étapes d'un procédé selon l'invention ou d'application du procédé selon l'invention.

Les supports d'enregistrement (ou d'information) mentionnés dans le présent exposé peuvent être n'importe quelle entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une ROM, par exemple un CD ROM ou une ROM de circuit microélectronique, ou encore un moyen d'enregistrement magnétique, par exemple une disquette (floppy dise) ou un disque dur.

D'autre part, les supports d'enregistrement peuvent correspondre à un support transmissible tel qu'un signal électrique ou optique, qui peut être acheminé via un câble électrique ou optique, par radio ou par d'autres moyens. Le programme selon l'invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, les supports d'enregistrement peuvent correspondre à un circuit intégré dans lequel le programme est incorporé, le circuit étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question. Selon un cinquième aspect, l'invention concerne un kit pour la détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique conformément au procédé ci-dessus comprenant :

- une pluralité de tubes contenant chacun une dilution d'au moins une séquence d'ADN d'un génome de référence d'au moins un micro-organisme dans un ADN contrôle

- un tube contenant de l'ADN contrôle

- la séquence nucléotidique du génome de référence d'au moins un microorganisme dont 0 à 5% des nucléotides sont masqués, lesdits nucléotides masqués correspondant à des séquences de faible complexité. Dans un mode de réalisation, la séquence d'ADN d'un génome de référence d'au moins un micro-organisme est la séquence SEQ ID NO : 1. Dans un mode de réalisation, la séquence nucléotidique du génome de référence d'au moins un micro-organisme dont 0 à 5%, 0% étant exclu, des nucléotides sont masqués.

Dans un mode préféré de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique à la détermination de la concentration d'un parasite.

Dans un mode de réalisation, ledit parasite est un organisme procaryote. Ledit procaryote peut être choisi parmi les bactéries ou les archae.

Dans un autre mode de réalisation, ledit parasite est un virus.

Le virus peut être un virus à ADN appartenant à la famille des herpesviridae, un papillomaviridae, un parvoviridae ou tout autre famille de virus à ADN.

Le virus de la famille des herpesviridae peut être un cytomégalovirus, un virus Epstein-Barr, un varicellovirus, un simplexvirus, un herpès virus de type 8 ou tout autre virus.

Dans un autre mode de réalisation, ledit parasite est un organisme eucaryote.

Dans un autre mode de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique pour le diagnostic prénatal caractérisé en ce que ledit parasite est un cytomégalovirus.

Dans un autre mode de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux caractérisé en ce que ledit parasite est un virus Epstein Barr. Dans un autre mode de réalisation, l'invention porte sur l'application du procédé de détermination de la présence et quantification d'au moins un micro-organisme dans un échantillon biologique pour le suivi d'une greffe caractérisé en ce que ledit parasite est un virus cytomégalovirus. Selon un autre aspect, l'invention porte sur un kit tel que décrit ci-dessus pour le diagnostic prénatal mettant en œuvre le procédé décrit précédemment caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués. Dans un mode de réalisation, ladite séquence du génome de référence d'au moins un micro- organisme est un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués, 0% étant exclu. Avantageusement, ladite séquence du génome de référence d'au moins un micro-organisme est la séquence du génome de référence d'un cytomégalovirus dont jusqu'à 0,06% des nucléotides sont masqués, cette séquence correspondant à la séquence SEQ ID NO : 1. Selon un autre aspect, l'invention porte sur un kit tel que décrit ci-dessus pour le suivi d'une greffe mettant en œuvre le procédé décrit précédemment caractérisé en ce que ladite séquence du génome de référence d'au moins un micro-organisme est un cytomégalovirus.

Selon un autre aspect, l'invention porte sur un kit tel que décrit ci-dessus pour le diagnostic d'un cancer induit par le virus Epstein Barr et/ou le suivi d'un traitement anticancéreux mettant en œuvre le procédé précédemment décrit caractérisé en ce que ladite séquences du génome de référence d'au moins un micro-organisme est un virus Epstein Barr.

Description

La présente invention sera mieux comprise à la lumière de la description détaillée de l'invention et d'exemples non limitatifs de réalisation.

La figure 1 présente un schéma du procédé selon l'invention. La figure 2 présente la répartition des bases en fonction de leur score de qualité PHRED pour un échantillon.

La figure 3 présente la distribution moyenne des séquences nucléotidiques issues de séquençage de génome entier. La figure 4 présente le nombre de séquences virales alignées sur le génome de référence du CMV masqué (CMV_NS) ou classique (NC_006273).

La figure 5 présente la comparaison des résultats obtenus après filtre ou non des séquences nucléotidiques humaines.

La figure 6 présente la comparaison des performances pour l'alignement sur le génome viral des séquences nucléotidiques de 5 échantillons sans (en haut) ou avec (en bas) une première étape filtrant les séquences nucléotidiques s'alignant sur le génome humain.

La figure 7 présente le nombre brut de séquences alignées sur le génome de référence du CMV (CMV_NS) ou normalisé en fonction du nombre de séquences totales de l'échantillon dans un échantillon infecté par le CMV.

La figure 8 présente une estimation de la concentration en contaminant des échantillons à partir de la profondeur moyenne normalisée et la corrélation entre la concentration en contaminant théorique de l'échantillon et celle estimée par le procédé selon l'invention. La figure 9 présente un exemple de réalisation de l'invention pour la détection d'une virémie dans des échantillons plasmatiques.

La figure 10 présente le profil d'un échantillon positif selon le procédé de l'invention et ayant une virémie positive pour le CMV.

La figure 11 présente la profondeur moyenne normalisée de 4 échantillons (en abscisse) pour 9 micro-organismes étudiés (famille des herpesviridae). Définitions :

Echantillon biologique humain : Des biopsies liquides ou solides de tissus humains, des cellules isolées à partir de biopsies liquides ou solides, les liquides biologiques tels que le plasma ou liquide céphalorachidien. Fasta : Format de fichier texte permettant de stocker des séquences biologiques telles que des séquences nucléotidiques de génomes de référence.

Fastq : Format de fichier texte permettant de stocker des séquences et leur score de qualité associé telles que les séquences nucléotidiques issues du séquençage nouvelle génération. Microbiome : Le microbiome regroupe l'ensemble des micro-organismes qui prédominent ou sont durablement adaptées à la surface et à l'intérieur d'un organisme vivant. Ce terme désigne également la somme des génomes des micro- organismes vivant dans ou sur un organisme animal ou végétal. Des états pathologiques de l'organisme animal ou végétal peuvent être attribués à un déséquilibre de son microbiome.

ORF (Open Reading Frame) : Phase ouverte de lecture correspond à une région du génome susceptible de coder pour une protéine. Elle est définie par la présence d'un codon initiateur et d'un codon stop qui délimitent une région codante entourée dans certains cas de séquences dîtes régulatrices. Profondeur de séquençage : Correspond au nombre de fois moyen que le génome est couvert (souvent exprimé en équivalent génome). Autrement dit, la profondeur de séquençage se définit comme le nombre moyen de séquences qui couvrent une région génomique particulière, c'est-à-dire le nombre moyen de séquences qui s'alignent à l'intérieur d'une région génomique particulière.. Read : Séquence nucléotidique obtenue après séquençage nouvelle génération

Séquençage : Consiste à déterminer l'ordre des nucléotides d'une séquence d'acide nucléique donné selon différentes méthodes. Séquençage nouvelle génération (ou séquençage haut-débit) : Consiste à déterminer de manière massive et parallélisée l'ordre des nucléotides d'un grand nombre de séquences d'acides nucléiques au sein d'un échantillon. Typiquement cette méthode permet le séquençage du génome ou du transcriptome d'un échantillon biologique. Score de qualité (score Phred) : Score de qualité assigné à chaque base nucléique obtenue après séquençage nouvelle génération. Ils permettent de déterminer l'exactitude de chaque nucléotide d'une séquence biologique stockée dans un fichier fastq.

Préparation des échantillons

Les acides nucléiques des échantillons biologiques sont extraits selon les techniques classiques bien connues de l'Homme du métier. L'étape d'extraction des acides nucléiques est adaptée à chaque échantillon biologique et permet la lyse des cellules afin de libérer les acides nucléiques qui sont ensuite purifiés et fragmentés si nécessaire afin de permettre leur séquençage par des techniques de séquençage nouvelle génération. Par exemple, le plasma est récolté après centrifugation d'un prélèvement sanguin et correspond au surnageant. Cette phase liquide ne contient pas ou peu de cellules sanguines. L'ADN circulant dans le plasma est ensuite extrait de cet échantillon biologique. Dans le cas de l'ADN plasmatique circulant aucune étape de fragmentation n'est nécessaire. Par exemple, une étape de fragmentation peut être une fragmentation chimique qui fait intervenir des enzymes dites endonucléases ou une fragmentation mécanique (ou sonication).

Séquençage : Les échantillons sont ensuite séquencés par des techniques de séquençage haut- débit, par exemple séquençage en single-end ou paired-end, long-reads ou short- reads. Ce séquençage peut être fait sur des plateformes bien connues de l'Homme du métier comme les plateformes Illumina®, Roche® ou IonTorrent®. Par exemple, dans le cas d'un séquençage suivant la technologie Illumina®, des séquences adaptatrices sont ajoutées à chaque extrémité des fragments d'ADN. Ces adaptateurs sont différents pour chaque échantillon et permettent leur identification après séquençage de plusieurs échantillons sur une même puce. L'ajout des adaptateurs est suivi par une amplification clonale des fragments d'ADN (par pontage ou PCR en émulsion par exemple) puis par l'étape de séquençage sur l'automate choisi (par exemple HiSeql500™).

Prétraitement des données de séquençage : - Dénombrage du nombre total de séquences :

Les données de séquençage sont stockées dans des fichiers fastq sous-forme de séquences nucléotidiques dont la taille dépend essentiellement de la technologie de séquençage utilisée, auquel sont associées un score qualité appelé le score Phred. Le nombre de séquences contenues dans chaque fichier fastq correspond au nombre total de séquences obtenues après séquençage nouvelle génération (i.e. séquençage haut-débit).

- Filtrage des séquences nucléotidiques en fonction de leur qualité :

Les séquences nucléotidiques sont ensuite filtrées sur leur qualité. Seules les séquences nucléotidiques de qualité suffisante sont conservées (figure 2). De même, les duplicats de PCR sont filtrés lors de cette étape. Il s'agit classiquement de regarder la qualité de chaque séquence obtenue en sortie de séquençage (la qualité étant donnée par le séquenceur) et de ne garder que les séquences dont la qualité est supérieure à un seuil préalablement défini. La définition du seuil est classique pour l'homme du métier (souvent 15 ou 20). - Filtrage des séquences humaines par alignement de séquences avec les séquences du génome de référence humain :

Un premier alignement sur le génome de référence humain GRCh38 est effectué afin de filtrer les séquences nucléotidiques d'origine humaine. En fonction de la technologie et de la plateforme de séquençage utilisé, il convient d'adapter l'outil d'alignement utilisé. En effet les algorithmes utilisés par les différents aligneurs disponibles sont dépendants, notamment de la taille des séquences, mais aussi de leur type de séquençage (en paired- ou single-end) et doivent être choisis en fonction de ces différents paramètres. Par exemple, l'outil Bowtie, permet un alignement efficace et rapide des séquences de petite taille (moins de 50pb) issus de séquençage de génome entier (Langmead et al., 2009). Dans le cas de données de séquençage obtenues après séquençage en single-end de 26pb, les séquences qui s'alignent sans variants et moins de 5 fois sur le génome de référence humain GRCh38 sont considérés comme des séquences nucléotidiques d'origine humaine. Afin d'accélérer cette étape, le meilleur alignement des séquences sur le génome de référence humain peut ne pas être rapporté (tableau 1).

Tableau 1 : Exemple de paramètres d'alignement des séquences nucléotidiques sur le génome de référence humain GRCh38 avec l'outil d'alignement Bowtie pour des données de séquençage Illumina obtenues sur HiSeql500™ en single-end de 26pb.

Dans cet exemple, en moyenne, après séquençage de génome entier, environ 19% des séquences totales ayant une qualité suffisante ne s'alignent pas sur le génome de référence GRCh38 (figure 3). Identification des séquences spécifiques des ADN contaminants :

- Génomes de références (étape de masquage) :

Sur certaines régions génomiques particulières on observe l'alignement non- spécifique de nombreuses séquences nucléotidiques. Le nombre et la taille de ces régions particulières au sein d'un génome de référence sont indépendants de la taille de ce dernier. Cette étape n'est pas obligatoire pour tous les génomes de référence et dépend essentiellement de la séquence de ce dernier. La nécessite de réaliser ou pas une étape de masquage est généralement déterminée par le calcul de l'entropie de la séquences (qui reflète la complexité de la séquence). Dans un mode de réalisation préféré, cette étape de masquage est réalisée. En revanche un maximum de 5 nucléotides par centaine de nucléotides de la séquence de référence peuvent être modifiés à cette étape afin d'assurer une sensibilité d'alignement suffisante pour la suite de l'analyse (modification de 0% à 5% des nucléotides). Dans un mode de réalisation particulier, de 0% à 5% des nucléotides (0% étant exclu) de la séquence de référence peuvent être modifiés à cette étape afin d'assurer une sensibilité d'alignement suffisante pour la suite de l'analyse (modification entre 0% et 5% des nucléotides, 0% étant exclu).

Par exemple, sur un panel de 60 virus à ADN, 9 présentent, un l'alignement non- spécifique de 4 à 173 séquences (tableau 2).

Nom du Nombre de régions de Nombre de séquences Taille virus basse complexité non-spécifiques génome

HPV-10 2 20 7919 pb

HPV-9 1 4 7434 pb

HPV-5 2 5 7746 pb

HPV-34 2 21 7723 pb

HPV-16 1 173 7905 pb HPV-18 1 48 7857 pb

HSV-5 4 22 235646 pb (CMV)

HSV-6b 2 8 162114 pb

HSV-6a 3 79 159322 pb

2 : Génome viraux présentant des régions nucléotidiques de basse ' entraînant un alignement non-spécifique de séquences nucléotidiques

Certaines régions génomiques particulières sont généralement composées de séquences d'ADN de basse complexité qui correspondent à une faible diversité nucléotidique en général, une ou deux bases sont surreprésentées (par exemple : AAATAAAAAAAATAAAAAAT). Les régions de basse complexité provoquent souvent des alignements non-spécifiques. De telles régions peuvent aussi comporter des répétitions de motifs (séquences de quelques bases).

Les régions nucléotidiques entraînant des alignements non-spécifiques (i.e. les régions de basse complexité) sont donc masquées, afin de permettre une meilleure homogénéité de l'alignement sur le génome de référence et une diminution du bruit de fond observé pour les échantillons négatifs. Cette méthode permet de diminuer le nombre de séquences alignées de manière non-spécifique. Par exemple, pour le virus du CMV (HSV-5), l'étape de masquage des 4 régions de basse complexité passe par la modification de 155pb du génome de référence qui deviennent des N (SEQ ID NO : 1). Dans ce cas, le masquage impacte 0,06% des nucléotides du génome du CMV.

Cette étape de masquage permet de ramener le nombre de séquences comptées pour les échantillons négatifs (i.e. échantillons ne comprenant pas d'ADN de micro- organisme) à un niveau basai proche de zéro et donc de discriminer plus facilement les échantillons faiblement concentrés en micro-organismes et les échantillons négatifs (figure 4). - Alignement sur le génome de référence de micro-organismes (étape de filtrage) :

Les séquences nucléotidiques qui ne s'alignent pas sur le génome humain, dont l'origine est inconnue, sont ensuite alignées sur le ou les génomes de référence cibles, éventuellement dans lequel ou lesquels les régions de basse complexité sont masquées : génomes de parasites, viraux, de procaryotes ou de micro-organismes eucaryotes. Seuls les séquences s'alignant sans ambiguïté sont conservées. Le nombre de variants tolérés par séquences lors de l'alignement de cette séquence est dépendant du micro-organisme étudié et de sa variabilité génique et de la plateforme de séquençage utilisé. Par exemple dans le cas d'un micro-organisme peu variable, comme les virus à ADN séquencé sur une plateforme Illumina HiSeql500™ en single- end de 26pb un maximum de 2 variants est toléré pour la suite de l'analyse (tableau 3).

Tableau 3 : Exemple de paramètres d'alignement des séquences nucléotidiques sur le génome de référence du microorganisme avec l'outil d'alignement Bowtie pour des données de séquençage Illumina obtenues sur HiSeql500™ en single-end de 26pb

- Impact du filtre de la présence des séquences nucléotidiques humaines sur la détection des micro-organismes (acide nucléique contaminant) :

La première étape d'alignement des séquences sur le génome de référence humain s'effectue sur le génome de référence humain disponible le plus récent : GRCh38 (Génome Référence Consortium Human génome build 38) mis à jour en 2013. L'élimination préalable des séquences humaines permet de diminuer le nombre d'alignements non spécifiques. Par exemple, le nombre de séquences nucléotidiques s'alignant sur le génome du CMV observés après les deux étapes d'alignement est inférieur à celui observé après alignement direct sur le génome de référence viral (figure 6).

Analyse quantitative des résultats

- Validation de la profondeur de séquençage total :

Un premier filtre de validation de l'étape de séquençage est mis en place sur la base du nombre minimum de séquences qui doivent être obtenues afin d'assurer une profondeur de séquençage suffisante pour permettre la suite de l'analyse. De plus, un pourcentage de séquences suffisant s'alignant sur le génome de référence humain est nécessaire afin de valider le bon déroulement du séquençage.

Dans le cas d'un séquençage comme décrit précédemment (Illumina HiSeql500™ en single-end de 26pb) un seuil de 10 millions de séquences minimales doit être obtenu (0,07X en équivalent génome humain) afin d'assurer une détection robuste et reproductible des séquences spécifiques des micro-organismes étudiés (tableau 4). Ainsi, le procédé selon l'invention nécessite une profondeur de séquençage très faible du génome humain permettant de séquencer un maximum d'échantillons simultanément afin de minimiser les temps et les coûts de séquençage.

Tableau 4 : Exemple de paramètres des filtres de qualité du séquençage pour des données de séquençage Illumina obtenues sur HiSeql500™ en single-end de 26pb - Validation de l'homogénéité d'alignement :

Un filtre optionnel permet d'identifier les alignements biaisés en vérifiant si le génome est uniformément couvert par les séquences d'intérêts alignées. Cette vérification de l'homogénéité de l'alignement est réalisée en calculant l'écart-type de la profondeur de séquençage des régions génomiques présentes uniformément dans l'échantillon. Typiquement, pour les micro-organismes ayant un génome à ADN, cette étape peut être réalisée sur l'ensemble du génome du micro-organisme. En revanche, pour les micro-organismes ayant un génome à ARN, tels que les virus à ARN, il peut être nécessaire de ne considérer que les régions inter-géniques non soumises aux variations d'expression pour cette validation.

On définit la profondeur de séquençage {depth) comme le nombre de séquences qui couvrent une région génomique particulière. La profondeur moyenne de séquençage (depthmean) est définie comme :

_ breads * longueur reads

u6ptfl mean

tciill6g norne

nbreads■' nombre de séquences a/ignées sur le génome

longueur r eads■' nombre de nucléotides des séquences

taille g énome ' nombre de nucléotides du génome de référence

L'écart-type de la profondeur de séquençage du génome est égal à :

depth t : profondeur pour une région génomique donnée sur le génome de référence depthmean■' profondeur moyenne sur tout le génome de référence

taillegénome■ nombre de nucléotides du génome de référence Comme la profondeur suit une loi de Poisson, l'écart-type théorique est égal à la racine de la moyenne {dept mean J- Au final, le paramètre permettant d'estimer de l'homogénéité de l'alignement est un écart-type normalisé (centré) et asymétrique :

■Jdëpth mean σ: écart-type de la profondeur sur tout le génome de référence

depthmean : profondeur moyenne sur tout le génome de référence

taille g énome : nombre de nucléotides du génome de référence

Au final :

depthj : profondeur pour une région génomique donnée sur le génome de référence depthmean■ profondeur moyenne sur tout le génome de référence

nb œ ads■' nombre de séquences alignées sur le génome

longueurreads ' nombre de nucléotides des séquences

A partir de résultats de séquençage de bonne et de mauvaise qualité, un seuil a été établi pour lequel il est possible de déterminer la qualité du séquençage. Ainsi, un écart-type inférieur à ce seuil permet, indépendamment du génome de référence, d'affirmer que l'alignement est de bonne qualité.

Analyse quantitative des résultats :

- Normalisation du nombre de séquences de micro-organismes Le nombre de séquences spécifiques de chaque micro-organisme recensé dans un échantillon est dépendant de la taille du génome de référence de l'organisme étudié. Plus le micro-organisme étudié présente un génome de grande taille, plus la probabilité de retrouver des séquences de ce micro-organisme dans la librairie est importante. Afin de pouvoir quantifier chaque micro-organisme indépendamment de leur taille, on considérera non pas le nombre de séquences comptées mais la profondeur moyenne de séquençage du génome cible (depth mean ) comme définit précédemment :

_ nbrea d s * longueur reads

epcft mean — faille

luiLLe génome nbrea s · ' nombre de séquences alignées sur le génome

longueur reacl5 : nombre de nucléotides des séquences

taille g énome : nombre de nucléotides du génome de référence

Le nombre de séquences comptées est directement proportionnel à la profondeur de séquençage totale obtenue à l'échelle de l'échantillon total. Plus le nombre de séquences issues du séquençage est élevé, plus le nombre de séquences d'origine microbienne sera important pour un échantillon présentant une même charge infectieuse (figure 7).

Le nombre de séquences est donc normalisé par rapport au nombre de séquences totales :

. nbreads

nbreadsTotal nbreads■' nombre de séquences a/ignées sur le génome

nbreads ai■' nombre de séquences totales issues du séquençage ayant passées le filtre qualité

c : constante La constante c permet enfin de rapporter la valeur de profondeur normalisée à une échelle interprétable :

readSnorm■ ' nombre de séquences alignées sur le génome après normalisation longueur re ads : nombre de nucléotides des séquences

taille g énome : nombre de nucléotides du génome de référence

c : constante

L'analyse de cohortes d'échantillons positifs, c'est à dire infectés par un microorganisme, et d'échantillons négatifs non-infectés permet par une analyse ROC de déterminer un seuil de profondeur moyenne normalisée de séquençage du génome cible pour lequel il est possible de déterminer si l'échantillon est infecté ou non. Ainsi si depthnorm est supérieur au seuil alors l'échantillon sera probablement infecté par le micro-organisme d'intérêt. Le taux de faux-positifs et de faux-négatifs attendu est déterminé par les résultats de sensibilité et de spécificité du seuil déterminé par l'analyse ROC.

- Détection d'une infection :

Le dépistage d'une infection par un micro-organisme est réalisé à partir de la profondeur moyenne de séquençage du génome du micro-organisme d'intérêt, calculé et normalisé comme décrit précédemment. Le z-score est un test statistique permettant de mettre en évidence un écart significatif d'une valeur au sein d'une population. Un z-score supérieur à 3 permet d'identifier des échantillons pour lesquels, statistiquement le nombre de séquences nucléotidiques s'alignant sur le génome cible est différent de celui de la population étudiée. Le z-score est calculé à partir de la moyenne (mean) et de la déviation absolue de la déviation standard {StDev du nombre de séquences alignées et normalisées de tous les échantillons étudiés : reads norm - mean(reads norm )

zscore = ———

StDev(reads norm )

readsnorm : nombre de séquences alignées sur le génome après normalisation.

- quantification de l'infection :

A partir de gammes croissantes d'échantillons infectés, séquencés préalablement, il est possible d'effectuer une régression permettant d'estimer le taux d'infection des échantillons testés. De manière générale ces gammes, de concentrations en séquences microbiennes connues, doivent être séquencées au minimum en duplicate. Un minimum de 4 points de gamme est requis pour cette étape.

La profondeur moyenne normalisée est calculée pour chaque point de gamme et est corrélée de manière linéaire à la concentration en contaminant du point de gamme (figure 8). Une régression linéaire est alors réalisée afin de déterminer l'équation permettant de relier le taux d'infection {concentration en contaminant) et la profondeur moyenne normalisée de séquençage du génome {depth nom : concentration en contaminant = depth norm x k depth norm : profondeur moyenne normalisée sur tout le génome de référence k : constante

Exemple de réalisation n°l : Détection et quantification de cytomégalovirus (CMV) plasmatique chez la femme enceinte

Le CMV appartient à la famille des herpesviridae. Il s'agit d'un virus enveloppé à ADN double brin d'environ 240kb. L'infection est latente avec un maintien du génome viral sous forme d'épisome dans les macrophages ou les cellules endothéliales (Bolovan- Fritts et al., 1999). Sa transmission est interhumaine et se fait principalement par contact entre les muqueuses. Au cours du processus d'infection, la transmission du virus chez l'hôte s'effectue par contacts intercellulaires notamment grâce aux macrophages circulants. La primo-infection par le CMV touche près de 50% de la population mondiale et est asymptomatique dans la plupart des cas. Le CMV peut être réactivé au cours de la vie d'un individu. De même, des infections à partir de différentes souches virales peuvent également être observées. Parmi les plus connues, 4 souches non manipulées génétiquement, ont été isolées et entièrement séquencées (Dolan et al., 2004) (tableau 5).

Culture Nom de la Référence Taille du

souche (NCBI) génome

Tableau 5 : Description des principales souches de référence du CMV (NCBI®)

Parmi les souches isolées après culture cellulaire prolongée, des délétions ont été observées pouvant expliquer leur résistance et leur survie en culture. Au final, la souche de référence considérée comme la plus proche du CMV primaire observé chez l'homme et la souche Merlin.

L'infection par le CMV au cours de la grossesse résulte dans la majorité des cas d'une primo-infection intervenant chez une femme séronégative. De manière plus minoritaire, l'infection peut découler d'une infection secondaire ou d'une réactivation virale chez les femmes séropositives. Les manifestations cliniques sont dans tous les cas inexistantes ou mineures (syndrome grippal).

Les femmes enceintes séronégatives en début de grossesse sont donc les principaux sujets à risque. En France, plusieurs études épidémiologiques ont montré que 50% à 55% des femmes en âge de procréer présentent une sérologie CMV négative. Chez ces femmes, le risque d'infection au cours de la grossesse est d'environ 1%. L'incidence des infections secondaires ou des réactivations virales est peu connue (Adler, 2011).

En cas d'infection chez la mère, le virus peut infecter le fœtus par l'intermédiaire de la barrière fœto-placentaire. L'infection congénitale du fœtus est définie par la détection du virus dans la circulation du nouveau-né dans les 3 premières semaines de vie, et intervient dans 40% à 50% des cas de primo-infection au cours de la grossesse. Au final, la prévalence du CMV à la naissance est d'environ 0,5% à 1%.

L'ampleur des complications résultant d'une infection congénitale est encore mal définie. Les symptômes peuvent émerger à la naissance chez 10 à 20 % des nourrissons infectés ou au cours de la première année de vie chez près de 30% des enfants infectés asymptomatiques à la naissance. Plusieurs types de séquelles neurologiques et/ou sensorielles sont souvent retrouvés chez les enfants symptomatiques (tableau 6). Dans 5% des cas, l'infection par le CMV à la naissance entraîne le décès du nouveau-né (Benoist et al., 2013; James and Kimberlin, 2016).

Type de Manifestations cliniques

séquelles

Tableau 6 : Description des principales séquelles observées chez le nouveau-né atteint d'une infection congénitale par le CMV (James and Kimberlin, 2016)

La primo-infection chez la mère est d'autant plus fréquente que l'âge de la gestation augmente. De plus, il a été montré que le risque pour le fœtus augmente lorsque la primo-infection intervient en début de grossesse (avant le premier semestre, 26% des fœtus présenteront une pathologie sévère contre seulement 6,2% au cours des deuxièmes et troisièmes semestres de grossesse) (Daiminger et al., 2005; Liesnard et al., 2000).

A ce jour, en France, seules quatre pathologies infectieuses font l'objet de programmes de dépistage prénatal obligatoire : la toxoplasmose, la rubéole, la syphilis et l'hépatite B. Bien que la transmission verticale du CMV soit la principale cause infectieuse de malformation congénitale, le dépistage prénatal du CMV n'est pas réalisé de manière systématique. Cependant, malgré l'absence de recommandation, le dépistage prénatal sérologique du CMV au cours de la grossesse est réalisé de plus en plus fréquemment.

Au cours de la grossesse, la détection de l'infection chez la mère peut être réalisée grâce à des tests sérologiques : dosage des immunoglobulines de type M et mesure de l'avidité des immunoglobulines de type G par des tests Elisa. Le dosage des immunoglobulines ne permet pas d'identifier précisément les primo-infections car elles peuvent persister longtemps après l'infection. De plus leur interprétation reste difficile, notamment du fait d'une absence de standardisation des tests proposés et du statut sérologique des sujets infectés au cours du temps. D'après la Haute Autorité de Santé, l'établissement de la date de l'infection n'est possible que dans 75% à 80% des cas. De plus, ce test ne permet pas d'identifier des infections secondaires.

Le suivi échographique permet d'identifier des anomalies du développement embryonnaire non spécifiques de l'infection congénitale par le CMV. Cependant, dans près de la moitié des cas qui présenteront des séquelles, aucun signe n'est observé au cours de la grossesse, d'où l'importance de détecter le CMV.

Actuellement, la confirmation de l'infection du fœtus par le CMV peut être réalisée par le biais d'un geste invasif. La présence de particules ou d'ADN viral dans le liquide amniotique est mis en évidence par des techniques de culture cellulaire ou de PCR et permet alors de diagnostiquer une infection chez le fœtus. Cependant, les gestes invasifs sont dangereux et leur spécificité, de même que leur sensibilité, restent limitées. Des résultats faux-négatifs peuvent être dus à des amniocentèses réalisées trop tôt au cours du développement fœtal (la fonction d'urination fœtale apparaît seulement après 20 semaines de grossesse) et trop tôt après l'infection (6 à 8 semaines pour que le CMV soit excrété dans l'urine). Par ailleurs, des faux-positifs peuvent être le résultat d'une contamination par le sang maternel intervenant suite au geste invasif (amniocentèse).

La symptomatologie de l'infection chez l'adulte n'est pas spécifique (syndrome grippal) et ne permet pas de poser le diagnostic de l'infection par le CMV. Les tests sérologiques actuels ne permettent pas d'identifier toutes les infections actives chez la femme enceinte, notamment dans le cas des infections secondaires ou réactivation virale, et sont peu précis. De plus, le suivi échographique seul ne permet pas d'estimer le risque d'infection congénitale du fœtus. En cas de doute, seul un geste invasif permet de poser le diagnostic et d'évaluer le risque pour le fœtus.

L'identification de la présence d'ADN circulant plasmatique d'origine fœtale, de même que l'émergence des technologies de séquençage nouvelle génération, a permis le développement du dépistage et du diagnostic prénatal non invasif de différentes pathologies (DPNI) : détermination du génotype RHD, dépistage des aneuploïdies fœtales... Par exemple, la surreprésentation de séquences spécifiques du chromosome 21 dans le plasma permet de mettre en évidence une trisomie 21 (ou Syndrome de Down) chez le fœtus. Le séquençage entier de l'ADN plasmatique maternel permet de dépister d'éventuelles aneuploïdies fœtales.

Le procédé de la présente invention utilise le séquençage du génome de l'ADN plasmatique maternel pour détecter chez la mère une infection par le virus du CMV. En effet, en cas d'infection active le virus se retrouve dans la circulation sanguine : de l'ADN viral peut ainsi être observé et quantifié dans le plasma maternel. Ce test non-invasif permet de déterminer avec précision le statut infectieux de la femme au cours de la grossesse, et ainsi améliorer la prise en charge des femmes infectées en limitant notamment le nombre de gestes invasifs proposés.

Le test de dépistage prénatal est réalisé selon l'invention à partir d'échantillons de plasma maternels. Le plasma est récolté après centrifugation d'un prélèvement sanguin de la femme enceinte et récupération de la phase surnageante. Cette phase liquide ne contient pas de cellules sanguines. L'ADN circulant dans le plasma est ensuite extrait afin de permettre la production des librairies qui permettent le séquençage du génome entier de chaque échantillon sur la plateforme Illumina HiSeql500™, selon les recommandations du fabriquant. Le séquençage est réalisé dans cet exemple en single end. Les données brutes issues du séquençage sous forme de fichier bel sont ensuite convertis sous forme de fichiers fastq contenant la totalité des séquences nucléotidiques obtenues par échantillon. Les fichiers fastq contenant les séquences sont ensuite traités conformément à la présente invention (figure 9).

Au total, 82 échantillons de plasma maternel ont été séquencés. A ce test de dépistage prénatal ont été ajouté 5 échantillons contrôles (4 contrôles positifs et 1 contrôle négatif). L'alignement successif des séquences sur le génome humain puis sur le génome de référence du CMV modifié comme décrit précédemment (SEQ ID NO : 1) permet d'identifier, pour chaque échantillon, les séquences nucléotidiques spécifiques du CMV (tableau 7).

Contrôles Contrôle Echantillons

Tableau 7. Résultats des différentes étapes d'alignement

Les échantillons contrôles ont passé les deux filtres qualité du procédé selon l'invention, validant pour ces échantillons une profondeur de séquençage suffisante et un alignement des séquences sur le génome du CMV homogène. Parmi les contrôles positifs analysés, tous sont détectés positifs à l'infection au CMV dans le procédé selon l'invention avec une profondeur normalisée supérieur au seuil de 0,1424 déterminé par des tests préalablement effectués sur une gamme d'échantillons de concentration virale connue [range : 0,2926-18.9330]. De même, la charge virale (concentration en contaminant) estimée par le procédé selon l'invention est cohérente avec la charge virale théorique (concentration en contaminant théorique) des échantillons contrôles positifs (R 2 =0.98). Le contrôle négatif sort bien comme non-infecté par le CMV avec une profondeur normalisée égale à 0,00019. Au sein des 82 échantillons primaires testés, 1 seul n'a pas passé les filtres qualité du fait d'une profondeur de séquençage trop faible : 40.450 séquences obtenues contre en moyenne 19.468.992 séquences obtenues pour tous les échantillons. L'analyse quantitative conclue notamment à une infection positive de cet échantillon avec une profondeur normalisée supérieur à 0,1424. Ce résultat faux-positifs met en évidence la nécessité de valider la qualité du séquençage en vérifiant que la profondeur de séquençage est suffisante pour la suite de l'analyse. Pour les 81 échantillons restant : 80 sont négatifs à l'infection et 1 est positif avec une charge virale (concentration en contaminant) estimée à 9.889 copies/ml_ {Figure 10). Cette approche utilise des résultats de séquençage utilisés pour réaliser d'autres dépistages de pathologies fœtales de manière non-invasive (dépistage des aneuploïdies fœtales). La détection de virus et d'autres micro-organismes plasmatiques au cours de la grossesse permet pour un coût et un temps identiques d'augmenter le nombre d'informations ayant un intérêt pour la santé de la femme et du bébé au cours de la grossesse.

Exemple de réalisation n°2 : Détection et quantification de séquences virales dans le diagnostic de tumeurs solides

L'oncogenèse (ou transformation maligne) est le processus qui transforme une cellule normale en cellule cancéreuse. Ce processus passe par l'acquisition de propriétés particulières telles que la prolifération incontrôlée, l'échappement au système immunitaire... (Hanahan and Weinberg, 2011). Il peut être induit par de nombreux événements dont les infections virales. En effet, depuis l'identification par Peyton Rous du virus RSV (Rous Sarcoma Virus) capable d'entraîner l'apparition d'un sarcome chez le poulet, de nombreux virus à ADN et à ARN ont été associées à l'apparition d'un cancer chez l'Homme {tableau 8). Néanmoins, le caractère oncogénique des virus a été longuement débattu, du fait notamment de leur caractère ubiquitaire et du délai entre infection virale et développement d'une tumeur. Type de virus Nom du virus Cancer associé chez l'homme

Tableau 8 : Exemples de virus oncogènes

La transformation maligne d'un tissu dépend du tropisme des virus et s'accompagne de la persistance du génome viral dans les cellules tumorales le plus souvent après intégration dans l'ADN de la cellule hôte (provirus). L'intégration du virus se faisant de manière aléatoire dans le génome humain, l'action oncogénique des virus semble provenir, non pas d'une mutagénèse d'insertion mais de modification physiologique de la cellule infectée par les protéines virales.

Certains virus ont été directement associés à certains types de cancers :

EBV et carcinome nasopharyngé : Le virus Epstein-Barr (EBV ou HSV-4) est un virus de la famille des herpesviridae. Il s'agit d'un virus à ADN double brin dont l'infection ubiquitaire affecte près de 90% de la population mondiale. L'infection primaire par EBV peut être asymptomatique ou s'accompagner de l'émergence d'une pathologie bénigne de type mononucléose. L'EBV est un virus à infection latente qui persiste après infection dans les lymphocytes B sous forme d'épisome. Chez des sujets sains, il est fréquent d'observer des réactivations virales au cours de la vie.

Il existe plusieurs formes de latence en fonction des gènes dont l'expression persiste dans les cellules hôtes. Un défaut de contrôle de cet état peut entraîner l'émergence d'une tumeur. Dans le carcinome nasopharyngé (NEC) il a été observé, spécifiquement, la présence du génome de l'EBV dans les cellules épithéliales tumorales. Dans la majorité des cas, il est possible d'observer la présence de multiples copies du génome virale sous forme d'épisome dans les cellules infectées (Raab-Traub, 2015). - EBV, HPV et cancer œsophagien : Le cancer œsophagien est l'un des cancers les plus fréquents observés chez l'Homme. De multiples facteurs sont impliqués dans l'émergence d'une tumeur, et notamment les agents infectieux tels que les papillomavirus (HPV), EBV ou la bactérie H. pylori (Xu et al., 2015). En fonction de l'infection à l'origine de la transformation tumorale, le type de tumeur qui va émerger peut varier. De même, les approches thérapeutiques envisagées peuvent être différentes, de même que les techniques permettant le suivi de la maladie.

La découverte d'ADN tumoral circulant dans le plasma a permis la mise en place de nouvelles stratégies de détection et de suivi non-invasif des cancers (Anker et al., 1999). Par exemple, dans le cas d'EBV, il a été montré que la quantité de virus circulant dans le plasma des patients était dépendante du statut de réponse à un traitement et pouvait être utilisé comme biomarqueur de réponse anti-tumorale. Un test unique permettant de quantifier des marqueurs présents sur l'ADN tumoral humain tels que les microsatellites, de même que des marqueurs viraux pourrait améliorer le diagnostic et le suivi de la maladie de manière non-invasive et plus précise. De plus, la caractérisation de l'infection virale associée à une transformation tumorale peut participer à l'amélioration du diagnostic en facilitant la discrimination entre plusieurs type tumoraux chez un individu et en proposant des stratégies thérapeutiques plus ciblées. C'est le cas par exemple des cancers œsophagiens qui peuvent être liées à diverses infections par des micro-organismes. Cette approche est notamment utile dans les cas des tumeurs trop difficiles d'accès pour permettre les biopsies. Le test de dépistage selon l'invention est réalisé à partir d'échantillons de plasma. L'ADN plasmatique est extrait comme décrit précédemment. La production des librairies qui permettent le séquençage du génome entier de chaque échantillon sur la plateforme Illumina MySeq, est réalisée selon les recommandations du fabriquant. Le séquençage est réalisé dans cet exemple en single end. Les données brutes issues du séquençage sous forme de fichier bel sont ensuite converties sous forme de fichiers fastq contenant la totalité des séquences nucléotidiques obtenues par échantillon. Les fichiers fastq contenant les séquences sont ensuite traités conformément à l'invention comme précédemment décrit (figure 9).

Au total, 17 échantillons de plasma tests ont été séquencés et analysés. L'alignement successif des séquences sur le génome humain puis sur les 9 génomes de référence permet d'identifier, pour chaque échantillon, des séquences nucléotidiques d'origine virale.

Tous les échantillons séquencés ont passé les tests qualités validant à la fois la qualité de séquençage globale et la qualité de l'alignement des séquences sur les génomes de référence étudiés. Sur les 17 échantillons analysés pour 9 génomes de référence (SEQ ID NO : 1 pour le CMV), 3 échantillons sortent positifs avec une profondeur normalisée supérieure au seuil de 0,1426 préalablement établi par l'étude d'une gamme d'échantillons infectés de concentration virale connue. Ces 3 échantillons correspondant aux 3 contrôles positifs de l'étude. Les autres, étaient négatifs, comme attendu, pour toutes les références étudiées {tableau 9).

Tableau 9 : Résultats positifs issus de l'analyse

L'alignement est spécifique : les contrôles positifs présentent une profondeur de séquençage supérieur au seuil de détection uniquement pour un unique génome de référence {figure U). Ainsi il est possible d'identifier de manière spécifique (spécificité : 100% sur 17 échantillons testés) et sensible (sensibilité : 100% sur 17 échantillons testés) des échantillons présentant une virémie pour une ou plusieurs espèces virales.

Dans cet exemple, l'utilisation des technologies de séquençage à haut-débit met en évidence l'utilité de la détection et de la quantification de virus dans le diagnostic et le suivi de patients atteints de cancer viro-induit. La détection de faible concentration de virus permet, dans ce cas, de suivre et de quantifier par exemple la rémission de patients sous traitement avec une bonne sensibilité.

Références Adler, S. P. (2011). Screening for Cytomegalovirus during Pregnancy. Infect. Dis. Obstet. Gynecol. 2011.

Anker, P., Mulcahy, H., Chen, X.Q., and Stroun, M. (1999). Détection of circulating tumour DNA in the blood (plasma/serum) of cancer patients. Cancer Metastasis Rev. 18, 65-73. Benoist, G., Leruez-Ville, M., Magny, J.F., Jacquemard, F., Salomon, L.J., and Ville, Y. (2013). Management of pregnancies with confirmed cytomegalovirus fetal infection. Fetal Diagn. Ther. 33, 203-214.

Blackadar, C.B. (2016). Historical review of the causes of cancer. World J. Clin. Oncol. 7, 54-86. Bolovan-Fritts, C.A., Mocarski, E.S., and Wiedeman, J.A. (1999). Peripheral blood CD14(+) cells from healthy subjects carry a circuiar conformation of latent cytomegalovirus génome. Blood 93, 394-398.

Daiminger, A., Bader, U., and Enders, G. (2005). Pre- and periconceptional primary cytomegalovirus infection: risk of vertical transmission and congénital disease. BJOG Int. 3. Obstet. Gynaecol. 112, 166-172. De Vlaminck, L, Martin, L, Kertesz, M., Patel, K., Kowarsky, M., Strehl, C, Cohen, G., Luikart, H., Neff, N.F., Okamoto, J., et al. (2015). Noninvasive monitoring of infection and rejection after lung transplantation. Proc. Natl. Acad. Sci. U. S. A. 112, 13336-13341. Dunn, W., Chou, C, Li, H., Hai, R., Patterson, D., Stolc, V., Zhu, H., and Liu, F. (2003). Functional profiling of a human cytomegalovirus génome. Proc. Natl. Acad. Sci. U. S. A. 100, 14223-14228.

Hanahan, D., and Weinberg, R.A. (2011). Hallmarks of cancer: the next génération. Cell 144, 646-674. James, S.H., and Kimberlin, D.W. (2016). Advances in the prévention and treatment of congénital cytomegalovirus infection. Curr. Opin. Pediatr. 28, 81-85.

Langmead, B., Trapnell, C, Pop, M., and Salzberg, S.L (2009). Ultrafast and memory-efficient alignment of short DNA séquences to the human génome. Génome Biol. 10, R25. Liesnard, C, Donner, C, Brancart, F., Gosselin, F., Delforge, M.L, and Rodesch, F. (2000). Prénatal diagnosis of congénital cytomegalovirus infection: prospective study of 237 pregnancies at risk. Obstet. Gynecol. 95, 881-888.

NIH HMP Working Group, Peterson, J., Garges, S., Giovanni, M., Mclnnes, P., Wang, L, Schloss, J.A., Bonazzi, V., McEwen, J.E., Wetterstrand, K.A., et al. (2009). The NIH Human Microbiome Project. Génome Res. 19, 2317-2323.

Pereira, L., Maidji, E., McDonagh, S., and Tabata, T. (2005). Insights into viral transmission at the uterine-placental interface. Trends Microbiol. 13, 164-174.

Raab-Traub, N. (2015). Nasopharyngeal Carcinoma: An Evolving Rôle for the Epstein-Barr Virus. Curr. Top. Microbiol. Immunol. 390, 339-363. Xu, W., Liu, Z., Bao, Q., and Qian, Z. (2015). Viruses, Other Pathogenic Microorganisms and Esophageal Cancer. Gastrointest. Tumors 2, 2-13.