Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
IMPROVED METHOD TO IDENTIFY NUCLEIC ACID SEQUENCES WITHIN A SET OF SEQUENCES OBTAINED BY A SEQUENCER, AND SYSTEM
Document Type and Number:
WIPO Patent Application WO/2023/128747
Kind Code:
A1
Abstract:
The present invention provides an improved method and system for identifying nucleic acid sequences within a set of sequences obtained by a sequencer, constructing databases according to the identification of nucleic acid sequences, and identifying different genera, species, sub-species, serotypes, varieties of microorganisms, viruses, genes, or nucleic acid sequences of interest, for the use thereof in the field of molecular biology applied to diagnosis, in hospitals, schools, industry or any place where the identification of nucleic acid sequences within a set of sequences obtained by a sequencer is required. Specifically, the present invention provides an improved method and system that allow the differentiation of sequences of data obtained by nucleic acid sequencing.

Inventors:
DE LA PEÑA MIRELES IVÁN ALEJANDRO (MX)
ELIZONDO MURILLO JOSÉ LUIS (MX)
GARIBAY ORIJEL CLAUDIO (MX)
ACEDO ZUÑIGA JAVIER (MX)
Application Number:
PCT/MX2022/050074
Publication Date:
July 06, 2023
Filing Date:
September 08, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
INNOVACION Y DESARROLLO DE ENERGIA ALFA SUSTENTABLE S A DE C V (MX)
International Classes:
G16B30/10; G16B30/20
Other References:
ANDRZEJ ZIELEZINSKI ET AL: "Alignment-free sequence comparison: benefits, applications, and tools", GENOME BIOLOGY, vol. 18, no. 1, 3 October 2017 (2017-10-03), XP055504271, DOI: 10.1186/s13059-017-1319-7
BUCHMAN, TIMOTHY G.STEVEN Q. SIMPSONKIMBERLY L. SCIARRETTAKRISTEN P. FINNENICOLE SOWERSMICHAEL COLLIERSAURABH CHAVAN ET AL.: "Sepsis Among Medicare Beneficiaries: 3. The Methods, Models, and Forecasts of Sepsis, 2012-2018", CRITICAL CARE MEDICINE, vol. 48, no. 3, 2020, pages 302 - 18
CHATZOU, MARIA, CEDRIK MAGIS, JIA-MING CHANG, CARSTEN KEMENA, GIOVANNL BUSSOTTI, LONAS ERB, CEDRIC NOTREDAME: "Multiple Sequence Alignment Modeling: Methods and Applications", BRIEFLNGS IN BIOINFORMATICS, vol. 17, no. 6, pages 1009 - 23
FAY, KATHERINEMATHEW R. P. SAPIANORUNA GOKHALERAYMUND DANTESNICOLA THOMPSONDAVID E. KATZSUSAN M. RAY ET AL.: "Assessment of Health Care Exposures and Outcomes in Adult Patients With Sepsis and Septic Shock", JAMA NETWORK OPEN, vol. 3, no. 7, 2020, pages e206004
FISER, ANDRAS: "Methods in Molecular Biology", vol. 673, 2010, HUMANA PRESS, article "Template-Based Protein Structure Modeling", pages: 73 - 94
NEEDLEMAN, SAUL B.CHRISTIAN D. WUNSCH: "A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins", JOURNAL OF MOLECULAR BIOLOGY, vol. 48, no. 3, 1970, pages 443 - 53, XP024011703, DOI: 10.1016/0022-2836(70)90057-4
POLYANOVSKY, VALERY OMIKHAIL A ROYTBERGVLADIMIR G TUMANYAN: "Comparative Analysis of the Quality of a Global Algorithm and a Local Algorithm for Alignment of Two Sequences", ALGORITHMS FOR MOLECULAR BIOLOGY, vol. 6, no. 1, 2011, pages 25, XP021114193, DOI: 10.1186/1748-7188-6-25
SMITH, T.F.M.S. WATERMAN: "Identification of Common Molecular Subsequences", JOURNAL OF MOLECULAR BIOLOGY, vol. 147, no. 1, 1981, pages 195 - 97, XP024015032, DOI: 10.1016/0022-2836(81)90087-5
YOON, BYUNG-JUN: "Hidden Markov Models and Their Applications in Biological Sequence Analysis", CURRENT GENOMICS, vol. 10, no. 6, 2009, pages 402 - 15, XP055680673, DOI: 10.2174/138920209789177575
Attorney, Agent or Firm:
GUTIERREZ MARTINEZ, Sergio Eduardo (MX)
Download PDF:
Claims:
REIVINDICACIONES

Habiéndose descrito la invención, se reclama como propiedad lo contenido en las siguientes reivindicaciones:

1.- Un método mejorado para identificar secuencias de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de un secuenciador caracterizado porque comprende las siguientes etapas:

Etapa 1).- Extracción, se extraen los datos obtenidos por un secuenciador que comprende al menos una o más secuencias específicas de ADN de una muestra, en donde los datos obtenidos son una o más secuencias de ácidos nucleicos;

Etapa 2).- Construcción de base de datos de secuencias específicas de referencia, las secuencias específicas de referencia son obtenidas de bases de datos conocidas, en donde esta base de datos de secuencias específicas de referencia está identificada por el nombre del gen;

Etapa 3).- Carga, se cargan las secuencias obtenidas en la etapa 1 y la base de datos construida en la etapa 2;

Etapa 4).- Conversión a tablas Hash, las secuencias específicas de referencia de la base de datos construida en la etapa 2 se convierte en una o más tablas Hash; en donde las secuencias específicas de referencia de la base de datos se convierten en listas de posiciones exactas en las que se localiza cada uno de los k-meros posibles y en donde el tamaño de la tabla tiene un número de elementos igual a 4k; el valor de k es un número entero positivo fijado por el usuario, el valor de k es preferentemente entre 1 y 30, más preferentemente entre 7 y 15, y más preferentemente entre 9 y 12;

Etapa 5).- Obtención de k-meros representativos de las secuencias obtenidas en la etapa 1 , se obtiene un k-mero particular que represente a cada una de las secuencias obtenidas en la etapa 1 en donde el tamaño del k-mero puede ser igual y/o diferente al tamaño del k-mero seleccionado para cada una de las tablas Hash convertidas en la etapa 4; en donde el valor de k es preferentemente entre 1 y 30, más preferentemente entre 7 y 15, y más preferentemente entre 9 y 12;

Etapa 6).- Selección y exclusión, los k-meros obtenidos en la etapa 5 se localizan en las tablas Hash convertidas en la etapa 4, excluyendo las secuencias que no tengan posición asociada al k-mero correspondiente en la tabla Hash y seleccionando para su posterior análisis las secuencias que tienen una o más posiciones asociadas en la tabla Hash obtenida en la etapa 4;

Etapa 7).- Evaluación, las secuencias seleccionadas en la etapa 6 son comparadas con las secuencias específicas de referencia de la base de datos construida en la etapa 2 de acuerdo con las posiciones obtenidas al convertir las tablas Hash en la etapa 4, en donde la comparación de cada una de las posiciones de las 2 secuencias debe de cumplir con un criterio de evaluación definido por el usuario, en donde el criterio de evaluación definido por el usuario es igual o mayor que 90% de similaridad;

Etapa 8).- Determinación de la secuencia consenso, las secuencias obtenidas en la etapa 7 son analizadas de manera ordenada por la posición de las tablas Hash convertidas en la etapa 4 empleando la expresión donde A es la parte superpuesta de la intersección de las secuencias en el extremo derecho de S a T, para generar la secuencia consenso;

Etapa 9).- Determinación del coeficiente AGATA, las secuencias obtenidas en la etapa 7 son empleadas para determinar el coeficiente AGATA, en donde el coeficiente AGATA tiene valores decimales entre 0 y 1 , siendo 0 la ausencia de similaridad (0%) y 1 la similaridad completa (100%), en donde el coeficiente AGATA esta definido por la siguiente expresión: donde a es una secuencia especifica de referencia de la base de datos construida en la etapa 2, ST(a) son las secuencias seleccionadas en la etapa 7 y C es la secuencia consenso obtenida en la etapa 8 definida por: lo que permite obtener el coeficiente AGATA para cada una de las secuencias especificas de referencia de la base de datos construida en la etapa 2;

Etapa 10).- Identificación, los coeficientes AGATA obtenidos en la etapa 9 permiten identificar las secuencias de ácidos nucleicos obtenidos en la etapa 1 con mayor similaridad a las secuencias específicas de referencia de la base de datos construida en la etapa 2.

2.- El método de la reivindicación 1 , caracterizado además porque el método identifica genes de bacterias, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de bacterias. 3.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de levaduras, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de levaduras.

4.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de virus, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de virus.

5.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de hongos, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de hongos.

6.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de plantas, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de plantas.

7.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de animales, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de animales.

8.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de humanos, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de humanos.

9.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de microorganismos causantes de sepsis, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de microorganismos causantes de sepsis.

10.- El método de la reivindicación 1 , caracterizado además porque el método es capaz de identificar genes de resistencia a antibióticos, en donde la base de datos construida en la Etapa 2) comprende secuencias de ácidos nucleicos de genes de genes de resistencia a antibióticos.

11.- El método de la reivindicación 1 , caracterizado porque en la Etapa 2), las secuencias específicas de referencia son obtenidas de bases de datos conocidas seleccionadas del grupo que consiste en pubmed, kegg, entre otras.

12.- Un sistema mejorado que al utilizar y analizar datos metagenómicos obtenidos por medio de un secuenciador identifica secuencias específicas de ácido nucleicos, permitiendo al usuario modificar las opciones de búsqueda y generar o modificar bases de datos que permitan encontrar diferentes secuencias de ácidos nucleicos, caracterizado porque comprende los siguientes elementos: i. El método mejorado de las reivindicaciones 1-10, en donde el método es compatible con los dispositivos (componentes) del sistema;

¡i. Un disco duro donde se almacenan los archivos relacionados con el método mejorado y la base de datos que empleará el sistema; iii. Una memoria ram con la capacidad adecuada para la apropiada carga y acceso a las bases de datos, en donde la capacidad será al menos de 2 GB, sin un limite mínimo de frecuencia; y iv. Un procesador de al menos 2 núcleos físicos para operación continua del método mejorado.

13.- El sistema mejorado de la reivindicación 12, caracterizado porque además comprende los siguientes elementos:

I. Uno o más servidores y/o procesadores que tienen cargada una base de datos, comunicados entre sí mediante una red de información digital;

II. Un servidor central y/o procesador central que tienen cargada una base de datos, que se comunican con una computadora personal, lap-top, tableta, ¡Pad, iphone, teléfono celular, teléfono inteligente, otro servidor u otro sistema que pueda procesar algún conjunto de operaciones sistemáticas, con una aplicación instalada, para cargar, actualizar y borrar los datos, para atender peticiones de información por un usuario, para desplegar y/o enviar información solicitada;

III. Uno o más dispositivos (componentes) seleccionados del grupo que consiste en computadora personal, lap-top, tableta, ¡Pad, iphone, teléfono celular, teléfono inteligente, un servidor u otro sistema que pueda procesar algún conjunto de operaciones sistemáticas, con una aplicación instalada; y

IV. Una red de información digital que permita la comunicación y vinculación con los servidores, con servidor central y con los dispositivos (componentes). 14.- El sistema mejorado de la reivindicación 12, caracterizado porque el iv) procesador comprende un medio legible por el procesador que causa que el procesador realice el método de las reivindicaciones 1-10, para identificar secuencias de ácidos nucleicos.

Description:
UN MÉTODO MEJORADO PARA IDENTIFICAR SECUENCIAS DE ÁCIDOS NUCLEICOS PRESENTES EN UN CONJUNTO DE SECUENCIAS, OBTENIDAS POR MEDIO DE UN SECUENCIADOR, Y UN SISTEMA

CAMPO DE LA INVENCIÓN

La presente invención se refiere a un método y sistema mejorados para identificar secuencias de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de un secuenciador, para identificar diferentes géneros, especies, subespecies, serotipos, variedades de organismos, virus, genes o secuencia de ácidos nucléicos de interés, para su utilización en el campo de la biología molecular aplicada al diagnóstico, en hospitales, escuelas, en la industria o en cualquier lugar donde se requiera identificar secuencias de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de un secuenciador. Específicamente, se refiere a un método y sistema mejorados que permiten diferenciar secuencias de datos obtenidos por secuenciación de ácidos nucleicos.

ANTECEDENTES DE LA INVENCIÓN

En los últimos años, la secuenciación de ácidos nucléicos ha pasado de analizar una secuencia por reacción a millones de secuencias por reacción. Este tipo se secuenciación se conoce como Next Generation Sequencing (NGS). La NGS ha reducido los costos de secuenciación y ha abierto la posibilidad de analizar muestras que anteriormente no se podían analizar de manera comercial debido a costos elevados.

Las muestras de hemocultivo pueden ser secuenciadas con la NGS, esto sería muy útil por que se pudieran identificar organismos causantes de sepsis o la resistencia a antibióticos que estos tienen. Esta aproximación puede resultar en un tratamiento menos agresivo para el paciente y más eficiente contra el microorganismo causante de la infección, lo que podría disminuir los costos asociados al tratamiento de este padecimeinto, que al año genera la muerte de más de 270,000 personas en Estados Unidos (Fay et al., 2020) y costos asociados por 44 billones de dólares (Buchman et al., 2020).

Sin embargo, para realizar esto se requiere de un sistema y método que sean capaces de realizar la identificación de secuencias de una manera rápida y precisa, que no genere resultados equivocados o inconclusos o en un tiempo que resulte excesivo para apoyar en el tratamiento.

Algunos sistemas y métodos que realizan esta tarea se basan en la similaridad entre dos secuencias, mientras que otros emplean una secuencia previa como molde para realizar el análisis.

Ejemplos de los sistemas y métodos que se basan en la similaridad entre dos secuencias son los de Needleman-Wunch (Needleman y Wunsch, 1970), el de Smith- Waterman (Smith y Waterman, 1981), los basados en los modelos ocultos de Markov (Byung-Jun, 2009) o los basados en estructura (Fiser, 2010). De forma general, estos sistemas y métodos son utilizados cuando se comparan dos secuencias de ácidos nucleicos o de proteínas, independientemente de su tamaño. Durante el procesamiento de datos, se incluyen operaciones estadísticas que utilizan a las propias secuencias, como número de k-meros en cada secuencia o evaluación de la similaridad de las secuencias empleando matrices. Uno de los inconvenientes de utilizar estos métodos, es que se vuelven ineficientes cuando se comparan más de dos secuencias, al incrementar el número de comparaciones que se realizan para alinear las mismas. Otro inconveniente es que el análisis estadístico no toma en cuenta la posición de las secuencias.

Ejemplos de los sistemas y métodos empleados para analizar secuencias son los que incluyen métodos que emplean una secuencia previa o base de datos como molde para identificar nuevas secuencias, son los alineamientos locales, alineamientos globales (Polyanovsky et al., 2011), alineamientos de secuencias multiples (Chatzou et al., 2016), o manipulación de alineamientos (Benothman et al., 2008). Los sistemas que emplean estos métodos sí toman en cuenta la posición de la secuencia para realizar el alineamiento y pueden ser empleados para analizar más de dos secuencias. Sin embargo, cuando la base de datos o las secuencias a analizar son demasiadas, estos métodos pierden su eficiencia ya que el tiempo de respuesta se incrementa considerablemente. De forma general este tipo de sistemas y métodos utilizan dispositivos (componentes) tales como lo son computadoras personales o portátiles que procesan secuencialmente la información, y están limitados por la capacidad de procesamiento que pueda tener el sistema y método (Chatzou et al., 2016).

Por lo anterior, el método y sistema mejorados de la presente invención permiten y son capaces de identificar secuencias de ácidos nucleicos presentes en diversos tipos de muestras secuenciadas mediante NGS. El método y sistema mejorados resuelven el problema del análisis de millones de secuencias y su identificación al realizar esta tarea en cuestión de minutos.

BREVE DESCRIPCIÓN DE LA INVENCIÓN

La presente invención se refiere a un método y sistema mejorados para identificar secuencias de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de un secuenciador.

La presente invención tiene como objetivo proporcionar un método y sistema mejorados para identificar secuencias específicas de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de cualquier secuenciador, realizando un análisis metagenómico.

Otro objetivo de la presente invención es proporcionar un método y sistema mejorados que permitan procesar los datos obtenidos por secuenciación para identificar secuencias específicas de ácidos nucleicos obtenidas por cualquier secuenciador, en donde el sistema puede incluir uno o más dispositivos (componentes) seleccionados del grupo que consiste en computadora personal, laptop, tableta, iPad, iphone, teléfono celular, teléfono inteligente, un servidor u otro sistema que pueda procesar algún conjunto de operaciones sistemáticas, con una aplicación instalada.

Otro objetivo de la presente invención es proporcionar un método y sistema mejorados que permitan construir bases de datos en función de la identificación de secuencias específicas de ácidos nucleicos, seleccionar secuencias con mayor similaridad y evaluar de manera iterativa hasta encontrar la mayor similaridad entre las secuencias obtenidas por secuenciación y las secuencias de las bases de datos.

Otro objetivo de la presente invención es proporcionar un método y sistema mejorados que permitan identificar a difentes géneros, especies, subespecies, serotipos, variedades de organismos, virus, genes o secuencia de ácidos nucléicos de interés para el usuario que se encuentren en una muestra secuenciada por cualquier secuenciador. DESCRIPCIÓN DE LAS FIGURAS

La Figura 1 muestra las etapas que permiten la identificación de las secuencias de ácidos nucleicos obtenidas en un secuenciador:

A).- Corresponde a las secuencias de ácidos nucleicos obtenidas por medio de un secuenciador;

B).- Corresponde a las secuencias de ácidos nucleicos específicas de referencia que son obtenidas de bases de datos conocidas por los expertos en la materia;

1).- Extracción de los datos obtenidos por un secuenciador que comprende al menos una o más secuencias específicas de ADN de una muestra;

2).- Construcción de base de datos de secuencias específicas de referencia que se obtienen a partir de bases de datos conocidas por los expertos en la materia;

3).- Carga de las secuencias obtenidas por un secuenciador y la base de datos de secuencias específicas de referencia;

4).- Las secuencias específicas de referencia de la base de datos construida se convierten en una o más tablas Hash;

5).- Obtención de un k-mero particular que represente a cada una de las secuencias obtenidas por un secuenciador; 6).- Los k-meros obtenidos en 5) se localizan en las tablas Hash convertidas, excluyendo las secuencias que no tengan posición asociada al k-mero correspondiente en la tabla Hash y seleccionando para su posterior análisis las secuencias que tienen una o más posiciones asociadas;

7).- Las secuencias seleccionadas son comparadas con las secuencias específicas de referencia de la base de datos construida de acuerdo con las posiciones obtenidas al convertir las tablas Hash;

8).- Las secuencias obtenidas son analizadas de manera ordenada por la posición de las tablas Hash convertidas y son unidas para formar una nueva secuencia consenso;

9).- Determinación del coeficiente AGATA;

10).- Identificación de las secuencias obtenidas en 1 ) contra las secuencias de la base de datos construida en 2), empleando el coeficiente AGATA obtenido en 9).

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

La presente invención se refiere a un método y sistema mejorados para identificar secuencias de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de un secuenciador para identificar secuencias de ácidos nucleicos, construir bases de datos en función de la identificación de secuencias de ácidos nucleicos, e identificar a difentes géneros, especies, subespecies, serotipos, variedades de organismos, virus, genes o secuencia de ácidos nucléicos de interés, para su utilización en el campo de la biología molecular aplicada al diagnóstico, en hospitales, escuelas, en la industria o en cualquier lugar donde se reuiera identificar secuencias de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de un secuenciador. Específicamente, se refiere a un método y sistema mejorados que permiten diferenciar secuencias de datos obtenidos por secuenciación de ácidos nucleicos.

Definiciones

A continuación se proporcionan algunas definiciones para poder entender mejor el objeto de la presente invención.

El término “método” se refiere a un conjunto ordenado de etapas y/o pasos, y operaciones que permite hacer cálculos y encontrar las secuencias más parecidas entre sí, en donde el método además puede comprender en alguna de sus etapas y/o pasos un “algoritmo”.

El término “sistema” se refiere al conjunto de dispositivos (componentes) y métodos que le permiten al usuario identificar secuencias de ácidos nucleicos, construir bases de datos en función de la identificación de secuencias de ácidos nucleicos, e identificar a difentes géneros, especies, subespecies, serotipos, variedades de organismos, virus, genes o secuencia de ácidos nucléicos de interés, en donde el sistema utiliza uno o más dispositivos (componentes) seleccionados del grupo que consiste en una computadora personal, lap-top, tableta, ¡Pad, iphone, teléfono celular, teléfono inteligente, un servidor u otro sistema que pueda procesar algún conjunto de operaciones o la combinación de alguna de las anteriores, con una aplicación instalada y/o por instalar. El término “usuario” se refiere a la persona que utiliza el sistema y método para identificar secuencias de ácidos nucleicos, construir bases de datos en función de la identificación de secuencias de ácidos nucleicos, e identificar a diferentes géneros, especies, subespecies, serotipos, variedades de organismos, virus, genes o secuencia de ácidos nucléicos de interés de acuerdo con la presente invención.

El término “secuenciador” se refiere a un aparato que es capaz de analizar químicamente el ADN y generar como resultado un archivo de datos que contiene una o más secuencias de ADN.

El término “nucleótido” se refiere a los compuestos que forman al ADN, los cuales pueden adenina “A”, timina “T”, guanina “G” y citosina “C”.

El término “secuencia” o “secuencia de ácidos nucleicos” se refiere a una sucesión de nucleótidos, que forman parte del ADN, sin importar su longitud, tamaño, composición u orden.

El término “similaridad” se refiere a la comparación matemática entre dos o más secuencias para determinar que tanto se parecen entre sí.

El término “análisis metagenómico” se refiere al análisis realizado a miles de secuencias mediante el uso de un método, que permite encontrar ciertos patrones o características definidos por el usuario.

El término “datos indexados” se refiere a información a la cual se puede acceder por un número, clave o posición de una lista. El término “base de datos” se refiere al conjunto de datos indexados pertenecientes a un mismo contexto que contiene registros de nombres, números, claves, fechas y/o secuencias, que son almacenados para su posterior uso.

El símbolo se refiere al conjunto de todas las secuencias.

El término “longitud de la secuencia” se refiere a la cantidad de nucleótidos que forman a la secuencia.

El término “secuencia contenida en secuencia” se refiere a que todo símbolo de la primer secuencia se encuentra en la segunda secuencia en el mismo orden. Matemáticamente simbolizada como, la secuencia S está contenida en la secuencia T:

S c T

El término “k-mero” de una secuencia A se refiere a una secuencia contenida dentro de la secuencia A cuya longitud es exactamente k.

El término “Total de k-meros” se refiere al conjunto formado por todos los k- meros posibles con los símbolos {A, T, G, C}. Matemáticamente lo simbolizamos como:

El término “k-mero inicial” de una secuencia se refiere al k-mero de la secuencia con el que inicia la secuencia cuya longitud es exactamente k.

El término “intersección de dos secuencias” se refiere a la secuencia que cumple que está contenida en ambas secuencias. Matemáticamente se puede simbolizar como:

A = S ∩ T Donde: A ⊂ S y A c T

El término “intersección de dos secuencias por extremos” se refiere a la intersección de dos secuencias desde la parte izquierda o derecha de las secuencias.

El término “concatenación” de dos secuencias se refiere a la acción de agregar los símbolos de una secuencia a otra. Esta concatenación difiere a si es por la izquierda o por la derecha.

El término “concatenación superpuesta a extremos de dos secuencias” se refiere a la secuencia resultante de concatenar dos secuencias superponiendo la intersección de las secuencias desde algún extremo, ya sea izquierdo o derecho. Matemáticamente se escribe como:

S ∪ T = S' • A • T’

Donde A es la parte superpuesta de la intersección de las secuencias en el extremo derecho de S a T. S ∪ T T u S, pues T u S involucra la intersección de T con S por la derecha.

El término “función” se refiere a una relación entre elementos de dos conjuntos que cumple una determinada regla de correspondencia, de manera que a cada elemento del primer conjunto le corresponda un único elemento del segundo. El término “función biyectiva” se refiere a una función en la cual, si a dos elementos del primer conjunto se le asignan el mismo elemento del segundo, concluye que los elementos del primero son ¡guales y que para cada elemento en el segundo conjunto existe un elemento en el primero con el cual se relaciona por la función.

El término “finitamente numerable” se refiere a que existe una función biyectiva entre los elementos de un conjunto y un subconjunto finito de los números naturales.

Para fines prácticos, los conjuntos de “Total de k-meros” (∑ k ) son finitamente numerables con el subconjunto {1,2, ..., 4 k } de números naturales.

El término “Tabla Hash” se refiere a una estructura de datos en la cual una determinada posición o llave de acceso permite devolver valores o información específica.

El término “Representación Tabla Hash de una secuencia” se refiere a una Tabla Hash que contiene todos los k-meros posibles como llaves de acceso y las posiciones de una determinada secuencia como valores.

El término “Búsqueda por k-mero inicial” se refiere al acceso rápido de la Representación Tabla Hash de una secuencia, mediante la función biyectiva que induce su numeración finita del Total de k-meros.

El término “género” se refiere a una clasificación de organismos ampliamente conocida en el campo de la taxonomía.

El término “especie” se refiere a una clasificación de organismos ampliamente conocida en el campo de la taxonomía.

El término “subespecie” se refiere a una clasificación de organismos ampliamente conocida en el campo de la taxonomía.

El término “serotipo” se refiere a una clasificación de organismos ampliamente conocida en el campo de la taxonomía. Para determinar un serotipo generalmente se hacen pruebas para la detección de ciertas proteínas en la membrana o pared celular.

El término “variedad” se refiere a una clasificación de organismos ampliamente conocida en el campo de la taxonomía.

El término “muestra” se refiere a cualquier sustancia de cualquier composición química, ya sea líquida, sólida o gaseosa que contiene organismos o ADN que puede ser sujeta de análisis para determinar la secuencias de ADN presentes en ella.

El término “muestra biológica” se refiere a una muestra obtenida específicamente de un tejido, órgano, hueso, sangre o fluido de una persona.

El término “extracción de ácidos nucleicos” se refiere a un procedimiento químico en donde una muestra se pone en contacto con sustancias químicas para obtener el ADN

Los términos “gen” o “genes” se refieren a moléculas biológicas compuestas por compuestos nitrogenados o bases nitrogenadas conocidas en el estado de la técnica como Adenina, Guanina, Citosina y Timina. Los genes son las moléculas que transmiten la información en una célula para la síntesis biológica de RNA y posteriormente, si es el caso, proteínas o enzimas. El término “virus” se refiere a un conjunto de proteínas, lípidos y material genético que se encuentra estructurado que cuando entra en contacto con una célula afín, puede ser infectada y utilizada para multiplicarse.

A continuación, se describen la teoría y los teoremas que sirven para definir el método mejorado que será empleado en el sistema de la presente invención, como se muestra a continuación:

I. Teoría de Secuencias

Consideremos el alfabeto ∑ = {A, T, G, C} para secuencias de ADN, donde cada secuencia puede escribirse como una concatenación de caracteres en el alfabeto ∑.

Dada una secuencia A, definimos la longitud de A como: |A| el número de letras que concatenados forman a A.

Se definen los conjuntos ∑ a como el conjunto de todas las secuencias de longitud a (pares de base). Así el conjunto de todas las secuencias ∑ puede escribirse como:

Sea

Dado k un numero natural, definimos el k-mero inicial (Ks) de una secuencia S como la secuencia de longitud k tal que S=Ks S1 , donde S1 es la secuencia que completa a S y ■ es la operación de concatenación de caracteres.

Dado un número natural n. Definimos la “símbolo n en S” S[n] como el carácter de S en la posición número n.

Sean

Definimos que una secuencia S esta contenida en una secuencia T (S c T) si existen secuencias A,B tales que T = A - S - B, donde ■ es la operación de concatenación.

Definimos una intersección de dos secuencias como una secuencia A tal que A c S y A c T.

Definimos la intersección en extremos entre S y T como una secuencia A tal que A es una intersección de S con T y existen S1 , S2, T1 , T2 tales que:

(Extremo Derecho) S = S2- A y T = A T 1

(Extremo Izquierdo) S = A S1 y T = T2 A

Definimos la operación de concatenación superpuesta a extremos entre dos secuencias como el resultado de obtener la intersección en extremos de las dos secuencias y calcula la concatenación:

S T = S' - A - T'

Para fines prácticos puede representarse como S u T , pero denotando la diferencia de la no conmutatividad que presenta en conjuntos.

Donde A es intersección en extremos correspondiente y S’, T las secuencias parciales que definen la propia intersección en extremos.

II. Teorema: (Base por concatenación superpuesta a extremos)

Sea una secuencia arbitraria. Para cada k número natural, existe una sucesión S k de elementos en ∑ k tales que S es una concatenación superpuesta a extremos de todos los elementos de S k ordenadamente.

Demostración:

Expresemos como una palabra de caracteres concatenados.

Sean

Luego, tenemos que:

Por lo tanto

Y se verifica inductivamente que: Sea 1

Para i = 2

Pues a 2 ... a k es una intersección en extremos entre S 1 y S 2

Supongamos que es válido para un i fijo demostremos para i + 1

Con una intersección en extremos entre las secuencias

Q.E.D.

III. Teorema

Existe una biyeccion entre Z k y {0,1 , 2, ...,4 k -1} que induce un ordenamiento entre los elementos de Z k Demostración:

Sea

Sea la función f que asigna valores numéricos para las letras del alfabeto que forman las secuencias.

Notemos que por definición f es biyectiva

Definimos tal que

Veamos que la función g es biyectiva.

Si

Tomando divisiones enteras entre 4 k-1 en ambos lados, tenemos que Pues cada para todo con

Entonces:

Luego

Así

Ahora se toman divisiones enteras entre 4 k 2 , así sucesivamente. Como tenemos una cantidad finita de valores, obtenemos que

Luego

A = B

Por lo tanto g es inyectiva Ahora sea

Para por el teorema de la división, existen tales que:

Donde, como entonces

Ahora para existen tales que:

Donde, como entonces

Luego

Así sucesivamente, obtenemos que

Donde

Como la función f, es biyectiva por construcción, para cada valor existe tales que luego podemos expresar

Donde

Por lo tanto g es suprayectiva y por lo tanto biyectiva.

Se induce el buen orden de los números en {0,1, 2, ... , 4 k - 1}, como

Sea decimos que S

Q.E.D

Corolario: (Representación Hash)

Dado k un número natural. Toda secuencia puede representarse como una sucesión de índices en {1 ,2...,4 k }. Mas aún, toda secuencia puede escribirse como una lista de índices de exactamente 4 k opciones

Sea

Aplicando lo visto en los teoremas:

Existe {S i } sucesión de elementos en ∑ k , tal que S es una “concatenación superpuesta a extremos” de los elementos de {S i }

Utilizando la función g biyectiva del teorema anterior, entonces la sucesión {g(S i )} resulta ser una sucesión de elementos en {0, 1 ,2... ,4 k -1 }, que identifica a la secuencia S

Sin pérdida de generalidad, podemos reindexar, los elementos de {0,1 ,2..., 4 k -1} en {1, ..., 4 k }, en la cual la sucesión {g(S i )}, al tener posibles valores repetidos, puede disponerse sobre una tabla de exactamente 4 k opciones diferentes, donde cada opción x ∈ {1, ...,4 k } lista los elementos con j - indice que componen a la secuencia, tales que x = g (S j ).

IV. Teorema: (Búsqueda por ancla)

Dadas dos secuencias tales que |S|>|T|, existe un índice A tal que el k- mero inicial de T se puede localizar en todas las posiciones posibles de S.

Demostración:

Sea X el k-mero inicial de T, y por el corolario anterior sea L s la representación de las posiciones de S en todos sus distintos k-meros que lo componen.

Luego emplenado la misma función g que induce su representación de L s .

Sea λ = g(X) , entonces el índice A hallada en la representación L s le corresponde la lista de todas las posiciones posibles de X en S.

Sea R la secuencia de referencia a comparar, por los teoremas que hemos revisado existe una función f que resulta ser biyectiva y mapea a la secuencia de referencia en una representación de índices o tabla Hash H R

Es decir, dado un numero k fijo, todas las secuencias de referencia pueden ser convertidas en tablas Hash ordenadas en las cuales se listan las posiciones exactas en el que se localiza cada uno de los k-meros posibles para secuencias de ADN (La conversión resulta en 4 k elementos en la tabla Hash).

Se obtiene un subconjunto filtrado del conjunto de secuencias de prueba para cada alineamiento.

Sea R la secuencia de referencia y sea:

El conjunto de todas las secuencias de prueba para un alineamiento.

Dado el número natural k fijo pero arbitrario, se construye una colección de k- meros disjuntos de la secuencia de referencia a alinear

Cumpliendo que dados

(Secuencias completamente distintas)

Si a es la secuencia de referencia se define el subconjunto de secuencias prueba como:

Mediante este conjunto podemos trabajar con los k-meros iniciales de cada secuencia en S T (a), para ubicar mediante las representaciones L R de cada secuencia de referencia R, para seleccionar los índices correspondientes de las posiciones de cada secuencia de acuerdo a lo visto en los teoremas.

Se calcula el coeficiente de Sorensen-Dice (visto desde la perspectiva de intersección y unión de secuencias) entre dos secuencias de ADN del mismo tamaño (Forzando la medida por subsecuencias sobre las secuencias sin gaps), reduciéndose a una operación del número de pares de base que comparten las secuencias, entre el número total de pares de base de las secuencias.

En este caso como se manejan que las medidas de las secuencias son ¡guales |A| = |B|

Este coeficiente es calculado para cada subsecuencia de las secuencias de referencias identificadas por el k-mero (con el índice k definido en la etapa construcción) inicial de tamaño exacto mediante la representación en tabla Hash. De acuerdo a un sistema de evaluación se seleccionan y guardan las secuencias con mayor valor en su evaluación de similaridad.

Se generaliza la evaluación del “Coeficiente AGATA” de una secuencia de ADN de referencia completa contra un conjunto de secuencias de prueba como el coeficiente de Sorensen-Dice global inducido por el alineamiento consenso (“concatenación superpuesta” de todas las secuencias de prueba seleccionadas por el sistema de evaluación) en las posiciones correspondientes de acuerdo a la tabla Hash.

Sea a la secuencia de referencia, sea S T (a) el conjunto de secuencias de prueba para el alineamiento múltiple de a y AG el subconjunto de S T (a) de las secuencias seleccionadas por el sistema de evaluación. Entonces:

La secuencia consenso C puede representarse como sigue, ya que AG es finito de cardinalidad digamos n, podemos numerar al conjunto y sustituir los índices en la unión (concatenación superpuesta)

Así, el Coeficiente AGATA (CA), puede definirse como un índice de similaridad de un conjunto de múltiples secuencias, aplicado a una secuencia específica presente en una base de datos, en donde:

Donde por construcción |a|=|C| Al detallar más la expresión, por el pricipio de inclusión-exclusión, el Coeficiente AGATA queda definido como:

En una primera modalidad de la presente invención el método mejorado para identificar secuencias de ácidos nucleicos presentes en un conjunto de secuencias, obtenidas por medio de un secuenciador, comprende las siguientes etapas:

Etapa 1 ).- Extracción, se extraen los datos obtenidos por un secuenciador que comprende al menos una o más secuencias específicas de ADN de una muestra, en donde los datos obtenidos son una o más secuencias de ácidos nucleicos;

Etapa 2).- Construcción de base de datos de secuencias específicas de referencia, las secuencias específicas de referencia son obtenidas de bases de datos conocidas, en donde esta base de datos de secuencias específicas de referencia está identificada por el nombre del gen;

Etapa 3).- Carga, se cargan las secuencias obtenidas en la etapa 1 y la base de datos construida en la etapa 2;

Etapa 4).- Conversión a tablas Hash, las secuencias específicas de referencia de la base de datos construida en la etapa 2 se convierte en una o más tablas Hash; en donde las secuencias específicas de referencia de la base de datos se convierten en listas de posiciones exactas en las que se localiza cada uno de los k-meros posibles y en donde el tamaño de la tabla tiene un número de elementos igual a 4 k ; el valor de k es un número entero positivo fijado por el usuario, el valor de k es preferentemente entre 1 y 30, más preferentemente entre 7 y 15, y más preferentemente entre 9 y 12;

Etapa 5).- Obtención de k-meros representativos de las secuencias obtenidas en la etapa 1 , se obtiene un k-mero particular que represente a cada una de las secuencias obtenidas en la etapa 1 en donde el tamaño del k-mero puede ser igual y/o diferente al tamaño del k-mero seleccionado para cada una de las tablas Hash convertidas en la etapa 4; en donde el valor de k es preferentemente entre 1 y 30, más preferentemente entre 7 y 15, y más preferentemente entre 9 y 12;

Etapa 6).- Selección y exclusión, los k-meros obtenidos en la etapa 5 se localizan en las tablas Hash convertidas en la etapa 4, excluyendo las secuencias que no tengan posición asociada al k-mero correspondiente en la tabla Hash y seleccionando para su posterior análisis las secuencias que tienen una o más posiciones asociadas en la tabla Hash obtenida en la etapa 4;

Etapa 7).- Evaluación, las secuencias seleccionadas en la etapa 6 son comparadas con las secuencias específicas de referencia de la base de datos construida en la etapa 2 de acuerdo con las posiciones obtenidas al convertir las tablas Hash en la etapa 4, en donde la comparación de cada una de las posiciones de las 2 secuencias debe de cumplir con un criterio de evaluación definido por el usuario, en donde el criterio de evaluación definido por el usuario es igual o mayor que 90% de similaridad;

Etapa 8).- Determinación de la secuencia consenso, las secuencias obtenidas en la etapa 7 son analizadas de manera ordenada por la posición de las tablas Hash convertidas en la etapa 4 empleando la expresión donde A es la parte superpuesta de la intersección de las secuencias en el extremo derecho de S a T, para generar la secuencia consenso;

Etapa 9).- Determinación del coeficiente AGATA, las secuencias obtenidas en la etapa 7 son empleadas para determinar el coeficiente AGATA, en donde el coeficiente AGATA tiene valores decimales entre 0 y 1 , siendo 0 la ausencia de similaridad (0%) y 1 la similaridad completa (100%), en donde el coeficiente AGATA esta definido por la siguiente expresión: donde a es una secuencia especifica de referencia de la base de datos construida en la etapa 2, S T (a) son las secuencias seleccionadas en la etapa 7 y C es la secuencia consenso obtenida en la etapa 8 definida por lo anterior permite obtener el coeficiente AGATA para cada una de las secuencias especificas de referencia de la base de datos construida en la etapa 2;

Etapa 10).- Identificación, los coeficientes AGATA obtenidos en la etapa 9 permiten identificar las secuencias de ácidos nucleicos obtenidos en la etapa 1 con mayor similaridad a las secuencias específicas de referencia de la base de datos construida en la etapa 2. En una segunda modalidad de la presente invención, el método es capaz de identificar genes de bacterias, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de bacterias.

En una tercera modalidad de la presente invención, el método es capaz de identificar genes de levaduras, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de levaduras.

En una cuarta modalidad de la presente invención, el método es capaz de identificar genes de virus, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de virus.

En una quinta modalidad de la presente invención, el método es capaz de identificar genes de hongos, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de hongos.

En una sexta modalidad de la presente invención, el método es capaz de identificar genes de plantas, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de plantas.

En una séptima modalidad de la presente invención, el método es capaz de identificar genes de animales, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de animales.

En una octava modalidad de la presente invención, el método es capaz de identificar genes de humanos, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de humanos. En una novena modalidad de la presente invención, el método es capaz de identificar microorganismos causantes de sepsis, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de microorganismos causantes de sepsis.

En una décima modalidad de la presente invención, el método es capaz de identificar genes de resistencia a antibióticos, en donde la base de datos construida en la etapa 2 comprende secuencias de ácidos nucleicos de genes de resistencia a antibióticos.

En una décimo primera modalidad de la presente invención, se refiere a un sistema mejorado que al utilizar y analizar datos metagenómicos obtenidos por medio de un secuenciador es capaz de identificar secuencias específicas de ácido nucleicos, permitiendo al usuario modificar las opciones de búsqueda y generar o modificar bases de datos que permitan encontrar diferentes secuencias de ácidos nucleicos, en donde el sistema mejorado comprende los siguientes elementos: i. El método mejorado descrito de la presente invención, compatible con los dispositivos (componentes) del sistema;

¡i. Un disco duro donde se almacenan los archivos relacionados con el método mejorado y la base de datos que empleará el sistema; iii. Una memoria ram con la capacidad adecuada para la apropiada carga y acceso a las bases de datos, su capacidad varía dependiendo del tamaño de las bases de datos con un mínimo de capacidad de 2 GB sin un límite mínimo de frecuencia; iv. Un procesador de al menos 2 núcleos físicos para operación continua del método mejorado;

En una décimo segunda modalidad de la presente invención, se refiere a un sistema mejorado que comprende los siguientes elementos:

I. Uno o más servidores y/o procesadores que tienen cargada una base de datos, comunicados entre sí mediante una red de información digital;

II. Un servidor central y/o procesador central que tienen cargada una base de datos, que se comunican con la computadora personal, lap-top, tableta, ¡Pad, iphone, teléfono celular, teléfono inteligente, otro servidor u otro sistema que pueda procesar algún conjunto de operaciones sistemáticas, con una aplicación instalada, para cargar, actualizar y borrar los datos, para atender peticiones de información por un usuario, para desplegar y/o enviar información solicitada.

III. Uno o más dispositivos (componentes) seleccionados del grupo que consiste en computadora personal, lap-top, tableta, ¡Pad, iphone, teléfono celular, teléfono inteligente, un servidor u otro sistema que pueda procesar algún conjunto de operaciones sistemáticas, con una aplicación instalada.

IV. Una red de información digital que permita la comunicación y vinculación con los servidores, con servidor central y con los dispositivos (componentes). En una décimo tercera modalidad de la presente invención, el sistema mejorado comprende el siguiente componente:

- Un procesador que tiene un medio legible por el procesador que causa que el procesador realice un método para identificar secuencias de ácidos nucleicos de la presente invención.

EJEMPLOS

Los siguientes ejemplos tienen la intención de clarificar la novedad y la actividad inventiva de la presente invención. Debe de entenderse que los siguientes ejemplos no constituyen una limitación al alcance de la presente invención. De la descripción de la invención así como de los siguientes ejemplos, una persona con habilidades en el campo de la invención puede realizar algunas modificaciones, que de cualquier modo se mantengan dentro del marco protegido por la presente invención.

Ejemplo 1. Identificación de organismos causantes de sepsis empleando microorganismos aislados de hemocultivos.

El presente ejemplo tiene el objetivo de demostrar que el método y sistema mejorados de la presente invención identifica y/o detecta organismos causantes de sepsis que han sido aislados de hemocultivos de humanos.

Muestras de sangre de pacientes presuntamente con sepsis fueron colocadas en botellas de hemocultivo. Las botellas de hemocultivo se colocaron en un equipo BD BACTEC™ FX40 (Becton Dickinson Company), para determinar si en la sangre había microorganismos. Cuando el cultivo dio positivo para la presencia de bacterias, una alícuota del cultivo se sembró en placas de Agar Soya Tripticaseína.

Una vez obtenidas colonias aisladas se determinó el género y/o la especie empleando dos estrategias. a) Pruebas Bioquímicas

Las pruebas bioquímicas empleadas fueron las conocidas ampliamente en el estado de la técnica para realizar identificación microbiológica, algunos ejemplos son: Catalasa, Oxidasa, Aminopeptidasa, Ureasa, Indol, Reducción de Nitritos, Rojo de Metilo, Voges-Proskauer, TSI, etc. b) Extracción de ADN, secuenciación e identificación empleando el método (Figura 1) y sistema propuestos en la presente invención.

La extracción del ADN se realizó empleando el kit de extracción Wizard R Genomic DNA Purification Kit (Promega Inc.), siguiendo las instrucciones del fabricante. La secuenciación de ADN se realizó empleando un Miniseq Sequencing System (Illumina Inc.), siguiendo las instrucciones del fabricante.

Para utilizar el método y sistema mejorados de la presente invención se cargó una base de datos con secuencias de ácidos nucleicos obtenidas de bases de datos públicas conocidas por los expertos en la materia (pubmed, kegg, entre otras, etc.) que se encuentra descrita en la Tabla 1. Tabla 1.- Base de datos para la identificación de microorganismo casantes de sepsis.

El sistema de la presente invención utiliza uno o más dispositivos (componentes) seleccionados del grupo que consiste en una computadora personal, lap-top, tableta, ¡Pad, iphone, teléfono celular, teléfono inteligente, y un servidor.

En total se analizaron 80 muestras positivas para realizar la identificación tanto por pruebas bioquímicas como por el método propuesto en la presente invención. En todos los sistemas empleados se obtuvieron los mismos resultados. Como ejemplo, en la Tabla 2 se muestran los resultados obtenidos por pruebas bioquímicas y por el sistema y método mejorados de la presente invención empleando una tablet, se puede apreciar que cuando se trata de la identificación del género los dos métodos obtienen el mismo resultado, sin embargo para identificar la especie, el método propuesto logra ser más eficiente, ya que hay algunas bacterias que solo se pudieron identificar hasta nivel de género con pruebas bioquímicas, tal como las muestras 6, 20, 21 , 25, 26, 42, 43, 50, 51 , 53, 54, 59, 62, 65, 68, 70 y 79.

Tabla 2.- Identificación de microorganismos por pruebas bioquímicas y por el sistema y método mejorados de la presente invención.

Con este ejemplo se identifican bacterias presentes en sangre que han sido aisladas empleando hemocultivos, con mayor eficiencia que las pruebas bioquímicas, empleando el sistema y método mejorados de la presente invención, ya que en las muestras donde no se pudo identificar la especie por pruebas bioquímicas, también se identificaron bacterias presentes en sangre que han sido aisladas empleando hemocultivos con el método y sistema mejorados de la presente invención.

Ejemplo 2. Identificación de microorganismos en muestras de sangre sin necesidad de realizar un aislamiento, así como la identificación de genes causantes de resistencia a antibióticos.

El presente ejemplo tiene el objetivo de demostrar que el método y sistema mejorados de la presente invención detecta microorganismos causantes de sepsis, así como los genes involucrados en la resistencia a antibióticos por parte de los microorganismos, sin tener que realizar un aislamiento.

Muestras de sangre de pacientes presuntamente con sepsis fueron colocadas en botellas de hemocultivo. Las botellas de hemocultivo se colocaron en un equipo BD BACTEC™ FX40 (Becton Dickinson Company) para determinar si en la sangre había microorganismos.

Cuando el cultivo dio positivo para la presencia de bacterias, se tomaron 3 mL para realizar la extracción de ácidos nucleicos empleando el kit de extracción Wizard R Genomic DNA Purification Kit (Promega Inc.), siguiendo las instrucciones del fabricante. La secuenciación de ADN se realizó empleando un Miniseq Sequencing System (Illumina Inc.), siguiendo las instrucciones del fabricante.

Para este ejemplo, sólo se muestran los resultados obtenidos cuando el sistema empleado utilizó un dispositivo tipo lap-top, sin embargo, es importante mencionar que empleando todos los dispositivos descritos en la presente invención se obtienen resultados similares. El método y sistema mejorados de la presente invención se empleó una base de datos de genes que permiten la identificación de microorganismos y de genes que confieren resistencia a antibióticos, descritos en la Tabla 3. El total de genes empleados para esta base de datos fue de 4,594 genes.

Tabla 3.- Base de datos para la identificación de microorganismo casantes de sepsis y resistencia aantibióticos.

Para corroborar que el método y sistema mejorados propuestos funcionan para predecir la resistencia o susceptibilidad a antibióticos, algunos de los microorganismos detectados fueron aislados en Agar Soya Tripticaseína. Posteriormente los aislados fueron sembrados en medios con antibióticos para los que presentaban susceptibilidad y resistencia.

Se analizaron 5 muestras de sangre que mostraron crecimiento en el hemo cultivo, posteriormente fueron caracterizados por pruebas bioquímicas y analizadas con el método mejorado propuesto en la presente invención. La identificación del género y especie tanto por pruebas bioquímicas como por el método y sistema mejorados propuestos fue la misma. Los resultados se describen a continuación.

Muestra 1 : El microorganismo identificado por el método mejorado propuesto en la presente invención fue Klebsiella pneumoniae. El tiempo de determinación de género, especie y resistencia a antibióticos fue de 10 minutos. Los antibióticos para los cuales presenta resistencia el microorganismo según el sistema propuesto en la presente invención son Carbapenems, Cephalosporins, Cephamycin, Fluoroquinolones, Monobactam, Penam, Penem y Tetracyclines.

Muestra 2: El microorganismo identificado por el método mejorado propuesto en la presente invención fue Staphylococcus aureus. El tiempo de determinación de género, especie y resistencia a antibióticos fue de 12 minutos. Los antibióticos para los cuales presenta resistencia el microorganismo según el sistema propuesto en la presente invención son Macrolides, streptogramins, Tetracyclines, Fluoroquinolones y Penam.

Muestra 3: El microorganismo identificado por el método mejorado propuesto en la presente invención fue Enterococcus faecalis. El tiempo de determinación de género, especie y resistencia a antibióticos fue de 7 minutos. Los antibióticos para los cuales presenta resistencia el microorganismo según el método mejorado propuesto en la presente invención son Diaminopyrimidine, Lincosamides, Pleuromutilin, Streptogramin, Tetracyclines.

Muestra 4: El microorganismo identificado por el método mejorado propuesto en la presente invención fue Staphylococcus epidermidis. El tiempo de determinación de género, especie y resistencia a antibióticos fue de 15 minutos. Los antibióticos para los cuales presenta resistencia el microorganismo según el método mejorado propuesto en la presente invención son Carbapenem, Cephalosporins, Monobactams, Penam, Fluoroquinolones, Macrolides, Streptogramins.

Muestra 5: El microorganismo identificado por el método mejorado propuesto en la presente invención fue Escherichia coli. El tiempo de determinación de género, especie y resistencia a antibióticos fue de 5 minutos. Los antibióticos para los cuales presenta resistencia el microorganismo según el método mejorado propuesto en la presente invención son Cephalosporins, Fluoroquinolones, Lincosamides, Macrolides, Monobactam, Nucleosides, Penam, Penem, Phenicol, Sulfonamides, Sulfones, Tetracyclines.

Cada microorganismo se creció en dos antibióticos en donde el método mejorado predijo resistencia y en dos en donde los microorganismos fueran susceptibles, con la finalidad de corroborar los resultados obtenidos. Los resultados se muestran en las Tablas 4 a 8.

Tabla 4. Susceptibilidad y resistencia a antibióticos del microorganismo aislado en la muestra 1 (Klebsiella pneumoniae). Tabla 5. Susceptibilidad y resistencia a antibióticos del microorganismo aislado en la muestra 2 (Staphylococcus aureus).

Tabla 6. Susceptibilidad y resistencia a antibióticos del microorganismo aislado en la muestra 3 (Enterococcus faecalis).

Tabla 7. Susceptibilidad y resistencia a antibióticos del microorganismo aislado en la muestra 4 (Staphylococcus epidermidis).

Tabla 8. Susceptibilidad y resistencia a antibióticos del microorganismo aislado en la muestra 5 (Escherichia coli).

Con este ejemplo se demuestra que el método y sistema mejorados empleando cualquier dispositivo propuesto en la presente invención son capaces de identificar organismos causantes de sepsis a nivel de género y especie, así como identificar genes que confieren resistencia a antibióticos a microorganismos causantes de sepsis. Además el método y sistema mejorados propuestos en la presente invención realiza estas determinaciones en menos de 15 minutos.

Ejemplo 3. Identificación de bacterias y hongos en una muestra de suelo.

El presente ejemplo tiene el objetivo de demostrar que el método y sistema mejorados de la presente invención detecta organismos en muestras ambientales sin tener que hacer cultivo y en un tiempo menor a 10 minutos.

Para demostrar que el método y sistema mejorados propuestos funciona en otro tipo de muestras, se tomó una muestra de suelo de un bosque de pinos y se realizó la extracción de ADN empleando el kit Power Soil DNA Isolation kit (Qiagen), siguiendo las instrucciones del fabricante. Los ácidos nucleicos fueron secuenciados en un secuenciador fulano marca fulana, siguiendo las instrucciones del fabricante.

La base de datos que se empleó fue construida a partir de secuencias ITS de hongos (1 ,236), gen 18S de hongos (1 ,482), gen 16S de bacterias (3,476 secuencias), gen rpoB de bacterias (2,014 secuencias), gen recA (1 ,792) y gen gyrB (1 ,654). En total la base de datos se construyó con 11 ,654 secuencias.

Para este ejemplo se muestran los resultados obtenidos con un teléfono celular, aunque cabe resaltar que los resultados de identificación obtenidos con todos los dispositivos propuestos en la presente invención fueron los mismos.

Con esta base de datos el método y sistema mejorados propuestos en la presente invención logró identificar 15 especies de hongos y 6 especies de bacterias diferentes en menos de 8 minutos en una muestra de suelo de un bosque de pino. Los organismos identificados se muestran en las tablas 9 y 10 Tabla 9. Hongos identificados en muestra de suelo

Tabla 10.- Bacterias identificadas en muestra de suelo

Con este ejemplo se demuestra que el método y sistema mejorados propuestos en la presente invención son capaces de identificar bacterias y hongos de una muestra de suelo que ha sido secuenciada.

REFERENCIAS

- Benothman, Mohammed, Gamil A Azim, y Aboubekeur Hamdi-Cherif. 2008. «Pairwise Sequence Alignment Revisited - Genetic Algorithms and Cosine Functions». Information Technology, 9.

- Buchman, Timothy G., Steven Q. Simpson, Kimberly L. Sciarretta, Kristen P. Finne, Nicole Sowers, Michael Collier, Saurabh Chavan, et al. 2020. “Sepsis Among Medicare Beneficiaries: 3. The Methods, Models, and Forecasts of Sepsis, 2012-2018*.” Critical Care Medicine 48(3):302-18.

- Chatzou, Maria, Cedrik Magis, Jia-Ming Chang, Carsten Kemena, Giovanni Bussotti, lonas Erb, y Cedric Notredame. 2016. «Multiple Sequence Alignment Modeling: Methods and Applications». Briefings in Bioinformatics 17(6): 1009-23.

- Fay, Katherine, Mathew R. P. Sapiano, Runa Gokhale, Raymund Dantes, Nicola Thompson, David E. Katz, Susan M. Ray, et al. 2020. “Assessment of Health Care Exposures and Outcomes in Adult Patients With Sepsis and Septic Shock.” JAMA Network Open 3(7):e206004.

- Fiser, Andras. 2010. «Template-Based Protein Structure Modeling». En Computational Biology, editado por David Fenyó, 673:73-94. Methods in Molecular Biology. Totowa, NJ: Humana Press.

- Needleman, Saul B., y Christian D. Wunsch. 1970. «A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins». Journal of Molecular Biology 48(3):443-53. - Polyanovsky, Valery O, Mikhail A Roytberg, y Vladimir G Tumanyan. 2011. «Comparative Analysis of the Quality of a Global Algorithm and a Local Algorithm for Alignment of Two Sequences». Algorithms for Molecular Biology 6 (1):25.

- Smith, T.F., y M.S. Waterman. 1981. «Identification of Common Molecular Subsequences». Journal of Molecular Biology 147(1): 195-97.

- Yoon, Byung-Jun. 2009. «Hidden Markov Models and Their Applications in Biological Sequence Analysis». Current Genomics 10(6):402-15.