Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR CLASSIFYING NON-MICROCYTIC LUNG CARCINOMA ON THE BASIS OF IDENTIFYING AN INTRATUMORAL IMMUNE RESPONSE
Document Type and Number:
WIPO Patent Application WO/2013/098457
Kind Code:
A1
Abstract:
The present invention relates to an in vitro method for classifying non-microcytic lung carcinoma on the basis of the differential expression of 50 genes. Said genes identify an intratumoral immune response. The method of the invention is used to differentiate patients with an expression profile of genes associated with an immune response which is associated with a good prognosis and patients without said expression profile, who have worse prognosis. Said classification can be used as a prognostic marker, as a tumour classifier in accordance with the intratumoral immune response (immunoscore) or as a biomarker predicting therapies based on the immune system (immunotherapy). The present invention also relates to a kit which includes a set of probes that recognise the 50 genes of the invention.

Inventors:
SANZ ORTEGA JULIAN (ES)
FERRER ALDEA MILAGROS (ES)
HERNANDEZ PRIETO SUSANA (ES)
ROMERA LOPEZ ALEJANDRO (ES)
PEREZ-VILLAMIL SALGADO BEATRIZ (ES)
HERNANDO TRANCHO FLORENTINO (ES)
GOMEZ MARTINEZ ANA MARIA (ES)
JARABO SARCEDA JOSE RAMON (ES)
TORRES GARCIA ANTONIO JOSE (ES)
LOPEZ GARCIA-ASENJO JOSE ANTONIO (ES)
GONZALEZ LARRIBA JOSE LUIS (ES)
PUENTE VAZQUEZ JAVIER (ES)
DIAZ-RUBIO GARCIA EDUARDO (ES)
SUBIZA GARRIDO-LESTACHE JOSE LUIS (ES)
Application Number:
PCT/ES2012/070919
Publication Date:
July 04, 2013
Filing Date:
December 28, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FUNDACION PARA LA INVESTIGACION BIOMEDICA DEL HOSPITAL CLINICO SAN CARLOS (ES)
International Classes:
C12Q1/68
Domestic Patent References:
WO2008147205A12008-12-04
WO2011094483A22011-08-04
WO2010007093A12010-01-21
WO2010007093A12010-01-21
Foreign References:
US20090062144A12009-03-05
US20090062144A12009-03-05
Other References:
ROEPMAN P ET AL: "An immune response enriched 72-gene prognostic profile for early-stage non-small-cell lung cancer", CLINICAL CANCER RESEARCH, THE AMERICAN ASSOCIATION FOR CANCER RESEARCH, US, vol. 15, no. 1, 1 January 2009 (2009-01-01), pages 284 - 290, XP002547977, ISSN: 1078-0432, DOI: 10.1158/1078-0432.CCR-08-1258
AGILENT TECHNOLOGIES: "Microarray Ordering Guide Catalog", 26 May 2009 (2009-05-26), USA, pages 1 - 8, XP055062784, Retrieved from the Internet [retrieved on 20130514]
AGILENT TECHNOLOGIES: "Agilent SurePrint G3 Human Catalog CGH Microarrays", INTERNET CITATION, 8 January 2009 (2009-01-08), pages 1 - 8, XP002660065, Retrieved from the Internet [retrieved on 20110926]
KLIGERMAN S, AMERICAN JOURNAL OF ROENTGENOLOGY, vol. 194, 2010, pages 562 - 573
NATIONAL COMPREHENSIVE CANCER NETWORK, 2011
KARAPANIAGIOTOU E ET AL., OPEN LUNG CANCER J, vol. 2, 2009, pages 24 - 30
ROEPMAN P. ET AL., CLIN CANCER RES, vol. 15, 2009, pages 284 - 290
CHEN HY ET AL., NEW ENGL J MED, vol. 356, no. 1, 2007, pages 11 - 20
RAPONI M ET AL., CANCER RES, vol. 66, 2006, pages 7466 - 7472
RAZ DJ ET AL., CLIN CANCER RES, vol. 14, no. 17, 2008, pages 5565 - 5570
ZAO C. ET AL., ONCOGENE, vol. 27, 2008, pages 63 - 75
TRUNG CHU V. ET AL., J. IMMUNOL, vol. 179, 2007, pages 5947 - 5957
LEE JK ET AL., J IMMUNOL., vol. 179, no. 7, 2007, pages 4672 - 8
SAEZ ET AL., BLOOD, vol. 118, no. 6, 11 December 2010 (2010-12-11), pages 1560 - 9
HAVELANGE V. ET AL., BLOOD, vol. 118, no. 10, 2011, pages 2827 - 9
MARCO MALAVASI ET AL., BLOOD, vol. 118, no. 13, 2011, pages 3470 - 3478
ASANO ET AL., LEUKEMIA, vol. 25, 2011, pages 1182 - 1188
HAGN ET AL., IMMUNOLOGY AND CELL BIOLOGY, 2 August 2011 (2011-08-02)
GALON ET AL., J TRANSL MED., vol. 10, 3 January 2012 (2012-01-03), pages 1
BROUSSAD E.K. ET AL., J. CLIN ONCOL, vol. 29, no. 6, 2011, pages 602 - 603
ASCIERTO ET AL., BREAST CANCER RES TREAT., vol. 131, no. 3, 2012, pages 871 - 80
SIMON R. ET AL., J CLIN ONCOL, vol. 23, 2005, pages 7332 - 41
TIBSHIRANI R. ET AL., PNAS., vol. 99, 2002, pages 6567 - 6572
TIBSHIRANI R.: "Diagnosis of multiple cancer types by shrunken centroids of gene expression", PNAS, vol. 99, no. 10, 2002, pages 6567 - 72, XP002988576, DOI: doi:10.1073/pnas.082099299
QUACKENBUSH, J. NAT REV GENET., vol. 2, no. 6, 2001, pages 418 - 27
KLIGERMAN S., AMERICAN JOURNAL OF ROENTGENOLOGY, vol. 194, 2010, pages 562 - 573
CLEVELAND WS: "Locally Weighted Scatterplot Smoothing", JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, vol. 74, 1979, pages 829 - 836
CLEVELAND WS ET AL., JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, vol. 83, 1988, pages 596 - 610
CLARK TG., BRITISH JOURNAL OF CANCER, vol. 89, 2003, pages 232 - 238
SUBRAMANIAN ET AL., PNAS, vol. 102, no. 43, 2005, pages 15545 - 15550
MOOTHA VK ET AL., NAT GEN, 2003
ROEPMAN P ET AL., CLIN CANCER RES, vol. 15, 2009, pages 284 - 290
TIBSHIRANI R. ET AL., PNAS, vol. 99, no. 10, 2002, pages 6567 - 72
BENJAMINI Y; HOCHBERG Y, JOURNAL OF THE ROYAL STATISTICAL SOCIETY., 1995
SUBRAMANIAN J. ET AL., J NATL CANCER INST., vol. 102, 2010, pages 1 - 11
Attorney, Agent or Firm:
PONS ARIÑO, Angel (ES)
Download PDF:
Claims:
REIVINDICACIONES

1 . Método in vitro de obtención de datos útiles para el pronóstico de cáncer de pulmón no microcítico de estadio I o II caracterizado por la detección y/o cuantificación del producto de expresión de los genes de la tabla 1 en la muestra biológica aislada de un sujeto.

2. Método según la reivindicación 1 que además comprende la comparación de los datos útiles con valores de expresión de referencia para el producto de expresión de los genes de la tabla 1 en cáncer de pulmón no microcítico de estadio I o II obtenidos de sujetos en los que el pronóstico es conocido (muestra de referencia) para identificación del sujeto como un sujeto de buen pronóstico o de mal pronóstico.

3. Método según las reivindicaciones 1 o 2 donde la comparación se realiza mediante el método del centroide compacto más cercano.

4. Método in vitro para el pronóstico de cáncer de pulmón no microcítico de estadio I o II caracterizado por:

a. la detección y cuantificación del producto de expresión de los genes de la tabla 1 en una muestra de referencia;

b. el cálculo de un valor de referencia (valor 1 ) para cada producto de expresión de los genes de la tabla 1 en las muestras de referencia de pronóstico favorable (grupo de buen pronóstico) y el cálculo de un valor de referencia (valor 2) en las muestras de referencia de pronóstico desfavorable (grupo de mal pronóstico) mediante el uso del método del centroide más cercano;

c. la detección y cuantificación del producto de expresión de los genes de la tabla 1 en la muestra biológica de un nuevo sujeto en el que el pronóstico es desconocido (muestra de estudio);

d. la comparación mediante el uso del método de clasificación del centroide compacto más cercano de los valores obtenidos en la detección y cuantificacion del producto de expresión de los genes de la tabla 1 en la muestra de estudio con los valores de referencia obtenidos en los grupos de buen y mal pronóstico, e. la asociación de la muestra de estudio al grupo de buen pronóstico o al grupo de mal pronóstico según lo establecido en el método del centroide compacto más cercano.

5. Método según la reivindicación 4 donde el método del centroide más cercano se lleva a cabo a través de la aplicación de Predicción de Análisis de Microarrays (PAM).

6. Método según cualquiera de las reivindicaciones 1 a 5 donde la muestra de referencia y las muestras de estudio han sido previamente normalizadas antes de la comparación.

7. Método según cualquiera de las reivindicaciones 1 a 6 que además comprende la detección y/o cuantificacion de al menos un producto de expresión de los genes descritos en la tabla 2.

8. Método según cualquiera de las reivindicaciones 1 a 7 donde el producto de expresión es ARN mensajero.

9. Método según la reivindicación 8 donde la detección y/o cuantificacion del ARN mensajero se realiza mediante microarrays.

10. Método según la reivindicación 8 donde la detección y/o cuantificacion del ARN mensajero se realiza mediante RT-PCR.

1 1 . Método según cualquiera de las reivindicaciones 1 a 7 donde el producto de expresión es una proteína.

12. Método según la reivindicación 1 1 donde la detección y/o cuantificación de la proteína se realiza mediante inmuno blotting, inmunohistoquímica, cromatografía o microarrays.

13. Método según cualquiera de las reivindicaciones 1 a 12 donde la muestra biológica se selecciona de la lista que comprende: tejido, sangre, plasma, suero, linfa, lavado broncoalveolar o fluido ascítico.

14. Método según cualquiera de las reivindicaciones 1 a 13 donde la muestra biológica es fresca, congelada, fijada o fijada y embebida en parafina.

15. Método según cualquiera de las reivindicaciones 1 a 14 donde el sujeto es un humano.

16. Uso in vitro de los productos de expresión de los genes de la tabla 1 como marcador pronóstico de cáncer de pulmón no microcítico de estadio I o II.

17. Uso in vitro de los productos de expresión de la tabla 1 para clasificar la respuesta inmune intratumoral en cáncer de pulmón no microcítico de estadio I o II.

18. Uso in vitro de los productos de expresión de la tabla 1 como biomarcador predictor de respuesta terapéutica a la inmunoterapia en el cáncer de pulmón no microcítico de estadio I o II.

19. Kit que comprende sondas que consisten en las sondas que reconocen el ARN mensajero, producto de la expresión de los genes de la tabla 1 , o el ADN complementario o ARN complementario a dicho ARN mensajero, o anticuerpos que reconocen una proteína producto de expresión de los genes de la tabla 1 .

20. Kit según la reivindicación 19 que comprende sondas, que consisten en las sondas que reconocen el ARN mensajero producto de la expresión de los genes de la tabla 1 .

21 . Kit según la reivindicación 19 donde las sondas son las secuencias SEQ ID NO: 1 a SEQ IDNO: 66.

22. Kit según cualquiera de las reivindicaciones 19 a 21 que además comprende al menos una sonda o un anticuerpo que reconoce un producto de expresión de los genes de la tabla 2.

23. Kit según la reivindicación 22 que comprende al menos una sonda que reconoce un producto de expresión de los genes de la tabla 2.

24. Kit según cualquiera de las reivindicaciones 19 a 23 que además comprende al menos unos de los reactivos seleccionados de la lista que comprende: una retrotranscriptasa, una ARN polimerasa o un fluoróforo.

25. Kit según cualquiera de las reivindicaciones 19 a 24 donde las sondas están situadas en un soporte sólido.

26. Uso del kit según las reivindicaciones 19 a 25 para la obtención de datos útiles para el pronóstico del carcinoma de pulmón no microcítico de estadios I o II.

27. Uso del kit según las reivindicaciones 19 a 25 para la obtención de datos útiles para la clasificación de la respuesta inmune intratumoral del carcinoma de pulmón no microcítico de estadios I o II.

28. Uso del kit según las reivindicaciones 19 a 25 para la obtención de datos útiles para predecir la respuesta a inmunoterapia del carcinoma de pulmón no microcítico de estadios I o II.

Description:
MÉTODO DE CLASIFICACIÓN DEL CARCINOMA NO MICROCÍTICO DE PULMÓN BASADO EN LA IDENTIFICACIÓN DE UNA RESPUESTA INMUNE INTRATUMORAL. La presente invención se refiere a un método in vitro de clasificación del carcinoma no microcítico de pulmón basado en la expresión diferencial de 50 genes. Dichos genes identifican una respuesta inmune intratumoral. Mediante el método de la invención se diferencian pacientes con un perfil de expresión de genes asociados a una respuesta inmune que se asocia con buen pronóstico y pacientes sin ese perfil de expresión que tienen peor pronóstico. Esa clasificación puede usarse como marcador pronóstico, como clasificador de los tumores en función de la respuesta inmune antitumoral {"inmunoscore') o como biomarcador predictor de terapias basadas en el sistema inmune (inmunoterapia). La presente invención también se refiere a un kit que comprende un conjunto de sondas que reconocen los 50 genes de la invención. Por tanto, la invención se podría encuadrar en el campo de la medicina.

ESTADO DE LA TÉCNICA El cáncer de pulmón es la primera causa de muerte por cáncer con una tasa anual de más de 1 ,1 millones de personas en todo el mundo, y con una tasa de supervivencia a cinco años de sólo el 15%. Aproximadamente el 80% de los casos diagnosticados se clasifican como carcinoma no microcítico de pulmón (CNMP) y el 20% restante corresponden a carcinoma microcítico de pulmón (CMP). En el CNMP, los tipos más frecuentes son el carcinoma epidermoide o escamoso y el adenocarcinoma.

El sistema de estadiaje TNM {7- edición) basado en el tamaño del tumor (T), la afectación ganglionar (N) y la presencia de metástasis a distancia (M) es, en la actualidad, el factor pronóstico más utilizado en los pacientes con CNMP. En función de estos parámetros, los tumores se clasifican en: estadio I y estadio II (en ambos casos la enfermedad es localizada), estadio III (enfermedad localmente avanzada) y estadio IV (enfermedad metastásica) (Kligerman S. American Journal of Roentgenology 2010. 194:562-573).

En estadios iniciales o tempranos (estadios I y II), la cirugía con intención curativa es el tratamiento de elección encontrándose en continua discusión el beneficio de la quimioterapia adyuvante para disminuir la elevada tasa de recurrencia posterior a la resección quirúrgica que oscila entre un 30-35% de los pacientes. En concreto, en estadios II, la quimioterapia adyuvante basada en platinos, como el cisplatino, ha demostrado mejorar la supervivencia de determinados subgrupos pero, por otro lado, existe un porcentaje de pacientes que a pesar de no recaer tras la cirugía reciben tratamiento adyuvante y que son por lo tanto pacientes tratados en exceso. Este sobretratamiento repercute en problemas en estos pacientes asociados a los efectos secundarios de dichos tratamientos. Respecto a los estadios I (que engloba a los subgrupos IA y IB), y según la guía de consenso elaborada por el "National Comprehensive Cáncer Network" (NCCN) en 201 1 , en el subgrupo IA la quimioterapia adyuvante no está indicada, mientras que en los pacientes del subgrupo IB, sólo está recomendada en aquellos que cumplan factores de riesgo como pobre grado de diferenciación, invasión vascular, resección en cuña y márgenes mínimos. Por lo tanto, debido a la falta de precisión de los métodos actuales para definir el pronóstico de los estadios tempranos del CNMP, en la actualidad existen pacientes que reciben un tratamiento adyuvante que no les beneficia y también pacientes que no reciben un tratamiento adyuvante y que sin embargo tienen una alta probabilidad de recurrencia del tumor.

Actualmente, en el cáncer de pulmón no se conocen marcadores de probado valor pronóstico y predictivo que indiquen cúal será la progresión del paciente (Karapaniagiotou E, et al. Open Lung Cáncer J 2009. 2: 24-30). En CNMP se han desarrollado estudios que utilizan plataformas de análisis masivo para la obtención de perfiles de expresión génica que puedan ser utilizadas como biomarcadores pronóstico. Los resultados obtenidos han sido dispares en cuanto a los genes a incluir en el biomarcador, quizás debido al uso de criterios diferentes en cuanto a la inclusión de pacientes en el estudio, la obtención de muestras, la elección de los estadios tumorales, la exclusión o no de subtipos histológicos de gran importancia en el CNMP, así como a la falta, en algunos casos, de validación independiente (Roepman P. et al. Clin Cáncer Res 2009. 15:284-290; Chen HY et al. New Engl J Med 2007. 356(1 ):1 1 -20); Raponi M et al. Cáncer Res 2006 66:7466-7472; US20090062144; WO2010007093; Raz DJ et al. Clin Cáncer Res 2008 14(17):5565-5570).

Por lo tanto existe la necesidad de desarrollar una herramienta alternativa que pueda ser usada clínicamente, que sea más efectiva que los factores de riesgo estándar en identificar aquellos pacientes completamente resecados que puedan beneficiarse de la quimioterapia adyuvante y distinguirlos de aquellos clasificados como pacientes de bajo riesgo de recurrencia y en los que la quimioterapia no sería necesaria. Además, la respuesta inmune antitumoral se considera actualmente un factor relacionado con el pronóstico de los pacientes. Se requiere por lo tanto un método robusto que sea capaz de estratificar pacientes con CNMP en grupos de buen y mal pronóstico y un método de clasificación de la respuesta inmune intratumoral {"inmunoscore"). DESCRIPCIÓN DE LA INVENCIÓN

El problema técnico que resuelve la invención es el de proporcionar un método in vitro alternativo que determine la existencia de una respuesta inmune en el seno del carcinoma no microcítico de pulmón (CNMP) para la obtención de un tratamiento personalizado del paciente.

En la presente invención se describe un método in vitro para clasificar el CNMP que se caracteriza por la detección y/o cuantificación de un producto de expresión del conjunto de 50 genes, que se muestran en la tabla 1 en la muestra biológica de un sujeto. La presente invención también se refiere al uso de los productos de expresión de dichos 50 genes como biomarcadores pronóstico de cáncer de CNMP. El método de la invención proporciona un predictor de 50 genes para CNMP. La estrategia que se utilizó para la obtención de este predictor, comenzó por una detección y/o cuantificación de la expresión génica global de tumores de CNMP en estadios tempranos (I y II). En base a la expresión génica se realizó una clasificación molecular y una asociación con recidiva; la relación de los grupos moleculares con las variables histológicas y clínicas más importantes; la obtención de un predictor que identifica los grupos moleculares generados; la obtención de un predictor que diferencia un grupo de pacientes con buen pronóstico frente a un grupo de pacientes con mal pronóstico; y validación de los predictores con una serie externa. Finalmente, se observó que el método de la invención es útil para el pronóstico de CNMP. El predictor de la invención está constituido por 50 genes que se muestran en la tabla 1 , de ahora en adelante, los denominados "50 genes de la invención".

Los 50 genes de la tabla 1 , están sobreexpresados en el grupo de buen pronóstico. La función descrita para dichos genes indica que su sobreexpresión se debe en gran medida a la presencia de una respuesta inmune intratumoral, lo que además se asocia a un mejor pronóstico.

Los 50 genes de la tabla 1 están relacionados en su mayor parte con elementos estructurales de las células del sistema inmune o con funciones inmunológicas (maduración, reclutamiento, proliferación y supervivencia), sobre todo en linfocitos B y células plasmáticas intratumorales. Muchos de dichos genes codifican para las moléculas de inmunoglobulina (Ig) (cadenas pesadas y ligeras constantes, la cadena J, las regiones variables de las cadenas pesadas y ligeras), el receptor de células B (CD79a), el marcador específico de linaje de célula B (CD19), el co-activador específico de la transcripción en las células B (POU2AF1 ) o el factor específico de plegado para el ensamblaje de IgM (pERpI ). También existen genes aunque no se expresan exclusivamente en las células B, tienen gran influencia en la homeostasis de este tipo celular, como el factor de maduración de las células B (TNFRSF17), que es una diana transcripcional putativa del factor de expresión sobreexpresado POU2AF1 (Zao C. et al. 2008 Oncogene 27: 63-75) y el receptor para el factor de activación de células B (Trung Chu V. et al 2007 J. Immunol 179: 5947-5957). Este es también el caso de SLAM7F (CD139), que induce la proliferación y la expresión de citoquinas autocrinas sobre los linfocitos B humanos (Lee JK, et al. 2007 J Immunol. 179(7): 4672-8), de CXCL13, una citoquina quimioatrayente de las células B (Sáez et al. Blood 201 1 , 1 1 ;1 18(6):1560-9), de IRF4, un miembro de la familia de factores de transcripción del factor regulador del interferón, que han demostrado tener funciones críticas en varias etapas del desarrollo de células B (Havelange V. et al. Blood 201 1 , 1 18(10):2827-9), o de CD38, que apoya la proliferación y la supervivencia de las células B (Malavasi et al. Blood, 201 1 , 1 18 (13) 3470-3478). Curiosamente, CD38 se expresa fuertemente en células plasmáticas así como el CD27, que es un marcador de las células de memoria que también se encuentra dentro de los 50 genes sobreexpresados en el presente estudio. Es interesante resaltar que Pim-2, una serina/treonina kinasa que también es uno de los 50 genes sobreexpresados, ha sido recientemente descrita como un mediador anti-apoptótico en las células plasmáticas (Asano et al. Leukemia 201 1 , 25, 1 182-1 188). Adicionalmente, un gen de la tabla 2 {Homo sapiens ephrin-A4 (EFNA4), transcript variant 3, mRNA), cuya referencia en la base de datos de genes del NCBI (National Centre for Biotechnology Information, U.S. National Library of Medicine) es NM_182690, esta sobreexpresado en el grupo de mal pronóstico. Este gen codifica para una proteína que impide la extravasación de los linfocitos a través del endotelio vascular para alcanzar al tumor, realizando así un efecto contrario al de los genes sobreexpresados en el grupo de buen pronóstico.

En contraste con las células B/plasmáticas, no se encontraron genes específicos de linaje para las células T, células NK o macrófagos dentro de estos 50 genes de la tabla 1 pero genes como CD38, CD27 y la granzima B pueden ser expresados tanto en el linaje T como B aunque tradicionalmente se han asociado a linfocitos T citotóxicos y células NK (Hagn et al. 201 1 Immunology and Cell Biology , (2 August 201 1 ) | doi:10.1038/icb.201 1 .64).

Los datos aquí presentados indican que la inmunovigilancia está actuando como un importante factor pronóstico. De hecho, la necesidad de un "inmunoscore" para hacer un correcto pronóstico del cáncer es cada vez más imperiosa (Galón, et al. J Transí Med. 2012 Jan 3;10:1 ). Aunque los mecanismos de inmunidad con valor pronóstico se han relacionado principalmente a las células T (Broussad E.K. et al J. Clin Oncol 201 1 29(6) 602-603), la participación de las células B también se han descrito (Ascierto et al. Breast Cáncer Res Treat. 2012, 131 (3):871 -80).

El término "predictor" se refiere en esta memoria a un perfil de expresión diferencial de genes o perfil de expresión génica.

Se entiende por "perfil de expresión génica" el perfil génico obtenido tras la cuantificación del producto de expresión de los genes de interés. Se entiende por "producto de expresión", al ARN mensajero (ARNm), el ADN complementario (ADNc), el ARN complementario (ARNc) y/o la proteína producida por los genes de interés o biomarcadores, es decir, por los genes de la tabla 1 , en una muestra biológica aislada.

El perfil de expresión de los genes se realiza, preferiblemente, determinando el nivel de ARNm derivado de su transcripción, previa extracción del ARN total presente en la muestra biológica aislada, lo cual puede realizarse mediante protocolos conocidos en el estado de la técnica. La determinación del nivel de ARNm derivado de la transcripción de los genes de la tabla 1 puede realizarse, por ejemplo, aunque sin limitarnos, mediante amplificación por reacción en cadena de la polimerasa (PCR), retrotranscripcion en combinación con la reacción en cadena de la polimerasa (RT-PCR), RT-PCR cuantitativa, retrotranscripcion en combinación con la reacción en cadena de la ligasa (RT- LCR), o cualquier otro método de amplificación de ácidos nucleicos; análisis en serie de la expresión génica (SAGE, SuperSAGE); microarrays de ADN o de ARN elaborados con oligonucleótidos o sondas sintetizados in situ mediante fotolitografía o por cualquier otro mecanismo; hibridación in situ utilizando sondas específicas marcadas con cualquier método de mareaje; mediante geles de electroforesis; mediante transferencia a membrana e hibridación con una sonda específica; mediante resonancia magnética nuclear o cualquier otra técnica de diagnóstico por imagen utilizando nanopartículas paramagnéticas o cualquier otro tipo de nanopartículas detectables funcionalizadas con anticuerpos o por cualquier otro medio. El perfil de expresión génica también podría obtenerse mediante la detección y/o cuantificacion de las proteínas producto de la traducción del ARNm derivado de la transcripción de los genes de la tabla 1 , mediante por ejemplo, pero sin limitarnos, inmunodeteccion por inmuno blotting, inmunohistoquímica, cromatografía o microarrays.

La presente invención podría referirse también a un método in vitro para clasificar el CNMP que se caracteriza por la detección del número de copias en el ADN de los 50 genes que se muestran en la tabla 1 , así como de las alteraciones epigenéticas como la hipermetilación del promotor de los genes o como de la alteración de la estabilidad del ARNm debido entre otros factores a modificaciones transcripcionales que afectan por ejemplo a la cola de Poli Adeninas. La presente invención también se refiere al uso de estas alteraciones de los 50 genes como biomarcadores pronósticos de cáncer de CNMP, como "inmunoscore" o como biomarcador predictor de respuesta a inmunoterapia.

Finalmente el perfil de expresión génica también podría obtenerse mediante la detección y/o cuantificacion del número de copias de los genes presentes en la tabla 1 , así como de los niveles de alteraciones epigenéticas como el nivel de metilación del promotor o de los niveles de estabilidad del mensajero de estos mismos genes. Esta detección podría llevarse a cabo, aunque sin limitarse mediante microarrays, CGH (Hibridación genómica comparada) o FISH (hibridación in situ fluorescente). También podría hacerse a partir de material incluido en parafina.

Esta invención también podría aplicarse para estadios avanzados (III y IV).

Por lo aquí descrito, un primer aspecto de la invención se refiere a un método in vitro de obtención de datos útiles para el pronóstico de CNMP en estadio I o II caracterizado por la detección y/o cuantificación del producto de expresión de los genes de la tabla 1 en la muestra biológica aislada de un sujeto. A partir de ahora nos referiremos a éste como al "método primero de la invención".

El término "in vitro" se refiere a que el método de la invención se realiza fuera del cuerpo del sujeto. El término "pronóstico" en la presente invención se refiere a la capacidad de detectar pacientes que presentan una alta o baja probabilidad de recidiva tras la cirugía. Una alta probabilidad de recidiva se asocia a un mal pronóstico mientras que una baja probabilidad de recidiva se asocia a un buen pronóstico. Se entiende por "recidiva" la reaparición de la enfermedad, en este caso de un cáncer de pulmón. Las expresiones "probabilidad de no recidiva" y "probabilidad de ILE (intervalo libre de enfermedad)" se usan indistintamente en la presente memoria.

El término "cáncer de pulmón no microcítico", "carcinoma no microcítico de pulmón" (CNMP), "carcinoma de pulmón no microcítico" (CPNM), o cáncer pulmonar de células no pequeñas (en inglés "non-small cell lung cáncer", NSCLC) se refiere a un tipo de cáncer o tumor de pulmón según clasificación histológica que comprende el subtipo carcinoma escamoso o epidermoide, adenocarcinoma, adenoescamoso, carcinoma sarcomatoide, y carcinoma de células grandes. Se entiende por "estadio" la fase o la clasificación del cáncer de pulmón en base a la clasificación TNM. La clasificación TNM se refiere al tamaño del tumor (T), la afectación de ganglios linfáticos (N) y la afectación de otros órganos (M). El estadio I se refiere a los subestadios IA o IB. El subestadio IA se refiere a los tumores de pulmón de clasificación T1 N0M0. El subestadio IB incluye los tumores de pulmón de clasificación T2aN0M0. El estadio II se refiere a cualquiera de los subestadios IIA o IIB. El subestadio IIA se refiere a los tumores de pulmón de clasificación T1 N1 M0, T2aN1 M0 y T2bN0M0. El subestadio IIB incluye los tumores de pulmón de clasificación T2bN1 M0 y T3N0M0. En la clasificación TNM, T1 se refiere a cuando el tumor < 3 cm de dimensión máxima, está rodeado por tejido pulmonar o pleura visceral y sin invasión proximal al bronquio lobar en fibrobroncoscopia. El T1 a es un tumor < 2 cm y el T1 b es un tumor > 2cm y < 3cm. T2 se refiere a un tumor > 3 cm de dimensión máxima y < 7 cm o un tumor con al menos una de las siguientes características: infiltrar el bronquio principal a 2 cm o menos de la carina, invadir pleura visceral o asociarse con atelectasias o neumonitis obstructiva. T2a es un tumor > 3 cm y < 5 cm y T2b es un tumor > 5 y < 7 cm. T3 se refiere a un tumor > 7 cm o un tumor que afecta a la pared costal (incluidos los tumores de la cisura superior), diafragma, pleura mediastínica o pericardio; sin afectación del corazón, grandes vasos, tráquea, esófago, cuerpos vertebrales; o un tumor del bronquio principal a menos de 2 cm de la carina, sin infiltración de la misma; donde la atelectasia afecta a todo un pulmón y puede existir derrame pleural no maligno. NO se refiere al tumor de pulmón sin afectación de los ganglios linfáticos. N1 se refiere al tumor que presenta afectación de los ganglios linfáticos peribronquiales o hiliares ipsilaterales o ambos. M0 se refiere al tumor de pulmón que no presenta metástasis a distancia.

En la presente invención los términos "estadios tempranos", "estadios iniciales" o "estadios precoces" se refieren a estadio I o II de CNMP. El término "inmunoscore" se refiere a un método para clasificar la respuesta inmune intratumoral (Galón 2012). En la presente invención, mediante la detección y/o cuantificacion de la expresión de los 50 genes de la tabla 1 , es posible identificar un grupo de pacientes con presencia de una respuesta inmune intratumoral asociada a buen pronóstico frente a un grupo en el que no se identifica respuesta inmune intratumoral que se asocia a mal pronóstico.

El término "inmunoterapia" se refiere a una terapia o tratamiento contra el cáncer basado o relacionado con la actuación del sistema inmunológico del individuo en el que ocurre el tumor, mediante la facilitación de un reconocimiento y respuesta inmune antitumoral o impidiendo actuaciones del sistema inmunológico que favorecen el crecimiento tumoral.

El término "genes de la tabla 1 " o "50 genes" se refiere a los 50 genes descritos en la tabla 1 que se muestra a continuación.

Los términos "Identificador Entrez" o "ID Entrez" se refieren al número de referencia del gen en la base de datos de genes del NCBI (National Centre for Biotechnology Information, U.S. National Library of Medicine).

A continuación se muestra una breve descripción de algunas de las funciones conocidas de los genes presentados en la tabla 1 : AMPD1: Cataliza la deaminacion de la adenosina monofosfato (AMP) a inosina monofosfato (IMP) en el músculo esquelético y tiene un importante papel en el ciclo de las purinas.

TNFRSF17: Este receptor se expresa en linfocitos B maduros y es importante para el desarrollo de las células B y en la respuesta autoinmune. Tiene como ligando al miembro 13b de la superfamilia del factor de necrosis tumoral y activa el factor nuclear del potenciador del gen polipetídico de la cadena ligera Kappa en células B (NF-kappaB) y la proteína kinasa activada por mitógeno 8 (MAPK8/JNK). También se une a otros ligandos y envía señales de supervivencia celular y proliferación. CD19: Molécula que se une al receptor de antígenos de los linfocitos B para disminuir el umbral de estimulación de los linfocitos a través de la estimulación por antígeno.

CD27: Miembro de la superfamilia del receptor del factor de necrosis tumoral. El receptor tiene la función de generar y mantener durante largo tiempo la inmunidad de las células T. El ligando CD70 se une a él y funciona en la activación de las células B y en la síntesis de inmunoglobulinas. Las proteínas adaptadoras denominadas Factor Asociado a Receptores de Factores de Necrosis Tumoral 2 y 5 (TRAF2 y TRAF5) median en este proceso. La proteína de unión a CD27 (SIVA) es una proteína proapoptotica que juega un importante papel en la apoptosis mediada por este receptor.

CD38: Es una ectoenzima multifuncional que se expresa en multitud de células y tejidos especialmente en leucocitos. CD38 también tiene funciones en la adhesión celular, transducción de señales y señalización por calcio.

CD79A y CD79B: codifican para las proteínas lg-alpha e lg-beta que son componentes del receptor antigénico de linfocitos B. Las moléculas lg-alfa e lg- beta son necesarias para la expresión y función de este receptor.

GZMB: Los linfocitos T citolíticos (CTL) y las células "natural killer" (NK) tienen la habilidad de reconocer, unir y lisar células diana específicas. La GZMB es crucial para la rápida inducción de la apoptosis de las células diana a través de la respuesta inmune generada por los linfocitos T citolíticos o incluso en la mediada por linfocitos B. IGHA1 e IGHA2: Anticuerpo con una importante presencia en las secreciones mucosas y que representa la primera línea de defensa del organismo. Existen dos subclases Inmunoglobulina A1 (lgA1 ) e Inmunoglobulina (lgA2). IGHG1: Este gen se encuentra traslocado en la leucemia linfocítica crónica de células B con el gen Ciclina D1 (CCND1 ) y en subclases de linfomas MALT (Tejido Linfoide Asociado a Mucosa) con los genes "LIM homeobox 4" (LHX4) y "Forkhead box P1 " (FOXP1 ). IGJ: Su función es unir dos monómeros o bien de Inmunoglobulina M (IgM) o bien de Inmunoglobulina A (IgA). También tiene la función de unir estas inmunoglobulinas al componente secretor.

\GL@: Cada molécula de inmunoglobulina tiene dos cadenas pesadas idénticas y dos cadenas ligeras idénticas. Hay dos clases de cadenas ligeras que son kappa y lambda. Este gen abarca el locus de la cadena ligera lambda que incluye el segmento V (variable), segmento J (unión) y segmento C (constante). IGLL1: Es un gen de la superfamilia de las inmunoglobulinas que codifica para la cadena ligera sustitutiva del receptor de células preB. Mutaciones en este gen pueden producir deficiencia de células B o agammaglobulinemia.

IRF4: Pertenece a la familia de factores reguladores del interferón. Es específico de linfocitos y regula negativamente los receptores tipo Toll (o TLR), que es una molécula central en la activación de la respuesta inmune innata y adaptativa.

KCNN3: Regula la excitabilidad neuronal.

KRT81: Es un miembro de la familia de keratinas. CXCL9: Su función no está bien definida pero parece que está implicado en el tráfico de células T.

PNOC: Es un neuropéptido que actúa como ligando endógeno del receptor "Opiate Receptor-Like 1 " (ORL1 ).

POU2AF1: Es un coactivador específico de células B y su ausencia parece estar relacionada con defectos en el desarrollo de células B y con la falta de centros germinales.

BFSP2: también denominada faquinina, es una proteína estructural de filamentos del citoesqueleto. Junto a la filensina forma el BF ("beaded filament").

CXCL13: Promueve la migración de linfocitos B preferentemente frente a linfocitos T y macrófagos mediante estimulación con calcio.

PIM2: Es una serin/treonin/protein kinasa. Previene apoptosis y promueve supervivencia celular. Es un mediador anti-apoptótico de células plasmáticas. SMR3A: Es un homólogo funcional del gen Vcsal ("Variable Coding Sequence A1 "). Se ha asociado como un marcador de la disfunción eréctil asociada con etiología tanto diabética como no diabética.

MZB1: Está asociada con las cadenas pesadas y ligeras de la inmunoglobulina tipo M (IgM), promoviendo el ensamblaje de la IgM y su secreción.

FKBP11: Pertenece a la familia FKBP las cuales catalizan el plegamiento de los polipéptidos que contienen prolina. Su función es inhibida por FK506 y por rapamicina.

LAX1: Un regulador negativo de la señalización de linfocitos. CPNE5: Proteína de unión a membrana dependiente de calcio que parece estar implicada en la regulación de fenómenos moleculares en la interfase de la membrana celular y en el citoplasma. SLAM7: Está implicada en la activación de células NK y en la regulación de la proliferación de linfocitos B durante la respuesta inmune.

DUSP26: Está asociado con la inactivación de la Proteína Kinasa activada por mitógenos 1 y 3 (MAPK1 y MAPK3), así como con la inhibición de la proliferación de células epiteliales, lo que podría sugerir un papel como gen supresor de tumores.

FCRL2: Forma parte de la superfamilia de receptores de inmunoglobulinas. Puede ser un marcador pronóstico de leucemia linfocítica crónica.

FCRL5: También es parte de la superfamilia de receptores de inmunoglobulinas. Está implicado en el desarrollo de células B y en la linfomagénesis.

FCRLA: Este receptor media la destrucción de los antígenos reconocidos por la Inmunoglobulina G (IgG). Es proteína selectiva de células B y puede estar implicada en su desarrollo.

DERL3: Proteína que se ubica en el retículo endoplasmático con la función de degradar glicoproteínas mal plegadas.

MTSS1L: Puede estar implicada en el empaquetamiento de la actina. Pertenece a la familia MTSS1 (Supresores de Metástasis Tipo 1 ).

JSRP1: El retículo sarcoplasmático es un compartimento celular que controla la concentración de calcio intracelular y está implicado en las funciones de excitación-contracción de este compartimento celular. En ratones se ha visto que esta proteína interacciona con proteínas claves implicadas en estos procesos de excitación-contracción.

C5orf20: Este gen se expresa en células dendríticas, que son potentes células presentadoras de antígenos implicadas en activar las células T nativas para iniciar la respuesta inmune específica de antígeno.

MEI1: Defectos en su expresión están relacionados con parada en meiosis y se asocia a fenómenos de azoospermia.

GPR114: Proteína G asociada a receptores con un extremo N terminal que contiene regiones ricas en serina/treonina. Se ha descrito su expresión en linfocitos citotóxicos. IGHV5-78, FER1L4, IGKV1D-8, KIAA0125, LOC401847, LOC642424, LOC100132941, LOC100133862, LOC100287723, IGHV1-24 y LOC100293440: a día de hoy, todavía no se conoce la función de estos genes.

El término "muestra biológica" incluye, pero sin limitarnos, tejidos y/o fluidos biológicos de un individuo, obtenidos mediante cualquier método conocido por un experto en la materia que sirva para tal fin.

El término "sujeto" se refiere a un individuo, preferentemente humano, que ha sido diagnosticado de CNMP.

Una realización preferida del primer aspecto de la invención se refiere a un método que además comprende la comparación de los datos útiles obtenidos de la muestra biológica aislada de un nuevo sujeto, con los valores de expresión de referencia para los genes de la tabla 1 obtenidos de sujetos con CNMP estadio I o II en los que el pronóstico es conocido (muestra de referencia). La comparación permite la identificación del nuevo sujeto como un sujeto de buen pronóstico o de mal pronóstico. A partir de ahora, nos referiremos a este método como al "método segundo de la invención".

El término "muestras de referencia" tal como se entiende en la presente invención se refiere, por ejemplo, pero sin limitarse, a las muestras obtenidas de individuos que presenten un perfil molecular conocido. Este perfil molecular puede ser de buen pronóstico o de mal pronóstico.

Un experto en la materia podría clasificar un nuevo paciente en el grupo de buen o en el grupo de mal pronóstico al comparar sus datos de expresión para los 50 genes de la invención con los datos de expresión para los 50 genes en las muestras de referencia. Estas muestras de referencia son un grupo de muestras de las que se conoce el perfil de expresión de los 50 genes y la presencia o no de recidiva. Por ejemplo, pero sin limitarse, un nuevo sujeto cuyo perfil de expresión sea similar al grupo de referencia de buen pronóstico puede ser clasificado como perteneciente al grupo de buen pronóstico, el cual tiene una probabilidad media de ILE a los 3 años del 85% y/o a los 5 años del 79%. Por ejemplo, pero sin limitarse, un nuevo sujeto cuyo perfil de expresión sea similar al grupo de referencia de mal pronóstico puede ser clasificado como perteneciente al grupo de mal pronóstico, el cual tiene una probabilidad media de ILE a los 3 años del 62% y/o a los 5 años del 48%.

La determinación del pronóstico de nuevos pacientes diagnosticados con CNMP en estadios I o II implica la clasificación de esos pacientes en uno de los dos grupos de referencia previamente definidos: grupo de buen pronóstico o grupo de mal pronóstico. Estos grupos de referencia están constituidos por las muestras de referencia.

La comparación de los datos útiles obtenidos de la muestra biológica de un nuevo sujeto, con los valores de expresión de referencia para los genes de la tabla 1 obtenidos de sujetos con CNMP estadio I o II en los que el pronóstico es conocido (muestra de referencia), puede llevarse a cabo mediante cualquier método estadístico de predicción conocido en el estado de la técnica, como por ejemplo, pero sin limitarse, en cualquiera de los métodos descritos en Simón R. et al. J Clin Oncol 2005; 23:7332-41 . En una realización preferida del método segundo de la invención, la comparación se realiza mediante el método del centroide compacto más cercano. En adelante, el "método tercero de la invención".

Se entiende como el "método del centroide compacto más cercano" ("nearest shrunken centroid method") el método de clasificación descrito en Tibshirani R. et al. PNAS. 2002, 99:6567-6572 y aplicado a través de la herramienta Predicción de Análisis por Microarrays ("Prediction analysis of microarrays" o PAM). La herramienta "PAM" fue desarrollada por la Universidad de Standford y es de libre acceso.

La determinación del pronóstico de CNMP de estadios I o II puede establecerse, aunque sin limitarse, mediante la determinación de un "valor de referencia" para el grupo de buen pronóstico (valor 1 ) y de otro para el grupo de mal pronostico (valor 2). El pronóstico puede realizarse estimando la distancia entre los valores de expresión de la nueva muestra y los "valores de referencia" de cada uno de los dos grupos. Si la distancia entre la nueva muestra y el valor 1 es menor que la distancia entre la nueva muestra y el valor 2, se podrá determinar el pronóstico favorable. Por el contrario, si la distancia entre la nueva muestra y el valor 1 es mayor que la distancia entre la nueva muestra y valor 2, se podrá determinar el pronóstico desfavorable.

Los valores de referencia de cada grupo, se pueden calcular en base a los valores de expresión de los 50 genes en las muestras de la matriz de referencia o "matriz de desarrollo" y vendrán expresados por tanto mediante un vector de 50 componentes. El cálculo del valor de referencia de cada grupo (en nuestro caso el grupo de buen pronóstico y el grupo de mal pronóstico), se obtiene de sumar al valor promedio global de todas las muestras, un segundo factor definido como la distancia (estadístico "t") entre el valor promedio de expresión de los 50 genes de dicho grupo con respecto al valor promedio de expresión de los 50 genes de todas las muestras incluidas en la matriz de entrenamiento. Los datos del segundo factor serán estandarizados teniendo en cuenta, la variabilidad de expresión de cada uno de los 50 genes dentro del grupo analizado y teniendo en cuenta un valor de convergencia Δ que permite evaluar el poder predictivo de cada uno de los genes. Se entiende como distancia entre dos muestras, grupos o subtipos, la cuantificación de sus diferencias de expresión.

Aunque el valor final de referencia o "shrunken centroid" obtenido para cada grupo se basa en los valores de expresión, su valor real es adimensional y no es directamente proporcional a los datos de fluorescencia inicialmente obtenidos en cada muestra. Dicho valor de referencia, en cada grupo, contiene 50 componentes, una por cada uno de los genes analizados.

Una vez calculados los valores de referencia para cada grupo, el método del "nearest shrunken centroid", es capaz de asignar nuevas muestras (que en nuestro caso conforman la matriz de validación) a cada uno de los grupos definidos. La distancia entre la nueva muestra y cada uno de los grupos es relativa a la diferencia entre los valores de expresión de los 50 genes en la muestra nueva con respecto a las componentes del centroide compacto ("shrunken centroid") que representan cada grupo. La cuantificación de las distancias podrían medirse, aunque sin limitarse, mediante la distancia euclidea (Tibshirani R. Diagnosis of múltiple cáncer types by shrunken centroids of gene expression. PNAS 2002; 99(10):6567-72). Como se mencionó con anterioridad, la nueva muestra será asignada al grupo del que se encuentre a una menor distancia. Por todo lo aquí descrito, un segundo aspecto de la invención se refiere a un método in vitro para el pronóstico del CNMP de estadio I o II caracterizado por: a. la detección y cuantificación del producto de expresión de los genes de la tabla 1 en una muestra de referencia;

b. el cálculo de un valor de referencia (valor 1 ) para cada producto de expresión de los genes de la tabla 1 en las muestras de referencia de pronóstico favorable (grupo de buen pronóstico) y el cálculo de un valor de referencia (valor 2) en las muestras de referencia de pronóstico desfavorable (grupo de mal pronóstico) mediante el uso del método del centroide más cercano;

c. la detección y cuantificación del producto de expresión de los genes de la tabla 1 en la muestra biológica de un nuevo sujeto en el que el pronóstico es desconocido (muestra de estudio);

d. la comparación mediante el uso del método de clasificación del centroide compacto más cercano de los valores obtenidos en la detección y cuantificación del producto de expresión de los genes de la tabla 1 en la muestra de estudio con los valores de referencia obtenidos en los grupos de buen y mal pronóstico. e. la asociación de la muestra de estudio al grupo de buen pronóstico o al grupo de mal pronóstico según lo establecido en el método del centroide compacto más cercano.

En adelante este método se denominará "método cuarto de la invención".

Una realización preferida del método cuarto de la invención se refiere al método donde el método del centroide compacto más cercano se lleva a cabo a través de la aplicación de Predicción de Análisis de Microarrays (PAM).

Una realización preferida del primer y del segundo aspecto de la invención, se refiere al método donde la muestra de referencia y las muestras de estudio han sido previamente normalizadas antes de la comparación.

Se entiende por "normalización" la utilización de una muestra control que sirva para eliminar variaciones experimentales entre las distintas muestras. Otra realización preferida del primer y del segundo aspecto de la invención, se refiere al método que además comprende la detección y/o cuantificación de al menos un producto de expresión de los genes descritos en la tabla 2.

Otra realización preferida del primer y del segundo aspecto de la invención, se refiere al método donde el producto de expresión es ARN mensajero. Una realización aún más preferida se refiere al método donde la detección y/o cuantificación del ARN mensajero se realiza mediante microarrays. Una realización también más preferida se refiere al método donde la detección y/o cuantificación del ARN mensajero se realiza mediante RT-PCR.

Otra realización preferida del primer y del segundo aspecto de la invención, se refiere al método donde el producto de expresión es una proteína. Una realización aún más preferida se refiere al método donde la detección y/o cuantificación de la proteína se realiza mediante inmuno blotting, inmunohistoquímica, cromatografía o microarrays.

La detección y cuantificación del producto de expresión (ARNm, ARN complementario obtenido a partir de ADNc, ADN complementario o proteína) se puede realizar utilizando los métodos conocidos por el experto en la materia. Por ejemplo, determinando el nivel de ARNm derivado de su transcripción, previa extracción del ARN total presente en la muestra biológica aislada, lo cual puede realizarse mediante protocolos conocidos en el estado de la técnica. Para ello la muestra biológica aislada puede tratarse física o mecánicamente para romper el tejido o las estructuras celulares y liberar los componentes intracelulares a una solución acuosa u orgánica para preparar los ácidos nucleicos para un posterior análisis. Los ácidos nucleicos se extraen de la muestra por procedimientos conocidos por el experto en la materia y comercialmente disponibles. La determinación del nivel de ARNm derivado de la transcripción de los genes de la tabla 1 puede realizarse, por ejemplo, aunque sin limitarnos, mediante amplificación por reacción en cadena de la polimerasa (PCR), retrotranscripción en combinación con la reacción en cadena de la polimerasa (RT-PCR), RT-PCR cuantitativa, retrotranscripción en combinación con la reacción en cadena de la ligasa (RT-LCR), o cualquier otro método de amplificación de ácidos nucleicos; análisis en serie de la expresión génica (SAGE, SuperSAGE); microarrays, micromatrices o chips de ADN elaborados con oligonucleotidos depositados por cualquier mecanismo o elaborados con oligonucleotidos sintetizados in situ mediante fotolitografía o por cualquier otro mecanismo; hibridación in situ utilizando sondas específicas marcadas con cualquier método de mareaje; mediante geles de electroforesis; mediante transferencia a membrana e hibridación con una sonda específica; mediante resonancia magnética nuclear o cualquier otra técnica de diagnóstico por imagen utilizando nanopartículas paramagnéticas o cualquier otro tipo de nanopartículas detectables funcionalizadas con anticuerpos o por cualquier otro medio.

En la presente invención se demuestra que la detección y cuantificación del ARNm total de una muestra biológica de un sujeto con CNMP de estadios I o II es útil para el pronóstico de dicha enfermedad. Por todo ello en una realización preferida de este aspecto de la invención el producto de expresión detectado y cuantificado es ARNm.

Por ello, otra realización preferida del primer aspecto de la invención se refiere a un método donde el producto de expresión es ARNm. Se entiende por "microarray" (microarray de expresión, chip o micromatriz) al conjunto de sondas (oligonucleotidos o ADNc) dispuestas de manera ordenada sobre una superficie sólida, que permite analizar simultáneamente la expresión del genoma completo de un organismo. Cada una de las sondas representa específicamente un gen determinado al poseer una secuencia complementaria al ARNm transcrito por dicho gen, posibilitando así, la medición de los niveles de expresión de todos los genes que conforman el genoma al mismo tiempo y en un único experimento. Para la utilización de microarrays y obtención de datos a partir de ellos, la fase experimental de los microarrays puede constar de los pasos que se describen a continuación. En primer lugar, el ARN total se retrotranscribe usando como cebador un cebador específico para mensajero (PolidT) y una enzima retrotranscriptasa. Utilizando como molde el ADNc de doble cadena obtenido anteriormente, se sintetizó el ARNc, a la vez que se llevaba a cabo el proceso de amplificación y mareaje de la muestra. El ARNc marcado obtenido se purificó mediante columnas. El ARNc es fragmentado en secuencias mas pequeñas e hibridado al microarray. Dicho proceso de hibridación se lleva a cabo en un horno de hibridación durante un periodo largo de tiempo. En este proceso el ARNc marcado se une de manera específica a los oligonucleótidos sintetizados en el microarrays. Posteriormente el microarray es lavado para eliminar todo el ARNc excedente no unido a los oligonucleótidos. De acuerdo con la presente invención el producto de expresión, preferiblemente ARNm o ADNc o ARN complementario (ARNc) obtenido a partir de ADNc, puede ser marcado o etiquetado mediante técnicas bien conocidas en el estado de la técnica. Etiquetas detectables incluyen, por ejemplo, isótopos radiactivos, etiquetas fluorescentes, etiquetas quimioluminiscentes, etiquetas bioluminiscentes o etiquetas enzimáticas. Las etiquetas fluorescentes pueden ser distintas en el caso del mareaje del producto de expresión de la muestra biológica y del producto expresión de la muestra control. Por otra parte, la detección y cuantificación también se pueden realizar mediante RT-PCR, por lo que otra realización preferida del primer aspecto de la invención se refiere a un método según la reivindicación 7 donde la detección y/o cuantificación del ARNm se realiza mediante RT-PCR o preferiblemente mediante RT-PCR a tiempo real. El proceso de RT-PCR se puede llevar a cabo en dos fases:

- Retrotranscripción: se produce la unión entre un cebador y el ARNm mediante un proceso de incubación conjunta de ambos productos. Seguidamente se produce la retrotranscripción propiamente dicha utilizando enzimas de transcripción inversa.

- PCR posterior: se produce la amplificación del ADNc obtenido en la fase anterior mediante la técnica de reacción en cadena de la polimerasa (PCR). Para cada muestra y para cada transcrito de los genes analizados se llevará a cabo la reacción de PCR de manera individualizada. Este proceso implica la repetición cíclica de 3 fases: fase de desnaturalización del ADNc, fase de unión específica del oligonucleótido del gen en estudio a la hebra del ADNc desnaturalizado y fase de elongación a partir del oligonucleótido unido mediante la que se sintetizará una hebra nueva de ADNc. Al tratarse de un proceso que se mide en tiempo real, es necesario usar una molécula fluorescente para monitorizar lo que sucede a lo largo del proceso. La cuantificacion por otro lado también se puede realizar determinando el nivel de proteína derivado de la traducción de los ARNm transcritos a partir de los 50 genes de la invención. Esta cuantificacion proteica se puede realizar mediante cualquier método conocido por un experto en la materia que sirva para tal fin, como por ejemplo, pero sin limitarnos, métodos de inmunodetección (como western blot, ELISA, inmunohistoquímica, inmunocitoquímica, inmunofluorescencia), métodos basados en mareajes isobáricos (como iTRAQ - isobaríc Tag for Relative and Absolute Quantitation-, o ICAT -Isotope-Coded Affinity Tag-) o en mareajes isotópicos (como SILAC -Stable Isotopes Labeling by Amino Acids in Cell Culture-) o basados en mareajes fluorescentes (como 2D-DIGE -Difference in Gel Electrophoresis-), así como métodos basados en espectrometría de masas (MRM, -Múltiple Reaction Monitoring-) . Por todo ello en otra realización preferida de este aspecto de la invención es el método donde el producto de expresión es una proteína. Otra realización preferida del primer y segundo aspecto de la presente invención se refiere al método donde la detección y/o cuantificacion de la proteína se realiza mediante inmuno blotting, inmunohistoquímica, cromatografía o arrays de expresión de proteínas.

Los términos "secuencia de aminoácidos" o "proteína" se usan aquí de manera intercambiable, y se refieren a una forma polimérica de aminoácidos de cualquier longitud, que pueden estar, o no, química o bioquímicamente modificados. El término "residuo" corresponde a un aminoácido.

Otra realización preferida del primer y segundo aspectos de la presente invención se refiere al método donde la muestra biológica se selecciona de la lista que comprende: tejido, sangre, plasma, suero, linfa, lavado broncoalveolar o fluido ascítico.

Otra realización también preferida del primer y segundo aspectos de la presente invención se refiere al método donde la muestra biológica es fresca, congelada, fijada o fijada y embebida en parafina.

Otra realización preferida del primer y segundo aspectos de la invención se refiere a un método donde el sujeto es un humano.

Un tercer aspecto de la invención se refiere al uso in vitro de los productos de expresión de los genes de la tabla 1 como marcador pronóstico de CNMP de estadio I o II. Un cuarto aspecto de la invención se refiere al uso in vitro de los productos de expresión de la tabla 1 para clasificar la respuesta inmune intratumoral en CNMP de estadio I o II.

Los autores de la presente invención han encontrado que los genes de la tabla 1 están sobreexpresados en aquellos pacientes que presentan un mejor pronóstico, y que dichos genes están en su mayor parte relacionados con la respuesta inmune. De esta forma, la sobreexpresión de los genes de la tabla 1 se asocia a la presencia de una respuesta inmune intratumoral, lo que correlaciona con un mejor pronóstico clínico. Por otro lado, una menor expresión de estos 50 genes se asocia a la ausencia de una respuesta inmune intratumoral, lo que correlaciona con un peor pronóstico clínico.

Un quinto aspecto de la invención se refiere al uso in vitro de los productos de expresión de la tabla 1 como biomarcador predictor de respuesta terapéutica a la inmunoterapia en el CNMP de estadio I o II. Un sexto aspecto de la invención se refiere a un kit que comprende las sondas que reconocen el ARN mensajero, producto de la expresión de los genes de la tabla 1 , o el ARNc o ADNc a dicho ARNm, o anticuerpos que reconocen una proteína producto de expresión de los genes de la tabla 1 . La cuantía de sondas utilizadas para cada gen puede variar en número. Preferiblemente el kit comprende sondas, que consisten en las sondas que reconocen el ARN mensajero producto de la expresión de los genes de la tabla 1 . Más preferiblemente las sondas son las secuencias descritas como SEQ ID NO: 1 a SEO ID NO: 66 y que reconocen específicamente los 50 genes de la tabla 1 . En adelante nos referiremos a este kit como al "kit primero de la invención".

Una realización preferida del sexto aspecto de la invención se refiere al kit que además comprende al menos una sonda o un anticuerpo que reconoce un producto de expresión de los genes de la tabla 2. En adelante nos referiremos a este kit como al "kit segundo de la invención".

Otra realización preferida del sexto aspecto de la invención se refiere a que el kit puede comprender al menos una retrotransciptasa, o una ARN polimerasa o un fluoróforo. Por lo que una realización preferida del tercer aspecto de la invención se refiere a un kit que además comprende al menos unos de los reactivos seleccionados de la lista que comprende: retrotranscriptasa, una ARN polimerasa o un fluoróforo. Además el kit puede comprender una mezcla de deoxinucleótidos tri-fosfato (dNTPs), una mezcla de nucleótidos tri-fosfato (NTPs), deoxiribonucleasa (DNasa), inhibidores de la ribonucleasa (RNasa), Dithiothreitol (DTT), pirofosfatasa inorgánica (PPi) y los tampones necesarios para las enzimas proporcionadas en el kit. Además, la presente invención también se refiere al kit donde las sondas o los anticuerpos están preferiblemente situados en un soporte sólido, por ejemplo, pero sin limitarse, cristal, plástico, tubos, placas multipocillo, membranas, o cualquier otro soporte conocido. Por lo que una realización preferida del sexto aspecto de la invención se refiere a un kit donde las sondas o los anticuerpos están preferiblemente situadas en un soporte sólido.

Un séptimo aspecto de la invención se refiere al uso del kit del sexto aspecto de la invención para la obtención de datos útiles para el pronóstico de CNMP estadios I o II. Además, la obtención de datos puede ser útil para la administración de tratamiento adyuvante, por ejemplo quimioterapia. Por lo que también se refiere al uso del kit primero de la invención para la evaluación de la necesidad de suministrar dicho tratamiento.

Un octavo aspecto de la invención se refiere al uso del kit del sexto aspecto de la invención para la obtención de datos útiles para la clasificación de la respuesta inmune intratumoral del CNMP de estadios I o II. El kit de la presente invención puede emplearse para conocer si existe una respuesta inmune intratumoral en el paciente. Un noveno aspecto de la invención se refiere al uso del kit del sexto aspecto de la invención para la obtención de datos útiles para predecir la respuesta a inmunoterapia del CNMP de estadios I o II.

A lo largo de la descripción y las reivindicaciones la palabra "comprende" y sus variantes no pretenden excluir otras características técnicas, aditivos, componentes o pasos. Para los expertos en la materia, otros objetos, ventajas y características de la invención se desprenderán en parte de la descripción y en parte de la práctica de la invención. Los siguientes ejemplos y figuras se proporcionan a modo de ilustración, y no se pretende que sean limitativos de la presente invención. DESCRIPCION DE LAS FIGURAS

Fig. 1. Muestra la probabilidad de ILE en los dos subtipos histológicos principales de CNMP. Curva de Kaplan-Meier que muestra la probabilidad de ILE de los dos subtipos histológicos principales del CNMP, adenocarcinoma y carcinoma escamoso en la matriz de desarrollo. ILE, intervalo libre de enfermedad; p, es la probabilidad asociada a que las diferencias encontradas en el ILE entre los subgrupos analizados sean debidas al azar.

Fig. 2. Muestra la probabilidad de intervalo libre de enfermedad en estadios I y II. . Curva de Kaplan-Meier que muestra la probabilidad de ILE para estadios I y II de CNMP en la matriz de desarrollo. ILE, intervalo libre de enfermedad; p, es la probabilidad asociada a que las diferencias encontradas en el ILE entre los subgrupos analizados sean debidas al azar. Fig. 3. Muestra la agrupación jerárquica de las muestras de la matriz de desarrollo analizadas en función de su perfil molecular con 3.232 genes.

Se muestra la agrupación ("clustering") jerárquica de 84 muestras con 3.232 genes (ver filtrado 3 del ejemplo 1 ) según el método descrito en Quackenbush J. Nat Rev Genet. 2001 ;2(6):418-27. Las muestras están diferenciadas en función del subtipo histológico: línea continua, subtipo adenocarcinoma; línea rayada, subtipo escamoso; línea continua terminada en * , otros subtipos de CNMP. Se define "perfil molecular": como el conjunto de datos genómicos (en nuestro casos niveles de expresión del ARNm) capaz de caracterizar e identificar un sujeto o muestra. Los subtipos moleculares encontrados muestran una clara asociación con los subtipos histológicos de los tumores. Fig. 4. Muestra la probabilidad de ILE en función de los grupos moleculares obtenidos en la matriz de desarrollo a partir de 3.232 genes.

Curva de Kaplan-Meier que muestra la probabilidad de ILE de los dos subtipos moleculares principales del CNMP encontrados en la matriz de desarrollo. ILE, intervalo libre de enfermedad; p, es la probabilidad asociada a que las diferencias encontradas en el ILE entre los subgrupos analizados sean debidas al azar.

Fig. 5. Muestra la agrupación jerárquica de las muestras de la matriz de desarrollo analizadas en función de su perfil molecular con 2.160 genes.

Análisis del patrón de expresión génica global de los tumores de la matriz de desarrollo para la obtención de grupos moleculares utilizando el listado de 2.160 genes (ver filtrado 4 del ejemplo 1 ). A, se muestra la agrupación molecular ("clustering") jerárquica de 84 muestras con 2.160 genes. B, agrupación perfeccionada por el método de "k-means" descrito en Quackenbush J. Nat Rev Genet. 2001 ;2(6):418-27. En ambos casos resulta en tres grupos moleculares (Grupo 1 , 2 y 3) o "clusters".

Fig. 6. Muestra la probabilidad de ILE en los tres grupos moleculares obtenidos en función de su perfil molecular con 2.160 genes en la matriz de desarrollo. Curva de Kaplan-Meier que muestra la probabilidad de ILE de los tres grupos moleculares obtenidos utilizando el listado de 2.160 genes y la técnica de "k-means". ILE, intervalo libre de enfermedad; p, es la probabilidad asociada a que las diferencias encontradas en el ILE entre los subgrupos analizados sean debidas al azar, (x), indica el número de muestras que hay en cada uno de los grupos analizados.

Fig. 7. Muestra la probabilidad de ILE en las muestras de la matriz de validación de acuerdo a la clasificación de 3 grupos moleculares. Curva de Kaplan-Meier que muestra la probabilidad de ILE para las muestras de la matriz de validación (serie externa, Roepman et al.) agrupadas en función de los perfiles moleculares (Grupo 1 , Grupo 2 y Grupo 3) previamente observados en la matriz de desarrollo y definidos a través de un predictor de 1 .000 genes generado con la aplicación "PAM". ILE, intervalo libre de enfermedad; p, es la probabilidad asociada a que las diferencias encontradas en el ILE entre los subgrupos analizados sean debidas al azar, (x), indica el número de muestras que hay que hay en cada uno de los grupos analizados.

Fig. 8. Muestra la probabilidad de ILE en las muestras de la matriz de validación de acuerdo a la clasificación establecida mediante el predictor de 50 genes. Curva de Kaplan-Meier que muestra la probabilidad de ILE de los dos grupos moleculares obtenidos en la matriz de validación utilizando el predictor de 50 genes. ILE, intervalo libre de enfermedad; p, es la probabilidad asociada a que las diferencias encontradas en el ILE entre los subgrupos analizados son debidas al azar, (x) indica el número de muestras que hay en cada una de las ramas de la curva de Kaplan-Meier.

Fig. 9. Probabilidad de ILE en las muestras de la matriz de validación de acuerdo a la clasificación establecida mediante el predictor de 50 genes de manera independiente para estadios I y II. Curva de Kaplan-Meier que muestra la probabilidad de ILE de los dos grupos moleculares obtenidos en la matriz de validación con el predictor de 50 genes generado con la aplicación "PAM" para: A, el estadio I, y B, estadio II. ILE, intervalo libre de enfermedad; p, es la probabilidad asociada a que las diferencias encontradas en el ILE entre los subgrupos analizados son debidas al azar, (x) indica el número de muestras que hay en cada una de las ramas de la curva de Kaplan-Meier.

EJEMPLOS

Los siguientes ejemplos específicos que se proporcionan en este documento de patente sirven para ilustrar la naturaleza de la presente invención. Estos ejemplos se incluyen solamente con fines ilustrativos y no han de ser interpretados como limitaciones a la invención que aquí se reivindica. Por tanto, los ejemplos descritos más adelante ilustran la invención sin limitar el campo de aplicación de la misma.

Ejemplo 1 : Obtención del predictor de 50 genes

Materiales y métodos

1 .1 .1 Selección de pacientes

En este estudio se han incluido 84 pacientes (12 mujeres y 72 varones con media de edad de 66,5 -rango de 36-82 años-) diagnosticados en estadios iniciales (60 pacientes estadio I y 24 pacientes estadio II) de CNMP durante los años 2001 a 2008 en el Hospital Clinico San Carlos (HCSC) de Madrid. Todos los pacientes cumplieron los siguientes criterios de inclusión: pacientes con tumores completamente resecados, sin afectación de ganglios mediastínicos, sin tratamiento quimioterápico y de los cuales existiera material tumoral congelado en el biobanco del HCSC perteneciente al subprograma RETICS del Instituto de Salud Carlos III (número de expediente RD090076/0102). Los datos recogidos para el estudio se dividen en datos clínicos del paciente (edad de diagnóstico, sexo y hábito tabáquico) y datos histológicos del tumor (subtipo histológico, tamaño tumor, estadio tumoral -7- Clasificación TNM (Kligerman S. American Journal of Roentgenology 2010. 194:562-573)-, grado de diferenciación, queratinización, presencia de linfocitos polimorfonucleares - PMN-, afectación ganglionar, mutaciones de k-ras, necrosis, estroma tumoral, inflamación crónica, presencia de linfocitos intratumorales -TIL-, localización por lóbulos pulmonares y tipo de recidiva -loco regional o a distancia-).

1 .1 .2. Muestras tumorales. Extracción y purificación del ARN.

Siguiendo el protocolo de congelación de las muestras incluidas en el biobanco del HCSC, los tumores de CNMP se recogieron inmediatamente después de la cirugía y se congelaron y almacenaron a -80 Q C. Se llevó a cabo la revisión histopatológica de los tumores congelados con el fin de que todos los pacientes incluidos en el estudio tuvieran una representación tumoral como mínimo del 70% en la muestra utilizada. Paralelamente, se recogieron de estos mismos pacientes, muestras de parénquima pulmonar no tumoral que también fueron congeladas siguiendo el mismo protocolo. El ARN proveniente de estas últimas muestras se utilizó para crear la muestra control (un pool de ARN de tejidos normales). En todos los casos, el ácido ribonucleico (ARN o RNA) total fue extraído directamente de las muestras congeladas utilizando Trizol® y un homogeneizador de tejidos. Posteriormente fue tratado con DNAsa y cuantificado en el espectofotómetro NanoDrop ND-1000®. La calidad del ARN extraído se midió en Bioanalyzer 2100® mediante el RIN (o Número de Integridad del ARN) y únicamente las muestras con una buena calidad de ARN (RIN > 7,5), fueron incluidas para el estudio.

1 .1 .3. Perfil de expresión por microarrays.

El perfil de expresión de los 84 tumores se determinó utilizando microarrays de oligonucleótidos de genoma completo de Agilent® (G41 12F) siguiendo el protocolo suministrado por el fabricante. Brevemente, se utilizó doble mareaje, con cianina-5 (Cy5) para cada uno de los 84 tumores incluidos en el estudio y con cianina-3 (Cy3) para la muestra control, compuesta por un "pool" de 42 muestras de parénquima no tumoral de pulmón. Esta muestra control se introdujo en cada uno de los experimentos (la misma en todos ellos) para poder identificar y corregir las variaciones técnicas introducidas durante la fase experimental del análisis. Tras esta corrección (denominada normalización) el dato generado es el ratio entre la fluorescencia del tumor y la muestra control. Durante las etapas de mareaje e hibridación se incluyeron los "Spikelns", que son 10 transcritos control sintetizados in vitro que derivan del transcriptoma del Adenovirus E1 A, que no interaccionan con el ARNm humano y cuya concentración inicial es conocida. El conocimiento "a priori" de la concentración inicial de cada uno de los "Spikelns", nos permite predecir a qué nivel de fluorescencia deberían emitir estos transcritos una vez hibridados en el microarray y por tanto poder utilizarlos como control de calidad de la fase experimental. Los microarrays fueron escaneados y cuantificados usando el escáner de Agilent® y el programa Feature Extraction® (10.7.3) respectivamente. Para la normalización de los datos extraídos se utilizó la técnica Lowess o "Locally Weighted Scatterplot Smoothing". {Cleveland WS: Journal of the American statistical Association 1979, 74:829-836; Cleveland WS, et al. Journal of the American Statistical Association 1988, 83:596-610.)

1 .1 .4. Análisis de datos

Para la obtención del método de la invención, se partió de un listado inicial de 41 .000 sondas presentes en el microarrays de oligonucleotidos de genoma completo de Agilent®. A partir de un proceso de filtrado se llegó hasta una clasificación molecular que finalmente derivó en la creación del predictor de la invención compuesto por sólo 50 genes. El método se desarrolló siguiendo los siguientes pasos de filtrado:

1 .- Filtrado por "flags": exclusión de sondas con baja fluorescencia o con problemas durante el proceso de hibridación en más de un 10% de las muestras. El nuevo listado incluía 24.617 sondas.

2.- Promedio de las sondas con el mismo identificador con el objetivo de trabajar con valores de expresión únicos para cada gen. El nuevo listado incluía 17.881 genes.

3.- Filtrado por expresión: selección de genes con una variación de expresión al menos de 3 veces respecto a la mediana de ese gen en al menos el 10% de las muestras. El nuevo listado incluyó un total de 3.232 genes (Fig. 3). Una vez generados los grupos moleculares a partir de este listado de 3.232 genes, se evaluó la clasificación molecular obtenida para conocer si existía o no asociación con el intervalo libre de enfermedad (ILE) (Fig. 4). 4.- Filtrado histológico: se eliminaron los genes que caracterizan las diferencias histológicas entre los principales subtipos histológicos del CNMP (adenocarcinoma y carcinoma escamoso). Para ello, se seleccionaron los genes diferencialmente expresados (p-valor < 0,01 y diferencia de expresión > 1 ,5) y el listado generado (1 .072 genes) se excluyó del listado inicial (3.232 genes). Se genera por tanto un listado de 2.160 genes (genes que se muestran en la tabla 2) que se utilizan para la clasificación molecular final de los 84 tumores. La estrategia utilizada para el descubrimiento de los grupos moleculares consistió en aplicar en primer lugar un método de análisis no supervisado, agrupamiento o "clustering" jerárquico (Fig. 5A), y a continuación un perfeccionamiento de los grupos moleculares obtenidos mediante un segundo método, método de k-Means (Fig. 5B), el cual permite disminuir la heterogeneidad intra-grupo y aumentar la variabilidad inter-grupo. El listado de 2.160 genes se usa para construir inicialmente la clasificación molecular (que tiene 3 grupos). Una vez generados estos grupos moleculares, se evaluó la clasificación molecular obtenida para conocer si existía o no asociación con el intervalo libre de enfermedad (ILE) (Fig. 6). El ILE se define como el tiempo que transcurre desde la fecha de la cirugía hasta que se confirma la recidiva del paciente.

En el análisis estadístico se han utilizado curvas de Kaplan-Meier y el test log- rank para evaluar la probabilidad de cada subtipo molecular respecto a la recidiva (Clark TG. British Journal of Cáncer 2003. 89: 232-238). Además, con el método de regresión proporcional de Cox se calcula el "hazard ratio" para los grupos moleculares.

Asimismo, se realizó un análisis de las vías moleculares que se encuentran alteradas de manera significativa entre los grupos moleculares obtenidos. Se llevó a cabo utilizando la herramienta GSEA ("Gene Set Enrichment Análisis" o análisis de enriquecimiento de conjuntos de genes) (Subramanian A et al. PNAS 2005 102 (43) 15545-15550 y Mootha VK et al. Nat Gen 2003). Sólo se evaluaron las vías moleculares con una representación mínima de más de 15 genes y se utilizaron 100.000 permutaciones para asegurar los resultados. Para obtener los resultados de GSEA se partió del listado original de 17.881 genes ya que cuando se analizan vías moleculares conviene incluir todos los genes disponibles que cumplan los controles de calidad (17.881 genes), ya que diferencias no significativas de expresión en un grupo de genes pueden sin embargo ser claves, para definir qué caminos de señalización ("pathways") están alterados entre los grupos.

1 .1 .5. Validación de los 3 grupos moleculares en una serie externa.

Para la validación de la clasificación molecular obtenida, se utilizó la matriz de datos publicada por el grupo de Roepman y colaboradores (Roepman P et al. Clin Cáncer Res 2009. 15:284-290). La matriz de validación incluye los datos de expresión de 162 pacientes diagnosticados de los mismos subtipos histológicos que los de la invención.

El termino "matriz de entrenamiento" o "matriz de desarrollo" se refiere a las muestras del biobanco del HCSC (n= 84). El término "matriz de validación" se refiere al conjunto de muestras publicado por Roepman et al utilizado para la validación de la clasificación molecular. Por "matriz" se entiende el conjunto de datos de expresión obtenidos en una serie de pacientes mediante microarrays.

Para la validación se ha generado una matriz de datos común que incluye 246 muestras (84 de la matriz de desarrollo + 162 de la matriz de validación) cada una de ellas con 17.881 genes. Con la matriz de desarrollo se obtuvo un predictor, mediante la aplicación PAM (Análisis de Predicción de Microarray) (Tibshirani R. et al. PNAS 2002; 99(10):6567-72) que fue evaluado en la matriz de validación estudiando su asociación, mediante la curva de Kaplan-Meier, con el ILE. El modelo de regresión proporcional Cox se utilizó para confirmar el poder pronóstico de nuestro predictor.

1 .1 .6. Obtención y validación del Predictor de 50 genes. Los 3 grupos moleculares generados mediante el filtrado histológico, se agruparon en 2 grupos, grupo de buen pronóstico o grupo 3 y grupo de mal pronostico o grupo 1 +2, debido a la similitud pronostica de ambos grupos moleculares. Así, con dos grupos y partiendo de 2.160 genes se seleccionan, mediante la aplicación de PAM, 50 genes (los genes de la invención que se muestran en la tabla 1 ) capaces de clasificar nuevas muestras en base a estos dos grupos pronóstico en CNMP de estadios I o II. En base a este predictor de 50 genes, las muestras de la matriz de validación fueron clasificadas en el grupo de buen pronóstico o en el de mal pronóstico. Las curvas de Kaplan- Meier y el modelo de regresión proporcional de Cox se utilizaron para validar el poder pronóstico de nuestro predictor (Figs.8, 9A y 9B).

1 .1 .7. Explicación del análisis con PAM (Tibshirani R. et al. PNAS. 2002, 99:6567-6572).

Para ejemplificar esta descripción, utilizaremos como ejemplo la creación del predictor de 50 genes para dos grupos moleculares (buen y mal pronóstico) mencionados en el apartado anterior. Así pues, usando como herramienta de clasificación la aplicación PAM, el proceso de clasificación pronostica, requiere como punto de partida el cálculo de un "valor de referencia" para cada uno de los dos grupos. Estos "valores de referencia" se obtienen a partir de las muestras de los pacientes que conforman la denominada "matriz de entrenamiento" o "matriz de desarrollo" y de los que "a priori" se conoce su clasificación (pues fueron con ellas con las que se definió lo que era el grupo de buen y mal pronóstico). A partir de los pacientes del grupo de buen pronóstico obtendremos el "valor 1 de referencia" y a partir de los pacientes del grupo de mal pronóstico obtendremos el "valor 2 de referencia". Cada uno de los valores de referencia vendrá expresado como un vector de 50 componentes (una por cada uno de los genes de la invención) y se calculará como la suma de dos subvectores cada uno de ellos expresados también con 50 componentes. El primer subvector es común para los dos valores de referencia mientras que el segundo es específico para cada uno de los dos valores de referencia que se quieren calcular. El primer subvector consta de 50 componentes, cada una de las cuales corresponde al valor medio de expresión de uno de los 50 genes a lo largo de todas las muestras que conforman la matriz de entrenamiento o desarrollo independientemente del grupo en el que se encuentren clasificadas (es decir los 84 tumores de nuestra matriz). El segundo subvector también vendrá definido por 50 componentes (cada una de las cuales representa un gen) que vendrán definidas por un estadístico "t" que compara para dicho gen las diferencias entre el primer subvector y el valor medio de expresión de ese gen en las muestras incluidas en el grupo para el que se quiere calcular el valor de referencia (o bien el grupo de buen pronostico (29 muestras) o bien el grupo de mal pronóstico (55 muestras)). Los datos del segundo subvector serán estandarizados teniendo en cuenta, la variabilidad de expresión de cada uno de los 50 genes dentro del grupo analizado y teniendo en cuenta un valor de convergencia Δ que permite evaluar el poder predictivo de cada uno de los genes. Las transformaciones mencionadas harán que aunque el "valor de referencia" o "shrunken centroid" obtenido para cada grupo se basa en valores de expresión, su valor real sea adimensional y no sea un reflejo de los datos de fluorescencia iniciales de cada muestra. Una vez calculado el "valor de referencia" o "shrunken centroid" para cada grupo, el PAM es capaz de asignar las nuevas muestras, que en este ejemplo conformaron la matriz de validación (162 muestras), a cada uno de los grupos previamente definidos. La aplicación de esta invención para conocer el pronóstico de los nuevos pacientes se realiza calculando la distancia entre los valores de expresión de los 50 genes de la nueva muestra con respecto a las 50 componentes del "valor de referencia" o "shrunken centroid" de cada grupo. Si la distancia entre la nueva muestra y el "valor 1 de referencia" es menor que la distancia entre la nueva muestra y el "valor 2 de referencia", se podrá determinar el pronóstico favorable para el nuevo paciente. Por el contrario, si la distancia entre la nueva muestra y el "valor 1 de referencia" es mayor que la distancia entre la nueva muestra y "valor 2 de referencia", se podrá determinar el pronóstico desfavorable para el nuevo paciente. Durante estos últimos cálculos también se introducen factores que corrigen el resultado teniendo en cuenta la variabilidad de expresión dentro de los grupos y la probabilidad de pertenecer a un determinado grupo teniendo en cuenta su tamaño muestral con respecto al de la población analizada. La cuantificación de las distancias se mide utilizando la distancia euclídea. 1.2.- RESULTADOS

1 .2.1 . Análisis de asociación del ILE con las variables clínicas e histopatológicas.

Se llevó a cabo un primer análisis estadístico para comprobar si existía una asociación entre las variables histopatológicas más importantes en el manejo rutinario del CNMP (la clasificación histológica del tumor, el estadio, etc.), con el ILE. Las curvas de Kaplan-Meier obtenidas no mostraron una asociación estadísticamente significativa del ILE con el tipo histopatológico (Fig. 1 ), el estadio (Fig. 2) o con cualquier otra variable analizada (datos no mostrados). Solamente la presencia de mutaciones en el gen K-Ras mostró una tendencia hacia la asociación con un peor pronóstico (p=0,07).

1 .2.2. Grupos moleculares a partir de 3.232 genes.

Mediante el método de clustering jerárquico (centrado de Pearson y Average linkage (Quackenbush J. Nat Rev Genet. 2001 ;2(6):418-27) se identifican dos subtipos moleculares principales que muestran una clara asociación con los subtipos histológicos más representados en nuestra serie, separando molecularmente, los tumores del subtipo adenocarcinoma de los tumores del subtipo escamoso (Fig. 3). Estos 2 subtipos moleculares no muestran diferencias estadísticamente significativas con el ILE (p = 0,350) (Fig. 4).

A la vista de estos resultados, concluimos que los grupos moleculares obtenidos utilizando el listado de 3.232 genes (que son los genes que varían su expresión al menos de 3 veces respecto a la mediana de ese gen en al menos el 10% de las muestras; paso 3 del filtrado anteriormente explicado) se encuentran condicionados por la histología de los tumores. Es importante destacar que no existen diferencias estadísticamente significativas en el tiempo de recidiva cuando se comparan ambos grupos moleculares y recordar que tampoco existían cuando se comparaban ambos grupos clasificados según criterios histológicos. Teniendo en cuenta que el criterio oncológico para el manejo de los pacientes de CNMP nos indica que la histología de los tumores sólo es importante en la enfermedad metastásica (estadio IV) y sólo en relación con el tratamiento indicado, excluimos del listado inicial de 3.232 genes aquellos que caracterizan las diferencias histológicas de los 84 tumores mediante un filtrado que incluía: T-Test a p<0,01 con corrección para comparaciones múltiples de Benjamini and Hochberg (B&H) (Benjamini Y and Hochberg Y. Journal of the Royal Statistical Society. 1995) y una diferencia de expresión de más de 1 ,5 veces. Los genes que cumplieron estos criterios de filtrado fueron excluidos, resultado un listado de 2.160 genes que se utilizaron para la obtención de la clasificación molecular y que son los genes incluidos en la tabla 2.

1 .2.3. Grupos moleculares con 2.160 genes. Asociación con ILE.

Tras la agrupación de los 84 pacientes según el perfil de expresión génica utilizando el listado de 2.160 genes y el método de clustering jerárquico (Fig. 5A) posteriormente perfeccionado por el método de k-means, se obtuvieron 3 grupos moleculares que se denominaron como Grupo 1 , Grupo 2 y Grupo 3 (Fig. 5B).

Estos tres grupos se asociaron de manera estadísticamente significativa con el ILE (log-rank p=0,004), mostrando en la curva de Kaplan-Meier, 2 grupos moleculares de mal pronóstico respecto a la recidiva (Grupo 1 y Grupo 2) y un grupo molecular de buen pronóstico (Grupo 3) (Fig. 6). El "Hazard ratio" (HR, es decir, el riesgo o probabilidad de recaída que tiene un grupo con respecto a otro) de los grupos de mal pronóstico frente al grupo de buen pronóstico es de 6,4 para el Grupo 1 (IC 95%: 1 ,8-22,3; p = 0,004) y de 4,9 para el Grupo 2 (IC 95%: 1 ,4-17,8; p = 0,014). No existe diferencia estadísticamente significativa para el riesgo entre el Grupo 1 y el Grupo 2 (p=0,526). a) - Análisis multivariante

En este análisis se incluyeron las mutaciones para k-ras por presentar tendencia (p=0,07) para la asociación con el ILE y la clasificación por Estadio ya que es el principal factor pronóstico para el CNMP.

Después de ajustar por Estadio y por el estatus de K-ras, el modelo multivariante de riesgos proporcionales de Cox confirmó la clasificación molecular como factor pronóstico independiente para evaluar el riesgo de recidiva (HR Grupo 1 vs. 3 = 1 1 .170; 95% Cl: 2,9 a 43,4; p = 4,9E-04; HR Grupo 2 vs. 3 = 7,521 ; 95% Cl: 2,0 a 28,8; p = 0,003); HR Grupo 1 vs. 2= no significativo). b) -. Estudio de vías moleculares.

Se observó que la clasificación molecular en 3 grupos estaba relacionada con la implicación de vías moleculares relacionadas con sistema inmune como la vía de Células T, Células B, Inflamación y respuesta Th1 que diferencian el Grupo 3 del Grupo 2 y especialmente el Grupo 3 del Grupo 1 . Por otro lado, la alteración de genes implicados en vías de ciclo celular y mecanismos de reparación del ADN confiere las principales diferencias biológicas entre el Grupo 2 y el Grupo 1 . c) - Análisis estadístico de las variables clínicas e histológicas incluidas en el estudio.

Respecto a las variables clínicas de los pacientes incluidas en el estudio, el hábito tabáquico se asoció de manera estadísticamente significativa con la clasificación molecular obtenida (p=0,002). En el caso de las variables histológicas del tumor, la afectación ganglionar (p=0,041 ), a pesar de tener solamente 3 pacientes diagnosticados con N1 , y la inflamación crónica (p=0,001 ) también se asocian de manera estadísticamente significativa con los subtipos moleculares. d)- Validación en serie externa y obtención de predictor para 3 grupos moleculares.

Utilizando la matriz de desarrollo (84 tumores) se obtuvo, mediante el uso de PAM, un primer predictor de 1 .000 genes que identificaba los pacientes en los 3 grupos moleculares, dos de mal pronóstico (grupo 1 y grupo 2) y uno de buen pronóstico (grupo 3). Para la evaluación del poder pronóstico de dicho predictor, se utilizaron los datos de los 162 tumores de la matriz de validación. Estas muestras fueron clasificadas en los 3 grupos moleculares utilizando dicho predictor (1 .000 genes). La curva de Kaplan-Meier para las muestras de la matriz de validación reveló una asociación estadísticamente significativa de estos tres grupos moleculares con el ILE (log-rank p=0,022) (Fig. 7). El "Hazard Ratio" (HR) de los grupos de mal pronóstico frente al de buen pronóstico es de 2,4 veces para el Grupo 1 (p=0,012) y de 2,5 veces para el Grupo 2 (p=0,019).

1 .2.4. Obtención del predictor de 50 genes.

Como se observó con anterioridad en los resultados obtenidos en la matriz de desarrollo, de los tres grupos obtenidos mediante análisis de expresión génica, el comportamiento del Grupo 1 y el Grupo 2 es similar respecto a la recidiva, no existiendo diferencia estadística significativa para el riesgo entre estos dos grupos (p=0,526). Por ello, ambos grupos se englobaron en uno sólo y se generó un segundo predictor de 50 genes, mediante PAM, para diferenciar pacientes de mal pronóstico (Grupo 1 y 2) y pacientes de buen pronóstico (Grupo 3). En la tabla 3 se incluye el valor del centroide compacto ("shrunken centroid") para los grupos de buen y mal pronóstico obtenidos con las muestras de la matriz de desarrollo. Este segundo predictor engloba los denominados "50 genes de la invención" (ver tabla 1 ) y la evaluación del poder pronóstico del mismo se llevó a cabo de nuevo en la matriz de validación, obteniendo las curvas de Kaplan-Meier que muestran una asociación estadísticamente significativa de los dos grupos obtenidos con el ILE (log-rank p=0,001 ) (Fig. 8). El HR para el Grupo de mal pronóstico es de 3,4 frente al de buen pronóstico (IC 95%: 1 ,6-7,3; p=0,001 ). 1 .2.5. Utilidad del predictor de 50 genes en CNMP separados por estadio.

Una de las principales críticas aparecidas en el estado del arte (Subramanian J. et al. J Nati Cáncer Inst 2010;102:1 -1 1 ) respecto a la utilidad de los predictores generados para el CNMP es que es necesario demostrar su utilidad para predecir el pronóstico de los pacientes de manera independiente del estadio en el que se clasificaron. Para ello, separamos los 162 pacientes de la matriz de validación en pacientes clasificados en estadio I (1 10 pacientes) y clasificados como estadio II (52 pacientes). Se utilizó el predictor de 50 genes para obtener los grupos moleculares de alto y bajo riesgo (es decir, de mal y buen pronóstico, respectivamente) y se estudió su asociación con el ILE mediante las curvas de Kaplan-Meier. Tanto en estadios I por separado (Fig. 9 A) como en estadios II (Fig. 9 B) se observó una asociación estadísticamente significativa de los grupos con el ILE (p=0,013 y p=0,029 respectivamente) y los HR del grupo de mal pronóstico respecto del de buen pronóstico fueron en el estadio I de 3,2 (IC 95%:1 ,2-8,3; p=0,018) y en el estadio II de 3,5 (IC 95%:1 ,1 -12; p=0,041 ).

1 .2.6. Sensibilidad y especificidad del predictor de 50 genes.

Los valores de sensibilidad y especificidad del predictor para la clasificación de las muestras en los grupos moleculares identificados se muestran en la tabla 4.

Por lo tanto, y en base a los resultados mostrados, la presente invención demuestra la utilidad del método de la invención, así como del uso de los 50 genes descritos en la tabla 1 como marcadores pronóstico del CNMP de estadios I o II.

A continuación se muestra la tabla 2 a la que se ha hecho referencia previamente. Cuando el "ID Entrez" no está indicado o es se trata de genes de los que no hay información en la base de datos NCBI y en los que en el símbolo del gen se ha indicado el nombre de la sonda del microarray de oligonucleótidos de genoma completo utilizado (Agilent®, G41 12F).