Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND SYSTEM FOR THE AUTOMATIC SEGMENTATION OF WHITE MATTER HYPERINTENSITIES IN BRAIN MAGNETIC RESONANCE IMAGES
Document Type and Number:
WIPO Patent Application WO/2021/058843
Kind Code:
A1
Abstract:
The present invention relates to a method and a system for the segmentation of white matter hyperintensities (WMHs) present in brain magnetic resonance images, comprising: providing an array of trained convolutional neural networks (CNNs) with a brain magnetic resonance image; determining, for each of the CNNs and for each voxel, the probability that the given voxel corresponds to a pathological hyperintensity; calculating the average of all the probabilities determined for each voxel; comparing the averaged probabilities for each voxel with a threshold; generating an image mask with the voxels that exceed the threshold.

Inventors:
JIMÉNEZ PASTOR ANA MARÍA (ES)
CAMACHO RAMOS EDUARDO (ES)
GARCÍA CASTRO FABIO (ES)
ALBERICH BAYARRI ÁNGEL (ES)
PUIG ALCÁNTARA JOSEP (ES)
BIARNES DURÁN CARLES (ES)
MARTÍ BONMATÍ LUIS (ES)
PEDRAZA GUTIÉRREZ SALVADOR (ES)
Application Number:
PCT/ES2020/070069
Publication Date:
April 01, 2021
Filing Date:
January 30, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
QUIBIM S L (ES)
International Classes:
G06N3/04
Domestic Patent References:
WO2018140596A22018-08-02
WO2019109410A12019-06-13
WO2018229490A12018-12-20
Foreign References:
US20180260951A12018-09-13
CN109872328A2019-06-11
CN109993735A2019-07-09
CN109886273A2019-06-14
CN109993809A2019-07-09
CN108171711A2018-06-15
CN109410167A2019-03-01
CN110189334A2019-08-30
Other References:
XU BOTIAN ET AL.: "Orchestral fully convolutional networks for small lesion segmentation in brain MRI", IEEE 15TH INTERNATIONAL SYMPOSIUM ON BIOMEDICAL IMAGING (ISBI 2018, 4 April 2018 (2018-04-04), pages 889 - 892, XP033348292, DOI: 10.1109/ISBI.2018.8363714
BERNAL JOSE ET AL., DEEP CONVOLUTIONAL NEURAL NETWORKS FOR BRAIN IMAGE ANALYSIS ON MAGNETIC RESONANCE IMAGING: A REVIEW, XP085638002
KARIMI DAVOOD ET AL.: "Reducing the Hausdorff Distance in Medical Image Segmentation With Convolutional Neural Networks", IEEE TRANSACTIONS ON MEDICAL IMAGING, vol. 39, no. 2, 19 July 2019 (2019-07-19), Piscataway, Nj, Us, pages 499 - 513, XP011769481, ISSN: 0278-0062, DOI: 10.1109/TMI.2019.2930068
Attorney, Agent or Firm:
ARIZTI ACHA, Mónica (ES)
Download PDF:
Claims:
REIVINDICACIONES

1. Método para segmentar hiperintensidades de sustancia blanca presentes en imágenes cerebrales de resonancia magnética, caracterizado por que comprende: proporcionar una imagen cerebral de resonancia magnética (1) a un conjunto de redes neuronales convolucionales (11, 12, 13, 14), entrenadas previamente; identificar los vóxels de la imagen que contienen hiperintensidades de sustancia blanca; determinar, por cada una de las redes neuronales convolucionales y para cada vóxel, una probabilidad de que la hiperintensidad identificada se corresponda con una hiperintensidad patológica definida previamente; promediar todas las probabilidades determinadas para cada vóxel; comparar las probabilidades promediadas para cada vóxel con un umbral establecido previamente; y generar una máscara de imagen con los vóxels que superan el umbral.

2. Método de acuerdo a la reivindicación 1 que además comprende un preprocesado de la imagen proporcionada que comprende: dimensionar cada sección 2D de la imagen a un tamaño de 256x256; escalar los valores de intensidad de cada sección 2D entre 0 y 1 , de acuerdo a la ecuación: donde, I es la sección 2D a escalar, l¡j el valor de intensidad en la fila i y la columna j, min(l) es el valor mínimo de la sección y max(l) es su valor máximo; y estandarizar cada vóxel restando la media de un conjunto de datos de entrenamiento y dividiendo por la desviación estándar del conjunto de datos de entrenamiento, de acuerdo a la siguiente ecuación: donde, G es la intensidad escalada; m es la intensidad media del conjunto de datos de entrenamiento escalado y s es la desviación estándar del conjunto de datos de entrenamiento escalado. 3. Método de acuerdo a cualquiera de las reivindicaciones anteriores donde el conjunto de redes neuronales convolucionales comprende una red neuronal convolucional estándar (11), una red neuronal convolucional residual (12), una red neuronal convolucional dilatada (13) y una red neuronal convolucional residual dilatada (14), todas ellas basadas en una arquitectura codificador-decodificador.

4. Método de acuerdo a cualquiera de las reivindicaciones anteriores donde determinar la probabilidad de que la hiperintensidad identificada en un vóxel se corresponda con una hiperintensidad patológica comprende:

- filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética, en unas capas convolucionales (21) de cada una de las redes neuronales convolucionales;

- reducir la imagen, por unas capas de reducción intermedias (22) intercaladas entre las capas convolucionales dispuestas en una ruta de codificación;

- aumentar la imagen, por unas capas convolucionales de transposición (23) intercaladas entre las capas convolucionales dispuestas en una ruta de decodificación;

- refinar la salida de la red neuronal convolucional mediante unas capas de supervisión profunda (26); y

- obtener un mapa de probabilidad, por una función de activación sigmoidea (24).

5. Método de acuerdo a cualquiera de las reivindicaciones anteriores que además comprende generar, por cada una de las redes neuronales convolucionales, un mapa de probabilidades (16, 17, 18, 19) con todas las probabilidades determinadas para cada vóxel de la imagen.

6. Método de acuerdo a cualquiera de las reivindicaciones anteriores, donde promediar todas las probabilidades determinadas por las redes neuronales convolucionales para cada vóxel, además comprende generar un mapa de probabilidad total (2).

7. Método de acuerdo a cualquiera de las reivindicaciones anteriores que además comprende establecer el umbral en un 50% de probabilidad para incluir cada vóxel en la máscara de imagen.

8. Método de acuerdo a cualquiera de las reivindicaciones anteriores donde el entrenamiento de las redes neuronales convolucionales comprende aplicar una función de pérdidas Tversky para equilibrar un desbalanceo entre el número de vóxels que superan el umbral establecido previamente y los que no lo superan.

9. Sistema para segmentar hiperintensidades de sustancia blanca presentes en imágenes cerebrales de resonancia magnética, caracterizado por que comprende:

- una disposición de redes neuronales convolucionales (11, 12, 13, 14) configuradas para recibir una imagen cerebral de resonancia magnética (1), identificar los vóxels de la imagen que contienen hiperintensidades de sustancia blanca y determinar, por cada una de dichas redes, una probabilidad para cada vóxel de que la hiperintensidad identificada se corresponda con una hiperintensidad patológica definida previamente; y

- un módulo procesador (5) configurado para promediar todas las probabilidades determinadas para cada vóxel, comparar las probabilidades promediadas para cada vóxel con un umbral establecido previamente, y generar una máscara de imagen con los vóxels que superan el umbral.

10. Sistema de acuerdo a la reivindicación 9 donde la disposición de redes neuronales comprende al menos una red neuronal convolucional estándar (11) que comprende:

- unas capas convolucionales (21) configuradas para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética;

- unas capas de reducción (22) intercaladas entre las capas convolucionales (21) en una ruta de codificación, configuradas para reducir la imagen;

- unas capas de transposición (23) intercaladas entre las capas convolucionales (21) en una ruta de decodificación, configuradas para aumentar la imagen;

- una sección de cuello de botella (25) entre la ruta de codificación y la ruta de decodificación;

- una capa de activación sigmoidea (24), configurada para generar un mapa de probabilidad; y

- unas capas de supervisión profunda (26), configuradas para combinar la salida de las capas convolucionales (21) de la ruta de decodificación.

11. Sistema de acuerdo a cualquiera de las reivindicaciones 9-10 donde la disposición de redes neuronales comprende al menos una red neuronal convolucional residual (12) que comprende:

- unos bloques residuales (30) configurados para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética;

- unas capas de reducción (22) intercaladas entre los bloques residuales (30) en una ruta de codificación, configuradas para reducir la imagen;

- unas capas de transposición (23) intercaladas entre los bloques residuales (30) en una ruta de decodificación, configuradas para aumentar la imagen;

- una sección de cuello de botella (25) entre la ruta de codificación y la ruta de decodificación;

- una capa de activación sigmoidea (24), configurada para generar un mapa de probabilidad; y

- unas capas de supervisión profunda (26), configuradas para combinar la salida de las capas convolucionales (21) de la ruta de decodificación.

12. Sistema de acuerdo a cualquiera de las reivindicaciones 9-11 donde la disposición de redes neuronales comprende al menos una red neuronal convolucional dilatada (13) que comprende

- unas capas convolucionales (21) configuradas para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética;

- unas capas de reducción (22) intercaladas entre las capas convolucionales (21) en una ruta de codificación, configuradas para reducir la imagen;

- unas capas de transposición (23) intercaladas entre las capas convolucionales (21) en una ruta de decodificación, configuradas para aumentar la imagen;

- una sección de cuello de botella (25) entre la ruta de codificación y la ruta de decodificación, donde dicha sección comprende unas capas convolucionales dilatadas (40) con diferentes tasas de dilatación;

- una capa de activación sigmoidea (24), configurada para generar un mapa de probabilidad; y

- unas capas de supervisión profunda (26), configuradas para combinar la salida de las capas convolucionales (21) de la ruta de decodificación.

13. Sistema de acuerdo a cualquiera de las reivindicaciones 9-12 donde la disposición de redes neuronales comprende al menos una red neuronal convolucional residual-dilatada (14) que comprende:

- unos bloques residuales (30) configurados para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética;

- unas capas de reducción (22) intercaladas entre los bloques residuales (30) en una ruta de codificación, configuradas para reducir la imagen;

- unas capas de transposición (23) intercaladas entre los bloques residuales (30) en una ruta de decodificación, configuradas para aumentar la imagen;

- una sección de cuello de botella (25) entre la ruta de codificación y la ruta de decodificación, donde dicha sección comprende unas capas convolucionales dilatadas (40) con diferentes tasas de dilatación;

- una capa de activación sigmoidea (24), configurada para generar un mapa de probabilidad; y

- unas capas de supervisión profunda (26), configuradas para combinar la salida de las capas convolucionales (21) de la ruta de decodificación.

14. Sistema de acuerdo a las reivindicaciones 9-13 donde la disposición de redes neuronales está compuesta por la red neuronal convolucional estándar (11), la red neuronal convolucional residual (12), la red neuronal convolucional dilatada (13) y la red neuronal convolucional residual-dilatada (14), todas ellas configuradas a un tamaño de entrada de imagen de 256x256, y donde todas las capas convolucionales tienen un campo receptivo de 3x3 seguido de una capa de normalización de lotes y una capa de unidad lineal rectificada.

Description:
MÉTODO Y SISTEMA PARA LA SEGMENTACIÓN AUTOMÁTICA DE HIPERINTENSIDADES DE SUSTANCIA BLANCA EN IMÁGENES DE RESONANCIA

MAGNÉTICA CEREBRAL

DESCRIPCIÓN

OBJETO DE LA INVENCIÓN

La presente invención se refiere al campo técnico del análisis asistido por computador de imágenes médicas y más concretamente al procesado mediante redes neuronales convolucionales de imágenes obtenidas por resonancia magnética, para una segmentación automática de las imágenes en función del volumen de leucoaraiosis, especialmente útil para el estudio de radiólogos-neurólogos sobre posibles lesiones cerebrales.

ANTECEDENTES DE LA INVENCIÓN

Actualmente, las imágenes de resonancia magnética son una herramienta de diagnóstico preliminar utilizada habitualmente para detectar alteraciones en los tejidos. Específicamente, en el ámbito de la neuro-radiología, es utilizada por los especialistas, entre otras cosas, para diagnosticar lesiones de sustancia blanca.

Las lesiones de sustancia blanca se observan en las imágenes de resonancia magnética como hiperintensidades en la secuencia de inversión-recuperación en la atenuación del fluido (FLAIR), sin embargo, no todas las hiperintensidades observadas se corresponden a lesión, sino que también aparecen otras hiperintensidades fisiológicas, como la línea del epéndimo (una capa de células que recubre los ventrículos cerebrales), el cortex cerebral y el cráneo.

En este contexto, el volumen de leucoaraiosis se utiliza en medicina precisamente para detectar la pérdida difusa de densidad en varias regiones de la sustancia blanca del cerebro. No obstante, no se trata de un diagnóstico, sino de un hallazgo radiológico relacionado con alteraciones de la sustancia blanca (hiperintensidades en este caso) y que se detecta mediante imágenes obtenidas por, entre otras técnicas, resonancia magnética. Es decir, la leucoaraiosis es un término de neuroimagen descriptivo que aparece tanto en personas con buena salud como con distintas situaciones clínicas y patológicas, entre ellas la enfermedad de Alzheimer y otras demencias, aunque no existe ningún síntoma específico asociado.

El trabajo requerido a los neurólogos-radiólogos especialistas para interpretar estas imágenes resulta ser de muy alta precisión, no solo para realizar su diagnóstico, sino simplemente para diferenciar las zonas susceptibles de estudio de las que no.

El estado del arte contempla algunos sistemas de ayuda para los especialistas basados en inteligencia artificial para la segmentación las imágenes, pero no resultan lo suficientemente robustos como para ofrecer la precisión requerida en este campo de aplicación tan específico.

Por tanto, se echa en falta en el estado del arte una solución de tratamiento de imagen de alta precisión para la segmentación automática de imágenes de resonancia magnética, que pueda servir de ayuda a los especialistas en sus posteriores diagnósticos y estudios de lesiones de sustancia blanca.

DESCRIPCIÓN DE LA INVENCIÓN

Con el fin de alcanzar los objetivos y evitar los inconvenientes mencionados anteriormente, la presente invención describe, en un primer aspecto un método para segmentar hiperintensidades de sustancia blanca presentes en imágenes cerebrales de resonancia magnética que comprende: proporcionar una imagen cerebral de resonancia magnética a un conjunto de redes neuronales convolucionales, entrenadas previamente; identificar los vóxels de la imagen que contienen hiperintensidades de sustancia blanca; determinar, por cada una de las redes neuronales convolucionales y para cada vóxel, una probabilidad de que la hiperintensidad identificada se corresponda con una hiperintensidad patológica definida previamente; promediar todas las probabilidades determinadas para cada vóxel; comparar las probabilidades promediadas para cada vóxel con un umbral establecido previamente; y generar una máscara de imagen con los vóxels que superan el umbral.

Adicionalmente, en una de las realizaciones de la invención se contempla un preprocesado de la imagen proporcionada que comprende: dimensionar cada sección 2D de la imagen a un tamaño de 256x256; escalar los valores de intensidad de cada sección 2D entre 0 y 1, de acuerdo a la ecuación: r h,j ~ min (/)

1,7 max(/) — min (/) donde, I es la sección 2D a escalar, l¡ el valor de intensidad en la fila i y la columna j, min(l) es el valor mínimo de la sección y max(l) es su valor máximo; y estandarizar cada vóxel restando la media de un conjunto de datos de entrenamiento y dividiendo por la desviación estándar del conjunto de datos de entrenamiento, de acuerdo a la siguiente ecuación: donde, I 1 es la intensidad escalada; m es la intensidad media del conjunto de datos de entrenamiento escalado y s es la desviación estándar del conjunto de datos de entrenamiento escalado.

En una de las realizaciones de la presente invención, el conjunto de redes neuronales convolucionales comprende una red neuronal convolucional estándar, una red neuronal convolucional residual, una red neuronal convolucional dilatada y una red neuronal convolucional residual dilatada, todas ellas basadas en una arquitectura codificador- decodificador. Ventajosamente, la combinación de dichas redes neuronales produce mejores resultados que los ofrecidos al utilizarlas de manera aislada.

Para determinar la probabilidad de que la hiperintensidad identificada en un vóxel se corresponda con una hiperintensidad patológica, de acuerdo a una de las realizaciones de la invención, se contemplan los siguientes pasos: filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética, en unas capas convolucionales de cada una de las redes neuronales convolucionales; reducir la imagen, por unas capas de reducción intermedias intercaladas entre las capas convolucionales dispuestas en una ruta de codificación; aumentar la imagen, por unas capas convolucionales de transposición intercaladas entre las capas convolucionales dispuestas en una ruta de decodificación; refinar la salida de la red neuronal convolucional mediante unas capas de supervisión profunda; y definir un mapa de probabilidad de presencia de hiperintensidad, por una función de activación sigmoidea.

En una de las realizaciones de la invención, se contempla generar, por cada una de las redes neuronales convolucionales, un mapa de probabilidad con la probabilidad determinada para cada vóxel de la imagen.

En una de las realizaciones de la invención, se contempla generar un mapa de probabilidad total que representa, promediadas para cada vóxel, las probabilidades determinadas por las redes neuronales convolucionales para cada vóxel.

De acuerdo a una de las posibles realizaciones de la presente invención, el umbral de probabilidad que determina incluir o no cada vóxel en la máscara de imagen, se establece en un 50%.

El entrenamiento de las redes neuronales convolucionales de la presente invención comprende, en una de sus realizaciones preferentes, aplicar una función de pérdidas Tversky. Así, ventajosamente se equilibra el desbalanceo entre el número de vóxels que superan el umbral establecido previamente y los que no lo superan.

Un segundo aspecto de la presente invención se refiere a un sistema para segmentar hiperintensidades de sustancia blanca presentes en imágenes cerebrales de resonancia magnética que comprende:

- una disposición de redes neuronales convolucionales configuradas para recibir una imagen cerebral de resonancia magnética, identificar los vóxels de la imagen que contienen hiperintensidades de sustancia blanca y determinar, por cada una de dichas redes, una probabilidad para cada vóxel de que la hiperintensidad identificada se corresponda con una hiperintensidad patológica definida previamente; y

- un módulo procesador configurado para promediar todas las probabilidades determinadas para cada vóxel, comparar las probabilidades promediadas para cada vóxel con un umbral establecido previamente, y generar una máscara de imagen con los vóxels que superan el umbral.

La disposición de redes neuronales comprende, de acuerdo a una de las realizaciones preferentes de la presente invención, al menos una red neuronal estándar que comprende: unas capas convolucionales configuradas para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética; unas capas de reducción intercaladas entre las capas convolucionales en una ruta de codificación, configuradas para reducir la imagen; unas capas de transposición intercaladas entre las capas convolucionales en una ruta de decodificación, configuradas para aumentar la imagen; una sección de cuello de botella entre la ruta de codificación y la ruta de decodificación; una capa de activación sigmoidea, configurada para generar un mapa de probabilidad; y unas capas de supervisión profunda, configuradas para combinar la salida de las capas convolucionales de la ruta de decodificación.

En una de las realizaciones de la presente invención, la disposición de redes neuronales comprende al menos una red neuronal convolucional residual, que a su vez comprende: unos bloques residuales configurados para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética; unas capas de reducción intercaladas entre los bloques residuales en una ruta de codificación, configuradas para reducir la imagen; unas capas de transposición intercaladas entre los bloques residuales en una ruta de decodificación, configuradas para aumentar la imagen; una sección de cuello de botella entre la ruta de codificación y la ruta de decodificación; una capa de activación sigmoidea, configurada para generar un mapa de probabilidad; y unas capas de supervisión profunda, configuradas para combinar la salida de las capas convolucionales de la ruta de decodificación.

En una de las realizaciones de la presente invención, la disposición de redes neuronales comprende al menos una red neuronal convolucional dilatada, que a su vez comprende: unas capas convolucionales configuradas para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética; unas capas de reducción intercaladas entre las capas convolucionales en una ruta de codificación, configuradas para reducir la imagen; unas capas de transposición intercaladas entre las capas convolucionales en una ruta de decodificación, configuradas para aumentar la imagen; una sección de cuello de botella entre la ruta de codificación y la ruta de decodificación, donde dicha sección comprende unas capas convolucionales dilatadas con diferentes tasas de dilatación; una capa de activación sigmoidea, configurada para generar un mapa de probabilidad; y unas capas de supervisión profunda, configuradas para combinar la salida de las capas convolucionales de la ruta de decodificación.

En una de las realizaciones de la presente invención, la disposición de redes neuronales comprende al menos una red neuronal convolucional residual-dilatada, que a su vez comprende: unos bloques residuales configurados para filtrar mediante operaciones de convolución la imagen cerebral de resonancia magnética; unas capas de reducción intercaladas entre los bloques residuales en una ruta de codificación, configuradas para reducir la imagen; unas capas de transposición intercaladas entre los bloques residuales en una ruta de decodificación, configuradas para aumentar la imagen; una sección de cuello de botella entre la ruta de codificación y la ruta de decodificación, donde dicha sección comprende unas capas convolucionales dilatadas con diferentes tasas de dilatación; una capa de activación sigmoidea, configurada para generar un mapa de probabilidad; y unas capas de supervisión profunda, configuradas para combinar la salida de las capas convolucionales de la ruta de decodificación.

De acuerdo a una realización particular de la presente invención, la disposición de redes neuronales está compuesta por la red neuronal convolucional estándar, la red neuronal convolucional residual, la red neuronal convolucional dilatada y la red neuronal convolucional residual-dilatada, todas ellas configuradas a un tamaño de entrada de imagen de 256x256, y donde todas las capas convolucionales tienen un campo receptivo de 3x3 seguido de una capa de normalización de lotes y una capa de unidad lineal rectificada.

Un último aspecto de la presente invención se refiere a un método implementado por ordenador para segmentar hiperintensidades de sustancia blanca presentes en imágenes cerebrales de resonancia magnética, que comprende: proporcionar una imagen cerebral de resonancia magnética a un conjunto de redes neuronales convolucionales, entrenadas previamente; identificar los vóxels de la imagen que contienen hiperintensidades de sustancia blanca; determinar, por cada una de las redes neuronales convolucionales y para cada vóxel, una probabilidad de que la hiperintensidad identificada se corresponda con una hiperintensidad patológica definida previamente; promediar todas las probabilidades determinadas para cada vóxel; comparar las probabilidades promediadas para cada vóxel con un umbral establecido previamente; y generar una máscara de imagen con los vóxels que superan el umbral.

En una realización de la presente invención, las redes neuronales convolucionales están implementadas en una unidad central de procesamiento CPU. En una realización específica de la presente invención, al menos una de las redes neuronales convolucionales está implementada en una unidad de procesamiento gráfico GPU de apoyo a la unidad central de procesamiento.

Por todo lo expuesto anteriormente, la presente invención presenta características técnicas que implican multitud de ventajosos efectos. Por ejemplo, la disposición de redes neuronales descrita en la presente invención permite discernir entre hiperintensidades fisiológicas e hiperintensidades que podrían corresponder a lesiones de sustancia blanca, lo que posibilita que un especialista pueda concentrar su trabajo en las áreas segmentadas por la presente invención e incluidas en la máscara de imagen, o incluso de obtener parámetros cuantitativos adicionales basados en la segmentación proporcionada para describir la carga lesional (como volumen o número de lesiones) de personas con leucoaraiosis. Los beneficios se extienden por ejemplo a la optimización del tiempo del especialista como en un aumento de su precisión.

Adicionalmente, la novedosa combinación de redes neuronales convolucionales de la presente invención ofrece una mayor robustez a la segmentación que cualquier otra de las soluciones conocidas. Permite procesar las imágenes extrayendo características a distintos niveles, enfocándose específicamente en la compleja tarea de segmentar lesiones de sustancia blanca, las cuales varían su distribución de una persona a otra y requieren una configuración especial como la de la presente invención

BREVE DESCRIPCIÓN DE LAS FIGURAS

Para completar la descripción de la invención y con objeto de ayudar a una mejor comprensión de sus características, de acuerdo con un ejemplo preferente de realización de la misma, se acompaña un conjunto de dibujos en donde, con carácter ilustrativo y no limitativo, se han representado las siguientes figuras:

- La figura 1 representa un diagrama de bloques de una realización de la invención.

- La figura 2 representa en detalle una realización de una red neuronal convolucional estándar utilizada en la presente invención. - La figura 3 representa en detalle una realización de una red neuronal convolucional residual utilizada en la presente invención.

- La figura 4 representa en detalle una realización de una red neuronal convolucional dilatada utilizada en la presente invención.

- La figura 5 representa en detalle una realización de una red neuronal convolucional residual-dilatada utilizada en la presente invención.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

A continuación se describe en detalle al menos una realización para llevar a cabo la presente invención, con referencia a las figuras mencionadas anteriormente. Resultará evidente para un experto en la materia que los términos utilizados en la presente memoria descriptiva se utilizan simplemente para describir realizaciones particulares, y no pretenden limitar la presente invención. Cualquier expresión usada en singular abarca la expresión del plural, a menos que tenga un significado claramente diferente en el contexto. En la siguiente descripción, debe entenderse que términos como “incluyendo”, “tener”, etc. pretenden indicar la existencia de las características, números, pasos, acciones, elementos, partes o combinaciones, pero no pretende excluir la posibilidad de que se puedan agregar una o más características, números, pasos, acciones, elementos, partes o combinaciones.

La presente invención divulga un método y un sistema para la segmentación automática de imágenes de resonancia magnética cerebral, que puede utilizarse para medir el volumen de leucoaraiosis y que posteriormente pueden utilizar los especialistas neurólogos-radiólogos para detectar posibles lesiones de sustancia blanca.

El método y sistema de segmentación automático supone una ayuda al diagnóstico de los especialistas, mediante el procesado de imágenes, tal y como se detalla a continuación, para proporcionar finalmente en su salida una máscara de imagen generada a partir del procesado individual de cada vóxel de las imágenes individuales, donde los criterios establecidos para determinar que un vóxel pertenece a lesión o no persiguen diferenciar, de entre todos los vóxels de la imagen, los que se corresponden con hiperintensidades patológicas de los que no, lo que resultará de gran ayuda en los estudios posteriores, como por ejemplo en la identificación de lesiones de sustancia blanca. Las imágenes de entrada proceden de imágenes de resonancia magnética (RM) cerebrales. De dichas imágenes de resonancia magnética, se utiliza la secuencia FLAIR (inversión-recuperación en la atenuación del fluido) para detectar en ella vóxels pertenecientes a lesiones en la sustancia blanca del cerebro. Estas hiperintensidades de sustancia blanca (WMH) son segmentadas por la presente invención mediante la generación de un mapa de probabilidad por distintas CNN que se combinan y umbralizan para detectar los vóxels que comprenden hiperintensidades patológicas.

La figura 1 representa los bloques básicos de la invención, según una de sus realizaciones, donde la imagen 1 es procesada por un conjunto de redes neuronales convolucionales 11, 12, 13 y 14, abreviadas como CNN, configuradas cada una de ellas con una arquitectura concreta y entrenadas previamente. Cada una de las CNN proporciona a su salida un mapa de probabilidad 16, 17, 18 y 19 de la presencia/ausencia de lesión de sustancia blanca en cada vóxel de la imagen. A continuación, en un módulo procesador 5, los mapas de probabilidad asociados a cada una de las CNN se promedian para obtener un mapa de probabilidad final 2, el cual establece el umbral 3 para generar las máscaras de imagen 4 proporcionadas a la salida.

En una realización de la invención, se contempla un preprocesado de las imágenes de entrada, de manera que cada sección 2D de cada imagen 3D se remodela a un tamaño común de 256x256, para ajustarse al tamaño de entrada de las arquitecturas de red neuronal convolucional (CNN) utilizadas mediante la aplicación de una interpolación bicúbica. A continuación se aplica un proceso de normalización en dos pasos para todo el conjunto de entrenamiento:

1. escalado Min-Máx: los valores de intensidad de cada sección 2D se escalan entre O y 1: donde, I es la sección a escalar, l¡ el valor de intensidad en la fila i y la columna j, min(l) es el valor mínimo de la sección y max(l) es su valor máximo; y 2. estandarización: el conjunto de datos de entrenamiento se normaliza para tener una media cero y una varianza uno. Para eso, cada vóxel se estandariza restando la media del conjunto de datos de entrenamiento y dividiendo por la desviación estándar del conjunto de datos de entrenamiento.

Donde, G es la intensidad escalada min-max; m es la intensidad media del conjunto de datos de entrenamiento escalado y s es la desviación estándar del conjunto de datos de entrenamiento escalado.

Una vez la imagen ha sido preprocesada como se ha descrito arriba, ésta se proporciona a las cuatro redes CNN, diferentes entre sí, donde todas se basan en una arquitectura de codificador-decodificador, pero con la diferencia de usar una configuración de CNN estándar 11 (representada en detalle en la figura 2), una configuración de CNN con bloques convolucionales residuales 12 (representada en detalle en la figura 3), una configuración de CNN con filtros convolucionales dilatados 13, (representada en detalle en la figura 4) y la combinación de ambos 14 (representada en detalle en la figura 5). La CNN estándar 11 permite extraer características a distintos niveles, yendo desde características más simples basadas en bordes y contrastes a otras más complejas basadas en la forma de la imagen y de la región de interés a segmentar. Sin embargo, la segmentación de lesiones de sustancia blanca es una tarea compleja ya que cada paciente presenta una distribución diferente de las mismas, por lo que, características más complejas son necesarias, esto se consigue aumentando el número de capas convolucionales en las redes, sin embargo, esto conlleva problemas como el conocido como problema del gradiente desaparecido. La CNN con bloques convolucionales residuales 12 permite obtener características más complejas sin necesidad de aumentar el número de capas convolucionales. Por otro lado, para definir si una hiperintensidad es patológica o no es necesario tener más información del resto de la imagen, es decir, más información contextual, esto se consigue con la CNN con filtros convolucionales dilatados 13 que permite aumentar la región sobre la que se extraen características. Por lo tanto, esta arquitectura está pensada y optimizada para extraer diferentes tipos de información de la imagen y aumentar la precisión en la segmentación de las lesiones de sustancia blanca.

Una arquitectura decodificador-codificador tiene una ruta de codificación en la que, dada una imagen de entrada, se genera un vector de características de alta dimensión al agregar características en diferentes niveles; y una ruta de decodificación, en la que el vector de características generado previamente se decodifica en múltiples niveles para, finalmente, generar un mapa de probabilidad. Entre las capas de codificación y decodificación, se disponen algunas conexiones puente, combinando información tanto local como contextual mediante la concatenación de características provenientes de la ruta de codificación con características de la ruta de decodificación. Además, se incluyen algunas capas de supervisión profunda. Estas capas permiten una convergencia más rápida, lo que significa, un menor tiempo de entrenamiento y una mejor delineación de los bordes.

En una de las realizaciones de la invención, en línea con el preprocesado descrito anteriormente, todas las arquitecturas de las redes neuronales convolucionales tienen un capa de entrada con un tamaño de (256, 256, 1) siendo los valores correspondientes a (# filas, # columnas, # canales). El número de canales se establece en 1 debido a que se trabaja con imágenes monocromáticas.

La figura 2 representa en detalle la arquitectura de la red neuronal convolucional estándar 11 con configuración codificador-decodificador, la cual comprende unas características comunes a las demás redes CNN.

La arquitectura de la ruta de codificación representada comprende capas convolucionales 21 alternadas con capas de reducción intermedias 22. Todas las capas convolucionales tienen un campo receptivo de 3x3 seguido de una capa de normalización de lotes (BN) y una capa de unidad lineal rectificada (ReLU). Las capas BN normalizan la salida de las capas convolucionales a media cero y varianza uno, aumentando la estabilidad de la red neuronal convolucional (CNN). ReLU es una función de activación que introduce no- linealidades en el modelo. La capa de reducción 22 “max-pooling” con un núcleo 2x2 se dispone después de cada dos capas convolucionales 21, reduciendo así el tamaño de la imagen a la mitad. Después de cada capa de reducción “max-pooling", el número de filtros en las capas convolucionales se duplica.

Entre el codificador y el decodificador, se dispone una sección de cuello de botella 25 formada por dos capas convolucionales iguales a las anteriores. Así, en una realización en la que las dos primeras capas convolucionales tienen 32 filtros y la imagen de entrada estaba dimensionada a 256x256, después de las cuatro capas de reducción 22, las dos capas convolucionales de la sección de cuello de botella 25 entre el codificador y las capas del decodificador tienen 512 filtros para una imagen reducida a 16x16. La ruta de decodificación tiene una arquitectura similar, la única diferencia es la sustitución de las capas de reducción 22 por capas convolucionales de transposición 23, con lo que el tamaño de la imagen se duplica. De la misma manera, el número de filtros en cada capa convolucional después de cada capa traspuesta, se reduce a la mitad. En la ruta de decodificación, previamente a las capas de transposición 23, se introduce un operador 27 de concatenación de capas. El operador 27 de concatenación de capas también está conectado con la ruta de codificación, de manera que toma a su entrada un conjunto de matrices, todas ellas del mismo tamaño (excepto en el eje de concatenación, que en la presente realización es el correspondiente a la tercera dimensión, es decir, el canal) y devuelve a su salida una matriz resultado de concatenar las anteriores. Por ejemplo, ante dos entradas con dimensiones [256, 256, 32], la salida resulta de dimensiones [256, 256, 64]

Adicionalmente, se incluyen unas capas de supervisión profunda 26 constituidas por filtros convolucionales con un campo receptivo de 1x1 que combinan la salida de la segunda capa convolucional 21 de cada uno de los bloques convolucionales de la ruta de reducción mediante un operador de suma de capas 28. Un operador de suma de capas 28 toma como entrada un conjunto de matrices, todas ellas del mismo tamaño y devuelve a su salida una matriz del mismo tamaño correspondiente a la suma de todas ellas. En la presente realización, la suma se hace a lo largo de la tercera dimensión, es decir, de la dimensión correspondiente al canal. Por ejemplo, ante dos entradas con dimensiones [256, 256, 32], la salida resulta de las mismas dimensiones [256, 256, 32]

Para obtener el mapa de probabilidad final 16 en la salida de la CNN, se incluyen funciones de activación sigmoidea 24.

La figura 3 representa en detalle la arquitectura de la red neuronal convolucional residual 12, donde se sustituyen los bloques convolucionales estándar 21 por bloques residuales 30. Cuando se entrena una CNN, la precisión aumenta a medida que aumenta el número de capas, sin embargo, hay un límite donde la precisión del entrenamiento comienza a degradarse. Gracias a los bloques residuales, se puede omitir el entrenamiento de algunas capas, por lo tanto, permite diseñar arquitecturas más profundas sin incorporar capas adicionales. A continuación de cada uno de los bloques residuales 30, tanto en la ruta de codificación como en la de decodificación, se incluye un operador 27 de concatenación de capas.

La figura 4 representa en detalle la arquitectura de la red neuronal convolucional dilatada 13, donde se incluyen algunas capas convolucionales dilatadas 40 en la sección de cuello de botella 25 entre el codificador y las capas del decodificador. En esta realización se incluyen seis capas convolucionales dilatadas 40 con tasas de dilatación respectivas de 1, 2, 4, 6, 8, 16 y 32. Estas capas dilatadas agregan información contextual de múltiples escalas al aumentar el campo receptivo sin perder resolución.

La figura 5 representa en detalle la arquitectura de la red neuronal convolucional residual-dilatada 14, donde se combinan las dos arquitecturas anteriores sustituyendo los bloques convolucionales estándar 21 por bloques residuales 30 e incorporando las capas convolucionales dilatadas 40 en la conexión 25 entre las rutas de codificación y decodificación.

Una vez las imágenes 3D obtenidas por medio de resonancia magnética han sido segmentadas parcialmente por cada una de las cuatro arquitecturas de redes neuronales convolucionales (CNN) descritas anteriormente, las cuales han sido entrenadas previamente, se promedian las salidas para obtener el mapa de probabilidad final 2. Este mapa de probabilidad final es la base para fijar los umbrales en la siguiente etapa de umbralización 3, ya que fija el umbral que determina si un vóxel formará parte de la máscara final 4 o no. En una de las realizaciones, todos los vóxels con una probabilidad superior al 50% se establecen como lesión, es decir, quedan segmentados formando parte de una máscara de imagen de lesión, mientras los vóxeles con probabilidades inferiores al 50% se establecen como fondo.

Así se proporciona en la salida una máscara con las lesiones de sustancia blanca, la cual será de gran utilidad especialmente para neurólogos-radiólogos, al concentrar las partes más relevantes para su análisis especialista, ya que los vóxels correspondientes a parénquima cerebral e hiperintensidades fisiológicas han sido filtrados.

Previamente a la utilización de la presente invención, el conjunto de redes neuronales tiene que ser entrenado. En un primer paso para el entrenamiento de las cuatro redes CNN utilizadas, las necesarias anotaciones manuales iniciales las realizan neuro- radiólogos especialistas. Esta segmentación inicial consiste en seleccionar manualmente los vóxels correspondientes a lesiones de sustancia blanca, excluyendo hiperintensidades fisiológicas, como la capa ependimaria. A continuación, el proceso de entrenamiento de cada arquitectura CNN se realiza, según una de las realizaciones de la invención, a lo largo de 200 épocas con un tamaño de lote establecido en 30. Para probar la robustez de los modelos CNN a nuevos datos, se realiza una validación cruzada de 5 iteraciones. Por lo tanto, el conjunto de datos de entrenamiento se divide en 5 subconjuntos, utilizando, en cada iteración, 4 de ellos para entrenar y el subconjunto restante para validar. El error obtenido a lo largo de las 5 iteraciones se promedia para calcular el error de entrenamiento final.

Para actualizar los pesos de las redes de forma iterativa durante el proceso de entrenamiento, se utiliza el algoritmo de optimización de Adam. La tasa de aprendizaje inicial se establece en 1e-5. Los hiperparámetros restantes (b1, b2 y x) se mantienen con sus valores predeterminados (0.9, 0.999 y 10-7 respectivamente), que se sabe que ofrecen buenos resultados.

Uno de los problemas con la segmentación de hiperintensidades de sustancia blanca (WMH), como la que realiza la presente invención, es que el conjunto de datos está generalmente muy desequilibrado, lo que significa que el número de vóxels establecidos como hiperintensidad de sustancia blanca en comparación con el número de vóxels establecidos como fondo es muy diferente. Para resolver este problema, se analizan diferentes funciones de coste/pérdida:

Pérdida del coeficiente DICE (DCL)\ el coeficiente DICE (DC) mide la superposición espacial entre dos máscaras de segmentación. DCL es el inverso de DC.

2|XnY|

DC(X,Y)= DCL(X,Y)= 1- DC(X,Y) |X|+ |Y|

Donde es la segmentación manual e Yes la máscara de predicción.

La entropía cruzada binaria (BCE)\ mide lo lejos que está la probabilidad predicha de la etiqueta real. Es muy utilizado en modelos de clasificación. Donde y es la etiqueta verdadera (0 para el fondo y 1 para la región de interés) y p (y) es la probabilidad de que el vóxel sea la etiqueta y para todos los N vóxels.

Pérdida de Tversky (TL), que ha demostrado ofrecer un buen rendimiento cuando se trata de conjuntos de datos muy desequilibrados.

TP + e

TL = 1 -

TP + a FN + (1 - a) FN + e

Donde a = 0.7 y e = 1; TP es la tasa de verdaderos positivos y FN es la tasa de falsos negativos.

Pérdida focal de Tversky (FTL)\ es una extensión de la TL para centrarse en las clases difíciles detectadas con menor probabilidad, es decir, en regiones pequeñas, ya que no contribuyen significativamente a la pérdida.

1

FTL = (1 - TL)Y

Donde g= 1.33 y TL es la pérdida de Tversky definida previamente.

Una vez analizadas las funciones listadas arriba y realizado el entrenamiento con validación cruzada para cada una de ellas, de acuerdo a una de las realizaciones de la presente invención, los mejores resultados los ofrece la función de pérdida de Tversky (TL), Por lo tanto, en una realización de la invención se selecciona la red obtenida empleando TL, que es la que se utiliza para realizar la validación externa.

Para aumentar la generalización de los modelos de las redes CNN y reducir el sobreajuste, durante el proceso de entrenamiento anterior, pueden aplicarse diferentes técnicas de aumento de datos sobre la marcha a cada lote de entrenamiento. En una de las realizaciones de la invención se aplican dos transformaciones diferentes aleatoriamente a estas imágenes: adición de ruido gaussiano a la imagen (m = 0, o e [0.2, 0.5]) y aplicación de rotaciones entre -10° y 10° a la imagen y su máscara correspondiente.

Finalmente, todo el conjunto formado por las redes neuronales, mapas de probabilidad y el módulo de umbralización que genera a su salida la máscara final, puede evaluarse para determinar su rendimiento y asegurar que la precisión es la requerida. Para ello, en una de las realizaciones de la invención, se calculan los siguientes parámetros:

- el coeficiente DC, el cual varía de 0 a 1, donde 0 significa que no hay superposición entre las dos máscaras comparadas y 1 significa superposición completa; y

- distancia de superficie simétrica promedio (ASSD), que indica la diferencia, en promedio, entre ambas máscaras de segmentación. Donde, siendo S(X) el conjunto de vóxeles de la superficie de la máscara X, la distancia más corta de un vóxel arbitrario va S(X) se define como: donde ||.|| denota la distancia euclidiana. La ASSD es el dado por:

Esta evaluación opcional se lleva a cabo una vez realizada la validación cruzada que garantiza el buen funcionamiento de la arquitectura diseñada durante el proceso de entrenamiento, por lo que si de la evaluación resulta que hay algún error, éste estaría causado por las diferencias entre el conjunto de datos de entrenamiento y el de prueba. En este caso, la solución consiste bien en ampliar el aumento de datos aplicando más técnicas o bien en aumentar el conjunto de datos de entrenamiento para que este sea más robusto.

El método y sistema de segmentación de hiperintensidades de sustancia blanca de imágenes de resonancia magnética de la presente invención, puede integrarse en infraestructuras de almacenamiento y procesamiento de imágenes médicas.

El método de la presente invención puede implementarse por un ordenador, en un procesador, un microprocesador, un servidor, un servidor web o la nube. Los algoritmos y modelos descritos para implementar las redes neuronales y otros procesos de la presente invención pueden implementarse como parte de un sistema operativo o una aplicación específica, componente, programa, objeto, módulo o secuencia de instrucciones referidas como "programas de ordenador". Los programas de ordenador típicamente comprenden una o más instrucciones almacenadas en diversos dispositivos de memoria y almacenamiento que, cuando son leídos y ejecutados por uno o más procesadores de un ordenador, hacen que el ordenador ejecute las operaciones necesarias. Una persona experta en la materia será consciente de que diferentes realizaciones de la presente invención pueden implementarse en una variedad de formas, pero la presente descripción se aplica igualmente independientemente del tipo particular de máquina o medio legible por ordenador utilizado. Ejemplos de medios legibles por ordenador incluyen, entre otros, medios de tipo grabable, como dispositivos de memoria volátiles y no volátiles, disquetes y otros discos extraíbles, unidades de disco duro, discos ópticos (por ejemplo, memoria de sólo lectura en disco compacto (CD ROM), discos versátiles digitales (DVD), etc.), entre otros, y medios de transmisión tales como enlaces de comunicación digitales y analógicos.

La presente invención no debe verse limitada a la forma de realización aquí descrita. Otras configuraciones pueden ser realizadas por los expertos en la materia a la vista de la presente descripción. En consecuencia, el ámbito de la invención queda definido por las siguientes reivindicaciones.