Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR ESTIMATING CONTACT PRESSURE AND FORCE IN VOCAL CORDS USING LARYNGEAL HIGH-SPEED VIDEOENDOSCOPY
Document Type and Number:
WIPO Patent Application WO/2018/010036
Kind Code:
A1
Abstract:
The present invention relates to a contact force analysis (CFA) method for obtaining in vivo, directly from laryngeal videoendoscopies, estimates of contact force and pressure in the vocal cords. The method comprises the steps of: providing at least laryngeal high-speed videoendoscopy (HSV) to generate at least one image and videos of the vocal cords; pre-processing the image in a processing unit, to define a region of interest (ROI) of the location of the glottis; detecting, in the processing unit, the edges on the vocal folds in the images obtained by means of the HSV; recording, in the processing unit, the detected points of the edges by means of a sequence of images; estimating, in the processing unit, the path of the vocal cord edge during collision throughout time; and estimating the values of contact and impact of the vocal cords by means of a contact model.

Inventors:
ZAÑARTU SALAS MATÍAS (CL)
DIAZ CADIZ MANUEL ESTEBAN (CL)
Application Number:
PCT/CL2016/050037
Publication Date:
January 18, 2018
Filing Date:
July 14, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV TÉCNICA FEDERICO SANTA MARÍA (CL)
International Classes:
G06K9/00; A61B1/267
Foreign References:
US20110299748A12011-12-08
JP4902735B22012-03-21
Other References:
GUNTER, H.E.: "Mechanical Stresses in Vocal Fold Tissue During Voice Production", TESIS DE GRADO, May 2003 (2003-05-01), Massachusetts, pages 79, XP055570356, Retrieved from the Internet [retrieved on 20161215]
ANDRADE-MIRANDA, G. ET AL.: "Glottal Gap Tracking Using Temporal Intensity Variation and Active Contours", MODELS AND ANALYSIS OF VOCAL EMISSIONS FOR BIOMEDICAL APPLICATIONS: 8TH INTERNATIONAL WORKSHOP, 2013, Florencia, Italia, pages 77 - 80, XP055457176, ISBN: 978-88-6655-470-7
PEDERSEN, M ET AL.: "Which Mathematical and Physiological Formulas era Describing Voice Pathology: An Overview", JOURNAL OF GENERAL PRACTICE, vol. 4, no. 3, June 2016 (2016-06-01), XP055570371
See also references of EP 3489857A4
Attorney, Agent or Firm:
SILVA & CIA (CL)
Download PDF:
Claims:
REIVINDICACIONES

1 . Un método de análisis de fuerza de contacto o CFA para obtener estimaciones in vivo de la fuerza y presión de contacto en las cuerdas vocales directamente de videoendoscopías laríngeas, CARACTERIZADO porque comprende las etapas de:

a. suministrar al menos video laringoscópico de alta velocidad (denominado High Speed Videoendoscopy o HSV) para generar al menos una imagen y videos de las cuerdas vocales; b. pre-procesar la imagen en una unidad de procesamiento, para definir una región de interés (ROI) de la ubicación de la glotis; c. detectar los bordes sobre los pliegues vocales en las imágenes obtenidas por el HSV, en dicha unidad de procesamiento;

d. registrar los puntos detectados de los bordes mediante una secuencia de imágenes en dicha unidad de procesamiento;

e. estimar la trayectoria del borde vocal durante la colisión a lo largo de tiempo en dicha unidad de procesamiento; y

f. estimar los valores de contacto e impacto de las cuerdas vocales mediante un modelo de contacto.

2. El método según la reivindicación 1 , CARCTERIZADO porque en la etapa de registro de bordes, la ubicación de cada borde de la cuerda vocal es segmentada y se aplica un ajuste polinómico para registrar el set de puntos encontrados para cada borde.

3. EL método según la reivindicación 1 , CARACTERIZADO porque para detectar la trayectoria de acuerdo a los puntos detectados de los bordes se utiliza un filtro de Kalman.

4. El método según la reivindicación 1 , CARACTERIZADO porque el modelo de contacto es un modelo Hertziando utilizado para calcular estimaciones de impacto a partir de valores de penetración o solapamiento entre los bordes.

5. El método según la reivindicación 1 , CARACTERIZADO porque la etapa de pre-procesamiento comprende una corrección de la rotación de la imagen endoscópica mediante la selección de puntos extremos anterior y posterior en la glotis para establecer el ángulo necesario para la compensación.

6. El método según la reivindicación 5, CARACTERIZADO porque en la etapa de pre-procesamientos e definen al menos un par de puntos de enganche, los cuales definen dónde se encuentran las posiciones de reposo de los pliegues observados en el video.

7. El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de detección se determina los bordes vocales izquierdo y derecho a partir de imágenes gradientes de las cuerdas vocales.

8. El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de registro los puntos encontrados en la etapa de detección se utilizan para ajustar un polinomio de orden p aplicando un estimador de mínimos cuadrados (LS) sobre los puntos detectados.

9. El método según la reivindicación 3, CARACTERIZADO porque el filtro de Kalman es aplicado para realizar predicciones sobre el valor y rapidez de cambio que las posiciones deberían tener a lo largo del periodo de contacto.

10. El método según la reivindicación 9, CARACTERIZADO porque el modo principal de vibración en las cuerdas vocales puede ser representado mediante una configuración de masa-resorte.

1 1 . El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de estimación del contacto, se extraen la penetración aparente entre los tejidos y sección de contacto a partir de trayectoria previamente estimada.

12. El método según la reivindicación 12, CARACTERIZADO en la etapa de estimación de contacto, la penetración y grado de contacto son evaluadas en las ecuaciones de contacto Hertziano para obtener las predicciones de fuerza y presión de contacto sufridas por el tejido visualizado en una grabación HSV a analizar.

REIVINDICACIONES MODIFICADAS recibidas por la oficina Internacional el 14 de noviembre de 2017 (14.1 1.2017) Un método de análisis de fuerza de contacto o CFA para obtener estimaciones in vivo de la fuerza y presión de contacto en las cuerdas vocales directamente de videoendoscopías laríngeas, CARACTERIZADO porque comprende las etapas de:

a. suministrar al menos video laringoscópico de alta velocidad (denominado High Speed Videoendoscopy o HSV) para generar al menos una imagen y videos de las cuerdas vocales;

b. pre-procesar la imagen en una unidad de procesamiento, para definir una región de interés (ROI) de la ubicación de la glotis; c. detectar los bordes sobre los pliegues vocales en las imágenes obtenidas por el HSV, en dicha unidad de procesamiento;

d. registrar los puntos detectados de los bordes mediante una secuencia de imágenes en dicha unidad de procesamiento;

e. estimar la trayectoria del borde vocal durante la colisión a lo largo de tiempo en dicha unidad de procesamiento; y

f. estimar los valores de contacto e impacto de las cuerdas vocales mediante un modelo de contacto; en donde en la etapa de registro de bordes, la ubicación de cada borde de la cuerda vocal es segmentada y se aplica un ajuste polinómico para registrar el set de puntos encontrados para cada borde.

2. EL método según la reivindicación 1 , CARACTERIZADO porque para detectar la trayectoria de acuerdo a los puntos detectados de los bordes se utiliza un filtro de Kalman.

3. El método según la reivindicación 1 , CARACTERIZADO porque el modelo de contacto es un modelo Hertziando utilizado para calcular estimaciones de impacto a partir de valores de penetración o solapamiento entre los bordes.

4. El método según la reivindicación 1 , CARACTERIZADO porque la etapa de pre-procesamiento comprende una corrección de la rotación de la imagen endoscópica mediante la selección de puntos extremos anterior y posterior en la glotis para establecer el ángulo necesario para la compensación.

5. El método según la reivindicación 5, CARACTERIZADO porque en la etapa de pre-procesamientos e definen al menos un par de puntos de enganche, los cuales definen dónde se encuentran las posiciones de reposo de los pliegues observados en el video.

6. El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de detección se determina los bordes vocales izquierdo y derecho a partir de imágenes gradientes de las cuerdas vocales.

7. El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de registro los puntos encontrados en la etapa de detección se utilizan para ajusfar un polinomio de orden p aplicando un estimador de mínimos cuadrados (LS) sobre los puntos detectados.

8. El método según la reivindicación 3, CARACTERIZADO porque el filtro de Kalman es aplicado para realizar predicciones sobre el valor y rapidez de cambio que las posiciones deberían tener a lo largo del periodo de contacto.

9. El método según la reivindicación 9, CARACTERIZADO porque el modo principal de vibración en las cuerdas vocales puede ser representado mediante una configuración de masa-resorte.

10. El método según la reivindicación 1 , CARACTERIZADO porque en la etapa de estimación del contacto, se extraen la penetración aparente entre los tejidos y sección de contacto a partir de trayectoria previamente estimada.

1 1 . El método según la reivindicación 10, CARACTERIZADO en la etapa de estimación de contacto, la penetración y grado de contacto son evaluadas en las ecuaciones de contacto Hertziano para obtener las predicciones de fuerza y presión de contacto sufridas por el tejido visualizado en una grabación HSV a analizar.

Description:
MÉTODO DE ESTIMACIÓN DE FUERZA Y PRESIÓN DE CONTACTO EN CUERDAS VOCALES A PARTIR DE VIDEOS LARINGOSCÓPICOS DE

ALTA VELOCIDAD

CAMPO DE APLICACIÓN La presente invención se relaciona un método de extracción y análisis de información clínica asociada a la vibración que ocurre en las cuerdas vocales, a partir de exámenes de videoendoscopía laríngea. El método propuesto tiene por objetivo la estimación de fuerza y presión de contacto sufrido por las cuerdas vocales durante los periodos de cierre glotal. ANTECEDENTES

La voz es un fenómeno producido por la acción coordinada entre el aparato respiratorio, la laringe y las cavidades nasal y vocal. Al momento del habla, se suele complementar estas estructuras para generar sonido, mediante la vibración sostenida de las cuerdas vocales, proceso conocido como fonación. El estudio de la voz está estrechamente relacionado con la extracción, estimación y análisis de parámetros médicos relevantes durante estos procesos fonatorios. La evaluación de la función vocal se examina clínicamente considerando componentes aerodinámicas, acústicas y mecánicas involucradas en el proceso del habla en los pacientes, siendo la inspección laringoscópica el examen médico más directo para estudiar la función vocal y sus posibles trastornos.

En la mayoría de los casos, los desórdenes vocales se deben a un mal trato o mala utilización de las cuerdas vocales. Estos abusos son recurrentes cuando se fuerza la voz al hablar, cantar, gritar, toser o bien al exponer la laringe a sustancias irritantes, reflujo o al cigarro. Los trastornos más comunes de las cuerdas vocales son la laringitis, nodulos vocales, pólipos y parálisis vocal. La laringitis es una inflamación de las cuerdas vocales que se percibe como una voz áspera o ronca. Puede ser causada por un excesivo uso de la voz, reflujo, infecciones, o agentes irritantes. Los nodulos vocales son crecimientos benignos sobre las cuerdas vocales producidos por el abuso de la voz, son pequeños y generalmente crecen en pares. Normalmente se forman en áreas donde las cuerdas vocales reciben recurrentemente la mayor parte de la presión al chocar y hacen que la voz se vuelva ronca, baja y entrecortada. Es un problema típico de cantantes, profesores o locutores profesionales. Un pólipo (edema de Reinke o degeneración polipoide) es un crecimiento blando similar a una ampolla que normalmente crece solo sobre una cuerda vocal. Se produce a menudo por el consumo prolongado de tabaco, aunque otras causas pueden ser hipotiroidismo, reflujo o un mal uso continuo de la voz. Los pólipos vocales provocan que la voz sea ronca, baja, y entrecortada. La parálisis en las cuerdas vocales es una pérdida del control motor de la laringe que impide a los pliegues abrir o cerrar apropiadamente, la cual puede ocurrir en una o ambas cuerdas vocales. Una persona puede tener dificultad al tragar y/o toser al sufrir de parálisis.

En particular, el mecanismo implicado en el desarrollo de los nodulos como alteración vocal es principalmente la disfonía. Disfonía es un término que se usa para referirse a alteraciones de la voz cuando ésta difiere hasta el punto de llamar la atención con respecto a otras personas del mismo género, similar edad y grupo cultural, comparando timbre, tono, volumen y flexibilidad de la dicción.

Cuando la alteración es extrema puede llegar a casos de Afonía, que corresponde a la pérdida total de la voz. Existen dos grandes clasificaciones, disfonía funcional u orgánica. La disfonía funcional, también conocida como disfonía por tensión muscular (MTD por sus siglas en inglés) es una alteración de la voz en ausencia de cualquier enfermedad neurológica o estructural de la laringe. Usualmente están asociadas a contracciones excesivas de la musculatura laríngea o bien a defectos en el cierre glótico, presentado una voz hiperfuncional (o también denominada voz fonotraumatica). Este tipo de disfonía se manifiesta externamente por un rápido agotamiento del aire pulmonar, jadeos y contracción muscular excesiva. Si bien muchas alteraciones inicialmente son funcionales, al ser sostenido el abuso vocal a largo plazo, la persistencia del cuadro acaba convirtiéndose en lesiones físicas (desde inflamaciones hasta aparición de pólipos o nodulos) y el problema se transforma en una disfonía orgánica, es decir, que conlleva una alteración anatómica o estructural. Por lo mismo, es común que se refuercen entre si estas alteraciones mediante un comportamiento de causa y efecto, generando ciclos de hiperfonación, aparición de lesiones, refuerzo funcional y agravamiento de la lesión.

La inspección laringoscópica es un examen médico que permite visualizar directamente las cuerdas vocales mediante un tubo (que puede ser rígido o flexible) por el cual se envía una luz y por su configuración óptica permite obtener imágenes del interior de la laringe. Un extremo de este se introduce por vía oral (endoscopio rígido) o bien por vía nasal (endoscopio flexible) y el otro extremo puede ser inspeccionado por el ojo del clínico o bien estar acoplado a una cámara para registrar el examen. Nos referimos a estas grabaciones con el nombre de videoendoscopía laríngea.

Actualmente el uso de instrumentación endoscópica con cámaras convencionales es bastante común en exámenes de laringoscopía. Técnicas estroboscópicas en estos sistemas de adquisición han permitido el estudio de los pliegues vocales durante el ciclo de fonación sin requerir necesariamente altas frecuencias de muestreo, ya que la velocidad de vibración que alcanzan las cuerdas vocales está por sobre la velocidad de cuadros común en grabaciones de video (Entre 150 a 300 [Hz] de frecuencia fundamental de vibración, comparado con los 30 fps de un video convencional).

El principio estroboscópico es básicamente la captura de imágenes con iluminación intermitente a una velocidad de refresco ligeramente desviada (a una fracción) de la frecuencia fundamental de la vibración de las cuerdas, ocasionando un efecto de aliasing que permite reconstruir una secuencia de oscilación aparente de las cuerdas vocales a partir de varios ciclos de oscilación reales. Estos sistemas funcionan bastante bien siempre y cuando los pacientes estudiados mantengan un régimen de fonación sostenido y simétrico. Casos patológicos con vibraciones asimétricas o patrones irregulares presentan un problema para los sistemas de estroboscopía, pues se pierde la representatividad de las oscilaciones. Esta limitante puede ser un problema a la hora de estudiar el cómo se desarrollan las lesiones en el tejido cuando la sincronización del mismo en fonación no es buena.

Sistemas de grabación a alta velocidad para estos exámenes de laringoscopía son un avance tecnológico relativamente reciente y que han permitido la captura mayor cantidad de fenómenos que tienen lugar en la glotis comparados con técnicas estroboscópicas. Estos exámenes proveen mayor resolución temporal, la cual es útil para capturar la cinemática de los pliegues vocales tanto en casos normales como patológicos durante los periodos fonatorios, o también los inicios o ceses del mismo. Estas irregularidades pueden ser ahora observables, pero se establece que muchos de los criterios utilizados por la estroboscopía laríngea no son utilizables en vibraciones anómalas, y que no existe un método de calificación preciso y confiable para estos casos. Análisis que termina solamente basándose en la propia experiencia del examinador. La evaluación de los exámenes laringoscopicos en la práctica es en su gran parte subjetiva, depende directamente de la evaluación del especialista y está sujeta bajo criterios perceptivos en su diagnóstico. Criterios perceptivos comunes son descritos en el estado del arte, donde exploran comparativamente la calidad del diagnóstico entre exámenes de estroboscopía versus glotografía de alta velocidad. En estos experimentos solo se inspecciona los datos visualmente bajo un protocolo de grados y escalas asignadas, como a la calidad del cierre glotal, amplitud del pliegue, calidad de la onda mucosa, tipo de fonación apreciada, etc. Estudios actuales revelan que las evaluaciones realiza das con glotografía de alta velocidad presentaron menos casos no-evaluables y fallos metodológicos menos frecuentes, además de un menor porcentaje de desacuerdo entre evaluadores. Sin embargo, destacan que las evaluaciones perceptuales presentan una amplia variabilidad en el diagnóstico y que resulta necesario métodos objetivos de análisis. Ninguna de estas cantidades fue relacionada directamente con el estrés o grado de abuso sufrido por los pliegues vocales. Un método de representación más objetivo corresponde a una técnica denominada video-quimografía, la cual consiste en la captura de un corte transversal del pliegue vocal en el video, aglomerando las líneas capturadas durante el tiempo una tras de otra, formando una sola imagen denominada quimograma. Con ella es posible evaluar irregularidades de oscilación, interrupciones de tono, retardo al inicio de vibración, asimetrías, etc. El análisis del quimograma es comúnmente visual y toma en cuenta solo una sección transversal de la glotis.

Trabajos recientes que utilicen la quimografía para extraer métricas y realizar análisis cuantitativos se pueden observar en estudios relativamente nuevos. En estos estudios, coeficientes de cierre glótico y métricas de simetría son calculados mediante los resultados quimográficos y comparados con un modelo numérico de producción de voz, estableciéndose que las asimetrías encontradas están relacionadas cambios en la modulación del flujo de aire.

Otra representación del ciclo fonatorio desarrollada es el fonovibrograma, el cual consiste en una técnica de visualización que separa los pliegues vocales y genera un mapa espacio temporal de la deflexión de cada pliegue con respecto a un eje medial. Esta representación presenta facilidades para diferenciar diferentes registros vocales en función de la forma geométrica que la representación adopta para cada caso.

En general, variadas técnicas de extracción de bordes, segmentación y registro glotal son utilizadas actualmente por diversos estudios para extraer parámetros vocales a partir de videos endoscópicos. Ejemplos claros de estos métodos son: parametrización del área glotal, segmentación de bordes glotales, representación de la deflexión de la glotis en otros espacios para cuantificar de asimetrías en la vibración, o inclusive segmentación de pliegues inferior y superior mediante estimación de profundidad. En otros estudios también se analizan los pliegues vocales con técnicas de clasificación, para separar registros vocales de pacientes disfónicos versus no-disfónicos, determinando previamente un set de parámetros glotales (como área glotal, anchura, largo, etc.)

La etiología de patologías orgánicas en los pliegues vocales, tales como nodulos y pólipos, ha estado ampliamente asociada a un incremento en las fuerzas de colisión en las cuerdas vocales. Los daños sufridos por el tejido membranoso se dan en sectores mediales de la glotis durante las fases de contacto en cuadros de fonación extensos y/o inadecuados, por lo que es esperado que la presión de choque sea máxima en estos puntos. A pesar del gran interés existente por evaluar directamente estas colisiones, su cuantificación in vivo ha sido muy difícil y no ha sido incluida en los exámenes clínicos, dado que sólo unos pocos estudios han sido capaces de reunir datos sobre la presión de contacto directamente en personas. Es por esto que otros enfoques han sido considerados para investigar la colisión, con el objetivo de entender su relación con el desarrollo de lesiones. En estos enfoques se incluyen simulaciones numéricas, mediciones sobre laringes extirpadas de animales, y replicas físicas de cuerdas vocales hechas de silicona.

Mediciones directas in vivo de la fuerza de contacto con sondas y configuración experimental sobre cuerdas vocales de humanos se han hecho exitosamente. Las magnitudes de contacto obtenidas entraron en un rango de 13 a 210 [mN] y fue encontrada una gran correlación entre peak de fuerza de contacto e intensidad de la voz. Aunque la sonda muestra capacidades de adaptación para ser utilizada en seres humanos (con una alta resolución temporal y bajo nivel de ruido) las mediciones son sensibles a la colocación del sensor y la técnica es básicamente invasiva. Datos de presión de contacto in vivo se reunieron también en un estudio previo, donde la colisión en el punto medio de la cuerda vocal se reportó desde los 0.5 a 3.0 [kPa]. Debido a limitaciones experimentales, sólo 7 de los 20 sujetos fueron analizables. Otra investigación similar mostró que las presiones de contacto intraglotal en 20 pacientes estuvieron en el rango de 1 a 4 [kPa], y que los valores más grandes se encontraron en sujetos con lesiones cerca de la colocación de la sonda. En todos estos exámenes se requirió anestesia tópica sobre el tejido antes de la inserción de la sonda.

La presión intraglotal ha sido también medida directamente sobre laringes extirpadas de caninos. En este caso, se ha observado que los instantes de impacto de las cuerdas vocales producen pulsos agudos de presión de contacto, los cuales están positivamente relacionados con la presión subglótica inducida, la elongación máxima del que el tejido alcanza y la aducción de las cuerdas vocales (debido a la postura y activación muscular de la laringe).

Enfoques numéricos con modelos de elementos finitos (FEM) se han utilizado para evaluar el papel de las fuerzas de colisión como factor de riesgo en el desarrollo de lesiones benignas. El estudio encontró que las fuerzas elásticas dentro del tejido vocal dominan la mecánica de cierre en la cuerda vocal y que existe una relación entre la presión subglótica y la fuerza máxima de colisión, como se ha señalado antes en mediciones experimentales. Estudios sugieren que el rebote de colisión no es suficiente para causar la abertura glotal y que las fuerzas aerodinámicas dominan la separación de las cuerdas después de del impacto. Además, las fuerzas mecánicas conducen cierre glotal y son responsables de la magnitud del impacto.

Réplicas físicas también se han utilizado para estudiar la colisión de pliegues vocales. En este caso, las fuerzas de colisión se obtienen utilizando el modelo de impacto de Hertz. Sistemas estroboscópicos y cámaras de alta velocidad son usadas para registrar la superficie de la réplica mientras que se somete a una fonación forzada, y el método Digital Image Correlation (DIC) se aplica para cuantificar la distribución de la tensión en la superficie superior. La estimación Hertziana requiere de este análisis de tensión para calcular sus predicciones, en función de un parámetro de profundidad o penetración que se obtiene a través de una extrapolación sobre los valores de deformación (strain) obtenidos por el método.

DIC se muestra como un potencial estimador indirecto del estrés de colisión, pe- ro puede estar sesgado, porque el daño del tejido vocal debido al impacto ocurre al interior del tejido y no en la superficie superior, donde las variaciones de la deformación son calculadas. Por lo tanto, este enfoque es susceptible a sobreestimar las fuerzas de colisión. Además, DIC requeriría una manera segura de generar un patrón de pequeños puntos sobre el tejido vocal para aplicar este método in vivo a algún paciente, lo que aún no está resuelto.

Uno de los puntos importantes a destacar es que estos métodos descritos no son muy adecuados para ser aplicados a condiciones clínicas. Las mediciones directas son básicamente invasivas y medidas indirectas usando DIC aún requieren la intervención del tejido con marcas visibles en la superficie, lo cual tiende a ser complicado cuando se consideran sujetos humanos vivos. Sin embargo, es reportado en estos estudios que el modelo Hertziano de contacto muestra ser útil para estimar esfuerzos de colisión. Usar este modelo tiene la ventaja por sobre métodos de medición directa, pues evita el intervenir la glotis del paciente. El problema es que necesita un parámetro de penetración, obtenido con DIC para funcionar, y que además, no se tiene una manera de dibujar un patrón de puntos sobre el tejido en condiciones clínicas habituales. Por tanto, potenciales métodos que permitan obtener este parámetro, evitando el cálculo del mapa de deformación del tejido, son deseables en post de llevar el modelo de Hertz al contexto clínico.

El estudio de la producción de la voz requiere acercamientos multidisciplinarios para entender el proceso de fonación. Esto involucra interacciones tanto mecánicas, acústicas y aerodinámicas entre el tejido y el flujo de aire. Obtener datos clínicos relacionados a estas componentes es muy importante para establecer una buena evaluación de la función vocal.

Varias métricas acústicas son comúnmente utilizadas para la evaluación de la voz, como intensidad sonora (Sound Level Pressure, SPL), frecuencia fundamental, jitter (variación porcentual de la frecuencia fundamental), shimmer (variación porcentual de la intensidad sonora), relación armónico-ruido (Harmonic-to-noise ratio, H/N), etc. Estos parámetros son obtenidos a partir de las grabaciones de audio, y por tanto son los más sencillos de calcular. Sin embargo varios de estos parámetros acústicos son poco concluyentes a la hora de evaluar el origen de una alteración vocal por si solos, ya que la desviación de estos mismos puede deberse a varios factores.

Las métricas aerodinámicas son algo más difíciles de extraer directamente, pero existen técnicas para determinar sus valores a partir del flujo y presión oral, mediante una máscara de Rothenmberg. Ejercicios vocales preestablecidos son solicitados al paciente para ser grabados con un sistema de adquisición y luego ser procesados. A partir de estos datos se estiman presión subglotal, tiempo máximo de fonación (Máximum Phonation Time, MPT), flujo de aire glotal, máxima tasa de declinación del flujo (Máximum Flow Declination Rate, MFDR), componente continua del flujo de aire (DC Flow), etc. Estudios han establecido correlaciones de algunos de estos valores con parámetros acísticos, reportándose diferencias significativas entre pacientes.

Sin embargo, métricas mecánicas con respecto al contacto físico entre los tejidos vocales son las más complejas de obtener y requieren la inspección directa de las cuerdas vocales, o incluso intervenciones relativamente invasivas con sensores de fuerza o presión son necesarias para una respectiva evaluación. No existe un parámetro clínico normativo para determinar el comportamiento del impacto del tejido vocal, pero se ha sugerido una hipótesis con respecto al rol del contacto de las cuerdas vocales en la generación de patologías y lesiones orgánicas asociadas al abuso vocal sostenido, la cual aún no ha sido clínicamente estudiada ni validada a largo plazo en sujetos humanos.

El procedimiento clínico más directo para evaluar la producción de voz en un paciente es una endoscopía laríngea. Recientemente, la incorporación de nueva tecnología en la instrumentación médica ha permitido dotar a los exámenes de laringoscopia con capacidad de adquisición en video, permitiendo la observación de una variedad de fenómenos vibratorios que tienen lugar dentro de la laringe. Existen dos tipos de sistemas de adquisición utilizados en estos exámenes: sistemas estroboscópicos y sistemas de alta velocidad de adquisición. Estos avances han traído el potencial de proveer información nueva acerca de los patrones vibratorios, tanto en casos normales como patológicos, donde es usual que los tonos sean inestables y presenten movimientos vibratorios irregulares. Fenómenos particularmente interesantes en el estudio visual de las cuerdas vocales son el perfil del choque de las cuerdas vocales y las ondas de propagación sobre el tejido mucoso durante cada ciclo.

Encontrar métodos objetivos que mejoren los análisis clínicos de estos exámenes es crítico en este punto, pues al obtener información detallada sobre la cinemática de las cuerdas vocales permite el estudio del comportamiento mecánico de las mismas.

Soluciones de este tipo han sido planteadas por el estado del arte. Por ejemplo, el documento US2005219376, describe un dispositivo de grabación de imágenes, preferiblemente un dispositivo de colores de impresión de imágenes con modos de grabación para exámenes de cuerdas vocales. En una modalidad de la invención, el documento describe que el dispositivo de grabación comprende un endoscopio para el mapeo de las cuerdas vocales.

Otra solución similar es la que divulga el documento US2008300867. Este documento se refiere a un método para obtener una medida cuantitativa de la voz que comprende la utilización una grabación seleccionada a partir de tipos de registro que comprende un registro de imágenes de laringe y de una grabación acústica. En una de las modalidades de la invención, el comportamiento de las cuerdas vocales es medida mediante video endoscopio de alta velocidad (HSV).

El documento WO2014148712 se relaciona con un sistema de videoquimografia para analizar el estado de movimiento de la mucosa de las cuerdas vocales. El sistema comprende: un laringoscopio para la observación de las cuerdas vocales; una fuente de luz para iluminar las cuerdas vocales; una cámara de vídeo para grabar y almacenar imágenes observadas a través del laringoscopio; un computador que incorpora una unidad de captura de imagen para la conversión de una señal de vídeo transmitida desde la cámara de vídeo en una señal de imagen digital, una unidad de almacenamiento para almacenar la señal de imagen digital, una unidad de control para el análisis de la señal de imagen de la unidad de almacenamiento y la visualización de los resultados del análisis en un monitor, y un software de análisis para el análisis de la señal de imagen de la unidad de almacenamiento; y un monitor que es para la visualización de un análisis de los resultados de imagen y capturado.

PROBLEMA TÉCNICO

El potencial de la videolaringoscopía no se ha aprovechado para estudiar el proceso de desarrollo de lesiones en las cuerdas vocales, a pesar de existir información visual relevante en estos exámenes. Típicamente, los casos de mayor ocurrencia e interés son lesiones orgánicas fonotraumáticas como nodulos o pólipos, de los cuales es importante determinar tempranamente factores de riesgo y posible desarrollo de estas lesiones en la clínica. Se presume que el principal problema con estos videos es extraer información objetiva del potencial daño sufrido por el tejido en escenarios de esfuerzo vocal indebido. Usualmente este comportamiento es observado bajo un examen endoscópico donde se efectúan algunos ejercicios vocales propuestos por un doctor especialista o fonoaudiólogo, para luego realizar una observación subjetiva de estos fenómenos, estableciendo posibles grados de abuso y/o mala técnica vocal mediante la apreciación visual del cierre glótico, periodicidad y asimetrías en fase y amplitud. Si bien el seguimiento del paciente puede ser efectivo, indicios tempranos del desarrollo de un problema o lesión son difíciles de identificar bajo este marco, y en general requieren de la pericia del examinador para determinar tales grados. El principal desafío con estas grabaciones es evaluar la información vibratoria observada para realizar un diagnóstico clínico temprano más preciso. Comúnmente, esta evaluación está sujeta a subjetividad del especialista, basándose en protocolos, escalas o criterios únicamente perceptivos. También cabe mencionar que en ocasiones el objetivo del examen es solo de inspección, pues es realizado cuando el paciente ya ha generado el cuadro patológico y es usado más como evidencia directa de un problema no controlado a tiempo. Bajo este punto de vista, el principal problema en cuestión es la falta de criterios objetivos para la evaluación del abuso vocal registrado en endoscopias laríngeas, lo que potencialmente podría dar pistas acerca de algún problema o patología vocal a futuro. Pero, sigue estando el problema el cómo medir cuantitativamente el esfuerzo sufrido por el tejido a partir de una videolaringoscopía, y si a partir de estos datos se puede obtener un conocimiento más acertado sobre la condición de los pliegues vocales en un paciente. SOLUCIÓN TÉCNICA

Para solucionar estas problemáticas, se propone un método para obtener estimaciones in vivo de la fuerza y presión de contacto en las cuerdas vocales directamente de videoendoscopías laríngeas. Se cree que la penetración aparente y el área de contacto pueden ser aproximadamente obtenidas utilizando solamente la información cinemática observada en estas grabaciones, lo que permitiría luego la predicción de la fuerza y presión de colisión mediante el modelo de Hertz.

La presente invención comprende además un método para el procesamiento de video que permita realizar esta tarea. Este método permite complementar el estudio clínico de la disfonía fonotraumática con información objetiva y que estas estimaciones indirectas sean lo suficientemente simples para ser aplicadas en contextos donde esté disponible la examinación videoendoscópica.

BREVE DESCRIPCIÓN DE LAS FIGURAS

La Figura 1 corresponde a un diagrama de bloques con las etapas del método de análisis de fuerza de contacto, de acuerdo a una modalidad de la invención.

La Figura 2 corresponde a una imagen de una cuerda vocal con sus respectivos bordes y puntos de enganche predefinidos, de acuerdo a una modalidad de la invención.

La Figura 3 corresponde a una imagen de una cuerda vocal en la etapa de detección de bordes vocales, de acuerdo a una modalidad de la invención.

La Figura 4 corresponde a una representación temporal de la etapa de detección, de acuerdo a una modalidad de la invención.

La Figura 5 corresponde a una imagen de la etapa de registro de las cuerdas vocales, de acuerdo a una modalidad de la invención.

La Figura 6 corresponde a una representación temporal de la etapa de registro, de acuerdo a una modalidad de la invención.

La Figura 7 corresponde a una estimación de coeficientes durante el contacto en la etapa de seguimiento, de acuerdo a una modalidad de la invención.

La Figura 8 corresponde a una representación temporal de la etapa de seguimiento, de acuerdo a una modalidad de la invención. La Figura 9 corresponde a la etapa de estimación del contacto en las cuerdas vocales, de acuerdo a una modalidad de la invención.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

La presente invención se relaciona con un método de análisis de fuerza de contacto o CFA (Collision Forcé Analysis por sus siglas en ingles). Dicho método comprende al menos 5 etapas, tal como se muestran en la Figura 1

En primer lugar, al menos un video laringoscópico de alta velocidad (1 ) (denominado High Speed Videoendoscopy o HSV) se presenta como entrada al método, para generar al menos una imagen y videos de cuerdas vocales (2). Posterior a esto, las imágnes y videos son enviadas a una unidad de procesamiento (no mostrada en las figuras), en donde se aplica una etapa de pre-procesamiento (100) para corregir la orientación de la glotis, definiendo una región de interés (ROI) en su ubicación. Luego, se realiza una detección de bordes (200) sobre los pliegues vocales, la cual es procesada mediante una secuencia de operadores (300) que analizan la información de gradiente en la imagen. La ubicación de cada borde (2a, 2b) de la cuerda vocal (derecho e izquierdo) es segmentada y se aplica un ajuste polinómico para registrar el set de puntos encontrados para cada borde (2a, 2b). Los coeficientes registrados se entregan a un filtro de Kalman que proporciona una estimación de la trayectoria del borde vocal durante la colisión a lo largo de tiempo (400), o seguimiento. Un modelo de masa-resorte se utiliza para realizar el seguimiento de la trayectoria del borde durante la fase de colisión. Por último, los valores de penetración o solapamiento entre los bordes y la sección de contacto entre ellos se extraen para calcular las estimaciones de impacto mediante el modelo Hertziano (500). Durante la etapa de pre-procesamiento (100) de los videos obtenidos mediante HSV (1 ), comprende una corrección de la rotación de la imagen endoscópica por el usuario mediante la selección de puntos extremos anterior y posterior en la glotis para establecer el ángulo necesario para la compensación. Una imagen de referencia de la secuencia durante cierre glótico se utiliza para visualizar estos puntos. Luego, el usuario define una región de interés (ROI) y una máscara MROI centrada en la glotis para establecer que sección del video se procesará. Comúnmente, una grabación HSV tiene movimientos de baja frecuencia indeseados, relacionados con la manipulación habitual del endoscopio. Un algoritmo de compensación del movimiento es aplicado previamente al video en caso de que fuera necesario "limpiar" los movimientos de baja frecuencia presentes, por lo que la ubicación de la ROI se puede considerar fija y no requiere actualización.

Adicionalmente, un par de puntos en cada cuerda vocal son definidos por entrada de usuario, los cuales se denominan "puntos de enganche" o attachment points

(2c, 2d), los cuales son referenciados como (x a ; ya) y (xt>; yt>). Como se puede observar en la Figura 2, estos puntos de enganche (2c, 2d) definen dónde se encuentran las posiciones de reposo de los pliegues observados en el video, asumiendo una línea recta entre ellos como la ubicación central de la oscilación de cada tejido durante la fonación. Bajo esta suposición, ocurre que estos puntos de enganche (2c, 2d) se consideran en cercana ubicación a los puntos extremos de la glotis (tanto anterior como posterior) en condiciones de cierre glotal completo. Sin embargo, estos puntos (2c, 2d) pueden diferir de esta línea media glotal respectiva (línea conformada por la unión de los entremos anterior o posterior del área glotal) especialmente en casos de pacientes con cierre glotal incompleto. Cuando el contacto entre tejidos es parcial, aparece una apertura en la parte posterior de la glotis, lo que induce a una ubicación más distante de estos puntos de enganche superiores por parte del usuario. Para CFA, los puntos de enganche son necesarios para "sujetar" una curva que representa del borde vocal. Son restricciones para un problema de ajuste polinomico usado para representar cada pliegue.

En la etapa de detección (200), el HSV pasa por una secuencia de las operaciones básicas de procesamiento de imágenes mediante la unidad de procesamiento. Cada frame / se convierte en una imagen de escala de grises l g y una operación morfológica de reconstrucción se aplica sobre su inversa para limpiar el reflejo especular generado por la mucosa de las cuerdas vocales. A continuación, un operador de Prewitt es aplicado para obtener la magnitud y fase del gradiente, GA y G (en grados) respectivamente. GA es enmascarado con MROI obtenida en la etapa anterior (G = G A - M R0I ) y es usado para segmentar los bordes, separando G en dos imágenes de gradiente de la siguiente forma:

donde th es un parámetro de umbral. A partir de estas imágenes gradiente Gright y Gieft, se calcula la ubicación del borde en el eje para cada línea horizontal de la ROI, conformando pares (x; y) de puntos situados en el centroide del gradiente encontrado:

Vj E [l, h], s E [left, right] . Donde w y h son respectivamente el ancho y el alto de la ROI. Se toman en cuenta sólo hasta los puntos extremos de glotis. Los puntos superior e inferior fuera del rango definido por los puntos de enganche se omiten. Finalmente, un filtro temporal de media móvil se aplica en cada posición X j con el fin de obtener una variación suave del movimiento de pliegue, reduciendo el error de detección en la posición local del borde.

vk E [l,N frames ], donde N = 5. En la Figura 3 se muestra un ejemplo de esta etapa de detección aplicada sobre una grabación HSV a modo de ejemplo y en la Figura 4 se aprecia una representación temporal de la porción medial de la glotis con un quimograma. Como se puede observar, la información del gradiente es usada para encontrar los bordes vocales izquierdo y derecho, pero los puntos detectados se pierden cuando los pliegues colisionan (instante C en la secuencia temporal de la Figura 4). El suavizado realizado por el filtro temporal reduce el error de detección durante la fase de apertura y cierre glotal, pero cuando comienza a ocurrir el impacto, el gradiente no supera el umbral th establecido y la ubicación del borde se pierde. La tarea de las siguientes etapas será establecer un framework que permita estimar la proyección de estos bordes durante los instantes de impacto.

En la etapa de registro (300), la cual se lleva a cabo en la unidad de procesamiento, los puntos (x; y) encontrados en la etapa de detección (200) se utilizan aquí para ajustar un polinomio de orden p aplicando el estimador de mínimos cuadrados (LS) sobre los puntos detectados, a lo largo de una línea (o eje coordenado) definida por los puntos de enganche (x a ; ya) y (xb; yb). Los puntos de enganche se toman en cuenta como raíces fijas de la solución, determinando con ello restricciones al problema. El polinomio M a ajustar cuando la línea de enganche es vertical {x0 = xa = xb) se define como:

M p (y) = ayP + byP '1 + cy ?'2 + dy ?'3 + ···

(7)

= (2._ 0 ^y ¿ ) (y - V ) y - b) + o donde los coeficientes del polinomio M escritos en forma general son:

Φ = (a b c d ... ) T (8)

El valor de estos coeficientes está restringido por las raíces y a y ¾ al factorizar estas restricciones en M, se pueden despejar los parámetros desconocidos de la curva a ajustar, definiéndose este conjunto como:

Φ = θ Θ (i - y a + y b ) y a yb T (9)

Si los puntos de enganche no definen una línea verticalmente orientada, se requiere previamente rotar todo el set de puntos detectados para ver el problema desde el eje coordenado determinado por estos puntos restrictivos. Si el ángulo de inclinación de esta línea es φ, entonces los puntos detectados en el nuevo sistema de coordenadas se pueden obtener con la siguiente transformación: (10)

Y la curva M a ajustar se reescribe como:

'p-2

1 θ(ν ι O - v a )(v - v b ) u 0 (11)

¿=0

Con esto, la solución LS usada para computar los parámetros Θ en la ecuación 1 1 corresponde a:

Θ = (A T A) ~1 A T U (12)

ui— u l ~ U 0 Ü t = (V j - v a (v t - v b ) V I E [1, D] donde los pares (ui; v¡) son los puntos obtenidos en la etapa de detección con la ecuación (6) y transformados previamente con la ecuación (1 0), y D es el número de puntos encontrados en la etapa de detección. Esta regresión se aplica para cada set de puntos de las cuerdas vocales tanto izquierda como derecha, y luego de aplicado la ecuación 12, se registran sus valores 6 k a lo largo de la secuencia del video.

En esta etapa también se estima la rapidez de cambio de los coeficientes (<¾):

(14) Tanto el valor o ubicación de los coeficientes 0 k como sus respectivas velocidades Ó k son los registros de entrada a la etapa de seguimiento que sigue. Estos valores son considerados como observaciones de un proceso que describe el modo de oscilación dominante de los pliegues vocales. El proceso de registro se puede observar en las Figuras 5 y 6.

Como se puede apreciar en la Figura 6, los valores de 0 k tienden a mostrar malas soluciones de ajuste durante las fases de colisión del tejido. Esto es básicamente debido a que la estimación de mínimos cuadrados no está bien condicionada cuando la cantidad de puntos detectados D disminuye súbitamente, lo cual ocurre por el alcance del umbral de gradiente th en la etapa de detección. En este punto, los valores del registro obtenidos durante colisión son inválidos y no representan información útil durante el impacto. Con lo cual, pueden ser considerados como un problema de oclusión del borde vocal, cuyo manejo se realizará en la siguiente etapa de seguimiento (400).

En la etapa de seguimiento (400) la oclusión de las cuerdas vocales es considerada como un problema de estimación de variables de estado en presencia de ruido y pérdida de datos. Aquí un filtro de Kalman es aplicado para realizar predicciones sobre el valor y rapidez de cambio que los coeficientes Θ deberían tener a lo largo del periodo de contacto. Para describir estos periodos de oclusión con un proceso lineal, se asume que el modo principal de vibración en las cuerdas vocales puede ser representado mediante una configuración de masa-resorte, esto es, un par de resortes fijados en sus respectivas líneas de enganche (definidas en la etapa de pre procesamiento (100)). Bajo esta suposición, el modelo utilizado para describir el proceso vibratorio de una cuerda vocal corresponde a:

X k+1 = AX k + V k (15)

Yi ,k = CX k + E k (16) donde X iik es el estado particular del coeficiente 0¿ en Q k en el instante k, Y i k son observaciones del estado del proceso, las cuales asumimos disponibles con la matriz C como identidad. V k y E k son el ruido de proceso y ruido de medición, considerados gaussianos y no-correlacionados con varianzas σ ν y o e respectivamente. Δΐ = 1/f s es el tiempo de muestreo, k la rigidez del resorte, y b el valor de amortiguamiento del proceso. La "masa" del coeficiente no está presente, pues el interés radica en representar la cinemática del borde vocal y este solo se traduce en un factor de escala para la solución. Por tanto, el parámetro de masa se considerará unitario en este proceso. Se busca sintonizar este proceso a una resonancia w r en particular, que permita describir la trayectoria de 0 k durante la oclusión. Por tanto, se define w r y ξ como parámetros de control para la respuesta dinámica del proceso.

2

k = -^— b = 2ξ^/Έ ( 17 )

1 - ξ 2

El parámetro ξ está pensado solo para evitar posibles soluciones inestables y usualmente se consideran valores bajos cercanos a cero (0-0,03). Esto compensa posibles inestabilidades del proceso debidas a la discretización del mismo (valores de / aitos son propensos a generar polos ligeramente fuera del circulo unitario). La rigidez k es calculada automáticamente, mediante la estimación de la frecuencia de resonancia w r , utilizando la información cinemática proveniente de la etapa de registro.

Para establecer el valor de resonancia, se considera la solución analítica del modelo masa-resorte a condiciones iniciales como función objetivo de un problema de minimización. Se consideran los valores de 6 i ko y é i ko al instante previo ko del impacto como valores de condición inicial, de manera que la solución analítica del modelo masa-resorte para estas condiciones coincide con una posición de regreso similar, pero al término del contacto en el instante ki. Con ello, interesa determinar un valor de w r ia\ que satisfaga lo siguiente:

¾(w) = θ ίιί1ο cos(wt k + -^sin( wt fci ) (19) donde t ki = (/ - k 0 ) At. Como se puede ver en la Figura 7, la solución de la ecuación 18 no es necesariamente única y el método de resolución del mismo puede caer en mínimos locales. Sin embargo, se espera que la frecuencia de resonancia buscada se mantenga cercana a la frecuencia fundamental que el paciente ejecuta durante la grabación. En una modalidad preferida de la invención, el método de resolución utilizado es un Nelder-Mead estándar y su condición de inicio es fijada a una frecuencia fundamental esperable de oscilación del orden de 200 [Hz].

Este valor de resonancia w r controla la rigidez k necesaria para que el proceso sincronice un movimiento armónico simple sobre la evolución temporal de cada cuerda vocal, pero solo está pensada para completar la secuencia durante los instantes de colisión. Cuando los bordes vocales son visibles no es prioritario el uso del proceso para la estimación de la trayectoria, pues no existe oclusión. Para definir cuando las predicciones del proceso serán requeridas, se definen las siguientes cantidades:

(20)

-β&κ-γ) las cuales se denominan respectivamente como la razón de puntos no detectados λ κ y su factor de incerteza p k asociado. DT representa la máxima cantidad posible de puntos detectados en el borde, Dk la cantidad actual de puntos detectados, β un factor de ganancia, y y un umbral de incerteza. El factor de incerteza determina que tanta "desconfianza" se tiene en los valores registrados de Q k . Cuando ^ es muy pequeño, por ejemplo, λ κ se incrementa por sobre el umbral de incerteza y p k tiende a la unidad, lo cual significa que existen muchos puntos perdidos en la etapa de detección y el ajuste del polinomio en la etapa de registro es malo. Este indicador establece que las estimaciones del filtro de Kalman son necesarias en tal circunstancia y requieren mayor prioridad. Las ecuaciones siguientes describen la implementación del filtro de Kalman desarrollada (se omiten índices de los coeficientes / ' por simplicidad):

%k+i\k = AX k \ k (21)

Y k — (26)

Kalman considera este factor de incerteza p k como cuantificador del grado de desconfianza o pérdida de la información cinemática en la observación. Esto se controla internamente modificando la matriz de ganancia Jk del filtro, ajustando la ponderación del segundo término en la ecuación (25) que actualiza la covarianza del error de estimación P k \ k .

La estimación de salida está definida como ? k , la cual es una combinación lineal entre las observaciones Yk del estado obtenidas en la etapa de registro y las predicciones realizadas del estado Y k .

Y k = {l - Pk )Y k + Pk Y k (27)

Se debe notar que mediante el control de factor p k , el filtro selecciona el mejor set de coeficientes disponibles para representar la curva que describe el pliegue vocal. Finalmente, el primer valor de los vectores ? k (valor estimado de posición del coeficiente 0¡,k) se agrupa en un vector Q k y luego mediante la expresión (9) se calcula el vector de coeficientes k resultantes para la representación final del borde.

En el ejemplo ilustrado en la Figura 7 se puede observar la respuesta del filtro frente a los cambios de incerteza en la variación de los coeficientes registrados. El filtro maneja la pérdida de puntos detectados incrementando p k y conmuta a las predicciones internas de estos valores si son necesarias. Se toman en cuenta la última posición y velocidad alcanzada por el borde al momento previo del impacto para estimar previamente el parámetro k del proceso. Durante la colisión, el filtro de Kalman continúa la secuencia con las predicciones, obviando los valores de coeficientes mal condicionados. Cuando la colisión finaliza y la oclusión del pliegue vocal ya no es un problema, la estimación retorna a los bordes detectados previamente en la etapa anterior. Esto permite la representación completa de todo el ciclo, lo cual es posible de observar en la Figura 8. Al completar suavemente la evolución temporal de la vibración para cada cuerda vocal, sin considerar la deformación de la misma al momento de impactar, la penetración aparente 5 k entre las cuerdas solapadas es ahora visible y puede utilizarse para estimar la colisión del tejido.

En la etapa de estimación del contacto (500), llevada a cabo en la unidad de procesamiento, se extraen la penetración aparente 5 k entre los tejidos y sección de contacto a c a partir de trayectoria previamente estimada. La diferencia entre polinomios izquierdo y derecho evaluados en sus coeficientes k respectivos se utiliza para computar este par de valores de la siguiente manera:

Δ = M p ( ; ¾ e t ) - M p ( ; Y k ight ) (28) δ = η · máx{Ax j k , Vj} (29)

a k = v Vj {AX jik > 0} (30)

La ganancia η es un factor de calibración del video para convertir la dimensión espacial de pixeles a metros, la cual se asumirá conocida. La penetración y grado de contacto finalmente son evaluadas en las ecuaciones de contacto Hertziano para obtener las predicciones de fuerza y presión de contacto sufridas por el tejido visualizado en una grabación HSV a analizar, tal como se muestra en la Figura 9. En este ejemplo, los valores de fuerza y presión son solo sugerentes ya que los parámetros, T, L, η y E * usados aquí no están calibrados para este caso.