Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DEVICE AND METHOD FOR THE DETECTION OF AERIAL OBSTACLES FOR VISUALLY IMPAIRED PEOPLE
Document Type and Number:
WIPO Patent Application WO/2014/096483
Kind Code:
A1
Abstract:
The invention relates to a method for the detection of aerial obstacles for visually impaired people, in the form of a portable electronic device comprising a dual camera that can film in stereo. The method comprises a step of obtaining 3D data using stereo vision, a step of establishing a histogram of distances using the 3D data, and a step of detecting obstacles on the basis of the histogram.

Inventors:
SÁEZ MARTÍNEZ JUAN MANUEL (ES)
ESCOLANO RUÍZ FRANCISCO (ES)
LOZANO ORTEGA MIGUEL ÁNGEL (ES)
PITA LOZANO JAVIER (ES)
Application Number:
PCT/ES2013/070841
Publication Date:
June 26, 2014
Filing Date:
December 04, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV ALICANTE (ES)
International Classes:
G01B21/00
Domestic Patent References:
WO2003107039A22003-12-24
Foreign References:
US20080170118A12008-07-17
GB2265779A1993-10-06
US20120155764A12012-06-21
Download PDF:
Claims:
REIVINDICACIONES

1. Método para la detección de obstáculos aéreos para invidentes en un dispositivo electrónico portátil que comprende una doble cámara con capacidad de filmado en estéreo; donde dicho método comprende una etapa de obtención de datos 3D mediante visión estéreo a partir de un par de imágenes y que se caracteriza porque comprende:

(a) una etapa de establecimiento de un histograma de distancias a través de los datos 3D y que consiste en

a. estimar la dirección real del movimiento del usuario a partir del ángulo formado por el dispositivo en el eje horizontal y del ángulo del dispositivo sobre el eje vertical;

b. recoger el subconjunto de puntos 3D obtenidos de la observación actual que se encuentran en la dirección de movimiento del usuario y que intersectan con la proyección del torso del usuario definido como un paralepípedo; y donde el subconjunto de puntos 3D está definido como una nube de puntos distribuida a lo largo de dicho paralepípedo;

c. establecer un histograma de tal forma que se divide el paralelepípedo en sectores y se recoge el número de puntos de cada sector en el histograma, de tal forma que dicho histograma representa una distribución unidimensional de los obstáculos en la dirección de avance del usuario;

d. linearizar el histograma formando un cuadrado unitario por cada celda del histograma situado a la misma distancia a la que se encuentra dicha celda del origen y midiendo el área de cada cuadrado proyectado sobre una imagen de referencia y dividiendo el histograma por dicha imagen de referencia;

(b) una etapa de detección de obstáculos, representados estos por una o varias celdas próximas en el histograma linearizado, y generando un aviso al usuario en forma de señal acústica o vibración, si la distancia al obstáculo identificado es igual o menor a dos metros.

2. Método de acuerdo con la reivindicación 1 donde para detectar las distintas distribuciones que componen el histograma linearizado se emplea un algoritmo Mean - Shift con un núcleo uniforme de cuatro unidades, de tal forma que Del conjunto de centros obtenidos con este procedimiento se tienen en cuenta sólo los más significativo y que representan los posibles obstáculos.

3. Método de acuerdo con cualquiera de las reivindicaciones 1 y 2 donde Para obtener un subconjunto robusto de obstáculos se realiza un procedimiento de seguimiento, de forma que solamente se considera un obstáculo cuando se repita a lo largo del tiempo en al menos las cuatro iteraciones anteriores, seleccionando el obstáculo con menor índice del conjunto y que representa el más cercano al usuario, de tal forma que si su distancia asociada es inferior a dos metros se genera el aviso.

4. Método de acuerdo con cualquiera de las reivindicaciones 1 a 3 donde el paralepípedo es de 0,5x0,5x4,0 metros.

5. Dispositivo para la detección de obstáculos aéreos para invidentes que se caracteriza porque comprende una doble cámara con capacidad de filmado en estéreo y/o con un sistema catadióptrico basado en espejos para dividir la señal de imagen y obtener así dos observaciones del entorno separadas; y que se caracteriza porque comprende medios para el procesamiento y ejecución del método de las reivindicaciones 1 a 4.

6. Producto informático para la detección de obstáculos aéreos para invidentes que se caracteriza porque comprende una pluralidad de instrucciones conteniendo el método de las reivindicaciones 1 a 4 para su ejecución por un teléfono móvil.

Description:
DISPOSITIVO Y MÉTODO PARA LA DETECCIÓN DE OBSTÁCULOS AÉREOS PARA INVIDENTES

Objeto de la invención

El objeto de la presente invención es un sistema y un método para la detección de obstáculos aéreos para invidentes como complemento no sustitutivo del bastón o del perro guía. Por obstáculos aéreos se entienden todos aquellos obstáculos que no tienen proyección contra el suelo, tal como ramas de árboles, toldos y similares.

Estado de la técnica

La ceguera es considerada la mayor de las minusvalías sensoriales, ya que se estima que el 80% de la información sensorial humana proviene de la visión. Esta carencia de información condiciona en gran medida la vida del individuo, su interacción con el entorno y con la sociedad, su aprendizaje, etc. Según datos de la Organización Mundial de la Salud en su informe publicado en enero de 2012 [S.P. Mariotti, "Global data on visual impairments 2010", World Health Organization, Januray 2012] en 2010 se contabilizaron 285 millones de personas con discapacidad visual. Dicho dato abarca todos los grados de discapacidad visual, siendo el grado más severo el que comúnmente se denomina ceguera y que formalmente se atribuye a las personas con una agudeza visual inferior al 5%. Estos últimos representan alrededor del 13,6% de los discapacitados visuales (unos 39 millones de personas a nivel mundial). Uno de los retos diarios a los que se enfrenta una persona ciega es el del desplazamiento autónomo. En cuanto a la orientación global, existen diferentes sistemas basados en GPS con cartografías específicas para peatones y adaptados para ciegos mediante interfaces de voz, que suplen en gran medida este problema. Es el caso de conocido sistema KAPTEN®, desarrollado por la empresa Kapsys, cuyo uso está ampliamente extendido entre la comunidad de ciegos.

Sin embargo, en cuanto a la detección y evitación de obstáculos, son los sistemas clásicos como el bastón o el perro guía los más utilizados. Aunque existen desarrollos tecnológicos y prototipos más avanzados en este terreno (por ejemplo, el documento US6671226 o el US2008309913 que emplea un sistema de radar tridimensional), no han conseguido hasta el momento convertirse en una herramienta cotidiana para esta comunidad. Esto se debe a varias razones. En primer lugar, porque tienden a intentar sustituir al bastón o al perro guía, sistemas que pese a ser clásicos, cumplen sobradamente su cometido. Por otro lado, y no menos importante, se trata de sistemas bastante voluminosos y bastante incómodos, como grandes cascos con cámaras, sonares repartidos por todo el cuerpo, unidades de cómputo voluminosas, entre otros, que llaman mucho la atención y dificultan en gran medida la integración social a los usuarios.

Además, en muchas ocasiones se tiende a traducir los obstáculos en señales acústicas que se envían al usuario a través de auriculares, lo cual le priva del sonido, su principal fuente de información.

Explicación de la invención Es un objeto de la presente invención un dispositivo que actúe como complemento no sustitutivo del bastón o del perro guía que viene a resolver el principal problema de estos sistemas, esto es, la incapacidad para detectar obstáculos aéreos. Estos obstáculos se caracterizan por no tener proyección contra el suelo (típicamente ramas de árboles, toldos, etc.). En el caso de los bastones, la limitación citada es obvia. En el caso de los perros guía, la capacidad de estos animales impide su adiestramiento para detectar este tipo de obstáculos, ya que no son conscientes de la diferencia de altura entre ellos mismos y el humano al que guían.

Una ventaja de la presente invención es su integración en un teléfono inteligente (Smartphone), sin ningún tipo de hardware adicional, por lo que resulta cómodo y discreto para el usuario, facilitando su integración social. Por otro lado, la invención es capaz de avisar de los obstáculos mediante señales acústicas (a través del altavoz del teléfono, nunca a través de auriculares) o vibraciones, utilizando el sistema de vibración propio del teléfono. Esta última opción hace que el sistema sea aún más discreto, ya que sólo el usuario percibe el aviso y no priva al usuario de la audición, sentido principal para un ciego.

Para la detección de obstáculos, la invención es capaz de tomar medidas del entorno a varios metros. Esto no es posible con el hardware que integran la mayoría de los teléfonos inteligentes, pero si con la doble cámara que incorporan algunos modelos denominados "teléfonos 3D". Estos terminales incorporan una doble cámara trasera con el fin de filmar la escena en estéreo, para lo cual necesitan dos objetivos. La razón por la que los fabricantes incorporan esta opción tan singular en sus dispositivos es para recrear un efecto denominado "3D sin gafas", esto es, la visualización de la escena estéreo a través de una pantalla basada en parallex-barrier, lo que provoca la ilusión óptica similar a la visualización de la escena en tres dimensiones. El dispositivo de la invención es aplicable en cualquier dispositivo con doble cámara trasera. Dispositivos comerciales de este tipo son el LG Optimus 3D® y el HTC Evo 3D®. No obstante, la presente invención no está restringida a los teléfonos 3D con dos cámaras, ya que cualquier teléfono con una sola cámara puede adaptarse con un sistema catadióptrico basado en espejos para dividir la señal de imagen y obtener así dos observaciones del entorno separadas.

Además de la doble cámara, el sistema utiliza algunos sensores comunes en este tipo de dispositivos, como es el magnetómetro y el acelerómetro, para detectar la orientación global del dispositivo y estimar con ella la dirección en la que se mueve el usuario.

La presente invención resuelve la problemática descrita mediante el método descrito en la primera reivindicación. Otros aspectos de la invención están descritos en el juego de reivindicaciones que acompaña a la presente memoria descriptiva.

A lo largo de la descripción y las reivindicaciones la palabra "comprende" y sus variantes no pretenden excluir otras características técnicas, aditivos, componentes o pasos. Para los expertos en la materia, otros objetos, ventajas y características de la invención se desprenderán en parte de la descripción y en parte de la práctica de la invención. Los siguientes ejemplos y dibujos se proporcionan a modo de ilustración, y no se pretende que restrinjan la presente invención. Además, la presente invención cubre todas las posibles combinaciones de realizaciones particulares y preferidas aquí indicadas.

Breve descripción de las figuras

A continuación se pasa a describir de manera muy breve una serie de dibujos que ayudan a comprender mejor la invención y que se relacionan expresamente con una realización de dicha invención que se presenta como un ejemplo no limitativo de ésta. FIG.1 Muestra un esquema geométrico del método de detección de obstáculos de acuerdo con la presente invención.

FIG.2 Muestra un diagrama de bloques del método de detección de obstáculos de acuerdo con la presente invención.

Exposición detallada de una realización de la invención El funcionamiento del dispositivo que implementa el método objeto de la presente invención está relacionado directamente con su portabilidad por parte del usuario, ya que el dispositivo debe colgarse del cuello, con la cámara mirando hacia delante y la pantalla del dispositivo apoyada contra el pecho para activar el método de detección de obstáculos. Una vez se detecte mediante el sensor de proximidad del dispositivo que se ha colocado en dicha posición, el dispositivo queda bloqueado y comienza la detección de obstáculos. La detección se desactivará girando el dispositivo, o simplemente separándolo del pecho.

La detección de obstáculos se realizará hasta una distancia de cuatro metros en la dirección de avance del usuario, teniendo en cuenta el espacio que ocupa su torso, estimándose un volumen de 0,5x0,5x4,0 metros. El dispositivo incorpora un algoritmo para corregir el movimiento de basculación producido al caminar, que produce que la cámara no esté mirando siempre en la dirección real de avance, sino que girará continuamente de izquierda a derecha. Con esta corrección, los obstáculos se buscarán en la dirección en la que estamos avanzando, y no hacia donde mira la cámara en cada momento.

Los obstáculos se avisan cuando están a dos metros de distancia en la dirección de avance del usuario. Una vez se encuentre un obstáculo, el sistema avisará mediante vibración o pitido, siendo más intensa y/o frecuente según se acerque el usuario al obstáculo.

El dispositivo comprende una interfaz táctil que utiliza la propia pantalla del dispositivo y que está creada para usuarios ciegos. Dicho interfaz tiene por objetivo proporcionar al usuario la posibilidad de configurar distintos aspectos del sistema. El control de interfaz se basa en tres gestos: arrastre vertical para cambiar el ítem del menú, arrastre horizontal para preseleccionar la opción del ítem actual del menú y pulsación para seleccionar la opción actual. Tras cada gesto, y a través del altavoz del dispositivo, se vocaliza el ítem del menú y la opción actual, con el objetivo de que el usuario esté permanentemente informado de las acciones que está realizando. El dispositivo de la invención es aplicable en cualquier dispositivo con doble cámara trasera. Dispositivos comerciales de este tipo son el LG Optimus 3D® y el HTC Evo 3D®. No obstante, la presente invención no está restringida a los teléfonos 3D con dos cámaras, ya que cualquier teléfono con una sola cámara puede adaptarse con un sistema catadióptrico basado en espejos para dividir la señal de imagen y obtener así dos observaciones del entorno separadas, tal y como se ha indicado anteriormente.

La aplicación se compone de los siguientes ítems:

Modo, en donde se estable el modo de funcionamiento del dispositivo y donde las opciones son:

o Obstáculos, donde se equilibra la observación en función de la orientación del dispositivo, como se ha explicado con anterioridad, y está pensado para la evitación de obstáculos mientras se camina, o Telémetro, en este modo no se equilibra la observación, y se extiende la distancia mínima de aviso a cuatro metros. Este modo sirve para explorar libremente el entorno próximo al usuario,

o Pausa, en este modo se detiene la detección de obstáculos.

- Avisos, en el que se establece el tipo de aviso para los obstáculos. Las opciones son señal acústica y/o vibración.

- Volumen, en el que se establece el volumen tanto de la señal acústica como de la vocalización del menú. Las opciones son muy alto, alto, medio y bajo.

- Voz, en la que se establece la velocidad de vocalización del menú. Las opciones son muy rápida, rápida y normal.

Idioma, en el que se establece el idioma de la aplicación.

- Acerca de, en el que se vocaliza al usuario un mensaje con los créditos de la aplicación.

Salir, para salir y cerrar la aplicación.

Como se ha indicado, el dispositivo y objeto de la invención utiliza la información 3D del entorno para detectar los obstáculos presentes en el mismo. Dicha información se obtiene a través de un conjunto de algoritmos y procedimientos relacionados con la visión estereoscópica. El método comprende una etapa de obtención de datos 3D mediante visión estéreo, una etapa de establecimiento de un histograma de distancias a través de los datos 3D, y una etapa de detección de obstáculos a partir del histograma de distancias.

Obtención de datos 3D mediante visión estéreo

A partir de un par de imágenes ( t t ) obtenidas de la cámara estéreo del dispositivo en el instante t, el objetivo es obtener un conjunto de puntos 3D de la escena P T = {pi, P2 > - , PN), donde p¿ = ( ¿, ¿, Zí) en coordenadas métricas con referencia en el centro óptico de la cámara izquierda del dispositivo.

Para ello, es necesario establecer una correspondencia entre los píxeles de las imágenes, lo que nos proporciona una imagen de disparidad D t . Para realizar dicha correspondencia se utiliza el algoritmo descrito en [K. Konolige, "Small visión systems: hardware and implementation", International Symposium on Robotics Research, 1997]. Dicha correspondencia se puede realizar directamente, ya que las imágenes se encuentran rectificadas y pre-alineadas, luego la línea epipolar de cualquier píxel en una imagen coincide con la misma fila en la otra imagen (dicho alineamiento ya lo realiza el sistema original ya que es necesario para conseguir el efecto "3D sin gafas" de estos dispositivos). Una vez obtenida la correspondencia, y utilizando los datos extrínsecos de las cámaras (distancia focal y distancia entre cámaras), obtenidos del propio dispositivo, se realiza la reconstrucción 3D, obteniendo una nube de puntos p t = ÍPi > P2 > - > PN) de la escena por cada par de imágenes (I t .

Histograma de distancias a partir de los datos 3D

A partir de los datos 3D obtenidos de la cámara estéreo (con sistema de referencia en el objetivo izquierdo), es necesario obtener una descripción de los objetos en la dirección en la que se mueve el usuario V¡, para determinar los posibles obstáculos (ver figura 1 ).

Para determinar dicha dirección, se debe tener en cuenta que, para detectar los obstáculos, el dispositivo móvil se coloca sobre el esternón, con la doble cámara hacia afuera, colgado del cuello a modo de medallón. Por un lado, el ángulo a t en el eje horizontal OX (también llamado pitch en el sistema de navegación de Tait-Bryan) que adopta el móvil es el del propio esternón, que difiere de unas personas a otras. Por otro lado, el movimiento basculante del cuerpo mientras se camina, que se transfiere al dispositivo, hace que ángulo del móvil β ι sobre el eje en vertical OY (también llamado yaw en el sistema Tait-Bryan) esté cambiando continuamente. Es por ello que la dirección real de movimiento del usuario V¡ no es constante con respecto al dispositivo y debe estimarse.

El vector V¡ puede estimarse a partir de los dos ángulos citados anteriormente (a t , ? t ). El valor de a t viene determinado directamente por el dispositivo, que combina los datos del acelerómetro G¡ y el del magnetómetro ~ M t para obtener la rotación global del dispositivo con respecto a los tres ejes y ) (pitch, yaw y roll o rotación sobre OX, OY y OZ respectivamente). El pitch global coincide con el primer ángulo que debemos usar a t - a , para que V¡ sea paralelo al plano real por el que camina el usuario.

Si el movimiento del usuario estuviese ausente de basculacion (es el caso de otros modelos de movimiento como por ejemplo la trayectoria de un automóvil) bastaría con a t para calcular la dirección del movimiento V¡. Sin embargo, la basculacion propia del torso del usuario mientras camina se proyecta sobre el dispositivo, haciendo que ? presente continuos cambios a lo largo del tiempo. Por esta razón, β ι se debe estimar a partir de un conjunto N medidas anteriores del yaw global { ? , β?_ ν ... , β _ Ν }.

La idea es tomar β ι como la diferencia entre ? y el valor esperado de sus medidas anteriores, pero hay que tener en cuenta que la distribución de las mismas es bimodal. Para separar la distribución en los dos subconjuntos que la componen, se utiliza un algoritmo de /c-medias [JA. Hartiga, MA. Wong, Algorithm AS 136: A K-Means Clustering Algorithm", Journal of the Royal Statistical Society, 1979] con k = 2, con lo que se obtienen dos subconjuntos que dividen a la distribución original β Α u β Β =

Realizando la media entre el valor esperado de ambos conjuntos y restándola al valor anterior de se obtiene la estimación de β ί , esto es: β ι = β? - (Ε(β Α ) + Ε{β Β ))/2. Una vez obtenidos los valores de (a t , ? t ) se compone V t que simboliza la dirección hacia donde se mueve el usuario. Sobre el eje determinado por el centro de referencia del sistema y dicho vector, situamos un paralelepípedo de tamaño 0,5 x 0,5 x 4,0 m que simboliza la proyección del torso del usuario sobre su dirección de movimiento. Dicho paralelepípedo se utiliza para recoger el subconjunto de puntos 3D P t * obtenidos de la observación actual P T = {p 1 , p 2> - > PN) °í ue se encuentran en la dirección de movimiento del usuario y que intersectan con la proyección de su torso, con lo que representan posibles obstáculos. P t * es una nube de puntos distribuida a lo largo de un paralelepípedo de 4 metros de longitud. Para interpretar los obstáculos, en primer lugar traducimos dicha nube de puntos en un histograma de votación H t . Cada celda del histograma H t [i] recoge el número de puntos del paralelepípedo que se encuentran entre los planos 0,05¿V t y 0,05 (i + 1)V¡. Dicho de otro modo, se divide el paralelepípedo en sectores de 0,05m en profundidad y se recoge el número de puntos de cada sector en el histograma. H t representa una distribución unidimensional de los obstáculos en la dirección de avance del usuario.

Hay que tener en cuenta que P T y por consiguiente P t * presentan una naturaleza proyectiva, ya que provienen de un sistema estereoscópico. Esto implica que los puntos presentarán un grado de dispersión mayor cuanto mayor sea la distancia a la que son observados. En concreto, dicha diferencia de dispersión sigue una tendencia exponencial con respecto a la distancia. Esto implica que las celdas del histograma H t [i] presentarán una densidad decreciente conforme aumenta ¿, la cual es producto de la naturaleza de la distribución y no de los obstáculos que describe. Para eliminar este problema, formamos un cuadrado unitario Q por cada celda del histograma H t [i] situado a la misma distancia a la que se encuentra dicha celda del origen, esto es 0,05 ¿V t . A continuación, se mide el área de cada cuadrado proyectado sobre la imagen de referencia 5 ¿ . El tamaño de dichas áreas sigue una distribución con la misma naturaleza proyectiva que H t [i] pero siguiendo un orden inverso, luego basta con dividir ambas distribuciones para obtener una versión linearizada del histograma libre del efecto de la proyección H¡ [i] - H t [i]/Si.

Detección de obstáculos a partir del histograma de distancias Cada obstáculo viene representado por una o varias celdas próximas en H¡. Además, es posible encontrar varios obstáculos a distintas distancias en una sola observación luego H¡ es una distribución multimodal. Para detectar las distintas distribuciones que la componen utilizamos el algoritmo Mean-Shift [Y. Cheng, "Mean Shift, Mode Seeking, and Clustering", IEEE Transactions on Pattern Analysis and Machine Intelligence (IEEE), August 1995\, con un núcleo uniforme de 4 unidades. Del conjunto de centros obtenidos con este procedimiento se tienen en cuenta sólo los más significativos O t = {o lr o 2 , ... , <½} y que representan los posibles obstáculos. Debido al ruido presente en la estimación de los puntos 3D a partir del sistema de visión estéreo, el conjunto inicial de posibles obstáculos O t puede contener una cierta proporción de obstáculos fantasma, que aparecen y desaparecen de una observación a otra. Para obtener un subconjunto robusto de obstáculos 0¡, se realiza un procedimiento de seguimiento, de forma que solamente consideraremos un obstáculo cuando se repita a lo largo del tiempo en al menos las 4 iteraciones anteriores. Para ello, 0¡ se forma como los obstáculos de O t que se repiten, al menos, en los conjuntos {O t _ 3 , O t _ 2 , O t _ 1; O t }. Consideraremos que un obstáculo o ¿ e O u coincide con otro obstáculo de otro conjunto o¡ e O v cuando se encuentren a una distancia en celdas sobre el histograma inferior a 4 unidades. Dicho tamaño viene en consonancia con el tamaño utilizado en el algoritmo Mean-Shift, que asegura que no hay dos núcleos en la distribución a una distancia inferior.

Una vez obtenido el conjunto robusto de obstáculos 0¡, seleccionamos el obstáculo o k * con menor índice del conjunto, que representa el más cercano al usuario. Si la distancia asociada a dicho obstáculo d(o k * ) = 0,05/c es inferior a 2 metros, generamos el aviso al usuario, que puede ser una señal acústica o una vibración, dependiendo de la configuración seleccionada. La frecuencia a la que se emite dicha señal se hace inversamente proporcional a la distancia al obstáculo d(o k * ), de forma que obstáculos más cercanos provocan una frecuencia de aviso mucho mayor que obstáculos más lejanos.