Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PORTABLE SYSTEM THAT ALLOWS BLIND OR VISUALLY IMPAIRED PERSONS TO INTERPRET THE SURROUNDING ENVIRONMENT BY SOUND OR TOUCH
Document Type and Number:
WIPO Patent Application WO/2016/198721
Kind Code:
A1
Abstract:
The invention relates to a portable system that allows blind or visually impaired persons to interpret the surrounding environment by sound or touch, said system comprising: two cameras (3i, 3d) separate from one another and configured to capture an image of the environment simultaneously, and means (4i, 4d) for generating sound and/or touch output signals. Advantageously, the system also comprises processing means (2) connected to the cameras (3i, 3d) and to the means (4i, 4d) for generating sound and/or touch signals. The processing means are configured to combine the images captured in real time and to process the information associated with at least one vertical band with information relating to the depth of the elements in the combined image, said processing means (2) also being configured to: divide the vertical band into one or more regions; define a sound or touch signal, in each region, according to the depth of the region and the height of the region; and define a sound or touch output signal based on the sound or touch signals in each region of the vertical band.

Inventors:
QUESADA HERVÁS ANTONIO (ES)
Application Number:
PCT/ES2016/070441
Publication Date:
December 15, 2016
Filing Date:
June 10, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
EYESYNTH S L (ES)
International Classes:
A61F9/08; G01B11/22; G08B3/00; G08B6/00
Domestic Patent References:
WO2013018090A12013-02-07
Foreign References:
US20070016425A12007-01-18
EP0410045A11991-01-30
US20090122648A12009-05-14
US20120092460A12012-04-19
US4292678A1981-09-29
US3172075A1965-03-02
Other References:
P.B.L MEIJER: "An experimental System for auditory image representations''.", IEEE TRANSACTIONS ON BIOMEDICAL ENGINEERING, vol. 39, no. 2, 29 February 1992 (1992-02-29), pages 112 - 121, XP000246185, ISSN: 0018-9294, Retrieved from the Internet
J. BANKS ET AL.: "Non-parametric techniques for fast and robust stereo matching''.", IEEE TENCON - SPEECH AND IMAGE TECHNOLOGIES FOR COMPUTING AND TELECOMMUNICATIONS., 4 December 1997 (1997-12-04), pages 365 - 368, XP031172476, ISBN: 0-7803-4365-4, Retrieved from the Internet
L. KAY: "Auditory perception of objects by blind persons, using a bioacoustic high resolution air sonar''.", J. ACOUST. SOC. AM., vol. 107, no. 6, 30 June 2000 (2000-06-30), pages 3266 - 3275, XP012001735, Retrieved from the Internet
"The vOICe at Tucson 2002''.", 4 May 2006 (2006-05-04), Retrieved from the Internet
See also references of EP 3308759A4
Attorney, Agent or Firm:
TEMIÑO CENICEROS, Ignacio (ES)
Download PDF:
Claims:
REIVINDICACIONES

1. - Sistema portátil de interpretación sonora o táctil del entorno para personas invidentes o con deficiencia visual, que comprende:

- dos cámaras (3i, 3d), separadas entre sí, configuradas para captar simultáneamente una imagen del entorno,

- unos medios de generación (4i, 4d) de señales sonoras y/o táctiles de salida; caracterizado por que comprende:

- unos medios de procesamiento (2) conectados a las cámaras (3i, 3d) y a los medios de generación (4i, 4d) de señales sonoras y/o táctiles, configurados para combinar las imágenes captadas en tiempo real, y para procesar la información asociada a, al menos una franja vertical con información sobre la profundidad de los elementos de la imagen combinada, donde dichos medios de procesamiento (2) están además configurados para dividir la franja vertical en una o más regiones; para definir, en cada región, una señal sonora o táctil en función de la profundidad de la región y de la altura de la región; y para definir una señal sonora o táctil de salida a partir de las señales sonoras o táctiles de cada región de la franja vertical.

2. - Sistema según la reivindicación anterior, donde la franja vertical es una franja central de la imagen combinada.

3. - Sistema según la reivindicación anterior, donde los medios de procesamiento (2) están configurados para procesar una pluralidad de franjas verticales laterales en la imagen combinada, a cada lado de la franja vertical central, y por que se definen una señal lateral izquierda y una señal lateral derecha, a partir de las regiones de cada franja lateral izquierda y de cada franja lateral derecha respectivamente.

4. - Sistema según la reivindicación anterior, donde los medios de procesamiento (2) están adaptados para proporcionar un análisis simultáneo de la pluralidad de franjas verticales laterales, de forma que se procese, horizontalmente, una región de segmentación sobre la imagen completa adquirida por las cámaras (3i, 3d).

5. - Sistema según la reivindicación anterior, donde el modo de operación de los medios de procesamiento (2) es configurable por el usuario, de forma que el modo de análisis simultáneo de la pluralidad de franjas verticales laterales y modo de análisis de una única franja vertical son activables y desactivables por dicho usuario.

6. - Sistema según cualquiera de las reivindicaciones anteriores, donde los medios de generación (4i, 4d) operan en estéreo, combinando una señal sonora o táctil lateral izquierda y una señal sonora o táctil lateral derecha, y/o donde el sonido generado es monoaural, siendo ambas modalidades seleccionares por el usuario.

7. - Sistema según cualquiera de las reivindicaciones anteriores, donde los medios de procesamiento (2) definen una intensidad de la señal sonora o táctil en función de la profundidad de la región.

8. - Sistema según la reivindicación anterior, donde los medios de procesamiento (2) definen una frecuencia de la señal sonora o táctil en función de la altura de la región en la franja vertical. 9.- Sistema según la reivindicación anterior, donde los medios de procesamiento

(2) están configurados para determinar la profundidad de una región, en función de la codificación del color en escala de grises o mediante un gradiente de color, sobre un mapa de profundidad de la imagen del entorno. 10.- Sistema según cualquiera de las reivindicaciones anteriores, que comprende una estructura soporte (1 ) para ser llevada por el usuario, y configurada para ubicar los medios de reproducción (4i, 4d) y las dos cámaras (3i, 3d).

1 1. - Sistema según cualquiera de las reivindicaciones anteriores, donde la señal táctil es una señal generada por vibración.

12. - Sistema según cualquiera de las reivindicaciones anteriores, donde la frecuencia de la señal sonora se elige dentro del intervalo entre 100 Hz y 18000 Hz. 13.- Sistema según cualquiera de las reivindicaciones anteriores, donde los medios de generación (4i, 4d) comprenden unos auriculares de conducción ósea.

14.- Sistema según cualquiera de las reivindicaciones anteriores, donde la estructura soporte (1 ) se elige entre al menos:

- unas gafas,

- una diadema, - soporte de cuello,

- soporte pectoral,

- soporte en hombro,

- soporte de mano.

15.- Sistema según cualquiera de las reivindicaciones anteriores, que comprende un medio de transmisión inalámbrica de datos conectado a la unidad de procesamiento (2), donde dichos medios de transmisión se encuentran conectados a un dispositivo externo con conexión inalámbrica, y/o a un dispositivo de tipo wearable.

Description:
DESCRIPCIÓN

SISTEMA PORTATIL DE INTERPRETACION SONORA O TACTIL DEL ENTORNO PARA PERSONAS INVIDENTES O CON DEFICIENCIA VISUAL

CAMPO DE LA INVENCIÓN

La invención se relaciona con los dispositivos de asistencia a personas con alguna limitación o minusvalía. En particular, la invención se refiere a un sistema de ayuda orientado principalmente a personas ciegas o con deficiencia visual.

ANTECEDENTES DE LA INVENCIÓN

Tradicionalmente, los usuarios con discapacidad visual dependen de ayudas básicas, como bastones y perros guía para desplazarse o reconocer su entorno. Aunque se han desarrollado sistemas que emplean un mayor nivel tecnológico, a menudo resultan invasivos y complejos de manejar. También suelen ser demasiado caros para que su uso deje de ser exclusivo. Habitualmente, los sistemas actuales suelen medir distancias a un punto, por ejemplo mediante el empleo de un láser, avisando acústicamente si un objeto se interpone en la trayectoria o no. Tales sistemas no proporcionan un análisis volumétrico de la escena, ni su respuesta tiene matices asociados a cambios de posición, tamaño o geometría (curvas, aristas, posición respecto a la línea de horizonte). Por otra parte, un análisis de una escena a través de la medición de distancias con muchos puntos precisa una gran capacidad de computación, que generalmente lo hace inviable para emplearse en tiempo real y/o en un dispositivo que sea portátil.

En este contexto, son también conocidos, en el estado de la técnica, dispositivos de análisis de imágenes del entorno, configurados para interpretar dichas imágenes y mapearlas como sonidos a sus usuarios, de forma que se obtienen representaciones sonoras de la distancia de los objetos que componen dichas imágenes, integrando así una proyección tridimensional que sirve al usuario para orientarse y alertarlo de posibles obstáculos en su camino. No obstante, dichos dispositivos son, de nuevo, ineficaces en cuanto a sus requisitos de computación, lo que se traduce en la práctica en una baja rapidez de respuesta, y defectos de cálculo que provocan imprecisiones y una experiencia de uso inadecuada para los usuarios. Ejemplos de este tipo de dispositivos basados en mapeado completo de las imágenes son las solicitudes de patente ES 2133078 A1 y US 2009/122161 A1. Como alternativa a estos dispositivos, la solicitud de patente ES 2517765 A1 propone un dispositivo configurado para proporcionar un banco de sonidos y asociar cada punto de las imágenes obtenidas con al menos un sonido de dicho banco de sonidos, creando un mapa de sonidos codificados y representando un plano del espacio tridimensional capturado. El citado dispositivo está adaptado, asimismo, para reproducir secuencialmente un sonido desde cada uno de los puntos definidos en el mapa, estando dicho sonido asociado a un espacio representado líneas horizontales, con el objetivo de facilitar la compensación de errores derivados de una mala colocación del dispositivo por parte de los usuarios, por ejemplo en realizaciones basadas en gafas, donde una mala horizontalidad puede derivar en un cálculo defectuoso de las distancias al usuario.

Si bien la citada alternativa permite remediar algunas de las deficiencias planteadas por dispositivos anteriores del estado de la técnica, posee aún la importante limitación derivada de su exigencia de recursos de computación, ya que, aunque esté configurada para representar patrones sonoros horizontales obtenidos de las imágenes, el procesamiento de las profundidades de las mismas se realiza analizando dichas imágenes de forma íntegra, de modo similar al de los sistemas antes citados. En consecuencia, la totalidad de los dispositivos conocidos requieren importantes recursos de computación, lo que limita severamente su rendimiento y sus capacidades. Adicionalmente, estos dispositivos exigen, por lo general, el uso de inclinómetros/gravímetros, lo que añade complejidad a los mismos, sin llegar a resolver completamente el problema de la precisión en el cálculo de profundidades.

Por tanto, existe una necesidad de sistemas efectivos para ayudar a personas con discapacidad visual capaces de facilitar una descripción comprensible del entorno mediante audio o señales táctiles fácilmente comprensibles), y que presenten a la vez un consumo reducido de recursos de cálculo y computación.

BREVE DESCRIPCIÓN DE LA INVENCIÓN La presente invención es principalmente aplicable a personas con problemas de visión. No obstante, podría ser aplicable en otro tipo de escenarios y circunstancias donde no se pueda emplear el sentido de la vista o sea preciso un sistema de guiado alternativo. La asistencia para personas se facilita con una descripción del entorno mediante una interpretación de los objetos y obstáculos que existen alrededor que se transmite a través de una señal, preferentemente sonora o táctil (por ejemplo, una vibración transmitida a través del sentido del tacto). La generación de dicha señal se hace a partir de un procesamiento de imágenes estéreo para obtener una representación de zonas con mayor intensidad de color, que se corresponden con regiones más lejanas en tanto que otras de menor intensidad de color se asocian a regiones situadas más cerca. Por tanto, un objeto de la invención se refiere a un sistema portátil de interpretación sonora o táctil del entorno para un invidente que comprende:

- dos cámaras, separadas entre sí, para captar simultáneamente una imagen del entorno,

- unos medios de procesamiento que combinan ambas imágenes en tiempo real y establecen, al menos, una franja vertical con información sobre la profundidad de los elementos de la imagen combinada, donde dichos medios de procesamiento además dividen la franja vertical en una pluralidad de regiones; definen, para cada región, una señal sonora o táctil en función de su profundidad y de su altura en la imagen; definen una señal sonora o táctil de salida a partir de las señales sonora o táctil de cada región de la franja vertical;

- unos medios de reproducción de la señal sonora o táctil de salida.

En una realización preferente de la invención, la franja vertical es central en la imagen combinada y el usuario al moverse escanea el entorno. Este modo de funcionamiento de la invención será denominado, de ahora en adelante, como "modo de rastreo".

El procesado de únicamente una franja vertical de la imagen obtenida por las cámaras permite, de una parte, restringir el análisis de profundidades a la región de interés que resulta óptima para sus usuarios (ya que corresponde al punto de enfoque central), evitando las regiones periféricas que aportan información de menor interés. Mediante esta optimización, se permite reducir sustancialmente la exigencia de cálculo del sistema, sin afectar negativamente a la información adquirida. Ello se debe a que una línea vertical condensará la información de profundidad en horizonte, siendo ésta la más relevante para la localización de obstáculos por parte del usuario. De este modo, la información correspondiente a la visión lateral periférica se genera con el movimiento natural de la cabeza hacia los lados por parte del usuario durante el movimiento, lo que desplaza la línea vertical de análisis y permite adquirir la información restante, sin la necesidad de procesar en continuo la imagen completa adquirida por las cámaras. Un movimiento de cabeza horizontal de unos pocos grados permite cubrir de modo natural la región frontal del usuario, para todas las profundidades de horizonte (que se cubren mediante el análisis de línea vertical). Mediante esta optimización técnica, se estima un ahorro en exigencia de cálculo de aproximadamente un 90% frente a las alternativas del estado de la técnica. Adicionalmente, el procesado de la línea vertical frente a la totalidad de la imagen captada por las cámaras permite evitar la presencia de contaminación sonora debida a objetos periféricos cercanos, cuya presencia se encuentra próxima al usuario, pero no obstaculiza directamente su paso. En este sentido, la utilización de este sistema comparte muchas similitudes con el modo de operación de rastreo o tanteo mediante un bastón para invidentes, lo cual permite un rápido aprendizaje de su manejo.

En otra realización preferente de la invención, se establece una pluralidad de franjas verticales laterales en la imagen combinada a cada lado de la franja vertical central, y se define una señal sonora o táctil lateral izquierda y lateral derecha a partir de las regiones de cada franja lateral izquierda y de cada franja lateral derecha respectivamente, el usuario sin moverse puede escanear el entorno. Este modo de funcionamiento de la invención será denominado, de ahora en adelante, como "modo de paisaje completo". En dicho modo, los medios de procesamiento están adaptados para proporcionar un análisis simultáneo de la pluralidad de franjas verticales laterales, de forma que se procesa, horizontalmente, una región de segmentación de la imagen completa adquirida por las cámaras. El modo de paisaje completo supone, en comparación con el modo de rastreo, una mayor exigencia de cálculo, pero aporta una mayor información respecto a las regiones laterales periféricas del usuario del sistema. No obstante, la reducción del espacio procesado a una pluralidad de líneas verticales supone, al igual que el modo de rastreo, una importante mejora en tiempos de proceso y consumo de recursos frente a las soluciones conocidas del estado de la técnica. En otra realización preferente de la invención, los modos de operación de los medios de procesamiento son activables y desactivables por parte del usuario, de forma que el análisis simultáneo de la pluralidad de franjas verticales laterales sea alternable con el análisis de una única franja vertical. Como consecuencia, dicho usuario puede utilizar, según la situación en la que se encuentre, el modo de funcionamiento de rastreo (esto es, mediante procesado de profundidades en una línea vertical central), que será efectivo en la mayoría de situaciones de uso cotidiano, y el modo de paisaje completo (mediante una pluralidad de franjas verticales), en caso de requerirse el aporte de información adicional acerca de las regiones periféricas laterales.

En una realización preferente de la invención, los medios de reproducción reproducen en estéreo, combinando una señal sonora o táctil lateral izquierda y una señal sonora o táctil lateral derecha.

En una realización preferente de la invención, los medios de procesamiento definen una intensidad sonora o táctil de la señal sonora o táctil en función de la altura de la región en la franja vertical.

En una realización preferente de la invención, los medios de procesamiento definen una frecuencia de la señal sonora o táctil en función de la profundidad de la región. En una realización preferente de la invención, la profundidad de una región se determina en función del nivel de gris sobre un mapa de profundidad de la imagen del entorno.

En una realización preferente de la invención, la región comprende al menos un píxel. En una realización preferente de la invención, el sistema comprende una estructura soporte para ser llevada por el usuario donde se pueden ubicar los medios de reproducción y las dos cámaras.

En una realización preferente de la invención basada en una señal táctil, la generación de dicha señal se basa en un polímero electroactivo (EAP), o en una membrana de un elastómero capaz de modificar su forma en respuesta a voltaje. Alternativamente, la señal se puede generar de forma mecánica, mediante un pequeño motor generador de vibraciones. En una realización preferente de la invención basada en una señal sonora, la frecuencia de dicha señal sonora se elige dentro del intervalo entre 100 Hz y 18000 Hz.

En una realización preferente de la invención, los medios de reproducción son unos auriculares cocleares. Ventajosamente, deja libre el oído y se recibe la señal vía ósea. Se consigue con ello que el usuario pueda conversar a la vez sin que se interfiera con la señal sonora generada, o viceversa. En una realización preferente de la invención, la estructura soporte se elige entre al menos unas gafas, una diadema, soporte de cuello, soporte pectoral, soporte en hombro, o un dispositivo de mano.

En una realización preferente de la invención, la señal sonora generada es no-verbal, para evitar saturar al usuario con continuos mensajes hablados que, tras un uso prolongado, producen molestias y cansancio. Un mensaje no-verbal resulta, además, más rápido de reconocer y puede simultanearse con otras tareas. Por ello, la invención es utilizable sin generarse barreras lingüísticas derivadas del idioma.

BREVE DESCRIPCIÓN DE LAS FIGURAS

La FIG. 1 muestra un diagrama de bloques simplificado de una realización de la invención.

La FIG. 2 muestra la imagen pixelada de un toroide analizado por la invención. La FIG. 3 muestra imagen pixelada y procesada del toroide de la FIG. 2.

La FIG. 4 muestra un diagrama de flujo simplificado del procedimiento seguido por el sistema de la invención.

La FIG. 5 muestra una realización de la invención basada en unas gafas.

DESCRIPCIÓN DETALLADA DE LA INVENCIÓN

Para mayor claridad, se describe un ejemplo de realización de la invención con referencia a las figuras sin carácter limitante y enfocado a señales sonora o táctil.

En la FIG. 1 se muestra un diagrama de bloques con los elementos principales del sistema de la invención. En dicho diagrama, se muestra cómo las imágenes se adquieren mediante un par de cámaras (3i, 3d) en estéreo. Preferiblemente, se sitúan a ambos lados de la cara y a la altura de los ojos del usuario, para facilitar el enfoque hacia la región de interés con movimientos de cabeza. Las cámaras (3i, 3d) están preferentemente alineadas en paralelo. La propia circuitería de las cámaras (3i, 3d) hace un pre-procesado de la imagen captada para servir un flujo de imágenes estable, evitando artefactos y aberraciones geométricas o cromáticas. La circuitería de los sensores ofrece una pareja de imágenes sincronizada en el tiempo.

Como resultado, este flujo de vídeo se transmite hacia una unidad de proceso (2). La unidad de proceso (2) es preferiblemente un diseño de hardware específico que implementa el algoritmo de conversión de imágenes a audio/vibración. Para comunicar las cámaras (3i, 3d) con la unidad de proceso (2), se ha previsto un cable (6). No obstante, en otras realizaciones más complejas se contempla la transmisión inalámbrica.

La unidad de proceso (2) convierte las imágenes estereoscópicas en un mapa de profundidad en escala de grises. Previamente, se genera un mapa de disparidad (sin información de escala).

Por mapa de profundidad se entiende imagen en escala de grises, en el que el color negro absoluto significa máxima lejanía (en función de la escala que usemos) y el color blanco puro significa cercanía máxima (en función de la escala que usemos). El resto de la gama de grises especifica distancias intermedias. No obstante, en otras realizaciones de la invención, es posible invertir el contraste y hacer que los colores más oscuros correspondan a las distancias más cercanas, o la utilización de una escala de colores prefijada, similar a una representación termográfica.

Por mapa de disparidad se entiende la imagen resultante que se obtiene a partir de la superposición de un par de imágenes estéreo, a las que se somete a un procesado matemático. El mapa de disparidad binocular expresa, en una imagen, las diferencias a nivel de pixel que hay entre dos imágenes estéreo. Mediante la aplicación del algoritmo matemático de disparidad, teniendo la distancia entre cámaras y unos ficheros de calibración de las mismas, se puede trasladar la diferencia entre píxeles a distancias reales. Gracias a este proceso, se sabe a qué distancia de la cámara se encuentra cada porción (tamaño pixel) de la imagen tomada. Se emplea una escala de grises para expresar esa distancia.

A continuación se hace una conversión a mapa de profundidad. Tras un proceso matemático en el que se aplica escala distancias/nivel de gris, se obtiene un mapa de profundidad. A partir del mapa de profundidad generado, se aplica un algoritmo de conversión desarrollado a tal efecto, de alta optimización y, por ello, menor exigencia de recursos de computación, que permite que los datos espaciales de profundidad se conviertan a audio de forma más eficiente que en los sistemas conocidos.

El resultado es que con una pareja de imágenes iniciales en estéreo, se consigue una señal sonora no-verbal en estéreo que se transmite al usuario a través de unos auriculares cocleares, o de conducción ósea (4i, 4d). Así se logra definir un lenguaje audiovisual que traslada intuitivamente al usuario información visual a información auditiva con fidelidad.

En la FIG. 2 aparece un ejemplo de mapa de profundidad en baja resolución de un toroide. Cada píxel del mapa de profundidad tiene asociada una coordenada (X, Y) que corresponde con las posiciones de pixel capturados por las cámaras. Además cada píxel tiene asociado un nivel de gris (G) que proporciona información sobre la profundidad, es decir la distancia a la que se encuentra la región asociada a dicho píxel.

La FIG. 3 ilustra simplificadamente una división de la columna o franja vertical central en 3 zonas según su nivel de gris. La zona "A" es negra, la zona "B" es blanca y la zona "C" que es gris. Según lo anterior, se asocian 3 valores de intensidad diferentes a cada zona (silencio para zona "A", volumen máximo para zona "B" y una intensidad sonora media para la zona "C". Se ha de entender que habitualmente se definen muchos más rangos de nivel de gris y por tanto de intensidad sonora asociada. La señal sonora se compone sumando las señales individuales correspondientes a los píxeles de cada zona.

Con la información proveniente del mapa de profundidad se construye una matriz o tabla con la información del entorno en ese momento. Esta información debe ser convertida en audio de acuerdo con las siguientes consideraciones:

- Con cada par de fotogramas estéreo se hace un mapeo de disparidad: Dada la diferencia entre píxeles de las imágenes y teniendo los datos de cámaras (FOV, distancia interocular, calibración específica) se pueden establecer triangulaciones, por tanto asociar píxeles a distancias en el mundo real. Con esta información, se procesa la imagen para dar un mapa de profundidad. Es una imagen de contorno de los objetos y escala de grises expresando sus volúmenes y distancias reales. De esta forma, tenemos una sola imagen conjunta que contiene información espacial de la escena.

Ejemplo de funcionamiento en Modo Rastreo: Tomamos la FIG.3. Para analizar la imagen habremos de mover la cabeza de izquierda a derecha en gesto de negación. Así, el cursor central (en rojo) rastreará por completo el toroide. El sonido generado se oirá en el centro del panorama estéreo (ya que siempre será el centro del eje de nuestra visión) Con este rastreo se delimitan el tamaño horizontal del objeto (el movimiento de nuestro cuello nos servirá como referencia) y el tamaño vertical nos lo dará el rango de frecuencias. Modo Paisaje Completo. Tomemos para analizar la FIG.2. En este caso no se tiene que mover el cuello para interpretar lo que hay delante. La parte derecha del toroide sonará a la derecha en el panorama estéreo. Análogamente sonarán las partes centrales e izquierdas. El nivel de apertura del panorama estéreo nos indicará el tamaño horizontal del toroide. El tamaño vertical vendrá expresado por el rango de frecuencias, tal y como en el modo Rastreo.

La correspondencia de la imagen con el sonido estéreo es la siguiente: Partiendo de imagen de un paisaje, la señal sonora corresponde a las zonas que analiza. La zona izquierda de la imagen sonará en el panorama estéreo izquierdo. La zona derecha en el panorama estéreo derecho. La zona central por tanto, en el centro del panorama estéreo (o lo que es lo mismo, 50% izquierda + 50% derecha).

El rango de frecuencias que especifican el factor altura tiene un valor de 100Hz a 18000Hz, divididos en fragmentos iguales. Hemos elegido ese rango porque es lo suficientemente ancho para mostrar sonido con detalle y lo suficientemente estrecho para que una persona media los pueda abarcar sin problemas (el rango humano de sonido va de 20 Hz a 20000 Hz). La frecuencia base (100 Hz) se asocia a la primera fila inferior de píxeles en pantalla. La frecuencia superior (18000 Hz) a la fila superior de píxeles. Entre medio se asignan los demás fragmentos de frecuencia. Si la imagen tuviese 128 pixeles de altura, cada fila correspondería a un fragmento. Si cambiamos la resolución, se asignarán los fragmentos proporcionalmente a la altura. Este método sirve para sistemas con potencia computacional baja. Si disponemos de potencia bruta en la que la síntesis de sonido se genera en tiempo real, haremos la división del rango de frecuencias entre el número de pixeles de altura y asignaremos cada segmento de frecuencia a cada pixel, sin interpolaciones o promediados.

- El factor distancia espacial respecto al usuario (eje Z) se asocia al factor volumen generado por el algoritmo, de manera que un pixel negro no tendrá volumen perceptible (o sea, -infinito) y un pixel blanco tendrá el máximo volumen (0 dB). Esta escala será flexible y adaptativa al uso de distintos rangos de medida (40 cm, 2 m, 6 m). - La duración del sonido por pixel es directamente proporcional a su "presencia" en pantalla. Si un pixel permanece continuamente blanco, el sonido se repetirá continuamente.

- El análisis de columna central sólo se usa en el modo rastreo. En principio, se puede emplear una columna central de 1 pixel de anchura. No obstante, a fin de suavizar el sonido y evitar artefactos, se promediarán los valores de pixel de las tres columnas centrales, o incluso cinco, dependiendo de la resolución del mapa de profundidad (dependiente del poder de computación).

Se asocia al valor en la escala de grises de un pixel, una intensidad de volumen (I). Así, el pixel con valores 0.0.0 (modelo RGB) corresponde con una región alejada y la intensidad asociada es silencio (l=0). Un pixel con valores 255.255.255 se corresponde con una región muy próxima y el volumen de la señal es máximo (l= 0 dB). De esta manera, cada pixel puede verse como una "unidad de sonido" con la que hace una composición de audio. Preferiblemente, la frecuencia sonora abarca desde los 100Hz hasta los 18000 Hz.

De acuerdo con el modo de funcionamiento, la posición X del pixel podrá interpretarse de dos maneras.

- Modo rastreo: Solamente sonarán las señales correspondientes a los pixeles de la columna central. Se rastrea de la escena cuando el usuario mueve la cabeza con el gesto de negación. Esto es análogo al rastreo con un bastón.

Modo Paisaje Completo: Sonarán simultáneamente varias columnas de pixeles asociados a la escena. Con este modo, no es necesario rastrear. La imagen se representa (o "suena") al completo. Por ejemplo, cuanto más a la derecha estén los píxeles, más sonará en la derecha del panorama estéreo. Igualmente para las regiones centrales y de la izquierda. El modo Paisaje Completo requiere de potencia computacional alta, por lo que dependiendo de las prestaciones de la unidad de proceso (2), en vez de sonar todas las columnas de la imagen, se puede optimizar usando cinco columnas: Central, 45 e , -45 e , 80 e , -80 e . Pueden usarse más columnas en función de la potencia de proceso. La posición Y del pixel (altura del objeto) definirá cómo suena en términos de frecuencia: Usaremos un filtro paso-banda (o una frecuencia senoidal generada, o una muestra precalculada con un rango específico de frecuencia, alternativas en función de la potencia de cálculo del dispositivo), con el que los píxeles de la zona alta sonarán agudos y los de la zona baja sonarán graves. El espectro de sonido que abarcará cada píxel vendrá definido por el número de píxeles que tendrá Y.

Ejemplo: Para aclarar cómo se hace la generación de sonido a partir de la imagen de profundidad, se presenta este ejemplo. Supongamos se ha seleccionado el modo rastreo y se ha obtenido una imagen de profundidad como la FIG. 3 en la que solamente se distinguen 3 niveles de gris como aproximación. Por tanto, en la columna central hay (de abajo a arriba): 10 píxeles negros, 12 píxeles blancos, 2 píxeles negros, 8 píxeles grises y 15 píxeles negros. Supongamos que se establece una escala de colores, donde se asigna al blanco: 0 dB; al gris: -30 dB y al negro -∞ dB. La intensidad de la señal que en ese instante sería la mezcla analógica de todas las señales.

El usuario apreciaría diferentes frecuencias según la posición en altura del píxel. Más grave en los píxeles de menor altura y más aguda para los de mayor altura. El sonido generado por esta columna se puede dividir en una componente grave con una intensidad sonora alta (zona B) y una componente de intensidad sonora intermedia de frecuencia más aguda (zona C). Esta señal se generaría para los dos canales izquierdo y derecho (y se reproduciría respectivamente en los auriculares (4i, 4d)). Cuando el usuario cambia la posición de las cámaras al girar la cabeza, se modificará la imagen de profundidad y con ello la señal sonora asociada. En la FIG. 4 se ve un diagrama de flujo con algunos de los pasos importantes que se llevan a cabo en la modalidad de rastreo. Un primer paso (P1 ) de captura de imágenes por las cámaras (3i, 3d), un paso de procesado (P2) para generar el mapa de profundidad, un paso de asignación (P3) para asociar frecuencia e intensidad sonora a cada píxel o grupos de píxeles de la columna central del mapa de profundidad, un paso (P4) de generación de la señal sonora resultante correspondiente a la columna central.

En la FIG. 5 se ilustra una realización de la invención implementada en unas gafas 1. No obstante, se puede implementar en otro tipo de productos que sirvan de soporte. Por ejemplo, puede implementarse en una gorra, diadema, soporte de cuello, soporte pectoral, soporte en hombro, o un dispositivo de mano. La ventaja de las gafas es que son cómodas de llevar y permiten por un lado la colocación de los auriculares (4i, 4d) en la posición deseada y por otro el enfoque preciso de las cámaras (3i, 3d) a la región de interés. La unidad de proceso (2) se diseña para ser portada por el usuario en un bolsillo o en un cinturón. Se prevé en un futuro reducir su tamaño para integrarla junto con las gafas (1 ). Al estar separadas, un cable (6) lleva la información captada por las cámaras (3i, 3d) a la unidad de proceso (2). Por otra parte, una vez procesada esta información, la unidad de proceso (2) transmite a los auriculares (4i, 4d) las señales de audio correspondientes.

La cantidad de información y detalle que presenta el sonido permite identificar formas y espacios con precisión inédita hasta el momento. En los ensayos realizados con invidentes, se ha constatado que permite reconocer formas concretas por cómo es el sonido que llevan asociado tras un corto periodo de entrenamiento. Por ejemplo, botellas, vasos y platos en una mesa tienen características sonoras que permiten distinguirlos.

Para transmitir el sonido, se emplea preferiblemente auriculares cocleares que permiten dejar libre el canal auditivo. Con esto mejora la comodidad del usuario, rebajando ampliamente el cansancio auditivo y siendo mucho más higiénicos para sesiones de uso prologado.

En una realización se prevé una interfaz asociada con la unidad de procesamiento (2) con un botón de selección de rango para determinar la distancia de análisis. Por ejemplo: cerca, normal y lejos, con distancias de 40 cm, 2 m y 6 m, respectivamente, o siendo definidas por el usuario a través de una interfaz adaptada al efecto. Al pulsar el botón se irán seleccionando distancias cíclicamente. La selección de rango sirve típicamente para adecuar el alcance a distintos escenarios y circunstancias. Por ejemplo para ubicar objetos en una mesa: 40 cm; para moverse por casa 2 m; y para cruzar la calle: 6 m. En otra realización preferente de la invención, el sistema comprende un medio de transmisión inalámbrica de datos (por ejemplo mediante Wi-Fi, Bluetooth u otras tecnologías análogas) conectado a la unidad de procesamiento (2), donde dichos medios de transmisión se encuentran conectados a un dispositivo, externo con conexión inalámbrica y/o a un dispositivo de tipo wearable.

En una realización se prevé que la interfaz asociada con la unidad de procesamiento (2), disponga de un botón de Modo de Análisis. La selección entre modos será cíclica.

Modo Rastreo: Análisis solamente en la zona central de la imagen. El usuario girará la cabeza cíclicamente de izquierda a derecha rastreando la escena de un modo análogo a como lo haría con un bastón. El sonido es monoaural.

Modo Paisaje completo: El análisis de se realiza sobre toda la imagen. El sonido es estéreo. De esta manera, el usuario puede percibir las formas y los espacios en todo el campo de visión simultáneamente. Por ejemplo, a la izquierda (panorama estéreo izquierda) se percibe una columna, en el centro (panorama estéreo central) se percibe una mesa baja y a la derecha (panorama estéreo derecha) el paso está libre. Este modo de exploración es más complejo en términos de sonido, al ofrecer más información que el Modo Rastreo. Es sencillo de dominar aunque precisa algo más de entrenamiento.