Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SMALL SYSTEM AND METHOD FOR DECODING AUDIO SIGNALS INTO BINAURAL AUDIO SIGNALS
Document Type and Number:
WIPO Patent Application WO/2015/032009
Kind Code:
A1
Abstract:
The invention relates to a small system and method for binaural recording, which can record sound and decode it into a three-dimensional format, making available the reproduction thereof in three dimensions using reproduction devices such as headphones or conventional headphones, where said method and system offer a portable recording solution of preferably millimeter-size dimensions, that can be built into professional or household recording devices. The invention further relates to a computer program for binaural recording, and to a method for producing the recording system of the invention.

Inventors:
RECABAL GUIRALDES PABLO (CL)
URRUTIA SOTO CRISTIÁN (CL)
TRAVIESO MANSO OSVALDO (CL)
MUÑOZ NÚÑEZ ÁLVARO (CL)
Application Number:
PCT/CL2014/000043
Publication Date:
March 12, 2015
Filing Date:
September 09, 2014
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
RECABAL GUIRALDES PABLO (CL)
URRUTIA SOTO CRISTIÁN (CL)
TRAVIESO MANSO OSVALDO (CL)
MUÑOZ NÚÑEZ ÁLVARO (CL)
International Classes:
H04R5/00
Foreign References:
US20050080616A12005-04-14
US20130202114A12013-08-08
US20120130713A12012-05-24
US20110211702A12011-09-01
US20120128160A12012-05-24
US20080056517A12008-03-06
US20050238176A12005-10-27
US20040170281A12004-09-02
Attorney, Agent or Firm:
CAREY CARVALLO, Francisco et al. (CL)
Download PDF:
Claims:
REIVINDICACIONES

1. Sistema de tamaño reducido para la grabación binaural que comprende:

- un sistema de adquisición para recuperar ondas de sonido filtradas acústicamente del entorno y convertirlas en señales de audio;

- un dispositivo decodifícador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha tridimensional al usuario. 2. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS). 3. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de adquisición comprende una pluralidad de sensores de sonidos o micrófonos separados espacialmente.

4. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos incorporados en un dispositivo portátil o cualquier otro dispositivo para la grabación y/o reproducción, donde la estructura del dispositivo portátil y su soporte actúan como un dispositivo de filtro acústico.

5. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el dispositivo decodifícador consta de medios para almacenar, calcular y procesar información para obtener una función de transformación binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una función de transferencia relacionada a la cabeza (HRTF) genérica parametrizada. 6. El sistema de tamaño reducido para grabación binaural de la cláusula 5, en donde el dispositivo decodificador comprende además medios para almacenar, calcular y procesar información para aplicar la función de transformación binaural a la señal de audio recibida, transformándola en la señal binaural. 7. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema comprende además un dispositivo de reproducción de tipo auricular, utilizado para la reproducción de la señal binaural.

8. El sistema de tamaño reducido para grabación binaural de la cláusula 1, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural.

9. Sistema de tamaño reducido para grabación binaural que consta de:

- un sistema de adquisición para la recuperación de ondas de sonido filtradas acústicamente del entorno y conversión de éstas en señales de audio, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS);

- un dispositivo decodificador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha tridimensional para el usuario, en donde el dispositivo decodificador consta de medios para almacenar, calcular y procesar información para obtener la función de transferencia binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una HRTF genérica parametrizada y para aplicar dicha función de transferencia binaural a la señal de audio recibida, transformándola en la señal binaural.

10. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el dispositivo de filtro acústico comprende al menos dos unidades de filtro acústico, cada una envolviendo cada uno de los al menos dos dispositivos de sensores o micrófonos separados espacialmente.

11. El sistema de tamaño reducido para grabación binaural de la cláusula 10, en donde las unidades de filtro acústico están físicamente separadas.

12. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde los micrófonos son omnidireccionales y de alta ganancia en proporción a su tamaño.

13. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de adquisición es de dimensiones milimétricas, facilitando su integración a dispositivos de grabación ya existentes.

14. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el dispositivo de filtro acústico está construido de una densidad variable, que varía angularmente, paramétricamente y con diferentes canales de longitud a lo largo de lo cual el sonido viaja antes de alcanzar el micrófono, cancelando y/o potenciando ciertas frecuencias.

15. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de adquisición es parte de un dispositivo portátil, la estructura del dispositivo portátil y su soporte, que actúa como el dispositivo de filtro acústico. 16. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de grabación comprende además un dispositivo de reproducción de tipo audífono, utilizado para la reproducción de la señal binaural.

17. El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural.

18. Sistema de tamaño reducido para grabación binaural que consta de:

un sistema de adquisición para la recuperación de ondas de sonido filtradas acústicamente del entorno y conversión de éstas en señales de audio, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS);

un dispositivo decodificador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha tridimensional para el usuario, en donde el dispositivo decodificador consta de medios para almacenar, calcular y procesar información para obtener la función de transferencia binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una HRTF genérica parametrizada y para aplicar dicha función de transferencia binaural a la señal de audio recibida, transformándola en la señal binaural; donde el sistema de adquisición es parte de los componentes comunes de un dispositivo portátil que consta de al menos dos sensores de sonidos o micrófonos, en donde la estructura del dispositivo portátil actúa como el dispositivo de filtro acústico envolviendo al menos dos de los ya mencionados sensores de sonido o micrófonos; y

donde el dispositivo de decodificación es implementado en un programa computacional previamente incluido en el dispositivo portátil o que puede ser instalado en su memoria de almacenamiento.

19. El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el sistema de grabación comprende además un dispositivo de reproducción de tipo audífono, utilizado para la reproducción de la señal binaural.

20. El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural.

21. El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el dispositivo de filtro acústico comprende además el soporte que sostiene la estructura del dispositivo portátil, que en una modalidad es el usuario que sostiene dicho dispositivo.

22. Método de grabación binaural que consta de las siguientes etapas:

recuperar ondas de sonido filtradas acústicamente del entorno por un sistema de adquisición, convirtiéndolas en señales de audio;

transmitir las señales de audio desde el sistema de adquisición a un dispositivo decodificador; procesar las señales de audio en un dispositivo decodifícador, convirtiéndolas en señales binaurales.

23. El método de grabación binaural de la cláusula 22, en donde la etapa de procesar las señales de audio comprenden:

recibir la señal de audio del sistema de adquisición;

obtener la función de transferencia parametrizada de dicho sistema (MFSTF);

correlacionar dicha función de transferencia parametrizada con la HRTF genérica parametrizada; y

obtener la transformación binaural.

24. El método de grabación binaural de la cláusula 22, en donde la etapa de recuperar los sonidos filtrados acústicamente por el sistema de adquisición comprende minimizar la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano, procedente de fuentes situadas en distintas posiciones angulares.

25. El método de grabación y reproducción binaural de la cláusula 22, en donde la etapa de recuperar los sonidos filtrados acústicamente por el sistema de adquisición comprende:

conservar la información de la localización del sonido contenida en la señal de audio, que proporciona los efectos de la variación del espectro del sonido y la variación del nivel del sonido de la onda sonora recuperada; y

conservar la variación en la información de tiempo en el que los eventos de sonido son adquiridos por el sistema de adquisición.

26. El método de grabación binaural de la cláusula 23, en donde la etapa de procesamiento de las señales de audio comprende además la aplicación de la transformación binaural a la señal recibida, generando la señal binaural. 27. El método de grabación y reproducción binaural de la cláusula 25, en donde la información conservada considera la configuración geométrica del sistema de adquisición en conjunto con las alteraciones causadas por el usuario que está sosteniendo el sistema de adquisición, en el que ambas características permiten la diferencia en el contenido de frecuencia (espectro de sonido) y la diferencia de tiempo que el sistema de adquisición recupera para un determinado sonido.

28. El método de grabación binaural de la cláusula 27, caracterizado por que se implementa en un dispositivo portátil, como en un teléfono inteligente o similar.

29. El método de grabación binaural que consta de:

- recuperar las ondas de sonido del entorno filtradas acústicamente mediante un sistema de adquisición y convertirlas en señales de audio, en el que dicha recuperación consta de,

- minimizar la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano, procedente de fuentes colocados en diferentes posiciones angulares;

- conservar la información de la localización del sonido contenida en la señal de audio, proporcionando los efectos de la variación del espectro del sonido y la variación del nivel del sonido de la onda de sonido recuperada; y

o conservar la variación en la información de tiempo en el que los eventos de sonido son adquiridos por el sistema de adquisición; transmitir las señales de audio desde el sistema de adquisición a un dispositivo de descodificación;

procesar las señales de audio en un dispositivo de descodificación, convirtiéndolas en señales binaurales, en el que dicho procesamiento consta de

- la recepción de la señal del sistema de adquisición;

- la obtención de la función de transferencia parametrizada de dicho sistema;

- la correlación de dicha función de transferencia parametrizada con la HRTF genérica;

- la obtención de la transformación binaural; y

- la aplicación de la transformación binaural a la señal recibida, generando la señal binaural;

30. El método de grabación y reproducción binaural de la cláusula 29, en donde la información conservada considera la configuración geométrica del sistema de adquisición en conjunto con las alteraciones causadas por el usuario que está sosteniendo el sistema de adquisición, en el que ambas características permiten la diferencia en el contenido de frecuencia (espectro de sonido) y la diferencia de tiempo que el sistema de adquisición recibe para un determinado sonido.

31. El método de grabación binaural de la cláusula 30, caracterizado por que se implementa en un dispositivo portátil, como en un teléfono inteligente o similar.

32. Un programa computacional para la grabación binaural que comprende:

medios de almacenamiento de información para almacenar la información proveniente de señales acústicas u ondas de sonido recuperadas por un dispositivo de captación o sistema de adquisición en al menos una unidad de almacenamiento; medios de procesamiento de información para obtener de la función de transferencia de la información almacenada;

medios de comparación para correlacionar la función de transferencia parametrizada de la información almacenada a una HRTF parametrizada genérica previamente almacenada en al menos una unidad de almacenamiento;

medios de procesamiento de información para obtener la transformada binaural y aplicarla a la información almacenada;

medios de almacenamiento para almacenar transformada binaural de la información almacenada para su posterior rescate y reproducción.

33. Un programa computacional para la grabación binaural, que comprende la implementación del método de las reivindicaciones 22 o 29 en un dispositivo portátil.

34. Procedimiento de fabricación de un sistema de tamaño reducido para grabación binaural que comprende las etapas de:

proveer un sistema de adquisición que minimice la correlación angular de la respuesta a cualquier par de sonidos idénticos;

definir un tipo de muestra a considerar para medir la respuesta del impulso, que abarque todas las frecuencias deseadas que el usuario puede escuchar;

- medir la función de transferencia relacionada al sistema de adquisición (MFSFT), utilizando la muestra definida;

medir la función de transferencia relacionada a una cabeza dummy (HRTF), utilizando la muestra definida; desarrollar un algoritmo de decodificación de la información recuperada por el sistema de adquisición, seleccionando la función de transformación que mejor aproxime la función que mapea las respuestas a ambas funciones de transferencia parametrizadas;

entrenar y validar la función de transformación seleccionada, estableciendo una correlación matemática entre las transformaciones de las señales capturadas por la cabeza dummy y por el sistema de adquisición;

establecer índices matemáticos que permitan evaluar el desempeño de la decodificación en términos de la correlación lograda y la sensación de inmersión del oyente;

seleccionar la transformación binaural para ser aplicada en un dispositivo de decodificación.

35. Procedimiento de fabricación de un sistema de tamaño reducido para la grabación binaural según la reivindicación 34, en el que las etapas de medición de la función de transferencia relacionada con el sistema de adquisición (MFSFT) y la función de transferencia relacionada con una cabeza dummy (HRTF) comprenden la toma de muestras con la cabeza dummy para ubicaciones N determinadas y con las mismas ubicaciones N al sistema de adquisición, en donde se hace un análisis de correlación entre las señales y la iteración a estas muestras.

36. Procedimiento de fabricación de un sistema de tamaño reducido para la grabación binaural según la reivindicación 35, en la que el sistema de grabación está integrado y/o es parte de un dispositivo portátil, como un teléfono inteligente.

REIVINDICACIONES MODIFICADAS

recibidas por la oficina Internacional el 18 de febrero de 2015 (18.02.15)

+ DECLARACIÓN

1. a 8. (CANCELADAS) 9. (MODIFICADA) Sistema de tamaño reducido para grabación binaural que consta de:

- un sistema de adquisición para la recuperación de ondas de sonido filtradas acústicamente del entorno y conversión de éstas en señales de audio, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS);

- un dispositivo decodificador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha tridimensional para el usuario, en donde el dispositivo decodificador consta de medios para almacenar, calcular y procesar información para obtener la función de transferencia binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una función de transferencia relacionada a la cabeza (HRTF) genérica parametrizada y para aplicar dicha función de transferencia binaural a la señal de audio recibida, transformándola en la señal binaural,

en donde el sistema de adquisición es de dimensiones milimétricas, facilitando su integración a dispositivos de grabación ya existentes, y

en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) al menos incluye información de la variación en el tiempo en el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores, describiendo la Diferencia de Tiempo Interaural del sistema de adquisición que es mapeada a la correspondiente Diferencia de Tiempo Interaural que ocurre en la Función de Transferencia relacionada a la cabeza (HTRF) genérica.

10. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el dispositivo de filtro acústico comprende al menos dos unidades de filtro acústico, cada una envolviendo cada uno de los al menos dos dispositivos de sensores o micrófonos separados espacialmente.

11. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 10, en donde las unidades de filtro acústico están físicamente separadas.

12. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde los micrófonos son omnidireccionales y de alta ganancia en proporción a su tamaño. 13. (CANCELADA)

14. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el dispositivo de filtro acústico está construido de una densidad variable, que varía angularmente, paramétricamente y con diferentes canales de longitud a lo largo de lo cual el sonido viaja antes de alcanzar el micrófono, cancelando y/o potenciando ciertas frecuencias.

15. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de adquisición es parte de un dispositivo portátil, la estructura del dispositivo portátil y su soporte, que actúa como el dispositivo de filtro acústico.

16. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de grabación comprende además un dispositivo de reproducción de tipo audífono, utilizado para la reproducción de la señal binaural. 17. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 9, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural.

18. (MODIFICADA) Sistema de tamaño reducido para grabación binaural que consta de:

- un sistema de adquisición para la recuperación de ondas de sonido filtradas acústicamente del entorno y conversión de éstas en señales de audio, en donde el sistema de adquisición comprende al menos dos sensores de sonidos o micrófonos separados espacialmente, situados al interior de un dispositivo de filtro acústico, donde la disposición física del filtro acústico y los micrófonos se llama Sistema de Micrófonos-Filtro (MFS);

- un dispositivo decodificador que recibe las señales de audio provenientes del sistema de adquisición y que las convierte en una señal binaural que recrea un ambiente de escucha tridimensional para el usuario, en donde el dispositivo decodificador consta de medios para almacenar, calcular y procesar información para obtener la función de transferencia binaural que aproxima una función de transferencia parametrizada del sistema de adquisición (MFSTF) a una HRTF genérica parametrizada y para aplicar dicha función de transferencia binaural a la señal de audio recibida, transformándola en la señal binaural;

donde el sistema de adquisición es parte de los componentes comunes de un dispositivo portátil que consta de al menos dos sensores de sonidos o micrófonos, en donde la estructura del dispositivo portátil actúa como el dispositivo de filtro acústico envolviendo al menos dos de los ya mencionados sensores de sonido o micrófonos; en donde el sistema de adquisición es de dimensiones milimétricas,

en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) al menos incluye información de la variación en el tiempo en el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores, describiendo la Diferencia de Tiempo Interaural del sistema de adquisición que es mapeada a la correspondiente Diferencia de Tiempo Interaural que ocurre en la Función de Transferencia relacionada a la cabeza (HTRF) genérica; y

donde el dispositivo de decodificación es implementado en un programa computacional previamente incluido en el dispositivo portátil o que puede ser instalado en su memoria de almacenamiento.

19. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el sistema de grabación comprende además un dispositivo de reproducción de tipo audífono, utilizado para la reproducción de la señal binaural.

20. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el sistema de grabación comprende además parlantes estéreo convencionales, utilizados para la reproducción de la señal binaural. 21. (ORIGINAL) El sistema de tamaño reducido para grabación binaural de la cláusula 18, en donde el dispositivo de filtro acústico comprende además el soporte que sostiene la estructura del dispositivo portátil, que en una modalidad es el usuario que sostiene dicho dispositivo.

22. a 28. (CANCELADAS)

9. (MODIFICADA) El método de grabación binaural que consta de:

recuperar las ondas de sonido del entorno filtradas acústicamente mediante un sistema de adquisición y convertirlas en señales de audio, en el que dicha recuperación consta de,

- minimizar la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano, procedente de fuentes colocados en diferentes posiciones angulares y capturado por el sistema de adquisición comprendiendo al menos dos sensores de sonido o micrófonos espacialmente separados ubicados dentro de un dispositivo de filtro acústico, en donde la disposición entre micrófonos y filtro acústico es llamada sistema micrófonos-filtro (MFS);

- conservar la información de la localización del sonido contenida en la señal de audio, proporcionando los efectos de la variación del espectro del sonido y la variación del nivel del sonido de la onda de sonido recuperada; y

o conservar la variación en la información de tiempo en el que los eventos de sonido son adquiridos por el sistema de adquisición;

transmitir las señales de audio desde el sistema de adquisición a un dispositivo de descodificación;

procesar las señales de audio en un dispositivo de descodificación, convirtiéndolas en señales binaurales, en el que dicho procesamiento consta de

- la recepción de la señal del sistema de adquisición;

- la obtención de la función de transferencia parametrizada de dicho sistema;

- la correlación de dicha función de transferencia parametrizada con la HRTF genérica;

- la obtención de la transformación binaural; y

- la aplicación de la transformación binaural a la señal recibida, generando la señal binaural; en donde el sistema de adquisición es de dimensiones milimétricas, facilitando su integración a dispositivos de grabación ya existentes, y

en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) al menos incluye información de la variación en el tiempo en el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores, describiendo la Diferencia de Tiempo Interaural del sistema de adquisición que es mapeada a la correspondiente Diferencia de Tiempo Interaural que ocurre en la Función de Transferencia relacionada a la cabeza (HTRF) genérica. 30. (ORIGINAL) El método de grabación y reproducción binaural de la cláusula 29, en donde la información conservada considera la configuración geométrica del sistema de adquisición en conjunto con las alteraciones causadas por el usuario que está sosteniendo el sistema de adquisición, en el que ambas características permiten la diferencia en el contenido de frecuencia (espectro de sonido) y la diferencia de tiempo que el sistema de adquisición recibe para un determinado sonido.

31. (ORIGINAL) El método de grabación binaural de la cláusula 30, caracterizado por que se implementa en un dispositivo portátil, como en un teléfono inteligente o similar. 32. (MODIFICADA) Un programa computacional para la grabación binaural que comprende: medios de almacenamiento de información para almacenar la información proveniente de señales acústicas u ondas de sonido recuperadas por un dispositivo de captación o sistema de adquisición en al menos una unidad de almacenamiento;

medios de procesamiento de información para obtener de la función de transferencia de la información almacenada (MFSTF; medios de comparación para correlacionar la función de transferencia parametrizada de la información almacenada a una HRTF parametrizada genérica previamente almacenada en al menos una unidad de almacenamiento, en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) al menos incluye información de la variación en el tiempo en el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores, describiendo la Diferencia de Tiempo Interaural del sistema de adquisición que es mapeada a la correspondiente Diferencia de Tiempo Interaural que ocurre en la Función de Transferencia relacionada a la cabeza (HTRF) genérica;

medios de procesamiento de información para obtener la transformada binaural y aplicarla a la información almacenada;

medios de almacenamiento para almacenar transformada binaural de la información almacenada para su posterior rescate y reproducción.

33. (MODIFICADA) Un programa computacional para la grabación binaural, que comprende la implementación del método de la reivindicación 29 en un dispositivo portátil.

34. (MODIFICADA) Procedimiento de fabricación de un sistema de tamaño reducido para grabación binaural que comprende las etapas de:

proveer un sistema de adquisición de dimensiones milimétricas que minimice la correlación angular de la respuesta a cualquier par de sonidos idénticos;

definir un tipo de muestra a considerar para medir la respuesta del impulso, que abarque todas las frecuencias deseadas que el usuario puede escuchar;

medir la función de transferencia relacionada al sistema de adquisición (MFSFT), utilizando la muestra definida; medir la función de transferencia relacionada a una cabeza dummy (HRTF), utilizando la muestra definida;

desarrollar un algoritmo de decodificación de la información recuperada por el sistema de adquisición, seleccionando la función de transformación que mejor aproxime la función que mapea las respuestas a ambas funciones de transferencia parametrizadas, en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) al menos incluye información de la variación en el tiempo en el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores, describiendo la Diferencia de Tiempo Interaural del sistema de adquisición que es mapeada a la correspondiente Diferencia de Tiempo Interaural que ocurre en la Función de

Transferencia relacionada a la cabeza (HTRF) genérica;

entrenar y validar la función de transformación seleccionada, estableciendo una correlación matemática entre las transformaciones de las señales capturadas por la cabeza dummy y por el sistema de adquisición;

- establecer índices matemáticos que permitan evaluar el desempeño de la decodificación en términos de la correlación lograda y la sensación de inmersión del oyente;

seleccionar la transformación binaural para ser aplicada en un dispositivo de decodificación.

35. (ORIGINAL) Procedimiento de fabricación de un sistema de tamaño reducido para la grabación binaural según la reivindicación 34, en el que las etapas de medición de la función de transferencia relacionada con el sistema de adquisición (MFSFT) y la función de transferencia relacionada con una cabeza dummy (HRTF) comprenden la toma de muestras con la cabeza dummy para ubicaciones N determinadas y con las mismas ubicaciones N al sistema de adquisición, en donde se hace un análisis de correlación entre las señales y la iteración a estas muestras.

36. (ORIGINAL) Procedimiento de fabricación de un sistema de tamaño reducido para la grabación binaural según la reivindicación 35, en la que el sistema de grabación está integrado y/o es parte de un dispositivo portátil, como un teléfono inteligente.

37. (NUEVA) El sistema de tamaño reducido para grabación binaural según la reivindicación 9, en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) además incluye información de la variación en la intensidad sonora, en la fase t/o en el espectro de sonido con el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores y a la disposición del sistema de micrófonos -filtros, describiendo la Diferencia de Nivel Interaural, la Diferencia de Fase Interaural y/o la diferencia del espectro del sonido representada mediante un conjunto reducido de coeficientes, respectivamente, las que son mapeados a las correspondientes Diferencia de Nivel Interaural, Diferencia de Fase Interaural y/ conjunto reducido de coeficientes del espectro del sonido que ocurre en la Función de Transferencia Relacionada a la Cabeza (HTRF) genérica.

38. (NUEVA) El sistema de tamaño reducido para grabación binaural según la reivindicación 18, en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) además incluye información de la variación en la intensidad sonora, en la fase t/o en el espectro de sonido con el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores y a la disposición del sistema de micrófonos -filtros, describiendo la Diferencia de Nivel Interaural, la Diferencia de Fase Interaural y/o la diferencia del espectro del sonido representada mediante un conjunto reducido de coeficientes, respectivamente, las que son mapeados a las correspondientes Diferencia de Nivel Interaural, Diferencia de Fase Interaural y/ conjunto reducido de coeficientes del espectro del sonido que ocurre en la Función de Transferencia Relacionada a la Cabeza (HTRF) genérica.

39. (NUEVA) Método para grabación binaural según la reivindicación 29, en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) además incluye información de la variación en la intensidad sonora, en la fase t/o en el espectro de sonido con el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores y a la disposición del sistema de micrófonos-filtros, describiendo la Diferencia de Nivel Interaural, la Diferencia de Fase Interaural y/o la diferencia del espectro del sonido representada mediante un conjunto reducido de coeficientes, respectivamente, las que son mapeados a las correspondientes Diferencia de Nivel Interaural, Diferencia de Fase Interaural y/ conjunto reducido de coeficientes del espectro del sonido que ocurre en la Función de Transferencia Relacionada a la Cabeza (HTRF) genérica. 40. (NUEVA) El programa computacional para la grabación binaural según la reivindicación 32, en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) además incluye información de la variación en la intensidad sonora, en la fase t/o en el espectro de sonido con el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores y a la disposición del sistema de micrófonos -filtros, describiendo la Diferencia de Nivel Interaural, la Diferencia de Fase Interaural y/o la diferencia del espectro del sonido representada mediante un conjunto reducido de coeficientes, respectivamente, las que son mapeados a las correspondientes Diferencia de Nivel Interaural, Diferencia de Fase Interaural y/ conjunto reducido de coeficientes del espectro del sonido que ocurre en la Función de Transferencia Relacionada a la Cabeza (HTRF) genérica.

41. (NUEVA) El procedimiento de fabricación de un sistema de tamaño reducido para grabación binaural según la reivindicación 34, en donde la función de transferencia parametrizada del sistema de adquisición (MFSTF) además incluye información de la variación en la intensidad sonora, en la fase t/o en el espectro de sonido con el que los eventos de sonido son adquiridos por cada sensor de sonido debido a la separación espacial de dichos sensores y a la disposición del sistema de micrófonos-filtros, describiendo la Diferencia de Nivel Interaural, la Diferencia de Fase Interaural y/o la diferencia del espectro del sonido representada mediante un conjunto reducido de coeficientes, respectivamente, las que son mapeados a las correspondientes Diferencia de Nivel Interaural, Diferencia de Fase Interaural y/ conjunto reducido de coeficientes del espectro del sonido que ocurre en la Función de Transferencia Relacionada a la Cabeza (HTRF) genérica.

42. (NUEVA) El sistema de tamaño reducido para grabación binaural según la reivindicación 9, en donde el sistema de adquisición comprende una pluralidad de sensores de sonidos o micrófonos separados espacialmente.

43. (NUEVA) El sistema de tamaño reducido para grabación binaural según la reivindicación 18, en donde el sistema de adquisición comprende una pluralidad de sensores de sonidos o micrófonos separados espacialmente.

Description:
MÉTODO Y SISTEMA DE TAMAÑO REDUCIDO PARA LA DECODIFICACIÓN DE SEÑALES DE AUDIO EN SEÑALES DE AUDIO BINAURAL MEMORIA DESCRIPTIVA CAMPO DE APLICACION

La presente invención consiste en un sistema de tamaño reducido para grabación binaural y/o reproducción de señales de audio binaurales que permiten al usuario sentir la experiencia del sonido tridimensional. Además, la invención también propone una metodología asociada para efectuar dicha grabación y/o reproducción, un programa computacional asociado a dicha metodología, y el proceso de fabricación de dicho sistema.

ANTECEDENTES DE LA INVENCION

La tecnología para grabar y/o reproducir video en tres dimensiones (3D) es una importante innovación en la industria del entretenimiento, aplicándose exitosamente tanto a gran escala, como por ejemplo en salas de cine, así como a escala menor, por ejemplo en sistemas portátiles y/o de uso en el hogar. Sin embargo, la grabación y/o reproducción de sonido tridimensional no se ha desarrollado como su par en video, lo que ha resultado en que la experiencia de sonido tridimensional que experimentan los usuarios al escuchar un sonido grabado aún no sea similar respecto a lo que el ser humano en realidad escucha en circunstancias naturales.

En este contexto, el ser humano es capaz de identificar la localización de los sonidos a su alrededor de manera muy precisa (atrás, a los lados, arriba, abajo, cerca, lejos, etc.). El sistema auditivo humano percibe el sonido de manera diferente en cada oído de acuerdo a cada fuente sonora específica y su localización. Por su parte, el cerebro humano es capaz de procesar dichas diferencias permitiéndole identificar la dirección y distancia del origen del sonido.

Actualmente, la forma más común de escuchar sonido grabado es mediante parlantes estéreo. Existen varios tipos de parlantes, en cuanto a dimensiones y principios de funcionamiento, pero todos se basan en la transformación de energía eléctrica en energía mecánica y, finalmente, en ondas acústicas. La mayoría de los parlantes usados hoy en día (en salas de cine, automóviles, tiendas, estudios, audífonos y aparatos domésticos) funcionan con un electroimán que mueve una bobina, que a su vez mueve un cono que genera ondas acústicas.

Por otra parte, el estándar comercial utilizado actualmente en la mayoría de las salas de cine modernas y en los hogares de los consumidores más exigentes, es el sistema surround. Dicho sistema define el uso de cinco o más canales con parlantes generalmente organizados en un plano horizontal, además de un canal de frecuencias bajas con un 10% de la intensidad sonora del resto de los canales. Dada la organización de los parlantes, se puede generar un efecto envolvente (o surround) del sonido en el plano de los parlantes, parcialmente similar a un campo tridimensional de sonidos, siempre y cuando el oyente se sitúe en una posición central con relación a la organización de los parlantes.

La alternativa que resuelve las deficiencias prácticas, económicas y técnicas del sistema surround, es la simulación del proceso auditivo humano que permite identificar el origen de los sonidos mediante el uso de audífonos. Esta tecnología se conoce como reproducción binaural, y es capaz de brindar una sensación de inmersión tridimensional, personalizada para cada oyente. La reproducción de material sonoro en 3D ha sido tema de investigación desde hace varias décadas, tanto en el formato surround como con tecnología binaural. En este contexto, los investigadores han realizado mediciones con una cabeza artificial para la simulación de sonidos en el campo tridimensional, desarrollando aplicaciones de localización robótica; y la personalización y parametrización de modelos antropométricos (también llamados modelos estructurales) que permiten simular sonidos 3D para cualquier fisionomía, entre otras. Al respecto, es bien sabido que existen diferencias de tiempo, de fase y de intensidad para un mismo sonido percibido en cada tímpano, en donde además efectos como la difracción, refracción y absorción de las ondas sonoras por el torso, los hombros, la cabeza y el exterior de la oreja, modifican el espectro del sonido que llega a los tímpanos. Son estos fenómenos los que permiten naturalmente al ser humano percibir el sonido en tres dimensiones, pudiendo localizar la posición de una fuente sonora a su alrededor.

En este contexto, la grabación binaural de sonidos ambientales, se realiza actualmente con cualquiera de las siguientes técnicas:

• Grabación con cabeza dummy. Se logra con un par de micrófonos ubicados dentro de los oídos de la cabeza de un modelo especialmente diseñado para estos efectos.

• Grabación con micrófonos binaurales para oídos. Utiliza micrófonos diseñados para ubicarlos dentro o cerca de los canales auditivos de un ser humano, al igual que los audífonos.

• Grabación con micrófonos tipo Otokinoko. Se aproxima al efecto binaural producido por la cabeza humana, mediante un dispositivo que emula la forma de algunas asimetrías que existen en la fisiología humana. Estas técnicas tienen diversas limitaciones prácticas y/o problemas para una reproducción binaural fidedigna. Para el caso de la grabación con una cabeza dummy, la técnica es muy poco portátil, ya que requiere la instalación de un modelo de escala humana (torso) en el lugar de la grabación. Para el caso de los micrófonos binaurales que se insertan en los oídos, se trata de una solución no integrada en términos de hardware y que no provee consistencia desde una perspectiva de audio al asociarlo con la captura simultánea de otros formatos de media. En el caso de los micrófonos tipo Otokinoko, la aproximación simplificada de la anatomía humana no es suficiente por si sola para lograr una reproducción binaural fiel y tiene limitantes de escalabilidad a dispositivos de grabación de menor tamaño. Por último, todas estas técnicas están diseñadas para una anatomía estándar o promedio, por lo que al ser reproducida presenta un problema de generalización que dependerá de la distancia que exista entre la anatomía del oyente y la anatomía humana promedio.

Para la síntesis binaural de sonidos específicos, se puede utilizar una técnica de mezcla que requiere medir la Función de Transferencia Relacionada a la Cabeza (HRTF, sigla en inglés para Head-Related Transfer Function). Esta función se obtiene midiendo la respuesta en cada oído frente a una señal tipo impulso (generalmente en el extremo exterior del conducto auditivo). El resultado caracteriza la forma en la que el sonido es percibido por el oyente, pues contiene en forma implícita la fisonomía de éste. Debido a la habilidad intrínseca del ser humano para localizar sonidos, es plausible la idea de posicionar un sonido con un alto grado de fidelidad en el campo 3D del oyente, al aplicar la HRTF a dicho sonido.

Debido a la relación directa que existe entre la anatomía del modelo objeto de las mediciones y la HRTF, dicha función puede variar considerablemente de persona a persona. Las diferencias pueden aumentar dependiendo de la ubicación relativa del estímulo respecto al usuario, lo cual ha sido estudiado en profundidad para cambios en azimut, elevación y distancia. En este contexto, investigaciones han medido cómo un oyente responde frente a una HRTF genérica, observándose que la respuesta en el plano horizontal no presenta grandes variaciones en distintos oyentes, mientras que las diferencias cuando se usa HRTF para variaciones en elevación inciden en una alta tasa de error para la localización de sonidos en el campo tridimensional.

Siguiendo la línea anterior se pueden encontrar diversos estudios relacionados con muéstreos de HRTF para anatomías específicas. En el año 2001, CIPIC Interface Laboratory de la Universidad de California Davis profundizó en las diferencias de muestreo en 45 sujetos distintos, publicando dichos resultados en "The CIPIC HRTF datábase", en Applications of Signal Processing to Audio and Acoustics, 2001 IEEE Workshop on the, pp. 99 -102, 2001, by V. Algazi et al. En el análisis y modelamiento es posible encontrar desarrollos como el que fue publicado para aplicaciones de localización robótica por C. Pinho et al. titulado "A Bayesian Binaural System for 3D Sound-Source Localization", en Cognitive Systems, (Karlsruhe, Alemania), 2008. Asimismo, también es posible encontrar desarrollos relacionados a la personalización y parametrización de modelos antropométricos (también llamados modelos estructurales) que permitan la simulación de sonidos 3D para cualquier fisionomía. Recientes investigaciones proponen una función de transformación para una oreja en particular y su relación con la HRTF, que se le ha llamado PRTF (sigla en inglés para Pinna-Related Transfer Functiori). En particular, en el año 2011 M. Geronazzo et al. ("Customized 3d sound for innovative interaction design", en Proc. Italian ACM SigCHI Conf. on Computer-Human Interaction, (Alghero, Italia), pp. 1-3, 201 1) desarrolló un modelo estructural personalizado para una anatomía que explica la relación que existe entre la elevación de un muestreo y el radio de la cabeza como una parte de un modelo estructural de la HRTF, y en particular se estudia la relación que existe entre el azimut de una muestra y las dimensiones de la oreja en función con la PRTF. Otro estudio realizado por D. J. Kistler et al. ("A model of head-related transfer functions based on principal components analysis and minimum-phase reconstruction", The Journal of the

Acoustical Society of America, vol. 91, no. 3, pp. 1637-1647, 1992) propone un modelo de cinco funciones base obtenidas a partir del Análisis de Componentes Principales (PCA, sigla en inglés para Principal Components Analysis) para aproximar cualquier HRTF, demostrando que la localización entre la HRTF real y la modelada prácticamente no variaba.

Por otra parte, la patente estadounidense 8.265.284 describe un aparato para generar una señal de audio binaural que incluye un demultiplexor y decodificador que recibe información de audio que consta de una señal de audio de canal M que es una mezcla de una señal de audio de canal N y de datos de parámetros espaciales para mezclar la señal de audio de canal M con la señal de audio de canal N. De acuerdo con dicho documento, un procesador de conversión convierte parámetros espaciales de la información de parámetros espaciales en los primeros parámetros binaurales como respuesta a al menos una función de transferencia perceptual de binaural. Luego, un procesador de matriz convierte la señal de audio de canal M en una primera señal estéreo en respuesta a los primeros parámetros binaurales y un filtro estéreo genera la señal de audio binaural filtrando la primera señal estéreo. Los coeficientes del filtro para el filtro estéreo se determinan en respuesta a por lo menos una de las funciones de transferencia de percepción binaural por un procesador de coeficiente, en el que dicha función de transferencia es una HRTF. Con respecto a esto, el documento estadounidense 8.265.284 se refiere a la generación de señal binaural para el contenido que ha sido mezclado previamente con características espaciales, tales como una mezcla surround 5.1 de música o sonido para imágenes. Debido a que sólo utiliza HRTF parametrizada de la percepción auditiva humana, no trata de modelar la respuesta del sistema de adquisición con el que sería capturada la calidad de una señal 3D. Por lo tanto, dicho sistema resultaría impreciso en la transformación de una variedad de micrófonos con un patrón espacial característico en una señal binaural, ya que no tiene en cuenta la estructura de los componentes implicados en la captura de las ondas de sonido como un parámetro relevante para el procesamiento del audio con una función de transferencia.

Como es posible notar, el desafío de la presente invención es diseñar un sistema y su metodología para grabación binaural, en donde dicho sistema y método se puedan adaptar a una cámara de video 3D profesional o casera, así como a cualquier otro tipo de dispositivo de tamaño reducido, y que resuelva las limitaciones tecnológicas actuales descritas previamente.

DESCRIPCION DE LA INVENCION

La presente invención aborda el desafío de ofrecer un sistema de grabación de tamaño reducido, de preferencia de dimensiones milimétricas, por ejemplo susceptible de ser utilizado dentro de una cámara de video, teléfono inteligente o dispositivos aún más pequeños, en donde dicho sistema recupera ondas de sonido filtradas acústicamente que decodifica de tal forma que cuando éste se reproduzca mediante un dispositivo de reproducción tipo audífonos o audífonos convencionales, se escuche exactamente como lo experimentaría un observador desde la perspectiva de la escena. Adicionalmente, la invención también revela un método de grabación utilizado por el sistema identificado anteriormente para el procesamiento de la señal de audio, un programa computacional que aplica dicho método y el proceso de fabricación del sistema mencionado.

Los objetivos específicos de esta invención son proporcionar un sistema de grabación de sonido que posea en una modalidad de la invención, un dispositivo de filtro acústico que minimice la correlación en la respuesta a un mismo sonido originado desde cualquier par de puntos con distinto ángulo esférico y un dispositivo decodificador de procesamiento binaural, que tome la respuesta sonora medida dentro de dos filtros acústicos, y rescate la información de la localización del sonido, la cual está implícita en las señales de audio, transformándola a un par de señales con las características que tendrían al ser escuchadas por el ser humano.

Para una mejor comprensión de la tecnología descrita en la presente invención es necesario entender lo esencial acerca de la escucha en tres dimensiones y la simulación de este fenómeno mediante la grabación binaural.

Para una fuente sonora específica, el sistema auditivo humano percibe el sonido de manera diferente en cada oído de acuerdo a la localización de dicha fuente. En base a esto, el cerebro utiliza una serie de señales derivadas de la percepción del sonido para calcular esta localización, de las cuales las más importantes son:

• Diferencias de tiempo interaural, dadas por el retardo de la llegada de la onda sonora al oído más lejano a la fuente;

• Diferencias de nivel interaural, que corresponden a las diferencias en intensidad con la que la onda sonora llega a cada oído;

• Diferencias de fase interaural, dadas por la distinta fase de la onda sonora en cada oído; y

• Diferencias del espectro del sonido, dadas por la absorción, resonancia y/o difracción de ciertas frecuencias, generadas por la fisionomía del oyente en función de la ubicación relativa de la fuente del sonido. En forma particular son muy incidentes en el tipo de diferencias los efectos producidos por las orejas, cabeza, cuello y torso.

Todas estas características se pueden representar en un vector (Xi, X r ), en el cual Xj y X r contienen la información de entrada de la señal, por ejemplo, la representación de nivel, fase y espectro del sonido, en un momento dado, en el oído izquierdo y derecho respectivamente.

Parte de la literatura científica hasta el día de hoy se enfoca en determinar cuáles de estas señales tienen mayor o menor importancia en la localización de distintos sonidos, y en el estudio de otras señales y procesos que participan en la localización. Sin perjuicio de lo anterior, se han creado nuevos métodos que permiten la grabación y reproducción del sonido de manera aceptablemente fiel a como lo percibimos en realidad (en 3D), que pueden agruparse en una de las siguientes categorías:

La primera es la utilización de un modelo físico para realizar la grabación de sonidos, que interprete el sonido a su alrededor de manera similar a lo que ocurre con la anatomía humana. En otras palabras, una técnica de grabación que sea capaz de detectar las cuatro señales indicadas anteriormente que utiliza el cerebro para la localización de los sonidos. En esta categoría podemos encontrar el método de la cabeza dummy ya mencionada, el famoso disco de Jecklin, los micrófonos desarrollados por la compañía japonesa Otokinoko, y los métodos que utilizan micrófonos binaurales que se colocan en los oídos de quien realiza la grabación. En todos los casos, el aparato es utilizado para realizar las grabaciones in situ, es decir, la localización de los sonidos queda dada por la posición relativa de la cabeza al momento de la grabación. Es posible hacer creer al cerebro que dicho sonido efectivamente proviene de la localización deseada, siempre que el oyente utilice audífonos situados de manera similar a los micrófonos utilizados para realizar la grabación con el aparato, y naturalmente, que las características del modelo sean lo más similar posible a las de la fisionomía humana promedio. En general estos métodos involucran la localización del sonido a cambio del tamaño y portabilidad del aparato, además de tener un problema de generalización en relación a la anatomía específica de cada oyente.

La segunda categoría agrupa los métodos utilizando un modelo matemático de las dimensiones de una cabeza en particular y el procesamiento de sonido digital para sintetizar señales de audio que el cerebro interpreta como binaural. El más conocido de estos modelos utiliza una HRTF, la cual se obtiene para cada cabeza mediante la medición de la respuesta de micrófonos situados dentro del oído, al ser estimulados mediante sonidos con todas las frecuencias existentes en el rango auditivo humano. Estos sonidos son situados en distintas posiciones del espacio 3D, en un lugar en el que no existan reflexiones sonoras que interfieran con la duración de la HRTF (típicamente una cámara anecóica), dónde las grabaciones de los micrófonos son evaluadas y almacenadas para cada ubicación. Mediante la convolución matemática de un sonido cualquiera con la respuesta obtenida para una localización específica, es posible hacer creer al cerebro que dicho sonido efectivamente proviene de la localización deseada, siempre que el oyente utilice audífonos situados de manera similar a los micrófonos utilizados para obtener la HRTF. Este método alcanza un resultado personalizado y muy preciso para la anatomía que se utilica al hacer las mediciones (que en particular puede ser una cabeza dummy), y por lo mismo puede resultar en un audio de baja fidelidad para un oyente cuya fisiología difiera de la utilizada para realizar las medidas. Además, sólo sirve para la reproducción de un número finito (y por motivos prácticos, pequeño) de señales a situar en el campo 3D del oyente, excluyendo así todos los sonidos ambientales continuos, como por ejemplo, el sonido del mar o el de la lluvia en el bosque. En este contexto, la presente invención busca resolver las limitantes de los métodos para ambas categorías, introduciendo una nueva tecnología de grabación, cumpliendo con los siguientes requisitos: · Permite una grabación fiel y una reproducción de sonidos con un origen continuo en el espacio (sonidos ambientales);

• Puede adaptarse a dimensiones milimétricas para ser instalada en dispositivos de tamaño reducido tanto para profesionales como consumidores;

· Es capaz de usar una transformada para mapear los sonidos grabados por el sistema, en una representación del sonido con forma humana.

Luego, con el fin de cumplir con los requisitos ya mencionados, la invención consiste en desarrollar un método y dispositivos que pertenezcan a la primera y segunda categoría, combinando un sistema físico para la grabación de sonidos binaurales con una metodología aplicada para estimar una Transformación Binaural (BF) de las señales capturadas.

En primer lugar, la invención consiste en desarrollar un método y dispositivos pertenecientes a la primera categoría, es decir, un método físico que minimice la correlación en respuesta a un mismo sonido originado desde cualquier par de puntos, con un ángulo esférico distinto. Dicho método y dispositivos son capaces de recuperar toda la información que permite al ser humano localizar sonidos en el espacio, ya que minimiza la correlación en la respuesta del sistema como resultado a señales iguales emitidas desde diferentes ubicaciones esféricas que ayudan a conservar la información relacionada a la localización del sonido. Para lo anterior, una modalidad del sistema de la invención propone un dispositivo de filtro acústico con materialidad y especificaciones parametrizadas para cada ángulo esférico de una discretización definida o grilla de muestreo. De acuerdo al método de la invención este dispositivo, que se denomina Filtro Acústico de Parametrización Angular (APAF, sigla en inglés para Angular Parameterization Acoustic Filter), es aplicado a un par de dispositivos captadores de sonido, por ejemplo, micrófonos de dimensiones acordes a las especificaciones, para medir más a fondo la función de transferencia relacionada a este sistema, obtenido en base sus señales de entrada y salida. Posteriormente, y en base a la segunda categoría de los métodos para la grabación binaural, se desarrolla un algoritmo de decodificación de la información capturada por el sistema micrófonos-filtro (MFS, sigla en inglés para Microphones-Filter System) o sistema de adquisición, mediante una combinación de algoritmos ya existentes de inteligencia artificial para la aproximación de funciones, y así alcanzar la función de trasformación deseada. Se espera que dicha función de trasformación tome una parte del audio capturado por el sistema de adquisición y lo convierta en una señal tal cual la escucharía una cabeza humana normal. Con el fin de obtener esta función de trasformación, se utiliza una cabeza d mmy o modelo y se realiza un cálculo para obtener el HRTF de esta cabeza. Se realizan medidas equivalentes para el sistema de adquisición, modelación y obtención de una Función de Transferencia MFS (MFSTF, sigla en inglés para Microphones-Filter System Transfer Functiorí). De la información de la HRTF y MFSTF, se aprenden como pares iguales los parámetros de localización tales como las típicas señales binaurales que luego se utilizan en la función de transformación para aproximarse al audio binaural. En este sentido, la función de trasformación deseada se obtiene por medio de un proceso de entrenamiento y validación que se realiza con pares de resultados de cada función de transferencia (HRTF y MFSTF) y sus parámetros calculados para los sonidos emitidos desde la misma ubicación angular relativa. Luego, el proceso aproxima el MFSTF al HRTF de dicho sistema, obteniendo la Transformación Binaural (BT, sigla en inglés para Binaural

Transformatiori) que convierte la señal adquirida en una señal de reproducción binaural. Así, el sistema y método conforman un diseño integral que es capaz de grabar audio y luego procesarlo para su reproducción como un ambiente de sonido en tres dimensiones.

BREVE DESCRIPCION DE LAS FIGURAS

La naturaleza de la invención se comprenderá mejor a partir de la siguiente descripción detallada de varias modalidades específicas, dadas solo a modo de ejemplo, con referencia a los dibujos adjuntos, en los que:

La Figura 1 , muestra un esquema de audición de un sonido específico emitido desde el punto fuente S, donde Xi es la señal de entrada recibida por el oído izquierdo y X r es la señal de entrada recibida por el oído derecho.

La Figura 2, muestra un diagrama de bloques del procesamiento realizado a las señales de audio, que es la base del proceso de decodificación para encontrar la representación binaural.

La Figura 3, muestra una vista esquemática de una de las modalidades preferidas de la invención.

DESCRIPCION DETALLADA La presente invención describe un método y sistema de grabación binaural, capaz de grabar sonido y decodificar sus características espaciales, el cual al ser reproducido con dispositivos tipo audífonos ofrece una representación tridimensional de la escena de sonido grabada. Dicho sistema y método ofrecen una solución de tamaño reducido, de dimensiones preferentemente milimétricas, que se pueden aplicar y/o integrar a dispositivos profesionales, domésticos, portátiles como los celulares, entre otros.

En una modalidad de la invención dicho sistema de grabación consiste en al menos dos unidades de filtros acústicos APAF, donde cada unidad de filtros tiene en su interior una unidad de sensores de sonido. Por ejemplo, un micrófono que transforma la señal acústica u onda de sonido en señal eléctrica o señal de audio. La disposición de las unidades de APAF se conoce como dispositivo de filtro acústico o dispositivo APAF. Cada unidad APAF, las cuales están físicamente separadas en una modalidad, minimiza la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano, medidos desde la unidad de sensores de sonidos que se ubica al interior de cada unidad de filtro acústico. De manera preferencial, dicha unidad de sensores de sonido consiste en un micrófono omnidireccional de alta ganancia en proporción a su tamaño. En este contexto, en una modalidad preferente de la invención, las unidades de filtro acústico y sensores de sonido utilizadas son de dimensiones milimétricas, lo que facilita su integración a dispositivos de grabación existentes como aparatos profesionales, portátiles o de uso doméstico. De esta manera, la presente invención considera que la curva de frecuencia de la unidad de sensores de sonido utilizada no es excesivamente diferente a la de los micrófonos convencionales utilizados en los estudios de grabación, por lo que cualquier no-linealidad en la respuesta puede ser corregida por etapas de ecualización posteriores. La construcción de un dispositivo APAF comprende materiales comúnmente utilizados en la producción de cámaras de video, teléfono inteligente y sus accesorios, micrófonos, absorción acústica y resonancia acústica, siendo el objetivo obtener la mínima correlación angular para un par de sonidos idénticos emitidos de fuentes ubicadas en distintas posiciones angulares, medidos en base a un índice promedio del resultado obtenido para cada par de sonidos. Entonces, el objetivo principal del dispositivo de filtro acústico es preservar la información de localización del sonido contenida en una señal de audio, que proporciona los efectos de la variación del espectro de sonido y la variación del nivel de sonido de la onda de sonido recibida. Asimismo, debido a la separación espacial de las unidades de sensores de sonido, hay una variación en el tiempo en el que los eventos de sonido son adquiridos por cada sensor de sonido, y por lo tanto dicha diferencia de tiempo también está contenida en las señales de audio como información.

Para lograr la variación del espectro de sonido el dispositivo APAF ofrece:

• Un sistema de densidad variable, que varía de forma paramétricamente angular (elevación y azimut);

• Cancelación/habilitación de ciertas frecuencias, que se logra a través de canales de longitud diferentes junto con lo cual el sonido viaja antes de llegar al micrófono

(similar a cómo funciona un micrófono direccional, es decir, lograr la cancelación de sonido de ciertas direcciones a través de la cancelación de fase). La variación de nivel se consigue de forma natural por la separación espacial de ambos micrófonos, y debido a la absorción/disipación experimentada por el sonido al pasar a través del dispositivo. Un dispositivo APAF con sus unidades APAF que ha sido acoplado a una unidad de sensores de sonido o micrófono, consta de un subsistema denominado sistema micrófonos-filtro (MFS) o sistema de adquisición, el cual es uno de los ejes centrales para la grabación de sonido de la presente invención. Para que el sonido registrado por el MFS sea grabado y/o reproducido de forma binaural se utiliza un dispositivo decodificador que traduce o transforma la señal recuperada por el dispositivo captador de sonidos a una señal tridimensional como la que escucha el oído humano. Con este propósito, el dispositivo de decodificación consta de medios para almacenar información de cálculo y procesamiento, como mediciones acústicas realizados al MFS y a un sistema de cabeza dummy, aplicando una transformación a la señal de salida del MFS para obtener una señal de reproducción binaural en un dispositivo de reproducción tipo audífonos o audífonos convencionales.

En este contexto, las mediciones acústicas realizadas tanto al MFS como a la cabeza dummy para determinar la función de transformación, se efectúan en base a una muestra sonora que contiene todas las frecuencias que el ser humano puede escuchar, donde dicha muestra puede ser del tipo ruido blanco, impulsos o barrido sinusoidal.

Una vez que se ha determinado la muestra sonora con la cual se medirá tanto el MFS como la cabeza dummy, se define una grilla de muestreo, la cual puede corresponder a un conjunto de características similares a las utilizadas por V. R. Algazi et al. ("The CIPIC HRTF datábase" In Proc. 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA 2001), New Paltz, NY, USA, October 2001), es decir, N = 1250 puntos emisores de sonido, lo que es considerado un estándar en el mundo académico para mediciones de HRTF. Sin embargo, puede utilizarse cualquier tipo de grilla adecuada para este tipo de mediciones.

Posteriormente, se efectúa la toma de muestras con la cabeza dummy para las ubicaciones N determinadas y con la misma ubicación N al MFS o sistema de adquisición, en donde a las muestras tomadas se les realiza un análisis de correlación entre señales e iteración. En este sentido, el enfoque experimental utilizado está generando pulsos (o señales de tipo pulso como un "barrido sinusoidal" o una secuencia longitud máxima "MLS", sigla en inglés para Máximum Length Sequence) a partir de un acuerdo semi-uniforme de elevaciones y rotaciones en el plano horizontal (azimut) sobre el centro de una esfera. Es decir, las señales emitidas desde la disposición esférica se miden tanto para la cabeza dummy como para el sistema de adquisición binaural. Luego, las mediciones a la cabeza dummy ayudan a obtener la HRTF correspondiente a la cabeza dummy y los parámetros descriptivos de ésta. Se hacen las mediciones equivalentes al sistema de adquisición para la modelación y obtención de la función de transferencia de dicho sistema (MFSTF), y los parámetros descriptivos de ésta. Finalmente, ambas funciones de transferencia están correlacionadas entre sí, en el que se utiliza un método de aprendizaje supervisado para obtener la función de transformación que traduce esta correlación.

En este contexto, la función de transformación del dispositivo decodifícador se obtiene a partir de las mediciones acústicas tomadas de la cabeza dummy (HRTF) y de la función de transferencia del sistema de adquisición (MFSTF) en conjunto con el algoritmo de inteligencia artificial que aproxima la función que mapea ambas respuestas, mediante sus parámetros descriptivos.

Como se indicó anteriormente, la función de transformación en el dispositivo de descodificación es una función de aproximación que se obtiene por aprendizaje supervisado (o una técnica de aprendizaje automático equivalente), en el que la señal de entrada al método de aprendizaje, puede provenir en una modalidad de la invención de los micrófonos del sistema, representando las ondas de sonido X| y X r como se muestra en la Figura 1 para el caso de dos sensores, y la señal de salida es representada por Y) y Y r .

Dicho sistema de inteligencia artificial comprende un algoritmo de aprendizaje programado en sistemas computacionales o software, en donde dicho algoritmo de aprendizaje se encuentra parametrizado para evaluar la mejor combinación de parámetros en la etapa de validación. En este sentido, los pasos del algoritmo se pueden resumir en:

1. La adquisición de las señales de entrada del sistema de adquisición, en el que dichas señales son tratadas como un vector del tipo Xi, X r (o Xi, X 2 , ... XN si se utilizan varios micrófonos como una modalidad del sistema de adquisición).

2. El análisis y separación de los segmentos de señal de entrada que describen los eventos de sonido relevantes.

3. El pre-procesamiento de los segmentos y la obtención de parámetros descriptores de direccionalidad. Los descriptores de direccionalidad proveen información estimativa sobre los posibles orígenes de la señal y permiten utilizar dicha información para los siguientes pasos, en el que cada señal de salida (izquierda - derecha) es sintetizada utilizando una o más transformaciones que se encuentran en la etapa de validación y entrenamiento, lo que minimiza el margen de error. 4. La convolución de los segmentos con las funciones de transferencia determinadas de acuerdo con el paso 2. Preferentemente, esta convolución está en el dominio del tiempo, aunque también se puede utilizar un producto punto del vector en el dominio de frecuencia, o una operación equivalente en otro dominio. Para que el sistema funcione en tiempo real, se puede utilizar un método de convolución de tipo superponer-añadir para que este proceso no represente un retraso perceptible para el usuario.

5. La salida es la reconstrucción de los segmentos de audio separados en los puntos originales.

Puesto que el software de la invención está integrado en el sistema de tamaño reducido, es necesario realizar los pasos anteriores en un microprocesador para tener una solución independiente, con un convertidor análogo digital de muestreo de alta frecuencia y un convertidor análogo digital de salida. Por otro lado, los pasos anteriores pueden ser incorporados en la memoria de los dispositivos que los albergan, por ejemplo, dispositivos portátiles que ya tienen un marco para comunicarse con su procesador, memoria, convertidores análogo digitales, buses de datos, etc.

Como se describió anteriormente, la validación y entrenamiento del sistema de inteligencia artificial consta de establecer una correlación matemática entre las funciones de transferencia de las señales capturadas por la cabeza dummy (HRTF genérica) y las funciones de transferencia de las señales capturadas con MFS (MFSTF). Para establecer esta correlación se aplican índices matemáticos que permiten la evaluación del desempeño del decodifícador, en términos de la correlación obtenida y la sensación de inmersión al oyente.

Luego, se establece la mejor combinación de parámetros para la transformación, obteniéndo la mejor función de transformación que convierte la señal de salida del MFS en una señal binaural de reproducción. Esta transformación o función de transformación es llamada Transformación Binaural (BF).

En este contexto, como por ejemplo sólo para el dominio de la frecuencia, en el paso de validación y entrenamiento se pretende que, para cada ubicación Θ en la grilla de medición, la siguiente igualdad sea cierta:

¾_MSF * BF 0 — H 0 _dummy

Donde:

¾_MSF corresponde a la función de transferencia parametrizada del sistema de adquisición, para la posición Θ, que va a estar correlacionada con la función de transferencia de la cabeza dummy.

BF 0 corresponde a la Transformación Binaural descrita anteriormente.

¾_dummy es la HRTF parametrizada para la cabeza dummy, para la posición Θ.

Es decir, la etapa de validación y la entrenamiento se lleva a cabo a fin de encontrar el valor para B 0 para lograr la igualdad de la ecuación anteriormente descrita para todas las posiciones angulares. Por ejemplo, en una modalidad donde el sistema de adquisición tiene dos micrófonos, las funciones de transferencia parametrizadas de dicho sistema podrían ser representadas como coeficientes que describen la Diferencia de Tiempo Interaural (ITD, sigla en inglés para Interaural Time Differencé) entre los micrófonos izquierdo y derecho. Dicha función de transferencia parametrizada se puede fácilmente aproximar a una HRTF que haya sido parametrizada de la misma manera, en cuyo caso la función de transformación sería una función monótona que mapea los ITD capturados por el sistema de adquisición a los ITD correspondientes que ocurren en una cabeza humana. Las señales de audio captadas por el sistema de adquisición, o en otra modalidad una versión filtrada de éstos, pueden ser alimentadas a la función de transformación, lo que generaría una representación binaural aproximada de la señal de audio de entrada.

En el caso de múltiples micrófonos, la salida puede ser escrita como una combinación lineal de las entradas y funciones de transferencia que deben ser estimadas en la etapa de entrenamiento y validación, utilizando por ejemplo la siguiente ecuación:

Y¡ = Ci DXi DH, + C 2 DX 2 nH 2 + ... + CN DXN Ü HN donde X¡ es la señal de entrada i-ésima H¡ es la i-ésima función parametrizada asociada y C¡ es el parámetro de ponderación de i-ésimo. En este sentido, cada parámetro de ponderación está relacionado con cada señal de entrada y directamente relacionado a la correlación con la función HRTF. La figura 2 muestra una generalización de la metodología descrita anteriormente para obtener una señal de audio binaural de acuerdo con la invención.

En base a lo anterior, de acuerdo a la modalidad de la Figura 3, el sistema de grabación binaural (1) objeto de la presente invención describe una metodología de operación que consiste en grabar el sonido utilizando al menos un par de dispositivos de sensores de sonido (2) o micrófonos, en donde los dispositivos de sensores de sonido se encuentran envueltos en un dispositivo de filtro acústico o APAF (3), comprendiendo la conexión de dichas unidades el sistema de micrófonos-filtro o sistema de adquisición (4). Adicionalmente, la etapa de grabación comprende los procesos estándar de grabación de audio digital, es decir, pre-amplificación, filtro anti alas, muestreo, conversión análoga-digital, decodificación y almacenamiento, entre otras.

Posteriormente, la señal de audio de salida del sistema de adquisición es procesada en un dispositivo decodificador (5) perteneciente al sistema de grabación binaural, el cual aplica la Transformación Binaural (BF) a dicha señal y, preferentemente, la almacena en al menos una unidad de almacenamiento, convirtiéndola en un par de señales capaces de ser comprendidas por un humano que las escucha mediante dispositivos de reproducción tipo audífonos o audífonos convencionales (6) y, en una modalidad alternativa, por medio de altavoces estéreo convencionales. De hecho, aunque mediante el uso de altavoces estéreo convencionales no es posible obtener el efecto binaural deseado, el método y sistema de la invención permiten mejorar la profundidad estereofónica de las señales de audio en los altavoces convencionales, mejorando así la imagen del sonido y la experiencia envolvente de diferentes sistemas de audio convencional. La Transformación Binaural (BF) aplicada por el dispositivo decodificador se obtiene a partir del análisis de las funciones de transferencia para el sistema adquisición y para una cabeza dummy, tal como se ha indicado en los párrafos precedentes.

En una modalidad de la invención, el sistema de adquisición puede ser reemplazado por una pluralidad de dispositivos de sensor de sonido o micrófonos separados espacialmente, los cuales en conjunto se utilizan para minimizar la correlación angular (esférica) de la respuesta a cualquier par de sonidos idénticos con frecuencias en el rango humano. Luego, se establece una función de transferencia del sistema compuesto de una pluralidad de micrófonos con el objetivo de correlacionar dicha función a la HRTF parametrizada asociada, obteniéndose la Transformación Binaural (BF) que aplica el dispositivo decodifícador de la señal para convertirla en una señal de escucha binaural que permite recrear el ambiente tridimensional real respecto a la captación de sonidos por parte del oído humano. Luego, una diferencia de tiempo, fase e intensidad que ocurre en la pluralidad del arreglo de dispositivos de sensores de sonido aporta suficiente información para determinar la posición de una fuente sonora a partir de la Transformación Binaural (BF), por lo que el sistema de adquisición de la invención puede ser reemplazado por dicho arreglo. En este contexto, debido a la pluralidad de dispositivos o micrófonos de sensores de sonidos separados espacialmente, se entiende que el sistema está compuesto por 3 o más de dichos dispositivos.

En otra modalidad de la invención el sistema de adquisición, es decir el dispositivo APAF envolviendo las unidades de sensor de sonido, está integrado a un dispositivo portátil como una cámara de video, cámara fotográfica, teléfono inteligente, tableta y/o reloj inteligente, o cualquier otro tipo de dispositivo para la grabación binaural, en donde dicho conjunto conforma un nuevo sistema de adquisición. En este contexto, la transformación binaural aplicada por el dispositivo decodifícador se encuentra adaptada a la configuración geométrica o estructural conformada por el nuevo sistema de adquisición que consiste en un dispositivo portátil que integra en su estructura al menos dos micrófonos, separados espacialmente, en donde dicha transformación binaural permite que la onda sonora captada por el sistema de adquisición sea capturada recreando el ambiente tridimensional real respecto a la percepción de sonidos por parte del oído humano. En este escenario, existe una diferencia de tiempo y una diferencia de intensidad del sonido que, en conjunto con el objeto físico (el mismo dispositivo) que separa ambos micrófonos, que en este caso actúa como dispositivo de filtro acústico o dispositivo APAF, permite una diferencia en el contenido de frecuencia (espectro de sonido) que cada micrófono captura para un sonido dado. El espectro de sonido se altera aún más por el soporte del dispositivo, por ejemplo el usuario que lo sujeta; su torso, cabeza, brazos y manos afectarán al sonido dependiendo de qué manera sostenga el dispositivo, ya sea en posición vertical u horizontal. Esta diferencia en el espectro también se tiene en consideración en la metodología para la decodifícación y procesamiento del sonido binaural. De esta manera, el dispositivo decodifícador posee toda la información necesaria para decodificar la información de espacialidad que ya está presente en estos dos micrófonos y transformarla en una señal binaural humana. Adicionalmente, la metodología de la invención puede aplicarse a dispositivos existentes siempre y cuando éstos ya posean al menos dos micrófonos integrados, con lo cual luego de obtener la función de transferencia de dicho sistema dispositivo-micrófonos, o MFSTF considerando el dispositivo como filtro, y aproximarla a la HRTF asociada, se puede obtener la función de transformación que debe ser aplicada por el dispositivo decodifícador que convierte la señal de entrada en una señal binaural para escuchar en tres dimensiones. En esta modalidad, el sistema de adquisición podría ser parte de los componentes comunes de un dispositivo portátil que consta de al menos dos sensores de sonido o micrófonos, en el que la estructura del dispositivo portátil y su soporte actúan como el dispositivo de filtro acústico envolviendo al menos dos de los sensores de sonido o micrófonos mencionados. Respecto al dispositivo decodifícador, en una modalidad preferente de la invención, dicho dispositivo se encuentra integrado al sistema de grabación binaural y, de manera alternativa, al sistema de reproducción, en donde en una modalidad conveniente, dicho dispositivo decodifícador puede ser implementado en un programa computacional previamente incluido en un dispositivo o que puede ser instalado en la memoria de almacenamiento del mismo. Dicho programa incluye la implementación del algoritmo de decodifícación basado en el algoritmo de aprendizaje que permite obtener la función de transferencia del sistema de adquisición o MFSTF, correlacionada con la HRTF genérica, con el objetivo de convertir la señal de salida del sistema de adquisición en una señal de reproducción binaural. Tal objetivo se cumple al obtener una Transformación Binaural (BF) que permite que la señal de un determinado sistema de adquisición (micrófonos-filtro, micrófonos-dispositivo, pluralidad de micrófonos, entre otros) sea convertida a una señal binaural estéreo para escuchar a través de audífonos convencionales o dispositivos de reproducción de sonido tipo audífonos.

Luego, el programa computacional para la grabación binaural y, alternativamente, su reproducción, podría constar de medios de almacenamiento de información para guardar la información proveniente de las ondas sonoras captadas por un dispositivo de recepción en al menos una unidad de almacenamiento, medios de procesamiento de la información para obtener los parámetros relevantes de la información guardada, medios de comparación para correlacionar los parámetros de la información almacenada con una HRTF parametrizada, guardados previamente en al menos una unidad de almacenamiento, medios de procesamiento de la información para obtener la Transformación Binaural (BF) y aplicarla a la información guardada, medios de almacenamiento para guardar la transformación binaural de la información almacenada para su posterior recuperación y reproducción, de ser necesario.