Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM AND METHOD FOR CAPTURING AND PROCESSING THREE-DIMENSIONAL IMAGES WITH MOVEMENT
Document Type and Number:
WIPO Patent Application WO/2012/160224
Kind Code:
A1
Abstract:
System for capturing and processing three-dimensional images with movement, which comprises a spherical enclosure (1) wherein the object (2) to be recorded is positioned in the centre, a lighting system, an acquisition system with a plurality of cameras (3) around the object (2), a processing module (4), and a three-dimensional representation system (5) which calculates the straight lines converging on the lens of each camera (3) and pools the information from each camera (3), each pair of intersecting straight lines defining a point in the three-dimensional space. Method for capturing and processing three-dimensional images with movement, which captures the initial image by means of a plurality of cameras (3) and sends the captured image to a processing module (4), a three-dimensional representation system (5) showing the image via the information captured by each camera (3) at the same time.

Inventors:
LOPEZ IGLESIAS MATIAS (ES)
Application Number:
PCT/ES2012/070288
Publication Date:
November 29, 2012
Filing Date:
April 27, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV EUROP MIGUEL DE CERVANTES (ES)
LOPEZ IGLESIAS MATIAS (ES)
International Classes:
G05B19/4099; G05B19/42; G06F17/50; G06T17/00; H04N5/247
Domestic Patent References:
WO2005076094A22005-08-18
Foreign References:
US20040246333A12004-12-09
US6975353B12005-12-13
EP0348247A11989-12-27
Attorney, Agent or Firm:
URIZAR ANASAGASTI, Jesús Mª (ES)
Download PDF:
Claims:
REIVINDICACIONES

1 . - Sistema de captura y procesado de imágenes tridimensionales con movimiento caracterizado porque comprende

una estancia (1 ) con forma esférica, donde el objeto (2) a grabar se posiciona en el centro,

un sistema de iluminación difusa y homogénea de la estancia (1 ),

un sistema de adquisición de la imagen, que comprende una pluralidad de cámaras (3) dispuestas alrededor del objeto (2) de manera equidistante, y preferentemente guardando equidistancia entre ellas,

un módulo de procesamiento (4) de la información con sistema de almacenamiento, donde las cámaras (3) envían la información captada, un sistema representación tridimensional (5), que por un lado, calcula las rectas convergentes al objetivo de cada cámara (3), y por otro lado, pone en común la información de cada cámara (3) para lograr la intersección de las diferentes rectas, definiendo cada par de rectas secantes un punto en el espacio tridimensional.

2. - Procedimiento de captura y grabación de imágenes tridimensionales con movimiento, caracterizado porque comprende las siguientes etapas:

(a) se captura la imagen inicial del objeto (2) y sus movimientos a través de una pluralidad de cámaras (3) dispuestas alrededor de dicho objeto (2) en una estancia (1 ) esférica.

(b) se envía la imagen captada simultáneamente por todas las cámaras (3) a un módulo de procesamiento (4) para la separación de la imagen y el fondo.

(c) a través de un sistema de representación tridimensional (5) se representa la imagen, mediante la puesta en común de la información captada por cada cámara (3) en un mismo instante.

3. - Procedimiento de captura y grabación de imágenes tridimensionales con movimiento, según reivindicación 2, caracterizado porque la información captada por cada cámara (3) viene dada por el cálculo de las rectas convergentes al objetivo de cada cámara (3) y la intersección de cada par de rectas secantes en un mismo instante y que definen un punto en el espacio.

Description:
DESCRIPCIÓN

Sistema y procedimiento de captura y procesado de imágenes tridimensionales con movimiento.

Objeto de la invención

El objeto de la presente invención trata de un sistema y procedimiento de captura y procesado de imágenes tridimensionales con movimiento, que captura las imágenes bidimensionales a través de una pluralidad de cámaras dispuestas alrededor del objeto, y mediante la intersección de las proyecciones de dicho objeto las transforma en una representación tridimensional para su posterior edición de texturas, animación y postproducción. Antecedentes de la invención

Las cámaras o sistemas de captura y visualización actuales utilizan lo que se conoce como luz estructurada. Por lo general, están basados en la introducción de información geométrica en la técnica de iluminación a fin de facilitar la extracción de la profundidad de la escena de análisis. Una de estas técnicas consiste en la proyección de una línea sencilla de luz sobre la escena y la imagen bidimensional es adquirida por medio de una cámara digitalizadora que se encuentra en un ángulo de toma adecuado.

Consiste en proyectar sobre el objeto o pieza unos patrones de luz conocidos modulados y observando la luz reflejada, que también viene modulada, obtener información sobre la estructurada de la superficie del objeto, la cual puede ser reconstruida mediante triangulación. Las fuentes de luz empleadas deben ser especiales pues deben ser capaces de emitir luz estructurada y suelen ser láseres. La información de profundidad se adquiere del desplazamiento relativo de los diferentes puntos de la línea de luz. Este método necesita procesar múltiples imágenes para reconstruir la escena completa, ya sea moviendo la fuente de luz o dejando el sistema de iluminación fijo y recorrer la escena. Además, no permiten capturar la imagen desde distintos puntos de vista sin necesidad de una luz externa.

Se conoce el documento ES 2306089 T3, que describe un sistema foto-óptico electrónico capaz de reconocer el contorno externo de cualquier tipo de objeto y transformarlo en un conjunto de coordenadas cartesianas; y de transmitir la información matemática de la geometría de estos objetos, a través de redes, a un ordenador personal (para realizar una representación gráfica tridimensional del objeto y hacer posible a posteriori el procesamiento de la geometría del mismo por medio de programas de diseño asistido por ordenador en tres dimensiones, CAD 3D) y directamente a un dispositivo en línea, del tipo reproductor de fax, para reproducir en plástico, material compuesto o similar al papel que tengan el mismo volumen que el objeto reconocido, todo de manera automática y siguiendo una lógica predeterminada. Descripción de la invención

El sistema que se propone trata de parametrizar las coordenadas de los puntos en función de la intersección de las líneas generadas por las proyecciones de las capturas de las cámaras. Esto es, que cada uno de los píxeles que captura cada cámara se representa como una recta que al intersectar con la recta calculada por otra u otras cámaras situadas con distinto ángulo de ataque entorno al objeto capturado determina un voxel tridimensional.

Este sistema de triangulación no usa luz estructurada, con la ventaja que puede capturarse desde distintos puntos de vista sin necesidad de una luz tipo láser. También permite capturar consecutivamente la imagen de manera que se pueda sintetizar el movimiento secuencial.

El sistema que se propone es un sistema de grabación de objetos en un espacio tridimensional secuencial en el tiempo, por el cual se genera una sucesión de imágenes tridimensionales de un objeto situado en el centro de distintas cámaras que le capturan o graban tomando imágenes bidimensionales.

Para ello se requiere de una estancia en la una pluralidad de cámaras se distribuyen alrededor de un objeto. Preferentemente estas cámaras se distribuirán homogéneamente, pero no es imprescindible. Cuanto mayor sea el número de cámaras y de mayor resolución, mejor será el resultado. En principio tan sólo es necesario referenciar la posición exacta en el espacio de cada cámara. La estancia ha de estar bien iluminada, preferiblemente con luz difusa y disponer de un sistema homogéneo para la eliminación de fondo.

Así, en el interior de la estancia de forma esférica se distribuyen una pluralidad de cámaras, preferentemente de forma equidistante. Para lograr el objeto 3d manipulable, el proceso comprende las siguientes etapas:

- Grabación: Captura inicial del objeto y sus movimientos

- Modelado: Procesado y representación de la forma de mallado o matriz 3D - Texturización: Procesado y representación del color

- Animación: Procesado y representación del movimiento.

Edición: post-producción y edición de los distintos elementos.

Renderizado: Representación final del material audiovisual. Para comenzar el proceso, se sitúa el objeto que se desea capturar en el centro de la estancia. Todas las cámaras enfocan al objeto, en el centro de la esfera de la estancia. Así, al situar el objeto en el centro de la instalación su imagen queda recogida por las cámaras sin que quede ningún rincón oculto. La función de cada una de las cámaras es conseguir la captura simultánea desde distintos puntos de vista del objeto. Todo el proceso ha de ser realizado preferentemente de manera regular y equidistante, para asegurar la homogeneidad del resultado de la captura.

Al situar un objeto en el interior de la instalación su imagen es capturada simultáneamente por todas las cámaras que le rodean. La información recibida es almacenada directamente en un ordenador para su correcto procesamiento. Cada fotograma capturado se almacena referenciado el momento de la toma y el lugar desde el que ha sido realizado. Es indispensable almacenar y manipular estos datos para todo el proceso.

Una vez recibida la toma de datos, el sistema realiza el cálculo de la silueta provocada por cada fotograma, separando la imagen capturada y el fondo. Toda la información es fácilmente analizable de manera autónoma ya que viene digitalmente suministrada gracias al CCD o CMOS de la cámara digital, por un mapa de bits bidimensional. El contraste de color generará una línea de contorno representa el espacio ocupado por el objeto. El contorno se traslada a un programa tridimensional, representándose la superficie como intersección de rectas y vectores donde un punto del plano puede definirse por coordenadas contenidas en un plano perpendicular al ángulo de ataque de la cámara con respecto al objeto. Sabiendo, de antemano, la cámara desde la que se tomó el fotograma, se puede colocar el plano exactamente en el espacio virtual y delimitar el contorno que representa a la figura en ese preciso punto del espacio.

La representación de cada punto-pixel de cámara indica la posición de una línea convergente, en el CCD o CMOS de la cámara, de tal forma que delimitada por los valores de inclinación, ángulo de ataque, posición y lente conocidos establecerán una única ecuación de línea.

La representación del punto en el espacio se realizará mediante el cálculo de intersección de dos o más líneas gracias a la representación paramétrica de una recta en función de un punto y su vector.

Las distintas representaciones planas, obtenidas en un preciso momento, gracias a la suma del total de las cámaras dispersas en el espacio, generarán una red de líneas que de manera global se combinarán para generar una estructura o malla tridimensional.

Las representaciones tridimensionales son el resultado de pesar, vectorialmente, los puntos de las distintas proyecciones. La uniformidad de los segmentos generados vendrá avalada por la equidistancia de las cámaras entre sí devolviendo al sistema un número proporcional de caras relacionado con el número total de cámaras instaladas y su correspondiente resolución, pudiéndose ampliar la calidad de la captura incrementando la definición de los píxeles capturados o bien incrementando el número de cámaras en la instalación. También es posible mejorar la resolución, interpolar, a posteriori; mediante un proceso de suavizado de malla para obtener un objeto de más caras y vértices. El proceso inverso habilita reducir las caras del resultante, con el fin de optimizar las operaciones requeridas reduciendo la capacidad de almacenamiento y procesamiento de los datos pero perdiendo también la calidad.

Las imágenes obtenidas por la cámara servirán para generar una textura bidimensional que serán proyectadas al objeto basándose en los distintos ángulos de ataque de las cámaras. Debido a que la información de píxeles puede dar lugar a redundancia de datos, el sistema interpolará la información de los distintos puntos generando una textura de alta definición aun partiendo de cámaras que no cuenten con resolución de muchos píxeles, logrando así mejorar la calidad final del modelo.

Gracias a la información capturada por las cámaras vía CCD o CMOS del espectro de luz, se podrán aplicar distintos materiales al objeto sólido anteriormente generado, ya sea de esta manera el color difuso será la base principal y vendrá conformada por la captura en condiciones estándar de iluminación y su reflejo del espectro visible.

El ángulo formado entre un plano y el ángulo de ataque de la cámara determinará la proyección de los puntos de todo el mapeado. El texel generado por un ángulo perpendicular tendrá una proporción cuadrada de los pixels, mientras que, si el ángulo de ataque es distinto a 90 e tendrá proporciones irregulares. De esta manera, si se captura un área del espacio cuya superficie es reflejada por varias cámaras, la resolución de tal área se verá incrementada proporcionalmente al número de aquellas cámaras que incidan sobre dicha área. Para ello se podrá generar una interpolación de imagen mediante un algoritmo de retoque fotográfico dentro de los fotogramas. Una vez con los cálculos estáticos de los distintos instantes de la grabación se puede procesar una secuencia alterna de los objetos resultantes, lo que generará la sensación de movimiento. Es interesante procesar un interpolado entre fotogramas para alisar pasos intermedios, consiguiendo artificialmente fluidez bajo grabaciones a baja velocidad en cadencia en imágenes por segundo. La intercalación de fotogramas no pretende ser un límite de aplicación de la tecnología aquí presentada sino una herramienta más de mejora de la calidad en el producto final.

El procesado de texturas y mallados son independientes para cada instante de captura, sin embargo es recomendable cruzar la información obtenida con aquellos instantes cercanos interpretando conjuntamente iluminación y formas y así uniformar el resultado de la textura y evitar en la medida de los posible, el parpadeo por cambios de iluminación o fallos de captura.

El resultado del proceso será una imagen CGI de gran fidelidad al objeto capturado, tanto al ser observado estáticamente como el análisis de todos sus movimientos. El espectador será capaz de cambiar la posición de la cámara observando el objeto desde distintos puntos de vista y perspectivas.

El resultado puede ser almacenado en un único archivo. Existen varios estándares en el mercado (dwf, wrml, 3d studio 3ds, dxf, Autocad dwg, etc.). Dicho documento contendrá todos los datos (archivo único), o bien sirviendo como índice y recurso que enlaza a la información de interés en tiempos, luces, texturas, etc.

Los documentos tridimensionales que engloban animación, modelado y textura tienen su utilidad como herramienta para ser observada independientemente mediante un programa renderizador o para ser integrado en un sistema de posproducción tridimensional como los que existen actualmente en el mercado.

Descripción de los dibujos

Para completar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características del invento, de acuerdo con un ejemplo preferente de la realización práctica del mismo, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente:

La Figura 1 .- muestra un esquema del sistema descrito en la presente invención.

La Figura 2.- muestra un esquema de la disposición de una pluralidad de cámaras alrededor de un objeto en una estancia circular.

Realización preferente de la invención

La presente invención trata de un sistema y un procedimiento de captura y procesado de imágenes tridimensionales con movimiento, que captura las imágenes bidimensionales a través de una pluralidad de cámaras dispuestas alrededor del objeto, y mediante la intersección de las proyecciones de dicho objeto las transforma en una representación tridimensional para su posterior edición de texturas, animación y postproducción.

El sistema de captura y grabación de objetos tridimensionales en movimiento que aquí se describe comprende una estancia (1 ) con forma esférica, donde el objeto (2) a grabar se posiciona en el centro. Toda la estancia dispone de una buena iluminación a través de un sistema de iluminación homogénea de la estancia (1 ) para la correcta grabación. En el interior de dicha estancia (1 ) esférica se disponen una pluralidad de cámaras (3) dispuestas alrededor del objeto (2), y todas equidistantes a dicho objeto. No es necesario que todas las cámaras se distribuyan de manera homogénea entre ellas, aunque es preferible para obtener los mejores resultados. Así, cada una de las cámaras (3) captura de manera simultánea desde distintos puntos de vista equidistantes el objeto (2) a grabar, asegurando de este modo la homogeneidad del resultado en la captura.

La información captada por las cámaras (3) se envía a un módulo de procesamiento (4) de la información con sistema de almacenamiento. Cada fotograma capturado es almacenado referenciando el momento de la toma y el lugar desde el cual ha sido realizado, separando la imagen captada y el fondo a través de croma.

Así, una vez recibida la información de todas las cámaras (3), un sistema de representación tridimensional (5) realiza el cálculo de la silueta provocada por cada fotograma, separando la imagen capturada y el fondo. Se calcula las rectas convergentes al objetivo de cada cámara (3) y se pone en común la información de cada una de dichas cámaras (3), logrando la intersección de las diferentes rectas, definiendo cada par de rectas secantes un punto en el espacio tridimensional.

En cuanto al procedimiento de captura y grabación de imágenes tridimensionales con movimiento, las etapas conocidas comprenden lo siguiente:

- Grabación: captura inicial del objeto y sus movimientos

- Modelado: procesado y representación de la forma de mallado o matriz 3D

- Texturización: procesado y representación del color

- Animación: procesado y representación del movimiento

- Edición: Postproducción y edición

- Renderizado: representación final

El procedimiento descrito en la presente invención, comprende las siguientes etapas:

(a) se captura la imagen inicial del objeto (2) y sus movimientos a través de una pluralidad de cámaras (3) dispuestas alrededor de dicho objeto (2) en una estancia (1 ) esférica.

(b) se envía la imagen captada simultáneamente por todas las cámaras (3) a un módulo de procesamiento (4) para la separación de la imagen y el fondo.

(c) a través de un sistema de representación tridimensional (5) se representa la imagen, mediante la puesta en común de la información captada por cada cámara (3) en un mismo instante.

La información captada por cada cámara (3) viene dada por el cálculo de las rectas convergentes al objetivo de cada cámara (3) y la intersección de cada par de rectas secantes en un mismo instante y que definen un punto en el espacio.

Las cámaras (3) se disponen de manera equidistante al objeto (2), y preferentemente se dispondrán a la misma distancia entre ellas, aunque no es imprescindible. Con la información enviada al sistema de procesamiento (4) se dispone de la posición exacta y lugar desde donde se ha capturado cada imagen del objeto (2). Esta información enviada para su tratamiento es la imagen captada de cada una de las cámara (3) captada en el mismo instante, y referenciando su posición y lugar de grabación. De este modo, el sistema de procesamiento (4) separa la imagen captada del fondo a través de croma. La representación de la forma de mallado se realiza a través del sistema de representación tridimensional (5) que calcula las rectas convergentes al objetivo de cada cámara (3) mediante trigonometría de la retícula de mapa de bits dada por el CCD o CMOS y la posición de cada cámara (3), almacenando la información en matrices de datos, y que pone en común de los datos de cada cámara (3) e intersección de cada par de rectas secantes en un mismo instante, que definen un punto en el espacio.

La texturización, o procesado y representación del color, se podrá calcular en función de las variaciones cromáticas de las rectas que lo intersectan. Si la iluminación es difusa y uniforme los colores representados por cámaras con distintos ángulos serán similares en tanto en cuanto representen la superficie del objeto.

Se podría incluir un proceso de refinamiento de puntos, para eliminar puntos no necesarios, y mallado para lograr una mejor calidad del resultado final.

Para la representación del movimiento, el proceso se repetirá por cada uno de los fotogramas capturados dependiendo de la cadencia de imágenes y la resolución de estas en función de las cámaras utilizadas. El movimiento puede ser interpolado ya que la variación espacial de los puntos definirá la animación.

El resultado es la captura del objeto tridimensional en el espacio y secuencial en el tiempo, que puede ser utilizado para infinidad de aplicaciones. A diferencia de los sistemas actuales basados en la representación de superficie, esta representación es una especie de nube de puntos agrupados en el espacio que juntos conforman la figura geométrica.

La información resultante puede visualizarse trasladándose y rotándose en el espacio, al ser posible exportar los datos en formatos estandarizados puede postproducirse en distintos programas de tratamiento 3d, pudiendo calcularse la malla por proximidad de puntos. El resultado puede mejorarse añadiendo composición de imágenes, puntos de luz, efectos especiales, etc.