Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD, DEVICE AND INSTALLATION FOR COMPOSING A VIDEO SIGNAL
Document Type and Number:
WIPO Patent Application WO/2016/203081
Kind Code:
A1
Abstract:
Disclosed is a method for composing an output video signal (So) from a plurality of input video signals (Si1, Si2, Si3...Sim) that comprise respective input frame sequences (Si1[n], Si2[n], Si3[n]...Sim[n]) with a number of pixels for each input frame associated with an input resolution (Ri1, Ri2, Ri3…Rim), which method comprises determining a spatial surface on a three-dimensional virtual space associated with each pixel; establishing a visualisation point (X0,Y0,Z0) and a visualisation window in the three-dimensional virtual space; calculating an associated threshold pixel density for the pixels in the visualisation window; determining combinations of input frames, the projections of which are at least partially overlapping in the visualisation window; and selecting the frame of each combination of frames which, when projected on the visualisation window, has a pixel density in the entire overlapping part greater than or equal to the threshold pixel density or, in the absence thereof, selecting the frame which, when projected on the visualisation window, has a greater pixel density, in order to form the overlapping output frame part.

Inventors:
ARAGONÉS GAYA JOSÉ MARÍA (ES)
BASURCO MANCISIDOR SERGIO ANDRÉS (ES)
MARÍ GOMEZ MANUEL (ES)
MATILLA SARRATE MARTÍN (ES)
Application Number:
PCT/ES2016/070447
Publication Date:
December 22, 2016
Filing Date:
June 14, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
COHERENT SYNCHRO S L (ES)
International Classes:
H04N5/262; G06T3/40; H04N5/265; H04N5/272; H04N5/341
Foreign References:
EP2037671A12009-03-18
US6985638B12006-01-10
US20070076099A12007-04-05
US20070076099A12007-04-05
Other References:
RICHARD SZELISKI: "Image Alignment and Stitching: A Tutorial", INTERNET CITATION, 10 December 2006 (2006-12-10), pages 1 - 90, XP002680820, Retrieved from the Internet [retrieved on 20120725]
Attorney, Agent or Firm:
SUGRAÑES MOLINE, Pedro (ES)
Download PDF:
Claims:
R E I V I N D I C A C I O N E S

1.- Procedimiento para componer una señal de video de salida (S0), que comprende una secuencia de fotogramas de salida ((S0[n]) con un número de pixeles prestablecidos para cada fotograma de salida asociado a una resolución de salida (R0), a partir de una pluralidad de señales de video de entrada (Su , S¡2, S¡3 ... S¡m), que comprenden respectivas secuencias de fotogramas de entrada (S¡i[n], S¡2[n], S¡3[n] ... S¡m[n]) con un número de pixeles para cada fotograma de entrada asociado a una resolución de entrada (R¡1 , R¡2, R¡3... R¡m), que comprende: determinar una superficie espacial en un espacio virtual tridimensional (1), formada por un conjunto de puntos con coordenadas tridimensionales (Χ,Υ,Ζ) asociadas a cada píxel (p) de cada fotograma de cada secuencia de fotogramas de entrada, establecer en el espacio virtual tridimensional un punto de visualización (Χο,Υο,Ζο) y una ventana de visualización (3), que determinan un tronco (4) de visualización en el espacio virtual tridimensional, formándose fotogramas de salida a partir de las proyecciones de los fotogramas de las secuencias de entrada proyectadas en dicha ventana de visualización; calcular una densidad de píxel umbral asociada para los pixeles en la ventana de visualización, a partir de la resolución de salida (R0) y las dimensiones espaciales asociadas de dicha ventana de visualización; determinar combinaciones de fotogramas de entrada cuyas proyecciones quedan al menos parcialmente superpuestas en la ventana de visualización y, para cada combinación de fotogramas, seleccionar el fotograma de cada combinación de fotogramas que proyectado sobre la ventana de visualización tiene una densidad de píxel en toda la parte superpuesta mayor o igual a la densidad de píxel umbral o, en su defecto, seleccionar el fotograma que proyectado sobre la ventana de visualización tiene la densidad de píxel más próxima a la densidad de píxel umbral, para formar la parte de fotograma de salida que queda superpuesta.

2. - Procedimiento según la reivindicación anterior, caracterizado porque el paso de determinar la superficie espacial sobre un espacio virtual tridimensional se realiza durante una etapa de configuración previa.

3. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque el paso de establecer en el espacio virtual tridimensional un punto de visualización (Χο,Υο,Ζο) y una ventana de visualización se realiza también durante una etapa de configuración previa.

4. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado porque la superficie espacial es tridimensional.

5. - Procedimiento según la reivindicación anterior, caracterizado por que si en alguna de las combinaciones de fotogramas existe una pluralidad de fotogramas que proyectados sobre la ventana de visualización tienen una densidad de píxel en toda la parte superpuesta mayor o igual a la densidad de píxel umbral, se selecciona de entre esa combinación el fotogramas aquel que proyectados sobre la ventana de visualización tienen una densidad de píxel más próxima a la densidad de píxel umbral.

6. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que para formar la parte de fotograma de salida que queda superpuesta se realiza una mezcla entre el fotograma seleccionado de cada combinación de fotogramas y al menos otro fotograma de la misma combinación de fotogramas. 7.- Procedimiento según una cualquiera de las reivindicaciones 1 a 5, caracterizado por que para formar la parte de fotograma de salida que queda superpuesta se utiliza solamente el fotograma seleccionado de cada combinación de fotogramas.

8. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que la densidad de píxel de cada fotograma proyectado sobre la ventana de visualización se calcula a partir de la proyección de agrupaciones de píxeles del fotograma.

9. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que el paso de seleccionar el fotograma de cada combinación de fotogramas se realiza evaluando progresivamente los fotogramas, empezando primero por el fotograma de menor resolución de entrada y acabando por el de mayor resolución de entrada.

10. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que las superficies espaciales asociadas a cada píxel de cada fotograma de cada secuencia de fotogramas de entrada en el espacio virtual tridimensional (1) conforman una superficie equivalente al interior de una esfera.

1 1. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que al menos una de las señales de video de entrada es una señal de video generada por una cámara de vídeo.

12. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que al menos dos de las señales de video están adaptadas para formar secuencias de fotogramas con al menos parte del mismo contenido a diferentes resoluciones.

13. - Procedimiento según la reivindicación anterior, caracterizado por que al menos dos de las señales de video están adaptadas para formar secuencias de fotogramas con el mismo contenido a diferentes resoluciones.

14. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que al menos dos señales de video provienen de una misma cámara de vídeo.

15. - Procedimiento según una cualquiera de las reivindicaciones anteriores, caracterizado por que al menos una de las señales de video está adaptada para formar fotogramas cuyo contenido es una imagen de síntesis de al menos parte del contenido del fotograma de otra de las señales de video.

16. - Programa de ordenador adaptado para realizar el procedimiento según una cualquiera de las reivindicaciones 1 a 15.

17. - Aparato para procesar datos que comprende medios para realizar el procedimiento según una cualquiera de las reivindicaciones 1 a 15.

18. - Instalación que comprende un aparato según la reivindicación anterior y al menos una cámara de vídeo conectada al aparato para proporcionar una señal de entrada de vídeo.

Description:
D E S C R I P C I O N

PROCEDIMIENTO, APARATO E INSTALACION PARA

COMPONER UNA SEÑAL DE VIDEO

Sector técnico de la invención

La presente invención se refiere a un procedimiento, un aparato y una instalación para componer una señal de video de salida a partir de una pluralidad de señales de video de entrada. Antecedentes de la invención

Son conocidos procedimientos para componer señales de video de salida a partir de una pluralidad de señales de video de entrada, por ejemplo una pluralidad de señales de video de entrada que provienen de diferentes cámaras de video y que visualizan partes de una escena. En estos procedimientos, los fotogramas de cada señal de vídeo de entrada se disponen en un espacio virtual, a modo de lienzo, mediante la técnica conocida como video stitching, de modo que usuarios puedan visualizar dicho lienzo a través de una ventana de visualización. El contenido visualizado por la ventana de visualización se codifica convenientemente para formar la señal de salida a la resolución predeterminada.

No obstante, en los procedimientos conocidos, tal como el descrito en el documento de patente US2007/0076099A1 , la señal de salida se obtiene codificando todos los fotogramas de cada señal de vídeo de entrada, siendo necesario decodificar y recodificar todas las señales de video de entrada, con lo que se puede ser necesaria una alta potencia de procesado para decodificar y recodificar señales de entrada de alta resolución para evitar retrasos en la señal de salida.

Es por tanto un objetivo de la presente invención dar a conocer un procedimiento, aparato e instalación que permita generar señales de video en tiempo real a partir de una pluralidad de señales de video de entrada, y que permita utilizar señales de entrada a alta resolución sin que necesariamente conlleve acumular retrasos ni requerir de una gran potencia de computación. Explicación de la invención

El procedimiento para componer una señal de video de salida de la presente invención, es de los que, a partir de una pluralidad de señales de video de entrada, que comprenden respectivas secuencias de fotogramas de entrada con un número de píxeles para cada fotograma de entrada asociado a una resolución de entrada permite componer una señal de video de salida, comprendiendo la señal de video de salida una secuencia de fotogramas de salida con un número de píxeles prestablecidos para cada fotograma de salida asociado a una resolución de salida. El procedimiento permite ventajosamente que, a partir de diferentes señales de video, que por ejemplo, representen diferentes partes de una escena, se forme una señal de video de salida con un número de píxeles prestablecidos para cada fotograma a partir de partes de los fotogramas de las señales de entrada, con la mayor calidad posible. De esta manera, partiendo de señales de video de entrada de diferentes resoluciones se consigue componer una señal de video de salida a una resolución prestablecida con la mejor calidad.

El procedimiento comprende determinar una superficie espacial sobre un espacio virtual tridimensional formado por un conjunto de puntos con coordenadas tridimensionales asociadas a cada píxel de cada fotograma de cada secuencia de fotogramas de entrada, establecer en el espacio virtual tridimensional un punto de visualización y una ventana de visualización, conocida también como "viewport", que determinan un tronco de visualización, conocido también como "frustum", en el espacio virtual tridimensional, formándose fotogramas de salida a partir de las proyecciones de los fotogramas de las secuencias de entrada proyectadas en dicha ventana de visualización; calcular una densidad de píxel umbral asociada para los píxeles en la ventana de visualización, a partir de la resolución de salida y las dimensiones espaciales asociadas de dicha ventana de visualización; determinar combinaciones de fotogramas de entrada cuyas proyecciones quedan al menos parcialmente superpuestas en la ventana de visualización y, para cada combinación de fotogramas, seleccionar el fotograma de cada combinación de fotogramas que proyectado sobre la ventana de visualización tiene una densidad de píxel en toda la parte superpuesta mayor o igual a la densidad de píxel umbral o, en su defecto, seleccionar el fotograma que proyectado sobre la ventana de visualización tenga una mayor densidad de píxel para formar la parte de fotograma de salida que queda superpuesta. De esta manera, ventajosamente no se tiene que procesar el contenido de las señales de entrada de mayor resolución que no vayan a ser utilizadas para codificar la señal de salida, puesto que ya existirá una señal de entrada de menor resolución que se podrá utilizar para codificar la señal de salida a la resolución de salida precisada, sin perder calidad.

En una variante de realización, los pasos de determinar una superficie espacial sobre un espacio virtual tridimensional y/o establecer en el espacio virtual tridimensional un punto de visualización y una ventana de visualización se realizan durante una etapa previa de configuración, por parte de un operador de configuración, de modo que un operador solamente tenga que mover la o las ventanas de visualización a modo de cámara o cámaras virtuales para componer la señal de vídeo de salida, o señales de video de salida en caso de tener una pluralidad de ventanas de visualización, a modo de cámaras virtuales. Naturalmente también se prevé que las posiciones de las secuencias de fotogramas puedan ser ajustadas más adelante, por ejemplo, si estas no han quedado convenientemente dispuestas o si por ejemplo alguna de las cámaras que proporciona la señal de video de entrada se desplaza levemente, por ejemplo, por efecto de un golpe. También se prevé que durante la visualización se puedan añadir nuevos puntos de visualización con sus ventanas de visualización asociadas, por ejemplo, para incorporar cámaras virtuales adicionales.

En una variante de interés, la superficie espacial es tridimensional, quedando dispuesta dicha superficie a modo de lienzo en el espacio virtual tridimensional en el que dispondrán los fotogramas de las secuencias de video de entrada, de modo que los fotogramas queden dispuestos conformando una forma tridimensional según establezca el operador de configuración, de modo que dichos fotogramas puedan quedar dispuestos resiguiendo una forma tridimensional adecuada, como por ejemplo las paredes de una casa o incluso un modelo tridimensional previamente capturado de modo conocido, por ejemplo mediante un dispositivo de escáner tridimensional. Aunque generalmente la superficie espacial se extenderá en las tres dimensiones del espacio virtual, se prevé también que dicha superficie solamente se extienda en dos dimensiones, es decir sea un plano, de modo que cuando se dispongan en dicho plano fotogramas de diferentes secuencias de fotogramas, por ejemplo fotogramas de secuencias de fotogramas con diferentes resoluciones, o que ocupen diferentes porciones de la superficie, o queden solapadas, se pueda escoger los fotogramas que permitan generar la señal de video de salida con la mejor resolución en función de la disposición de la o las ventanas de visualización mediante el procedimiento de la presente invención.

En otra variante de realización, si en alguna de las combinaciones de fotogramas existe una pluralidad de fotogramas que proyectados sobre la ventana de visualización tienen una densidad de píxel en toda la parte superpuesta mayor o igual a la densidad de píxel umbral, se selecciona de entre esa pluralidad de fotogramas el fotograma que proyectado sobre la ventana de visualización tienen una densidad de píxel más próxima a la densidad de píxel umbral. De esta manera si hubiera una pluralidad de fotogramas que proporcionaran una resolución suficiente, solamente se toma aquella inmediatamente superior a la densidad de píxel umbral, que es la que puede procesarse más fácilmente.

Se prevé que el punto de visualización y el tamaño de la ventana de visualización y por consiguiente el tronco de visualización, puedan modificarse mediante controles, por ejemplo controles PTZ recibidos de un usuario de modo conocido, o realizar desplazamientos del tronco de visualización por el espacio virtual tridimensional a modo de 'travelling', o cualquier otro desplazamiento que supondrá cambiar el punto de visualización en cualquiera de las tres dimensiones y que sería análogo al que se podría realizar mediante una cámara física real, de modo que la ventana de visualización pueda desplazarse y en ella puedan proyectarse otras regiones del espacio virtual tridimensional, actuando así a modo de cámara virtual de visualización del espacio virtual tridimensional. Naturalmente, cuando cambien punto de visualización del espacio virtual tridimensional, el tamaño de ventana o el tronco de visualización puede ser necesario tener que volver a seleccionar los fotogramas de las combinaciones de fotogramas para que así la señal de salida tenga la resolución adecuada. Será por tanto recomendable volver a realizar los cálculos para asegurar que se está componiendo la señal de video de salida a partir de las señales de video de entrada más adecuadas. También se prevé que pueda haber más de una cámara virtual de visualización del espacio virtual tridimensional, por ejemplo si más de un usuario tiene que visualizar el espacio virtual tridimensional. En este caso, el procedimiento para componer la señal de video de salida se tendrá que realizar para la señal de salida que se enviará a cada usuario.

Según una variante de realización, para formar la parte de fotograma de salida que queda superpuesta se realiza una mezcla entre el fotograma seleccionado de cada combinación de fotogramas y al menos otro fotograma de la misma combinación de fotogramas, por ejemplo cuando en la ventana de salida se proyectan dos o más fotogramas de entrada que solamente quedan parcialmente superpuestos, de modo que se consiga una transición, por ejemplo en forma de gradiente progresivo o máscara binaria entre los diferentes fotogramas de entrada que formarán el fotograma de salida. Esta transición puede realizarse solamente en los extremos de la parte que queda superpuesta.

Según otra variante de realización, para formar la parte de fotograma de salida que queda superpuesta se utiliza solamente el fotograma seleccionado de cada combinación de fotogramas, por ejemplo cuando el fotograma seleccionado de una combinación de fotogramas cubre toda la ventana de visualización, y por tanto no es necesario realizar una transición.

Según otra variante de realización, la densidad de píxel de cada fotograma proyectado sobre la ventana de visualización se calcula a partir de la proyección de agrupaciones de píxeles del fotograma, preferentemente las agrupaciones de píxeles pueden ser divisiones triangulares de cada fotograma.

Según otra variante de realización, el paso de seleccionar el fotograma de cada combinación de fotogramas se realiza evaluando progresivamente los fotogramas, empezando primero por el fotograma de menor resolución de entrada y acabando por el de mayor resolución de entrada, de modo que se tenga que procesar primero los fotogramas de menor resolución, que pueden procesarse más rápidamente. Según otra variante de realización, las superficies espaciales asociadas a cada píxel de cada fotograma de cada secuencia de fotogramas de entrada en el espacio virtual tridimensional conforman el interior de una esfera, de modo que los fotogramas queden equidistantes del punto de visualización.

Según otra variante de realización, al menos una de las señales de video de entrada es una señal de video generada por una cámara de vídeo a partir de una escena, de modo que la señal de salida incorpore fotogramas tomados en tiempo real.

Según otra variante de realización, al menos dos de las señales de video están adaptadas para formar secuencias de fotogramas con al menos parte del mismo contenido a diferentes resoluciones, de modo que si una señal de vídeo representa una vista general de una escena y otra señal de vídeo un detalle de dicha escena a mayor resolución, cuando se desee que la señal de salida tenga una resolución similar a la de la vista general de la escena, por ejemplo cuando la ventana de visualización sea ancha, no sea necesario procesar la otra señal de vídeo con el detalle. Del mismo modo, cuando se desee visualizar solamente el detalle de dicha escena, ampliándolo, con lo que la ventana de visualización será más estrecha, será necesario utilizar la otra señal de vídeo con el detalle para formar la señal de salida.

Según otra variante de realización, al menos dos de las señales de video determinan secuencias de fotogramas con el mismo contenido a diferentes resoluciones, de modo que una señal de vídeo pueda sustituir completamente a la otra para formar la señal de salida.

Según otra variante de interés, al menos dos señales de video provienen de una misma cámara de vídeo, de modo que puedan utilizarse las salidas a diferente resolución de una cámara como señales de entrada.

Según otra variante de realización, al menos una de las señales de video está adaptada para formar fotogramas cuyo contenido es una representación virtual de al menos parte del contenido del fotograma de otra de las señales de video, de modo que esta representación virtual pueda generarse a partir de un conjunto de datos, unos elementos vectoriales o un modelo tridimensional, de modo que la resolución de dicha representación virtual pueda ser tan alta como se desee. De esta manera, si se conoce que parte del contenido de un fotograma de una señal de video que provenga de la captura de una cámara de video tendrá una imagen determinada, y esta parte puede ser modelada, esta parte modelada puede ser proporcionada en forma de otra señal de video, de modo que quede dispuesta y sustituir la parte del fotograma con el mismo contenido cuando no permita proporcionar la resolución de salida. Por ejemplo la representación virtual puede ser el contenido de una pantalla que se visualiza de forma general en otro fotograma de otra señal de entrada, de modo que si es necesario se pueda remplazar el contenido de la pantalla en la visualización general por la representación virtual. El procedimiento de la presente invención se puede codificar en un programa de ordenador, estando dicho programa de ordenador adaptado para realizar el procedimiento cuando se ejecuta en un ordenador.

Se da a conocer también un aparato para procesar datos que comprende medios para realizar el procedimiento de la presente invención, pudiendo formar dicho aparato de una instalación que comprenda además al menos una cámara de video, de modo que la salida de la cámara de vídeo represente una de las señales de entrada del aparato. Breve descripción de los dibujos

Para complementar la descripción que se está realizando y con objeto de facilitar la comprensión de las características de la invención, se acompaña a la presente memoria descriptiva un juego de dibujos en los que, con carácter ilustrativo y no limitativo, se ha representado lo siguiente:

La Fig. 1 representa un esquema de funcionamiento de un sistema que implementa el procedimiento de la presente invención;

la Fig. 2 representa un espacio virtual tridimensional tras la fase de configuración con una ventana de visualización; la Fig. 3 representa el contenido de la ventana de visualización de la Fig. 2;

las Figs. 4a y 4b representan la comparación entre la densidad de píxel umbral y la densidad de píxel de cada fotograma en la ventana de visualización de la Fig.

3;

la Fig. 5 representa la composición del fotograma de salida formado a partir del contenido de la ventana de visualización de la Fig. 3;

la Fig. 6 representa la visualización mediante otra ventana de visualización del espacio virtual tridimensional de la Fig. 2;

la Fig. 7 representa el contenido de la ventana de visualización de la Fig. 6;

las Figs. 8a y 8b representan la comparación entre la densidad de píxel umbral y la densidad de píxel de cada fotograma en la ventana de visualización de la Fig.

7;

la Fig. 9 representa la composición del fotograma de salida formado a partir del contenido de la ventana de visualización de la Fig. 7;

la Fig. 10 representa otro espacio virtual tridimensional tras la fase de configuración con una ventana de visualización;

la Fig. 11 representa el contenido de la ventana de visualización de la Fig. 10; y la Fig. 12 representa la composición del fotograma de salida formado a partir del contenido de la ventana de visualización de la Fig. 11.

Descripción detallada de los dibujos

La Fig. 1 muestra un esquema de funcionamiento de un sistema que implementa el procedimiento de la presente invención, que a partir de una pluralidad de señales de video de entrada Su , S¡2, S¡3 ... S¡ m , que comprenden respectivas secuencias de fotogramas de entrada S¡i[n], S¡2[n], S¡3[n] ... S¡ m [n], en diferentes espacios temporales, con un número de pixeles para cada fotograma de entrada asociado a una resolución de entrada R¡1 , R¡2, R¡3 ... Rim permite componer una señal de video de salida S 0 , que comprende una secuencia de fotogramas de salida S 0 [n] con un número de pixeles prestablecidos para cada fotograma de salida asociado a una resolución de salida R 0 . La resoluciones de entrada R¡1 , R¡2, R¡3 ... R¡ m pueden ser diferentes a la resolución de salida R 0 .

En el ámbito de la invención, el término resolución se considera el número máximo de pixeles, normalmente indicados como pixeles verticales y pixeles horizontales, que pueden obtenerse de un fotograma de las secuencias fotogramas de una señal de video.

En función de cuál sea el número de píxeles de un fotograma por unidad de longitud cuando este se represente, por ejemplo en una pantalla, se puede determinar otro parámetro, la densidad de pixel. Usualmente, las unidades que se utilizan para designar la densidad de pixel son los píxeles por pulgada (ppi), aunque cualquier otra medida de longitud real o virtual puede utilizarse. La densidad de pixel será por tanto inversamente proporcional al tamaño de pixel, que serían las unidades de longitud que ocuparía dicho pixel. Naturalmente esta densidad de pixel y tamaño de pixel se puede calcular cuando el fotograma se represente en un espacio virtual tridimensional, como se verá más adelante.

En el ejemplo representado, se indican una pluralidad de señales de video de entrada Su , S¡2, S¡3 ... S¡ m , que comprenden respectivas secuencias de fotogramas de entrada S¡i[n], S¡2[n], S¡3[n] ... S¡ m [n] con un número de píxeles para cada fotograma. Naturalmente se contempla que cualquier otro número de señales de video de entrada podría utilizarse y presentar varias resoluciones. Mediante el procedimiento de la presente invención, que se implementa por el sistema mostrado en la Fig. 1 , se consigue que partiendo de señales de video de entrada Su , S¡2, S¡3 ... S¡ m , que comprenden respectivas secuencias de fotogramas de entrada S¡i[n], S¡2[n], S¡3[n] ... S¡ m [n] con diferentes resoluciones, se consiga codificar una señal de video de salida S 0 , cuyos fotogramas comprenderán un número de píxeles, verticales y horizontales, predeterminados que determinan una resolución de salida R 0 . Esta resolución de salida R 0 puede ser predeterminada por un operador o podría ser seleccionada durante el funcionamiento del sistema. Ejemplos de las posibles resoluciones, tanto de entrada R¡1 , R¡2, R¡3... R¡m como de salida R 0 serían las conocidas en el estado de la técnica, usualmente preparadas para su presentación en pantallas de misma resolución, tanto las consideradas como alta o baja definición, tales como 480i (243x243 píxeles), 576i (288x288 píxeles), 480p (720x480 píxeles), 576p (720 χ 576), 720p (1 ,280 χ 720 píxeles), 1080Í o 1080p (1 ,920 χ 1 ,080 píxeles), 2160p (3,840 2, 160 píxeles) -4K UHD-, 4320ρ (7,680 4,320 píxeles) -8Κ UHD- así como cualquier otra resolución.

Como se puede observar en la Fig. 2, durante una etapa de configuración se determina una superficie espacial sobre un espacio virtual tridimensional 1 , formada por un conjunto de puntos con coordenadas tridimensionales Χ,Υ,Ζ asociadas a cada píxel de cada fotograma de cada secuencia de fotogramas de entrada. A modo de ejemplo, la superficie espacial que ocupan los fotogramas de las secuencias de fotogramas de entrada mostrados se encuentran dispuestos sobre un plano, para facilitar la explicación de la invención. Naturalmente también se podrían disponer siguiendo otras formas geométricas, tal y como se verá más adelante. Esta forma podría por ejemplo reseguir el interior de una esfera, estando el punto de visualización dispuesto en el centro de la esfera, o la forma podría venir dada por un modelo virtualizado de un recinto, tal como una habitación, de modo que si las diferentes señales de video de entrada provienen de partes de dicha habitación, los fotogramas puedan disponerse sobre las partes de dicha habitación virtualizadas, de modo que un operario pueda desplazarse a modo de cámara virtual por la habitación virtualizada, ajustándose convenientemente el ángulo de visualización de cada uno de las secuencias de fotogramas que provengan de las cámaras, que habrán sido previamente dispuestas sobre el modelo tridimensional en la etapa de configuración. Naturalmente, también se prevé que la posición de las secuencias de fotogramas puedan ser ajustadas, por ejemplo si durante la etapa de configuración estas no han quedado convenientemente dispuestas o si por ejemplo alguna de las cámaras que proporciona la señal de video de entrada se desplaza levemente, por ejemplo por efecto de un golpe. También se prevé que durante la visualización se puedan añadir nuevos puntos de visualización con sus ventanas de visualización asociadas, por ejemplo para incorporar cámaras virtuales adicionales. Se prevé también que el procedimiento se utilice para funciones de vigilancia de recintos de grandes dimensiones en los que sea necesario disponer diferentes cámaras que proporcionarán señales de video de entrada de diferentes porciones del recinto, a diferentes resoluciones y que pueden solaparse, de modo que los fotogramas de las señales de video de entrada puedan disponerse sobre las partes de dicho recinto virtualizado, por ejemplo un estadio de fútbol o un aeropuerto. Se prevé que las porciones más críticas de los recintos estén enfocadas por cámaras que permitan señales de video de entrada de alta resolución, de modo que un operador pueda visualizar estas porciones críticas utilizando la señal de video de mayor resolución de la manera detallada en la presente invención, para generar la señal de video de salida, cuando sea conveniente.

Naturalmente también se prevé que las diferentes señales de video de entrada y su disposición en el espacio virtual tridimensional puedan ser almacenadas, de modo que se puedan más adelante volver a reproducir las diferentes señales de video de entrada y su disposición en el espacio virtual tridimensional, para por ejemplo volver á visualizar el espacio tridimensional desde otro punto de visualización o con otro nivel de detalle.

Para visualizar el espacio virtual tridimensional, se establecerá en el espacio virtual tridimensional un punto de visualización (Χο,Υο,Ζο) y una ventana de visualización 3, conocida también como "viewport", determinando un tronco 4 de visualización en el espacio virtual tridimensional, conocido como "frustum", del modo ilustrado en la Fig. 2. De esta manera se formarán los fotogramas de salida a partir de las proyecciones de los fotogramas de las secuencias de entrada proyectadas en dicha ventana de visualización 3 en el mismo instante temporal, convenientemente codificadas. En caso que el número de fotogramas por segundo de las señales de entrada proyectadas en la ventana de visualización 3 sea diferente al número de fotogramas por segundo de la señal de salida, se deberán descartar algunos fotogramas de entrada si estos son más rápidos que el número de fotogramas por segundo de la señal de salida o bien mantener por más de un instante los fotogramas de entrada si son más rápidos que el número de fotogramas por segundo de la señal de salida, de modo conocido.

Ventajosamente, el procedimiento permite que solamente se deban decodificar para formar la señal de video de salida las señales de entrada que proporcionen fotogramas cuyas proyecciones Si'[n], S2'[n] sean visibles en la ventana de proyección. Además, si existen combinaciones de fotogramas de entrada cuyas proyecciones queden al menos parcialmente superpuestas en la ventana de visualización 3, es posible que no se tengan que procesar, es decir, decodificar, todas las señales de entrada que de los fotogramas superpuestos para recodificar la señal de salida

Cuando existan combinaciones de fotogramas de entrada, por ejemplo en la ventana de visualización 3 ilustrada en la Fig. 3, se deberá primeramente calcular una densidad de píxel umbral d(S 0 [n]) asociada para los pixeles en la ventana de visualización 3, a partir de la resolución de salida R 0 y las dimensiones espaciales asociadas de dicha ventana de visualización 3, Esta densidad de píxel umbral, será en las Figs. 3, 4a y 4b la relación entre el número de píxels que vendrá dada por la resolución de salida y la superficie de la ventana de visualización 3, es decir, dividiendo el número de pixeles totales equivalentes a la resolución de salida, entre la superficie que ocupa la ventana de visualización 3 en el espacio virtual tridimensional. De esta manera se obtendrá una densidad de píxel umbral d(S 0 [n]) a partir de la cual, si solamente se puede obtener una densidad de píxel mayor de las proyecciones, se tendría que interporlar los pixeles, con lo que la señal de salida quedaría degradada. Por tanto, es muy importante que la densidad de píxel del fotograma proyectado Si'[n], S2'[n] que siempre se utilice sea aquel que permita obtener la resolución de salida deseada. Naturalmente, en otras variantes de realización se puede combinar ese fotograma proyectado que siempre se utilice con el resto de fotogramas en la zona solapada, por ejemplo Si'[n], S2'[n] para hacer una transición progresiva entre fotogramas de diferente resolución en la zona que se solapan en la ventana de visualización 3 o en los extremos de la zona solapada, para evitar que el usuario pueda observar transiciones bruscas, aunque de esta manera se tenga que sacrificar parte de la calidad del fotograma de salida en esta zona, ya que se prevé que los usuarios toleren más una pérdida de calidad para realizar una transición progresiva que un salto de calidad que podría ser brusco.

No es conveniente para esta zona de la ventana de visualización 3 en la que exista combinaciones de fotogramas de entrada tomar siempre el fotograma de mayor resolución, puesto que, aunque se aseguraría que la calidad de los fotogramas de la señal de salida es siempre la mejor que se puede obtener, conllevaría un coste de procesado que puede no ser necesario si existe otra señal de entrada cuya densidad de pixel del fotograma proyectado sea más adecuada.

Por tanto, primeramente será necesario determinar las combinaciones de fotogramas de entrada cuyas proyecciones quedan al menos parcialmente superpuestas en la ventana de visualización 3, como se ilustra en la Fig. 3, para cada combinación de fotogramas, seleccionar el fotograma de cada combinación de fotogramas que proyectado sobre la ventana de visualización 3 tiene una densidad de pixel d(S¡i'[n]), d(S2'[n]), expresada en pixeles por unidad cuadrada del espacio virtual tridimensional 1 , en toda la parte superpuesta mayor o igual a la densidad de pixel umbral d(S 0 '[n]) o, en su defecto, seleccionar el fotograma que proyectado sobre la ventana de visualización 3 tiene una mayor densidad de pixel, para formar la parte de fotograma de salida que queda superpuesta. De los fotogramas superpuestos de la Fig. 3, las Figs. 4a y 4b muestran la comparación entre la densidad de pixel umbral d(S 0 '[n]) y las densidades de pixeles de las proyecciones de cada uno de los fotogramas d(S¡i'[n]), d(S2'[n]), determinándose que para esta ventana de visualización 3, la densidad de pixel proporcionada por la proyección del fotograma de la primera señal, d(S¡i'[n]) es menor que la densidad de pixel umbral d(S 0 '[n]), tal y como se puede observar visualmente en la Fig. 4a y la densidad de pixel proporcionada por la proyección del fotograma de la segunda señal, d(S¡2'[n]) es mayor que la densidad de pixel umbral d(S 0 '[n]), tal y como se puede observar visualmente en la Fig. 4b. Por tanto, será más conveniente utilizar la proyección del fotograma de la segunda señal de entrada S¡2'[n] para formar la porción en la que las proyecciones quedan parcialmente superpuestas S¡2"[n] en el fotograma de salida So[n], ya que la densidad de pixel de esta segunda señal proyectada será la única mayor al umbral de las disponibles, mientras que para el resto de la ventana de visualización 3, al tener solamente información de la primera señal de entrada Si , se deberán formar los pixeles del correspondiente fotograma de la secuencia de fotogramas de salida a partir de la primera señal de entrada Su , S¡i"[n] tal y como se indica en la Fig. 5. La Fig. 6 muestra otra visualizacion del mismo espacio virtual tridimensional en el que de la proyección en la ventana de visualizacion 3, mostrada en la Fig, 7, se desprende que la densidad de píxel de ninguna de las señales de entrada, comparadas por separado en las Figs. 8a y 8b será mayor o igual a la densidad de pixel umbral d(S 0 '[n]), ya que tal y como muestra la Fig. 8a la densidad de píxel proporcionada por la proyección del fotograma de la primera señal, d(S¡i'[n]), todavía menor a la densidad de píxel umbral d(S 0 '[n]), y tal y como muestra la Fig 8b la densidad de píxel proporcionada por la proyección del fotograma de la segunda señal, d(S¡2'[n]), será también menor a la densidad de píxel umbral d(S 0 '[n]).

Por tanto, en este caso, para la combinación de fotogramas, se seleccionará el fotograma de entre la combinación de fotogramas proyectados de mayor densidad de píxel, en este caso el de la segunda señal de entrada S¡2" .

La densidad de píxel de cada fotograma proyectado sobre la ventana de visualizacion 3 se puede calcular tanto píxel a píxel como a partir de la proyección de agrupaciones de píxeles 4 del fotograma. Naturalmente, cuando se calcula densidad de píxel a píxel el coste computacional es mayor, pero se determina mejor el punto en el que debe utilizarse un fotograma con densidad de píxel mayor o menor. Se ha observado que utilizando agrupaciones de píxeles 5 en forma de divisiones triangulares se consigue una buena estimación de la densidad de píxel, por ejemplo como se muestra en el espacio virtual de la Fig. 10 con fotogramas de una tercera y cuarta señal de entrada S¡3, S¡ 4 , en el que el contenido proyectado en la ventana de visualizacion 3 se ilustra en la Fig. 1 1. Naturalmente, para este espacio virtual tridimensional 1 deberá tenerse en cuenta la perspectiva que presentará la proyección de agrupaciones 5' de píxeles. Se observa que en ejemplo ilustrado en la Fig. 10 la resolución de salida R 0 mostrado en la ventana de visualizacion 3 en la Fig. 11 es muy baja, comportando que la densidad de píxel umbral sea igualmente baja, que será inferior a las de las proyecciones S¡3'[n] y S¡ 4 '[n] por lo que al evaluar progresivamente los fotogramas, empezando primero por el fotograma de menor resolución de entrada y acabando por el de mayor resolución de entrada, se determinará que el fotograma de la combinación de fotogramas S¡3,S¡ 4 el fotograma S¡3 proyectado sobre la ventana de visualizacion 3 tiene una densidad de píxel d(S¡3'[n]) en toda la parte superpuesta mayor o igual a la densidad de píxel umbral d(S 0 [n]). Al ser la densidad de píxel d(S¡4'[n]) del otro fotograma todavía superior, se tomará solamente el fotograma que proyectado sobre la ventana de visualización tenga una densidad de píxel más próxima a la densidad de píxel umbral, es decir, S¡3'[n]).

Por tanto, los píxeles del fotograma de la señal de salida S 0 [n] se formarán solamente a partir de la proyección del fotogramas S¡3'[n] recodificada a la resolución de salida R 0 , S¡3"[n], como se ilustra en la Fig. 12

Ventajosamente, el procedimiento de la presente invención se puede utilizar para combinar señales de video de entrada generadas por una o varias cámaras de vídeo, en las que se represente al menos parte del mismo contenido, por ejemplo una parte de una escena, a diferentes resoluciones y que queden combinadas formando un video compuesto, también conocido como video stitching en el espacio virtual tridimensional. Es también posible que señales de video representen el mismo contenido a diferentes resoluciones y que durante la etapa de configuración se dispongan en el espacio virtual tridimensional superpuestas.

Se contempla además que al menos una de las señales de video puede estar adaptada para formar fotogramas cuyo contenido sea una imagen de síntesis, es decir, formada mediante computador a partir de vectores, datos o de un modelo tridimensional de modo que tenga su densidad de píxel sea infinita a la práctica.