Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR GENERATING A DATABASE WITH DATA LINKED TO DIFFERENT TIME REFERENCES TO AUDIOVISUAL CONTENT
Document Type and Number:
WIPO Patent Application WO/2018/033652
Kind Code:
A1
Abstract:
A method which allows assigning metadata to audiovisual content with different time references, generating in a semi-automatic manner augmented information related to audiovisual content, comprises the following steps: re-ordering the audiovisual content into subscenes; identifying the elements in each of the subscenes by time annotation and information annotation on the various relations; searching commercial correspondences in the identified elements; and expert deduplication, annotation and editing. The invention makes it possible to obtain in a semi-automatic, fast and extensible manner, a database comprising a set of records and time intervals related to the audiovisual content.

Inventors:
GARCÍA ESTRELLA LUIS (ES)
FIERRO IGLESIAS PEDRO (ES)
RAMEAU RODRÍGUEZ MIGUEL (ES)
BLANCO PEREZ BEATRIZ (ES)
JULIANA MEDIO JULIO ENRIQUE (ES)
SÁNCHEZ LÓPEZ SERGIO (ES)
CASTRO MIGUEL JONATHAN (ES)
MARINO RUIZ DANIEL (ES)
Application Number:
PCT/ES2016/070605
Publication Date:
February 22, 2018
Filing Date:
August 18, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TAGSONOMY S L (ES)
International Classes:
G06F17/30
Foreign References:
US20110113444A12011-05-12
US20070250901A12007-10-25
US20020108112A12002-08-08
US20130276008A12013-10-17
Other References:
None
Attorney, Agent or Firm:
MONZON DE LA FLOR, Luis Miguel (ES)
Download PDF:
Claims:
REIVINDICACIONES

1.- Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual, caracterizado por que comprende las etapas de: reordenación del contenido audiovisual en subescenas, a partir de la sucesión de escenas, planos o incluso fotogramas que comprende dos partes:

Una primera parte que es la separación de planos que detecta cambios bruscos en las imágenes

Una segunda parte que es la separación en escenas identifica aquellos planos extraídos por ser muy similares, se pueden considerar de la misma escena identificación de elementos de cada una de las subescenas que utiliza como elementos de entrada el contenido audiovisual previamente reordenado y una base de datos de información relevante obtenida de manera automática de la red en base a diferentes categorías, realizándose sobre cada uno de los elementos: una anotación temporal e informacional de los mismos, donde la anotación temporal indica con respecto a la ordenación original del contenido audiovisual el momento exacto en que cada pieza de información es identificada en pantalla y deja de ser visible en pantalla

Una anotación informativa de las diferentes relaciones (de coincidencia, de contenido o continente, de lugar, de pertenencia, de parentesco, relación por compartir un tercer elemento...) entre los diferentes elementos. - búsqueda de correspondencias comerciales sobre los elementos identificados, realizándose la búsqueda sobre una base de datos formada

- deduplicación, anotación y edición experta

2. - Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual, según la reivindicación 1 caracterizado por que las diferentes categorías sobre las que se lleva a cabo la identificación de elementos de cada una de las subescenas son: Hombres, mujeres, niños, criaturas y robots, moda, transporte, comida & bebida, hogar, tecnología, deporte y ocio, salud y belleza, fauna y flora, armas, arte, negocios, lugar, tiempo, acción, música, referencia, trivia, misceláneo, citas, arquitectura

3. - Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual, según la reivindicación 2 caracterizado por que Para el reconocimiento de actores de forma automática el proceso de reconocimiento se separa en dos fases:

la primera, la detección de caras a lo largo de todos los fotogramas de la película. Para ello se utiliza un algoritmo complejo que combina los métodos de gradientes orientados, para localizar determinadas formas; pirámides de tamaño, para encontrar esas formas a diferentes escalas, barrido espacial, para encontrarlas en diferente lugares y un decisor binario final basado en máquinas de vectores soporte. Como este método puede ser menos acertado en determinados fotogramas que tengan las caras tapadas o giradas, se añade también un seguimiento (tracking) de los objetos detectados como caras y una agrupación de esas trayectorias, lo que ayuda a encontrarlas incluso en situaciones más difíciles.

La segunda parte es la identificación de actores en concreto. Para ello se entrena un modelo de redes neuronales convolucionales cuyo proceso de puntuación es enormemente paralelizable.

4.- Procedimiento generación de una base de datos vinculados con diferentes referencias temporales a un contenido audiovisual, según la reivindicación 1 , caracterizado por que la separación de planos que detecta cambios bruscos en las imágenes emplea la comparación de varios histogramas por bloques.

Description:
PROCEDIMIENTO GENERACIÓN DE UNA BASE DE DATOS VINCULADOS CON DIFERENTES REFERENCIAS TEMPORALES A UN CONTENIDO

AUDIOVISUAL DESCRIPCIÓN OBJETO DE LA INVENCIÓN

Es objeto de la presente invención, tal y como el título de la invención establece, un procedimiento de generación de una base de datos que están vinculados con diferentes referencias temporales a un contenido audiovisual de manea que permite la asignación de metadatos a dicho contenido audiovisual, es decir, hace referencia a un procedimiento que genera de manera sem ¡automática una serie de datos o información aumentada y los vincula con diferentes referencias de tiempo con un contenido audiovisual de manera automática.

Por lo tanto la base de datos cuenta con una serie de datos enriquecidos y enlazados a una referencia temporal precisa del contenido audiovisual.

Caracteriza a la presente invención las características de cada una de las acciones realizadas en cada etapa del proceso de generación de la base de datos, de manera que dispuestas de forma conjunta se consigue un proceso que de forma sem ¡automática asigna datos anotados enriquecidos y enlazados a una referencia temporal de forma precisa.

Por lo tanto, la presente invención se circunscribe dentro del ámbito de los contenidos audiovisuales y de la información adicional.

ANTECEDENTES DE LA INVENCIÓN Actualmente cuando se ha querido vincular información a un contenido audiovisual, se viene realizando de manera manual, identificando cada elemento a mostrar, estableciendo una posible marca temporal de comienzo y fin de emisión, así como también la información o metadatos adicionales que se quieren mostrar.

Por lo tanto, es objeto de la presente invención desarrollar un proceso de obtención, de manera sem ¡automática, rápida y escalable, de una base de datos formada por un conjunto de fichas y vigencias, es decir, datos relevantes (sobre actores, personajes, curiosidades, vestimenta, música, lugares, objetos...) relacionados con contenidos audiovisuales diversos (películas, series de televisión, documentales, vídeos musicales...) y sus intervalos temporales de interés, que obviamente dependen y son diferentes para cada uno de los diferentes contenidos, con las siguientes características que lo hacen único:

DESCRIPCIÓN DE LA INVENCIÓN

Es objeto de la presente invención un procedimiento de asignación de metadatos a un contenido audiovisual con diferentes referencias temporales que comprende las etapas de:

• Reordenación óptima del contenido audiovisual en subescenas: El contenido audiovisual en su formato original se puede ver como una sucesión de escenas, planos, o incluso fotogramas "frames" ordenados con el propósito de narrar una historia o, más en general, ordenados de la forma en que se quiere que sean consumidos por el espectador. Esa ordenación puede no ser la óptima cuando ese contenido audiovisual tiene que ser la entrada de distintos procesos automáticos, por ejemplo, para la identificación automática de objetos en pantalla, es mucho más eficiente agrupar los mismos planos de una escena aunque temporalmente no sean consecutivos. Por eso, el primer paso de este proceso consiste en una reordenación de subescenas basada en métricas de similitudes entre imágenes y en la detección de cambios bruscos en esas similitudes.

• Identificación de elementos de cada una de las subescenas y anotación temporal e informacional de los mismos: Esta parte del proceso utiliza como elementos de entrada el contenido audiovisual previamente reordenado y una base de datos de información relevante obtenida de manera automática de la red en base a diferentes categorías (descripciones de objetos, fotografías de lugares, datos técnicos de vehículos, galardones obtenidos por películas...) para, de forma semi-automática, proponerle a la persona que guía el proceso todas las coincidencias que se hayan podido localizar.

Dos datos muy importantes que se añaden esta parte del proceso a los elementos son:

por una parte, la vigencia, o marca temporal con respecto a la ordenación original del contenido audiovisual, que indica el momento exacto en que cada pieza de información es identificada en pantalla y deja de ser visible en pantalla; operación que se realiza de manera automática y por otra parte, las diferentes relaciones (de coincidencia, de contenido o continente, de lugar, de pertenencia, de parentesco, relación por compartir un tercer elemento...) entre los diferentes elementos o diferentes piezas de información, acción que se realiza de manera sem ¡automática.

• Búsqueda de correspondencias comerciales sobre los elementos identificados: De forma similar a la búsqueda de información adicional para todos los elementos identificados en el contenido, el siguiente paso del proceso utiliza la información identificada hasta el momento para buscar correspondencias comerciales.

Las correspondencias comerciales se buscan sobre una base de datos formada por todos los catálogos de los que se dispone a través de acuerdos con diferentes tipos de tiendas y distribuidores. De forma diferente a la búsqueda informacional, en la que es necesario buscar las correspondencias exactas, para la búsqueda comercial es interesante encontrar, además de esas coincidencias exactas, coincidencias similares o de objetos que puedan ser comercialmente interesantes para el consumidor del contenido aunque no sean exactamente el mismo, como puede ser una prenda de ropa similar, otro álbum musical de ese mismo artista que está sonando, otra película de ese mismo actor, etc.

La búsqueda de correspondencia comercial se lleva a cabo en base a diferentes tipos de materia, por ejemplo, personas, localizaciones, música, vehículos, contexto histórico, ropa; de manera que localizada un tipo de materia, empleando diferentes medios informáticos de reconocimiento automático se puede identificar el nombre del actor, la marca del vehículo, la música que suena, etc con objeto de poder cargar sobre los elementos de las subescenas de la base de datos la información adicional, que bien puede ser recuperada de forma automática de sitios webs preasignados o bien de una base de datos previamente creada con objeto de dotar de contenido uniforme a todos los contenidos audiovisuales con los mismos elementos.

La información relacionada con cualquier elemento se denomina un ficha. Una ficha contiene diferentes tipos de información relacionada con el elemento que la define. Tendrá un título, puede incluir fotografías del elemento, texto descriptivo o definiciones del mismo, tablas con características o datos, contenidos comerciales que pueden resultar interesantes para una persona interesada en dicho elemento, mapas del lugar, enlaces a sitios de interés, etc. Deduplicación, anotación y edición experta: Después de haber reordenado eficientemente el contenido, haberlo anotado semi- automáticamente con información enriquecida, haber identificado relaciones entre las piezas de información y haber encontrado coincidencias comerciales, toda la información acumulada es revisada por un experto. Los expertos revisan las piezas de información de su campo de conocimiento y pueden deduplicar o evitar que una pieza de información se identifique varias veces siendo en realidad la misma; corregir aquellos aspectos que no se hayan identificado de manera totalmente correcta de manera automática y añadir o detallar más en profundidad los contenidos que decidan. Esta parte final permite, sin aumentar mucho la duración total del proceso obtener una base de datos con un nivel de detalle y de calidad que la hace única.

Salvo que se indique lo contrario, todos los elementos técnicos y científicos usados en la presente memoria poseen el significado que habitualmente entiende un experto normal en la técnica a la que pertenece esta invención. En la práctica de la presente invención se pueden usar procedimientos y materiales similares o equivalentes a los descritos en la memoria.

A lo largo de la descripción y de las reivindicaciones la palabra "comprende" y sus vanantes no pretenden excluir otras características técnicas, aditivos, componentes o pasos. Para los expertos en la materia, otros objetos, ventajas y características de la invención se desprenderán en parte de la descripción y en parte de la práctica de la invención. EXPLICACION DE LAS FIGURAS

Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, de acuerdo con un ejemplo preferente de realización práctica de la misma, se acompaña como parte integrante de dicha descripción, un juego de dibujos en donde con carácter ilustrativo y no limitativo, se ha representado lo siguiente. En la figura 1 , podemos observar una representación simplificada de un contenido audiovisual.

En la figura 2 se muestra un posible registro de la base de datos y una posible configuración de los campos de cada registro.

REALIZACIÓN PREFERENTE DE LA INVENCIÓN.

A la vista de las figuras se describe seguidamente un modo de realización preferente de la invención propuesta.

En la figura 1 podemos observar de manera simplificada un posible contenido audiovisual (1 ), en el que se ha llevado a cabo una selección de subescenas (2), y posterior identificación de los elementos (3), contando cada uno de los elementos (3) con una marca temporal de comienzo de emisión (t1 ) y otra de final de emisión (t2), quedando asignada a cada elemento una ficha (4) de información relacionada con el elemento que la define. Tendrá un título, puede incluir fotografías del elemento, texto descriptivo o definiciones del mismo, tablas con características o datos, contenidos comerciales que pueden resultar interesantes para una persona interesada en dicho elemento, mapas del lugar, enlaces a sitios de interés.

Las técnicas utilizadas para la separación automática del contenido audiovisual en subescenas a partir de la sucesión de escenas, planos o incluso fotogramas comprende dos partes:

Una primera parte que es la separación de planos que detecta cambios bruscos en las imágenes que serán considerados cambios de plano. Para ello utiliza la comparación de varios histogramas por bloques.

- Una segunda parte que es la separación en escenas identifica aquellos planos extraídos que, por ser muy similares, se pueden considerar de la misma escena o al menos que es bueno interactivarlos juntos para aprovechar el trabajo. Para hacer esto se utiliza una agrupación ("clustering") de los momentos inicial y final de cada plano identificado. La Identificación de elementos de cada una de las subescenas se lleva a cabo en función de diferentes categorías, o tipos de tarjetas como pudieran ser en una posible forma de realización, y en ningún caso limitativa: Hombres, mujeres, niños, criaturas y robots, moda, transporte, comida & bebida, hogar, tecnología, deporte y ocio, salud y belleza, fauna y flora, armas, arte, negocios, lugar, tiempo, acción, música, referencia, trivia, misceláneo, citas, arquitectura

Para el reconocimiento de cada elemento particular dentro de cada categoría se emplean diferentes técnicas. En el caso de reconocimiento de actores de forma automática este proceso se separa en dos fases:

la primera, la detección de caras a lo largo de todos los fotogramas de la película. Para ello se utiliza un algoritmo complejo que combina los métodos de gradientes orientados, para localizar determinadas formas; pirámides de tamaño, para encontrar esas formas a diferentes escalas, barrido espacial, para encontrarlas en diferente lugares y un decisor binario final basado en máquinas de vectores soporte. Como este método puede ser menos acertado en determinados fotogramas que tengan las caras tapadas o giradas, se añade también un seguimiento (tracking) de los objetos detectados como caras y una agrupación de esas trayectorias, lo que ayuda a encontrarlas incluso en situaciones más difíciles.

La segunda parte es la identificación de actores en concreto. Para ello se entrena un modelo de redes neuronales convencionales cuyo proceso de puntuación es enormemente paralelizable. Así, la base de datos obtenida contendrá una serie de registros, donde cada registros contará con los siguientes campos, tal y como se muestra en la figura 2.

Subescena (2)

- Elemento (3)

Marca temporal de comienzo de emisión (t1 )

Marca temporal de finalización de emisión (t2)

Una ficha Cada ficha podrá contener además una serie de campos, como por ejemplo, título, fotos, descripción, tablas de datos, contenidos comerciales etc.

Descrita suficientemente la naturaleza de la presente invención, así como la manera de ponerla en práctica, se hace constar que, dentro de su esencialidad, podrá ser llevada a la práctica en otras formas de realización que difieran en detalle de la indicada a título de ejemplo, y a las cuales alcanzará igualmente la protección que se recaba, siempre que no altere, cambie o modifique su principio fundamental.