METHOD FOR AUTOMATICALLY GENERATING VIDEOS OF SPORTS EVENTS, BASED ON THE TRANSMISSION AND RETRANSMISSION OF DRONE-RECORDED IMAGES

Title:

METHOD FOR AUTOMATICALLY GENERATING VIDEOS OF SPORTS EVENTS, BASED ON THE TRANSMISSION AND RETRANSMISSION OF DRONE-RECORDED IMAGES

Document Type and Number:

WIPO Patent Application WO/2023/002070

Kind Code:

Abstract:

Disclosed is a method for automatically generating videos of sports events, based on the transmission and retransmission of drone-recorded images, which comprises using a drone (120) to record or retransmit data captured by a computer vision system of the drone to an artificial neural network (ANN) architecture (108) that classifies and processes the data as events of interest, in the format of indicators that are sent to a second ANN architecture (110) and to a video-editing software (100), each fragment being a video, and the metadata thereof being a composition in any format, and an identifier, identification code or reference which, by means of expression development software (106), points to a different database, a collection, a document, a table or similar, depending on the case, with different processed-language structures containing separate linguistic structures, from words to phrases, word vectors, tags, synthetic phrases and derived words.

More Like This:

WO/2020/028057	AUDIO PROCESSING FOR EXTRACTION OF VARIABLE LENGTH DISJOINT SEGMENTS FROM AUDIOVISUAL CONTENT
JP5583733	A device and a method for performing the low bandwidth reproduction position preview of video contents
JP2024010692	Video content processing device, video content processing method, and video content processing program

Inventors:

LAGOSTERA HERRERA LUIS (ES)

Application Number:

PCT/ES2021/070555

Publication Date:

January 26, 2023

Filing Date:

July 22, 2021

Export Citation:

Click for automatic bibliography generation Help

Assignee:

FLY FUT S L (ES)

International Classes:

H04N21/8549; H04N21/83; H04N21/84

Domestic Patent References:

WO2019233595A1

2019-12-12

Foreign References:

US20180102143A1	2018-04-12
KR20200092502A	2020-08-04
US20210201045A1	2021-07-01
US20190244385A1	2019-08-08
US20160189752A1	2016-06-30
CN110503960A	2019-11-26
US20200168202A1	2020-05-28
US20190267041A1	2019-08-29

Attorney, Agent or Firm:

MUÑOZ GARCIA, Antonio (ES)

Download PDF:

View/Download PDF PDF Help

Claims:

R E I V I N D I C AC I O N E S

1 .-MÉTODO PARA LA GENERACIÓN AUTOMÁTICA DE VÍDEOS DE EVENTOS DEPORTIVOS BASADO EN TRANSMISIÓN Y RETRANSMISIÓN DE IMÁGENES GRABADAS POR DRON, caracterizado por comprender el uso de un dron (120) grabando o retransmitiendo en tiempo real para enviar los datos captados por la visión por computación o CV del dron a una arquitectura de red o redes neuronales artificiales RNA (108), clasificando, según lo previamente programado, eventos de la competición considerados como de interés; donde dicha RNA (108)se constituye como un sistema conjunto que procesa los datos de visión por computación como datos de entrada de la red y devuelve una clasificación de eventos de la competición analizada en formato de indicadores como marcas de fecha dentro del video, el propio corte del evento de interés entre otros; en que, una vez dichos indicadores están establecidos, los datos de salida -video y/o metadatos- de la RNA (108)son enviados a una segunda RNA(110) y a un software de edición de vídeo (100); y en que dicha segunda RNA (110) recibe en un modo asincrono, dos entradas principales: los metadatos de cada corte de vídeo o fragmento, siendo cada fragmento un vídeo y sus metadatos una composición en cualquier formato con elementos o atributos específicos como el momento temporal de inicio o referencia análoga en secuencia de marcos o imágenes, el momento temporal de fin o referencia análoga en secuencia de marcos o imágenes, el tipo de evento; y un identificador o código de identificación o referencia que apunta a una base de datos diferente, colección, documento, tabla o similar, dependiendo del caso, con diferentes estructuras de lenguaje procesado conteniendo estructuras lingüísticas separadas de palabras a frases, vectores de palabras, etiquetas, frases sintéticas y palabras derivadas, mediante un software de desarrollo de expresiones (106).

2. -MÉTODO, según la reivindicación 1 , caracterizado porque el dron trabaja en modo grabación o no-streaming (212) y los datos vistos por el sistema de CV (204) del dron son almacenados en una base de datos interna (125) de la máquina.

3. -MÉTODO, según la reivindicación 1, caracterizado porque el dron trabaja en modo streaming (208) y los datos vistos por el sistema de CV (204) del dron son retransmitidos en tiempo real.

4.-MÉTODO, según la reivindicación 1 , caracterizado porque el contenido bruto en video que graba el dron (120) durante un evento deportivo, es subido a un sistema de almacenaje (116) mediante el uso de una interfaz de usuario (122).

5. -MÉTODO, según la reivindicación 1 , caracterizado porque el contenido bruto en video que graba el dron (120) durante un evento deportivo, alimenta directamente al software de edición (100).

6.- MÉTODO, según la reivindicación 1 , caracterizado porque implementa una plataforma de administración (124) junto a un sistema de base de datos (118) para gestionar la información correspondiente a la fecha del evento, imágenes con los escudos de los equipos, identificadores y nombres de los jugadores, metadatos de los eventos destacados y tanto las grabaciones originales como los vídeos editados.

7.- MÉTODO, según la reivindicación 1 , caracterizado porque la información es tratada junto a las grabaciones originales de video para organizar y generar diferentes compilaciones de contenido destacado, siendo añadidos otros elementos como imágenes y textos superpuestos, efectos de sonido, música y voz narrativa, empleando diferentes codees y calidades tanto de audio como de video al ser exportado, y enviado al sistema de almacenaje (116).

8.- MÉTODO, según la reivindicación 1, caracterizado porque el contenido generado es servido a usuarios finales mediante el uso de distintos soportes digitales (114), incluyendo aplicaciones móviles aplicaciones web, aplicaciones de escritorio y móviles, plataformas de televisión y links de acceso directo a los videos.

9.- MÉTODO, según la reivindicación 1, caracterizado porque el dron (120) es transportado por un piloto humano.

10.- MÉTODO, según la reivindicación 1, caracterizado porque el dron (120) despega automáticamente.

11.- MÉTODO, según la reivindicación 1 , caracterizado porque el dron está viendo desde el inicio de la competición en modo sin pausa.

12.- MÉTODO, según la reivindicación 1, caracterizado porque el dron pausa su grabación debido a su IA interna, un humano que suspende el sistema de CV del dron o simplemente por el propio cambio de baterías.

Description:

MÉTODO PARA LA GENERACIÓN AUTOMÁTICA DE VÍDEOS DE EVENTOS DEPORTIVOS BASADO EN TRANSMISIÓN Y RETRANSMISIÓN DE IMÁGENES

GRABADAS POR DRON

D E S C R I P C I Ó N

OBJETO DE LA INVENCIÓN

La invención, tal como expresa el enunciado de la presente memoria descriptiva, se refiere a método para la generación automática de vídeos de eventos deportivos basado en transmisión y retransmisión de imágenes grabadas por dron que aporta, a la función a que se destina, ventajas y características, que se describen en detalle más adelante, que suponen una mejora del estado actual de la técnica.

Más concretamente, el objeto de la invención se centra en un método multi-nodo de aprendizaje automático para el procesamiento manual y automático de eventos, particularmente eventos deportivos, basados en transmisión y retransmisión, por streaming y grabación de vídeo, por máquinas de tipo dron. Más concretamente, se refiere a un método basado en un sistema informático multi-nodo para la generación automática de vídeo basado en procesamiento en canal, esto es, siguiendo una serie de pasos predefinidos y por ese mismo orden, desde la descomposición del vídeo completo o bruto del evento deportivo al preprocesado de cada uno de las imágenes que componen el video, mecánicas de entrenamiento y testeo, haciendo uso de la inteligencia artificial y de los últimos métodos y técnicas de evaluación de modelos matemáticos y estadísticos, para detectar y cortar eventos del vídeo original grabados por el propio dron con el objeto final de agrupar dichos eventos en una composición final de vídeo, conteniendo todos estos eventos de forma secuencial. El vídeo es el resultante de un preprocesamiento optimizado de detección de objetos y clasificación final de eventos generados sobre dichos eventos, que en una materialización óptima del proceso, se utiliza un módulo compuesto por varios sistemas de aprendizaje automático y aprendizaje profundo que generan texto compuesto igual o similar al que generaría un ser humano, así como de un proceso de transformación de dicho texto a voz, imitando igualmente y de la mejor forma posible la voz emitida por un ser humano para obtener una materialización final para el objeto de interés del usuario final. El método también incluye como parte de la invención, para que fluya correctamente el canal de procesos de aprendizaje automático y de aprendizaje profundo, un software específico con el propósito de incluir vídeos en bruto directamente de la grabación realizada por el dron, mediante streaming de datos o proceso asincrono con almacenamiento previo de los videos brutos, envío a los agentes de IA (inteligencia artificial) y recepción de una materialización preprocesada y comunicación mediante un gestor API ( application programming interfaceinterfaz de programación de aplicaciones) con el usuario final a través de un racimo o manojo de protocolos de comunicación. Al final del canal o proceso, un aparato como un teléfono móvil inteligente, tableta o computadora personal, se comunica a través de estos protocolos para recibir mediante una aplicación específica la composición final materializada.

CAMPO DE APLICACIÓN DE LA INVENCIÓN

El presente objeto de invención está basado en técnicas mejoradas dentro del campo del procesamiento y retransmisión de imágenes y vídeo para un deporte determinado. Así, la pretensión del presente invento es la de facilitar los momentos más relevantes, desde datos brutos (conocido como "vídeo completo") al usuario final a través de un conjunto de técnicas de preprocesamiento basadas en aprendizaje automático, específicamente dentro del campo del aprendizaje profundo. Por tanto, el objeto de la presente invención descansa en el ámbito del preprocesado de imágenes y vídeo a través del uso de técnicas de inteligencia artificial.

ANTECEDENTES DE LA INVENCIÓN

Como es sabido, en los años recientes, ha habido avances relativamente importantes dentro del campo de la retransmisión por vídeo de eventos deportivos en cuanto a la forma y conducción de dichos datos al usuario final, conocidos como "consumidores". En general, esta conducción comprende métodos complejos y una gran cantidad de capas de intervención humana.

Abiertamente hablando, para el objeto de la presente invención parecen existir dos sub campos principales de retransmisión desde el punto de vista técnico: la retransmisión por streaming o en tiempo real y retransmisión previo proceso de almacenamiento (retransmisión asincrona). Una competición amateur o profesional está grabada típicamente, con el objeto de vender este formato de imagen y/o vídeo a un individuo o grupo de individuos o de recibir otro tipo de beneficio económico o social. Sin embargo, estos procedimientos de retransmisión necesitan de mucho capital informático y en general de mucho hardware y muchos agentes humanos para que pueda llevarse a cabo: cámaras, personal de cámara, grandes costes de transporte de personas y material y el de una gestión general de stock humano y de máquinas y finalmente, de muchos individuos dentro de una larga cadena para llevar el producto al usuario final.

Muchos intentos dentro del sub campo de la aceleración "ex-post"(es decir, en formato de no streaming) de los procedimientos de retransmisión se han llevado a cabo a través de la gestión de bases de datos y de la retransmisión online (por Internet) pero prácticamente nada dentro del campo de la automatización de procesos, conocida también como RPA (Siglas en inglés de Robotic Process Automation) Este bajo nivel de automatización o robotización es probablemente debido al bajo nivel de competidores en este segmento o mercado y por consiguiente, disponiendo de unos grandes márgenes que, a priori, no hacen urgente o necesario de estos procesos y por tanto de la falta de necesidad de cantidad alguna o de grandes cantidades de capital para la inversión en la automatización de tareas o trabajos como el de la extracción de “highlights” o eventos significativos para el usuario final o consumidor.

Dicho esto, y debido a los grandes costes de producción y los costes de transporte y de gestión de stock que suponen las actuales infraestructuras, pequeños grupos o entidades de pequeño o mediano tamaño como las ligas amateur de fútbol (ej.: ligas organizadas entre antiguos alumnos de colegios y/o universidades, o cualquier otro tipo de liga amateur organizada) no son aptos o susceptibles de ser retransmitidas y de forma activa por parte de los equipos o ligas, de gestionar retransmisión alguna dado el bajo presupuesto del que disponen.

Por tanto, parece existir una gran necesidad de nuevos métodos de retransmisión de eventos deportivos manteniendo un nivel de calidad superior y a un coste mucho más reducido al que podríamos llamar nivel de producción y en general de mecánicas de costes "low-cosf para inferir estos grupos excluidos dentro del punto de equilibrio de la curva oferta-demanda de cara a poder estar en estas dinámicas de retransmisión de eventos deportivos.

Nuevas aproximaciones en este camino pueden dar a muchos jugadores de estas ligas no profesionales o semi-profesionales, una mayor visibilidad de ser vistos por ojeadores de ligas profesionales para la captación de talento. Aunque esto sea verdad, otros muchos grupos como los jugadores no profesionales o jugadores de ligas no profesionales, se verán beneficiados de cualquier aproximación en la dirección del presente objeto de invención.

Por otra parte, y como referencia al estado actual de la técnica, cabe mencionar que, al menos por parte del solicitante, se desconoce la existencia de ninguna otra invención que presente unas características técnicas iguales o semejantes a las que presenta el método que aquí se reivindica.

EXPLICACIÓN DE LA INVENCIÓN

El método de aprendizaje automático para el procesamiento de eventos basados en transmisión y retransmisión de vídeo por máquinas tipo dron que la invención propone permite alcanzar satisfactoriamente los objetivos anteriormente señalados, estando los detalles caracterizadores que lo hacen posible y que lo distinguen convenientemente recogidos en las reivindicaciones finales que acompañan a la presente descripción.

Lo que la invención propone, tal como se ha apuntado anteriormente, es un proceso robótico de automatización que usa las más nuevas técnicas de inteligencia artificial. Más concretamente, una forma de realización o materialización de la invención, con el objeto de dar acceso al mundo digital a todos aquellos grupos de población sin presupuesto, comprende, el uso de un dron (entendiendo como dron aquellas máquinas que sobrevuelan un área y realizan la tarea de grabación desde el aire) grabando o retransmitiendo en tiempo real a una base de datos interna del propio dron o a través de medios de comunicación para directamente, mediante procesos batch (procesos asincronos que se apilan en lotes y colas para ser ejecutados, en serie o en paralelo) y por streaming o retransmisión en vivo, enviar los datos captados por la visión por computación, en adelante CV(por sus siglas en inglés), a una arquitectura de red neuronal o redes neuronales, en adelante RNA, (arquitectura de Red Neuronal Artificial), clasificando, con entrenamiento previo, eventos de la competición considerados como "highlights" o de interés. Dicha arquitectura RNA comprende una o más redes neuronales artificiales como un sistema conjunto que procesa estos datos de visión por computación como datos de entrada de la red y devuelve una clasificación de eventos de la competición analizada en el formato de indicadores como marcas de fecha dentro del video, el propio corte del highlight, entre otros.

Una vez que estos indicadores están establecidos, conteniendo metadatos (marcas de tiempo, número de jugadores en un momento dado, nombres de los jugadores..., principalmente devueltos como series temporales y/o marcos (imágenes) señalizados y numerados) del tipo de evento dentro de una marca de tiempo o dentro de un intervalo de conteo de marcos o imágenes, los datos de salida o simplemente "la salida"-video y/o metadatos- de la RNA (agente de software 1 )es enviado respectivamente a una segunda RNA (agente de software 2)y a un software de edición de vídeo(que se incluye como sistema de backup en caso de fallo o malfuncionamiento del sistema de Inteligencia Artificial).

La segunda RNA recibe en un modo asincrono, dos entradas principales: los metadatos de cada corte de vídeo o fragmento, siendo cada fragmento un vídeo (conocido como highlight) y sus metadatos una composición en cualquier formato (como por ejemplo un JSON ( JavaScript Qbject Noíaíion)) con elementos o atributos específicos como el momento temporal de inicio o referencia análoga en secuencia de marcos o imágenes, el momento temporal de fin o referencia análoga en secuencia de marcos o imágenes, el tipo de evento y un identificador o código de identificación o referencia que apunta a una base de datos diferente, colección (estructura dentro de una base de datos NoSQL que contiene documentos), documento, tabla o similar, dependiendo del caso de uso, con diferentes estructuras de lenguaje procesado conteniendo estructuras lingüísticas separadas (conocidas como tokens en la rama de la inteligencia artificial conocida como NLP o procesamiento del lenguaje natural por sus siglas en inglés) de palabras a frases, vectores de palabras, etiquetas, frases sintéticas y palabras derivadas.

Una vez hecho, una RNA final actuando como un tercer agente de software, coge los datos de salida de ambas redes neuronales y con una tercera fuente que comprende lenguaje natural y otras mecánicas de transmisión de mensajes entre seres humanos, principalmente texto y/o voz, compactando todo de forma conjunta para crear expresiones orales que puedan sonar como las transmitidas por la voz de un ser humano.

Esencialmente, el objeto de la invención es un sistema totalmente conectado que comienza con un dron dado, dirigido de forma manual o autónoma (UAV - Vehículo aéreo no tripulado por sus siglas en inglés) desde una estación, hangar, casa o lugar similar.

En una materialización o forma de realización de la invención, un piloto controla uno o más drones a través de ciertas áreas de la zona o campo de juego y graba la competición, encuentro o evento deportivo desde el aire. Una vez la grabación de la competición entera está terminada, de aquí en adelante "los datos brutos", los datos son manual o automáticamente subidos a una base de datos dada.

Una vez ahí, los datos son recogidos y procesados en modo batch o streaming (grabado o en directo), dependiendo del caso de uso y el del enfoque óptimo, por una RNA (típicamente una red neuronal convolucional (conocida como RNC), una evolución de una RNC conocida como Capsule Net, u otro agente de IA capaz de detectar y clasificar datos de imagen y vídeo). A medida que los datos entran en la red neuronal a través de la capa de entrada, típicamente en la forma de vectores numéricos, los datos fluyen a través de ella en donde sufren algunas descomposiciones y procesos de transformación hasta que ciertos objetos del campo o zona de juego, como una pelota o un jugador, son detectados por las capa ocultas intermedias o finales. Las últimas capas detectan aspectos de alto nivel, como quién pueden ser un jugador o la trayectoria de una pelota dada así como la clasificación de un determinado evento (ejemplos: gol de fútbol, cogida de pelota en baseball,...) una vez la salida de la red neuronal pasa ciertos umbrales establecidos por un grupo de métricas como la precisión, exhaustividad y exactitud así como la calificación f1 de una matriz de confusión de n-dimensional dada así como de otras como la mean-average-precision o mAP o la intersección loU (Intersection over the Union por sus siglas en inglés).

Si la primera RNA o alguna de sus periféricas fallan o incluso si los datos de salida no pasan el umbral establecido por las métricas, el proceso de clasificación del evento pasa a modo manual, siendo ejecutado por un individuo usando un editor de vídeo ad-hoc. En ambos casos, el producto final de los datos de salida es un vídeo agrupado d ehighlights o momentos especiales que representa una fracción del vídeo bruto inicial, una vez procesado.

Este producto tiene dos componentes principales, el propio vídeo y sus metadatos asociados, que son un compuesto de múltiples ítems, como marcas de tiempo, jugadores por evento clasificado o highlight, y otras materializaciones derivadas de otras posibles distribuciones de datos por marco, imagen, grupo de imágenes o evento.

Estos metadatos, una vez procesados funcionan como datos de entrada para la siguiente RNA, que destaca por ser una estructura de procesamiento del lenguaje natural o agente de NLP, que tiene la mejor posible y más escalable arquitectura para procesar estos datos de entrada con el objeto de generar estructuras de lenguaje natural como datos de salida, típicamente usando redes neuronales recurrentes o RNR. Estas estructuras, con la propiedad del sentido de la comunicación entre seres humanos desde el punto de vista semántico, pragmático y sintáctico, son frases concatenadas que, una vez agrupadas, forman expresiones típicamente generadas por seres humanos cuando se comunican, son frases concatenadas que, una vez agrupadas, forman expresiones típicas del lenguaje humano en la forma de texto. Una vez este trabajo está hecho, una tercera red neuronal, típicamente en la forma de una red neuronal convolucional, propulsada u optimizada o no por una arquitectura de red residual cuyas capas tienen como entrada los datos de salida de la capa anterior más los propios de entrada de la misma, en forma de red TTS ( text-to-speech por sus siglas en inglés), transforma este texto ya con las características de pragmatismo, lógica semántica y sintaxis, a voz, con el objeto de sustituir o imitar el comportamiento humano, tanto en el contenido de la comunicación, como en la forma de la expresión.

En un aspecto más avanzado, la invención provee un método que empieza con un dron o un grupo de drones despegando de un hangar o similar y llegando a la zona o _área donde un evento o competición deportiva vaya a tener lugar.

La invención provee un método que desempeña una aproximación híbrida en donde el sistema es una maquinaria completamente autónoma junto con un modo completamente manual que provee de un sistema de refuerzo y actúa como un medio de soporte en cualquier momento para cualquier caso de fallo posible (modo fallo) en cualquier punto sensible de la infraestructura. En una aproximación inicial, una vez los datos de vídeo y/o imagen -después de proceso de preprocesado total, parcial o nulo- entran en la arquitectura RNA, un agente de software de RNA procesa los datos de entrada y devuelve los datos de salida, en la forma de eventos clasificados basados en detección de objetos. En cuanto el evento es clasificado como una unas métricas dadas clasificarían la salida como de APROBADA o FALLIDA, esto es una evaluación binaria. El sistema irá iterando y entrenando (aprendiendo) con el objeto de tender a 0 Falsos Negativos y 0 Falsos Positivos, mediante un evaluador (como el MSE) y un optimizador (como ADAM).

En una materialización preferida de la invención, las métricas que miden como de bueno o eficiente es el desempeño del agente de software de inteligencia artificial son aquellas reservadas por la posible combinación de la matriz de confusión que puedan ofrecer cualquier conocimiento sobre los resultados dados. La evaluación dada está hecha por un resultado balanceado entre los datos de salida o resultados de salida de los ratios de precisión y la calificación

El umbral aceptable, una vez ejecutadas las evaluaciones basadas en cuyos ratios acaban de mencionarse, se definirá en función del caso de uso.

En una materialización, la aRNA comprende un canal donde los datos de entrada en forma de imagen y/o vídeo entran en una primera RNA y produce una determinada clase. Si el evento resulta en un valor de APROBADO después del proceso de validación de salida, el clip (el evento, highlight o corte necesario en función del caso de uso) es almacenado en bases de datos y/o sistema de almacenamiento separado; si el resultado sale como FALLIDO, el sistema seguirá intentándolo hasta alcanzar un cierto límite de épocas. Una vez los metadatos de un evento dado son almacenados, estos son posteriormente recolectados por una segunda RNA, que tiene dos entradas de datos:

- los metadatos del evento clasificado

- y una base de datos y/o sistema de almacenamiento con un corpus (estructura que contiene toquen como palabras o grupos de palabras o frases en un formato tal, que contiene dicho token y su frecuencia dentro de un evento, texto o similar) y otras estructuras de lenguaje natural preprocesado para N lenguajes, siendo N todos los posibles lenguajes naturales (desde el punto de vista de idioma como del de transmisión del lenguaje).

Esta segunda RNA provee, en una materialización principal, una LSTM ( Long-Short Term Memory por sus siglas en inglés, referente a cierta arquitectura de red neuronal) usando una estructura de red residual (tipo de arquitectura que conecta unas neuronas con otras mediante un canal de doble entrada, el de la salida de la/s neuronas inmediatamente anteriores y las salidas de las inmediatamente anteriores a estas).

El objeto de la red LSTM es generar estructuras lingüísticas de alta probabilidad como salidas y una vez clasificadas, concatenándolas de tal forma que se genere texto para estar listo para ser leído como expresiones generadas por un ser humano. Esta red LSTM devuelve internamente un valor dado entre 0 y 1 : típicamente, una función sigmoide definida por devuelve un valor que es ^z multiplicado por una función tanh, definida esta por en el resto de neuronas de la red o sistema, usando un mecanismo recurrente, por tanto llamado a su vez estructuras de redes neuronales recurrentes. Esta estructura de aprendizaje automático expulsa este texto organizado como si hubiera sido generado por un ser humano, imitando a un ser humano cuando escribe un texto. Una vez el texto-expresión es generado, este es almacenado en el sistema.

En una materialización de un método totalmente automático, una última red neuronal coge como datos de entrada, el texto generado por el segundo agente de software o RNA. Esta tercera red neuronal es típicamente conocida como TTS (acrónimo del inglés de una red de transformación texto-a-expresión (sonido/voz/oral)), y tiene una estructura mixta entre una estructura de red neuronal convolucional para procesamiento de imagen y vídeo y una red recurrente del tipo LSTM, usando estructuras de redes residuales si fuera necesario, dependiendo del caso de uso. Esta TTS produce expresiones (entendiendo que se denominan expresiones a aquellas traducciones de texto a voz, mientras que tokens, simplemente son palabas o frases a estructuras por escrito) en la forma de sonido, imitando la voz humana, actuando como un tercer agente que comenta un grupo secuencial de eventos clasificados hechos por la primera red neuronal. Esta expresión oral es finalmente añadida al grupo de eventos, empaquetando datos de voz y vídeo dentro de una única composición o archivo que será almacenado y/o transferido directamente a los periféricos o dispositivos conectados al sistema central a través de un protocolo de comunicaciones.

Otra materialización de la invención comprende datos de vídeo/imagen que son directamente retransmitidos directamente fuera del dron o a través una cierta infraestructura dada como entrada a la infraestructura de red neuronal con total, parcial o ningún almacenamiento previo. Por tanto, el módulo de IA que comprende estos tres agentes de software, procesa los datos de entrada en modo streaming para finalmente escupir la salida a la API que comunica con los usuarios, con o sin proceso de almacenamiento normal o distribuido, que puede ser temporal o permanente, dependiendo del caso de uso.

Una materialización optimizada de la invención comprende una arquitectura intermedia de hardware-software compuesta por tres módulos preparados para el procesamiento de grandes datos, almacenamiento y gestión como un camino o vía optimizada escalable, desarrollada con el objeto de paralelizar grandes cantidades de datos con la mínima cantidad de recursos. Un primer módulo funciona como un sistema de almacenamiento, un segundo como un gestor de recursos y un tercero actuando como un procesador. Esta infraestructura está lista para optimizar recursos pero será activada para cierto tipo de datos de entrada mientras otros caminos previamente definidos pueden llevar otros tipos. Por tanto, actuando como una arquitectura compatible independiente.

Opcionalmente la invención comprende una entrada de datos de vídeo/imagen, que en vez de fragmentarse en eventos a los que se han denominado highlights, van como un sólo evento que llamaremos "vídeo raíz post-bruto preprocesado". En esta opción, los datos de entrada son preprocesados por el sistema de la red neuronal (comprendido por tres agentes de software de inteligencia artificial o IA) que corta cualquier parte que sea innecesaria, como si fuera un outlier (caso atípico), que consiste en aquel marco/imagen individual o secuencia de fotogramas/imágenes que no cumple con la función de producción de la invención, definida como sigue:

N fotograma i bajo distribución de datos del juego,

V (fotograma grabado o emitido desde la altitud general),

(siendo la altitud general la media de + - 3 std. (desviaciones estándar)),

El resultado de este ensamblaje después de haber cortado o quitado este ruido al que podemos denominar como de datos de "bajo desempeño" o innecesarios, que pueden ser lanzados directamente al usuario final o grupo de usuarios como salida final o como datos interactivos de re-entrada al sistema de la red neuronal para extraer los eventos y crear el compuesto de highlights de las realizaciones de la invención.

En definitiva, la invención propone un método, basado en un sistema informático multi-nodo, para la generación automática de vídeo, basado en procesamiento en canal(esto es, siguiendo una serie de pasos predefinidos y por ese mismo orden, desde la descomposición del vídeo completo o bruto del evento deportivo al preprocesado de cada uno de las imágenes que componen el video, mecánicas de entrenamiento y testeo, haciendo uso de la inteligencia artificial y de los últimos métodos y técnicas de evaluación de modelos estadísticos), para detectar y cortar eventos del vídeo original grabados por el propio dron con el objeto final de agrupar dichos eventos en una composición final de vídeo, conteniendo todos estos eventos de forma secuencial.

El vídeo es el resultante de un preprocesamiento optimizado de detección de objetos y clasificación final de eventos con comentarios generados sobre dichos eventos, que, en una materialización óptima del proceso, se utiliza un módulo compuesto por varios sistemas de aprendizaje automático y aprendizaje profundo que generan texto compuesto igual o similar al que generaría un ser humano, así como de un proceso de transformación de dicho texto a voz, imitando igualmente y de la mejor forma posible la voz emitida por un ser humano para obtener una materialización final para el objeto de interés del usuario final.

El método de la invención es un canal multimodal, es decir, con diferentes formas de realización. El método también tiene muchas partes complementarias que pueden actuar de forma conjunta para proporcionar un conjunto de posibilidades: desde el modo interoperable más autónomo, a varias parcialmente automatizadas materializaciones y un modo completamente manual.

El método pretende cubrir las necesidades de competiciones no profesionales o amateur, competiciones profesionales y otros participantes que no pueden tener acceso o cómo crear tecnología capaz de disminuir los costes de producción y proporcionar automatización al procesamiento de vídeo y/o imágenes de competiciones deportivas realizadas por máquinas del tipo dron.

DESCRIPCIÓN DE LOS DIBUJOS

Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, se acompaña a la presente memoria descriptiva, como parte integrante de la misma, de un juego de planos en que con carácter ilustrativo y no limitativo se ha representado lo siguiente:

La figura númerol.- Muestra un diagrama de un ejemplo de materialización general del método de la invención donde se observan cada uno de los múltiples módulos, desde el almacenamiento de bases de datos y lagos de datos no estructurados al procesamiento de módulos y usuarios finales. Y la figura número 2.- Muestra un diagrama del proceso de flujo de datos, que representa el punto de inicio del método, donde los datos son generados y/o recolectados, los múltiples flujos de datos dada cualquier posible materialización de la invención y el final de cualquier posible camino elegido y donde los datos llegan a cualquier usuario o grupo de usuarios.

REALIZACIÓN PREFERENTE DE LA INVENCIÓN

Atendiendo a la figura 1 se observa un diagrama esquemático de la configuración global de los componentes del método la invención, cubriendo los múltiples caminos posibles durante el proceso de edición.

En la realización preferida del método se emplea un dron (120) para grabar contenido bruto en video durante un evento deportivo, el cual o bien es subido a un sistema de almacenaje (116) mediante el uso de una interfaz de usuario (122) o es alimentado directamente en un software de edición (100). Aunque no es preceptivo, preferentemente se implementa una plataforma de administración ( 124) junto a un sistema de base de datos (118) para gestionar la información correspondiente (y no limitada) a la fecha del evento, imágenes con los escudos de los equipos, identificadores y nombres de los jugadores, metadatos de los eventos destacados y tanto las grabaciones originales como los vídeos editados. El software de edición (100) comprende varios módulos y librerías aplicadas para detectar y recortar eventos destacados en el material original de video.

El proceso de edición, que puede ser asistido por un primer y segundo agentes IA o de inteligencia artificial (108 y 110), consistentes en una Red Neuronal Artificial o RNA, generan metadatos que incluyen referencias a los videos originales y los instantes temporales entre los que ocurren los eventos de interés detectados.

Esta información es tratada junto a las grabaciones originales de video para organizar y generar diferentes compilaciones de contenido destacado, proceso durante el cual pueden ser añadidos otros elementos como imágenes y textos superpuestos, efectos de sonido, música y voz narrativa, pudiendo emplearse, preferentemente mediante un software de desarrollo de expresiones (106), diferentes codees y calidades tanto de audio como de video al ser exportado, siendo finalmente enviado al sistema de almacenaje (116).

El contenido generado mediante el método de la invención es servido a los usuarios finales mediante el uso de distintos soportes digitales (114) incluyendo aplicaciones móviles (¡OS, Android y otros), otras interfaces de usuario como aplicaciones web, aplicaciones de escritorio y de dispositivos móviles, plataformas de televisión y links de acceso directo a los videos.

En el diagrama de la figura 1 se observa, además, la existencia de un interfaz de comunicación (112) preferentemente un API, así como una línea de envío de datos (104) entre dicha interfaz (112) y el software de edición (100), y otra línea de retorno de datos (102) entre el software de desarrollo (106) y dicha interfaz de comunicación (112).

En la figura 2 se observa un diagrama de los pasos que comprende el método de la invención para el flujo de datos en el conjunto completo de posibles materializaciones del mismo y que comprenden lo siguiente:

- Un paso inicial (200) con la existencia del dron (120), que preferentemente es transportado por un piloto humano (202), si bien la maniobra de despegue (203) se puede efectuar o bien automáticamente o bien manualmente.

Así, en un modo manual, un humano pilota el dron desde un hangar dado o sitio similar a través del aire hacia el lugar donde la competición deportiva vaya a tener lugar o bien lo transporta hasta el lugar del evento y ahí lo hace volar.

Y, en un modo automático, el dron tiene una entrada de orden previamente programada o enviada desde el exterior a su software interno para despegar y volar al campo de juego (por campo de juego debe entenderse cualquier lugar donde uno o varios jugadores inician un evento oficialmente entendido como juego deportivo).

- En el siguiente paso, una vez el dron está en el espacio aéreo donde el evento deportivo tiene lugar, el dron inicia su sistema de visión por computación o sistema CV (204) bien para grabar o bien para retransmitir en directo, vía streaming, la competición completa.

Opcionalmente, el dron está viendo desde el inicio de la competición en modo sin pausa o, también de forma opcional, el dron pausa su grabación, ya sea debido a su IA interna, o a un humano que pausa el sistema de CV del dron o simplemente por el propio cambio de baterías que hace que el dron se quede sin energía para seguir grabando o retransmitiendo. Los datos vistos por el sistema de CV del dron, si trabaja en modo de grabación, es decir, no- streaming (paso 212), pueden ser almacenados en una base de datos interna (125) de la máquina o, si trabaja en modo streaming( paso 208) ser retransmitidos en tiempo real. Ambos modos de transmisión son opcionales en algunas materializaciones y sólo uno en otras.

Para las materializaciones en modo no -streaming (paso 212), la subida de datos puede ser en modo automático (212’) o no. Para la subida en modo no automático, el piloto transporta el dron como un sistema hardware de almacenamiento con los datos brutos (vídeo bruto) a unas instalaciones, vivienda propia o similar, para una conexión y subida de datos posterior al servidor o cualquier espacio virtual para un tratamiento posterior. Una vez la subida en modo manual está hecha, los datos son recogidos de forma sincronizada o asincrona de tal forma que encaje mejor con las necesidades ad-hoc basadas en la competición ocaso de uso, tiempo o cualquier otra opción dada o variable. Este procedimiento de recogida o ingestión de datos puede ser activado por el software manual de edición (100) o directamente desde el módulo o sistema de IA (222), donde están dispuestas tres principales redes neuronales o RNA (108, 110, y 230), como se explica más adelante.

En cambio, cuando el camino está establecido o activado en modo manual (paso 220), un individuo al que se le denomina como "el editor" edita el vídeo bruto para crear el "vídeo raíz post-bruto preprocesado" y/o el vídeo que contiene los highlights o eventos más relevantes (ejemplo: penalti, gol, canasta,...) para el usuario final o grupo de usuarios.

En todo caso, una vez hecho, el vídeo editado (paso 238) pasa al software de desarrollo de expresiones (106) o al módulo de IA (222) para el desarrollo y composición por un TTS.

En el modo manual, el TTS y la composición con el software de desarrollo (106) están hechas por un individuo, cuya salida es enviada a la API transaccional (112), localizada al lado del módulo de IA (222) y monitoreado por el proceso de monitoreo que está a su vez conectado con el módulo gestor/administrador (124).

Por su parte, en una materialización automatizada, el video/imagen bruto (paso 206) es enviado a la infraestructura biga data (218). Una vez ahí, los datos son almacenados y preprocesados para enviar al módulo de IA (222).

En la materialización automatizada, en modo no-streaming (paso 212), los datos de video son subidos desde y por el propio dron en un modo total o casi totalmente automático (este último necesita un botón de software de accionamiento). En este modo automático, el dron podrá estar directamente conectado a internet a través de tecnologías 5G, WiFi, Bluetooth, entre otros tipos de conexiones de comunicación y/o protocolos, donde la competición deportiva tiene lugar u otros puntos de acceso a la red para tener acceso a internet. Un punto de acceso sería el destino o el hangar.

Opcionalmente, los flujos de datos pueden ser en un modo manual de alto nivel, donde todas las conexiones son manuales, desde el vuelo del dron al proceso de grabación, la subida de datos y la manipulación de los datos para la edición de vídeo y conversión de texto a voz. Esta opción solo sirve de refuerzo o apoyo para un fallo eventual del sistema (paso 214), necesidad de uso mientras se paran ciertos sistemas IT o debido a que un modo manual pueda ser una opción mejor para ciertos casos de uso o situaciones donde no todos los componentes puedan estar en máximo automatismo debido a problemas de infraestructura de red, lugares donde hay problemas de acceso a internet y situaciones similares.

A continuación (paso 216), una vez los datos llegan al servidor de almacenamiento (116) o al almacenamiento de la infraestructura big data (218), los datos son recolectados en forma sincronizada o asincrona por el módulo de IA (222). El módulo de IA (222) está compuesto por tres agentes de software (108, 110, 230), cada uno de ellos con una red neuronal principal RNA.

En concreto, un primer agente de software (108) ingiere datos de vídeo/imagen a través de una red neuronal principal RNA entrenada que tiene sus pesos almacenados en una base de datos específica (118), usado por la RNA para detectar y clasificar objetos eventos. Si esta RNA tiene que hacer el trabajo con ciertas distribuciones distintas de puntos de datos (ejemplo: RNA entrenada bajo condiciones de luz solar que tiene que realizar detecciones y clasificaciones en condiciones de luz en momentos crepusculares o de ocaso), un proceso de "transferencia del conocimiento" es activado y ciertas partes de la red son re-entrenadas para estar ajustadas a la nueva distribución de datos. Por tanto, la RNA tiene piezas intercambiables de tal forma que encajen formando la mejor estructura posible para hacer la mejor detección y clasificación posible.

Si la distribución de los datos de la competición deportiva sobre la que tiene que realizar los trabajos es muy distinta (ejemplo: del fútbol al béisbol), la RNA no será congelada en ninguna capa y será ajustada y entrenada desde cero. Cada composición de arquitectura de cada red neuronal y sus memorias, las cuales son almacenadas como pesos en un formato dado como aparecen en la figura 1 junto a la base de datos (118), para cada agente de software o agente de IA, son independientes entre agentes.

En algunas materializaciones de la invención, sólo un primer agente de software o RNA 1 (108) será usado; en otras materializaciones, solo un segundo agentes de software RNA 2 (110) o un tercer agente RNA3 (230) son usados individualmente. En otras materializaciones ambos RNA 2(110) y RNA 3 (230) son usadas, de forma que la salida de la RNA 2 (110) sirve de entrada a la RNA 3 (230).

Una vez el video final está hecho por alguna de las opciones descritas -total, parcial o nada automatizadas-, una API de comunicaciones (112) sirve de sistema para conectar y gestionar el tráfico de datos entre la infraestructura central y los usuarios finales de dos modos alternativos (pasos 242 y 244).

Así, en una primera opción (paso 244), existe un camino de comunicación entre un módulo de acceso dado (248), por ejemplo una plataforma de pago, que habilita un individuo o grupo de individuos a tener acceso a la plataforma.

Si el acceso está concedido (paso 250), un individuo o grupo de individuos deben tener acceso a la plataforma, mientras que si da denegado, una conexión dada será establecida entre el individuo o grupo de individuos que ha realizado el intento y el módulo de gestión (124), para intentar solucionar el problema, y chequear si ha sido debido a razones técnicas u otras de carácter administrativo.

El otro camino de conexión es realizado directamente (paso 242) a través de la API (112) y la aplicación del dispositivo del usuario, mediante un soporte digital (114) tal como una aplicación de software de computadora o navegador web. El proceso finaliza al aparecer el usuario o grupo de usuarios (236).

Descrita suficientemente la naturaleza de la presente invención, así como la manera de ponerla en práctica, no se considera necesario hacer más extensa su explicación para que cualquier experto en la materia comprenda su alcance y las ventajas que de ella se derivan, haciéndose constar que, dentro de su esencialidad, podrá ser llevada a la práctica en otras formas de realización que difieran en detalle de la indicada a título de ejemplo, y a las cuales alcanzará igualmente la protección que se recaba siempre que no se altere, cambie o modifique su principio fundamental.

LISTADO ACRÓNIMOS UTILIZADOS

RPA: (Robotic Process Automation) Proceso Robótico de Automatización CV: ( Computer Vision) Visión por Computación IA: Inteligencia Artificial

AP\-.(Application Programming Interface) Interfaz de programación de aplicaciones RNA: Red Neuronal Artificial RNC: Red Neuronal Convolucional RNR: redes neuronales recurrentes JSON -.(JavaScript Object Notation) Notación de objeto de JavaScript mAP: (mean-average-precision)Precisión media NLP -.(Natural Language Processing) Procesamiento del lenguaje natural LSTM -.(Long-Short Term Memory) Memoria a corto y largo plazo TTS - ( Text-To-Speech ) Texto a voz. TP: " TRUE POSITIVE' verdadero positivo TN "TRUE NEGATIVE', verdadero negativo FN "FALSE NEGATIVE' falso negativo FP "FALSE POSITIVE' falso positive.

Previous Patent: CONCRETE TOWER WITH SEVERAL SECTIONS

Next Patent: ELECTRIC POTENTIAL MEASUREMENT SYSTEM FOR DETECTING CONTAMINANTS IN THE SUBSOIL