Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR THE UNSUPERVISED MEASUREMENT OF THE DIMENSIONS OF AN OBJECT USING A VIEW OBTAINED WITH A SINGLE CAMERA
Document Type and Number:
WIPO Patent Application WO/2021/058841
Kind Code:
A1
Abstract:
Disclosed is an unsupervised method for determining the dimensions of an object captured in an image. The method includes: capturing a set of images with a camera, where each image in the set of images is captured with the camera set at a different f-number; for each image in the set of images, computing a quality metric for the image, where the quality metric quantifies the focus of the image based on the contrast of same; identifying a given image in the set of images using the contrast metrics and the f-number of the camera; calculating the hyperfocal distance using the configuration parameters of the camera when taking the given image; and quantifying one or more dimensions of the object as a function of the hyperfocal distance; and if the object is known, using a view classifier to estimate the dimension in 3D.

Inventors:
NAVARRO FAJARDO FULGENCIO (ES)
VELASCO SALIDO ERIK (ES)
Application Number:
PCT/ES2019/070647
Publication Date:
April 01, 2021
Filing Date:
September 27, 2019
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIGMA TECH S L (ES)
International Classes:
G06T7/60
Domestic Patent References:
WO2016184152A12016-11-24
Foreign References:
US20160225150A12016-08-04
JP2007327882A2007-12-20
Attorney, Agent or Firm:
ELZABURU, S.L.P. (ES)
Download PDF:
Claims:
REIVINDICACIONES

1. Un método no supervisado para determinar el tamaño de un objeto capturado en una imagen, que comprende: capturar, con una cámara, una imagen desencadenante de una escena; identificar, con un procesador de un ordenador, la presencia de un objeto en la imagen desencadenante; capturar, con la cámara, un conjunto de imágenes, siendo capturada cada imagen en el conjunto de imágenes con la cámara configurada con un número f diferente, y siendo capturado el conjunto de imágenes en respuesta a la identificación de la presencia del objeto en la imagen; identificar, con el procesador del ordenador, una imagen dada del conjunto de imágenes; calcular, con el procesador del ordenador, la distancia hiperfocal usando los parámetros que tenía la cámara cuando se tomó la imagen dada; y cuantificar, con el procesador del ordenador, una o más dimensiones del objeto como una función de la distancia hiperfocal.

2. El método de la reivindicación 1 que comprende además identificar la presencia de un objeto en la imagen usando el método de sustracción de fondo (background substraction)

3. El método de la reivindicación 1 que comprende, además: para cada imagen del conjunto de imágenes, calcular, con el procesador del ordenador, una métrica de calidad para la imagen, donde la métrica de calidad cuantifica el enfoque a través del contraste; e identificar, con el procesador del ordenador, una imagen del conjunto de imágenes usando la relación entre la métrica de calidad y el número f.

4. El método de la reivindicación 3 en el que calcular una métrica de contraste comprende además calcular la entropía difusa.

5. El método de la reivindicación 1 que comprende además identificar una imagen dada en el conjunto de imágenes a través de la identificación de un subconjunto de imágenes que forman parte del conjunto de imágenes, en el que cada imagen del subconjunto de imágenes tiene una métrica de contraste con un valor superior a un valor umbral, y seleccionar la imagen dada del subconjunto de imágenes que tenga el número f más bajo de entre todas ¡as imágenes del subconjunto de imágenes.

6. El método de la reivindicación 1 que comprende además cuantificar una o más dimensiones del objeto usando el teorema de la semejanza de triángulos.

7. El método de la reivindicación 1 que comprende además la cuantificación de una o más dimensiones del objeto con:

ROS = H * SOS / f donde ROS es el tamaño del objeto, H es la distancia hiperfocal, SOS es el tamaño del objeto en el sensor de la cámara y f es la distancia focal.

8. El método de ¡a reivindicación 1 que comprende además: identificar el objeto en ¡a imagen desencadenante usando una red neurona!; extraer una región de interés de cada imagen en el conjunto de imágenes, donde ¡a región de interés contiene el objeto identificado; y para cada imagen del conjunto de imágenes, calcular la métrica de contraste para ¡a imagen usando solo la región de interés extraída de ¡a imagen.

9. Un método no supervisado para determinar las dimensiones de un objeto capturado en la imagen, que comprende: capturar, con una cámara, una imagen desencadenante de una escena; identificar, con un procesador de un ordenador, la presencia del objeto en la imagen desencadenante; capturar, con la cámara, un conjunto de imágenes de forma que cada imagen del conjunto de imágenes está capturada con la cámara configurada a un número f diferente y el conjunto de imágenes es capturado en respuesta a ¡a identificación de presencia del objeto en la imagen; seleccionar, con el procesador del ordenador, una imagen dada del conjunto de imágenes; calcular, con el procesador del ordenador, la distancia hiperfocal usando los parámetros que tenía la cámara cuando se tomó la imagen dada; identificar, con el procesador del ordenador, el objeto en ¡a imagen desencadenante; recuperar, con el procesador del ordenador, un modelo tridimensional del objeto identificado; y cuantificar, con el procesador del ordenador, las tres dimensiones del objeto identificado usando la distancia hiperfocal y el modelo tridimensional.

10. El método de la reivindicación 9 que comprende además identificar la presencia de un objeto en la imagen usando el método de sustracción de fondo (background substraction).

11. El método de la reivindicación 9 en el que la selección de una imagen dada del conjunto de imágenes comprende además: para cada imagen del conjunto de imágenes, calcular, con el procesador del ordenador, una métrica de calidad para la imagen que cuantifica el enfoque mediante el contraste de la misma; identificar un subconjunto de imágenes del conjunto de imágenes, en el que cada imagen del subconjunto de imágenes tiene una métrica de contraste con un valor mayor que un valor umbral; y seleccionar la imagen dada del subconjunto de imágenes, en el que la imagen dada tiene el valor más bajo del número f de entre todas las imágenes del subconjunto de imágenes.

12. El método de la reivindicación 11 en el que calcular una métrica de contraste comprende además calcular la entropía difusa.

13. El método de la reivindicación que 11 comprende, además: extraer una región de interés de cada imagen del conjunto de imágenes, donde la región de interés contiene el objeto identificado; y para cada imagen del conjunto de imágenes, calcular la métrica de contraste de la imagen usando solo la región de interés extraída de la imagen.

14. El método de la reivindicación 13 que comprende además extraer una región de interés de cada imagen del conjunto de imágenes usando una red neuronal

15. El método de la reivindicación 9 en el que la cuantificación de las tres dimensiones del objeto identificado comprende además: determinar una vista de! objeto en la imagen dada; determinar si una o más de las tres dimensiones está ocluida in la imagen dada; determinar la o las dimensiones ocluidas usando el modelo tridimensional en respuesta a determinar que una o más de las tres dimensiones está ocluida en la imagen dada; cuantificar, a partir de la imagen dada y el modelo tridimensional determinado, el tamaño real del objeto usando el teorema de la semejanza de triángulos; y cuantificar, a partir de la imagen dada, el tamaño real del objeto con ROS = H * SOS / f donde ROS es el tamaño real de! objeto, H es la distancia hiperfocal, SOS es el tamaño del objeto en el sensor de la cámara y f es la distancia focal.

16. Un sistema para determinar las dimensiones de un objeto capturado en una imagen que comprende: una cámara configurada para capturar imágenes de una escena; un preprocesador de imagen conectado a la cámara y que de forma cooperativa interacciona con la cámara para capturar un conjunto de imágenes de la escena, donde cada imagen de! conjunto de imágenes se captura con un número f distinto; un detector de objetos configurado para recibir el conjunto de imágenes e identificar la presencia de un objeto en la imagen; y un calculador de las dimensiones de objetos conectado al detector de objetos, de manera que, para cada imagen del conjunto de imágenes, el calculador de las dimensiones de objetos calcula una métrica de calidad para la imagen, identifica una imagen dada en el conjunto de imágenes usando la relación entre la métrica de calidad y el número f, y cuantifica una o más dimensiones del objeto como una función de la distancia hiperfocai de la imagen, donde la métrica de calidad cuantifica el enfoque de la imagen en función de su contraste.

17. El sistema de la reivindicación en el que el detector de objetos identifica la presencia de un objeto en la imagen usando el método de sustracción del fondo (background substraction).

18. El sistema de la reivindicación 16 en el que la métrica de contraste se define además como entropía difusa. 19 El sistema de la reivindicación 16 en el que el calculador de dimensiones del objeto identifica una imagen dada de entre un conjunto de imágenes por medio de la identificación de un subconjunto de imágenes del conjunto de imágenes, donde cada imagen del subconjunto de imágenes tiene una métrica de contraste con un valor superior a un umbral, y por medio de la selección de la imagen dada a partir del subconjunto de imágenes, donde la imagen dada es la que tiene el valor f más bajo de todas las imágenes del subconjunto de imágenes.

20. El sistema de la reivindicación 16 en el que el calculador de dimensiones del objeto cuantifica una o más dimensiones del objeto usando el teorema de la semejanza de triángulos.

Description:
MÉTODO DE MEDIDA NO SUPERVISADA DE LAS DIMENSIONES DE UN OBJETO USANDO UNA VISTA OBTENIDA CON UNA ÚNICA CÁMARA

CAMPO

[0001] Esta invención consiste en un método de medida no supervisada de las dimensiones de un objeto empleando una única vista de una cámara y sin usar un objeto de referencia.

ANTECEDENTES

[0002] La estimación no supervisada del tamaño de un objeto usando una única vista de una cámara y sin emplear un objeto de referencia es una tarea muy compleja y poco común para ios sistemas de visión artificial. A pesar de la complejidad del problema, la información de las dimensiones de un objeto es muy útil en una gran variedad de aplicaciones, tales como sistemas de videovigilancia, imagen médica y otros tipos de sistemas. La generación de perfiles de objetos, la identificación de objetos o el reconocimiento del estado de ios objetos son ejemplos de tareas de más alto nivel que podrían apoyarse en la información de las dimensiones del objeto. Hay una serie de problemas que surgen de la decisión de usar un enfoque basado en el uso de una sola cámara. Sin embargo, también presenta una serie de ventajas.

[0003] En las aplicaciones reales, no siempre es posible tener objetos de referencia de los que se conozcan sus dimensiones.

[0004] Los métodos supervisados requieren que haya una continua interacción entre el usuario y el sistema. En contraste, la ventaja de un método no supervisado es que proporciona resultados sin la intervención del usuario. Así pues, hay una necesidad de sistemas que proporcionen información de las dimensiones de un objeto que sea exacta y no dependiente de un objeto de referencia.

[0005] Los sistemas del estado del arte miden las dimensiones de un objeto por medio de sensores externos o de la interacción de múltiples cámaras. Las soluciones actuales que miden las dimensiones de los objetos algunas veces son inexactas o necesitan emplear un objeto guía con unas dimensiones conocidas para ser exactas.

[0006] Adicionalmente, la medida de las dimensiones de un objeto es una tarea compleja y hay algunos problemas que aparecen, como, por ejemplo, las formas irregulares de algunos objetos, la oclusión que pueden sufrir cuando ios objetos de interés están en entornos reales, la falta de conocimiento de la escala del objeto o de la distancia del sensor de la cámara al objeto. [0007] Hay un enfoque que se describe en la patente estadounidense con número de publicación 2007/0098251 que emplea una única cámara, sin sensores adicionales y sin algoritmo de referencia. En este método, el movimiento de la cámara es esencial para obtener la distancia al objeto, cosa que es un inconveniente dado que hay muchos escenarios en los que no es posible mover la cámara.

[0008] Otro enfoque basado en una única cámara sin sensores externos y sin objeto de referencia está descrito en la patente estadounidense con número de publicación 2012/0274762. Este método emplea el barrido del enfoque para evitar el tener que mover la cámara para obtener dos fotografías con las que calcular las dimensiones, pero el usuario tiene que seleccionar dos puntos de la imagen para medir la distancia. Los sistemas supervisados de medidas de las dimensiones están en desventaja con respecto a ios sistemas no supervisados.

[0009] La patente estadounidense con número de publicación 2018/0336733 presenta un enfoque que realiza la detección de objetos combinada con la detección de vistas y reconstrucción 3D, pero esta propuesta emplea dos cámaras.

[0010] Esta sección proporciona ios antecedentes correspondientes a la presente invención, la cual no es necesariamente el estado del arte.

RESUMEN

[0011] Esta sección presenta un resumen general de la invención y no es una descripción de su alcance o de todas sus características.

[0012] Se presenta un método no supervisado para determinar las dimensiones de un objeto capturado en una imagen. El método incluye: capturar un conjunto de imágenes con una cámara en el que cada imagen del conjunto tiene un número f distinto; identificar una imagen dada del conjunto de imágenes; calcular la distancia hiperfocal usando los parámetros que tenía la cámara cuando tomó dicha imagen; y cuantificar una o más dimensiones del objeto como una función de la distancia hiperfocal

[0013] Este método incluye, además: capturar la imagen desencadenante en un escenario e identificar la presencia de un objeto en la imagen desencadenante. La presencia de un objeto en la imagen puede ser identificado usando un método de sustracción de fondo (background substraction).

[0014] En una realización, para cada imagen en el conjunto de imágenes, se calcula una métrica de calidad para la imagen, en el que la métrica de calidad cuantifica cuánto de enfocada está la imagen en base al contraste. [0015] La imagen dada de! conjunto de imágenes puede ser identificada identificando un subconjunto de imágenes del conjunto de imágenes, en el que cada imagen del subconjunto de imágenes tiene una métrica de contraste con un valor superior a un umbral, y seleccionando la imagen dada del subconjunto de imágenes en el que la imagen dada tiene el número f más bajo de entre todas las imágenes del subconjunto de imágenes.

[0016] En algunas realizaciones, una o más dimensiones del objeto podrían ser cuantificadas usando el teorema de semejanza de triángulos y la métrica de contraste se define además como entropía difusa.

[0017] En otras realizaciones, el método además incluye: identificar el objeto en la imagen desencadenante usando una red neuronal; extraer una región de interés para cada imagen en el conjunto de imágenes, donde la región de interés contiene el objeto identificado; y para cada imagen del conjunto de imágenes, calcular la métrica de contraste usando solo la región de interés extraída de la Imagen.

[0018] Hay otras áreas de aplicación que serán evidentes a partir de la descripción proporcionada a continuación. La descripción y los ejemplos específicos en este resumen están realizados únicamente con fines ilustrativos y no limitan el alcance de la presente invención.

ILUSTRACIONES

[0019] Las ilustraciones descritas a continuación solo se muestran con fines ilustrativos de las realizaciones seleccionadas, pero no de todas las posibles implementaciones y no limitan el alcance de la presente invención.

[0020] La FIG. 1 es un diagrama de flujo que muestra un sistema general de visión artificial. [0021] La FIG. 2 es un diagrama de bloques que representa un sistema de medida de las dimensiones de un objeto.

[0022] La FIG. 3 es un diagrama de flujo que muestra un ejemplo de una realización de un sistema de medida de las dimensiones de un objeto.

[0023] La FIG. 4 es un diagrama que muestra la posición de la cámara con respecto a un objeto conocido.

[0024] Las FIG. 5A y 5B son la vista frontal y en perspectiva de un cubo de Rubik, respectivamente.

[0025] Las FIG. 5C y 5D son las vistas frontal y en perspectiva de una regadera, respectivamente. [0026] Los números de referencia indican las distintas partes a lo largo de las distintas vistas de los gráficos. DESCRIPCIÓN DETALLADA

[0027] Se van a describir los ejemplos de las realizaciones en más detalle con ayuda de ios gráficos que se acompañan

[0028] La Figura 1 representa un sistema general de visión artificial 10 que emplea una arquitectura estándar para diseñar aplicaciones de visión artificial. El objetivo principal del sistema es proporcionar la caracterización completa del objeto. Asimismo, la arquitectura definida facilita la integración de los múltiples algoritmos que hacen falta para realizar la caracterización de los objetos en la propia arquitectura.

[0029] El Detector de objetos genérico 11 , de aquí en adelante “detector genérico”, el Clasificador de vistas 12 y el Reconstructor 3D 13 son comunes para todas las tareas que se describen en detalle más adelante en este documento. Dependiendo de la aplicación, el diseño sigue la rama del Categorizador 14 o la del Identificador 16 El paso final en la rama del Categorizador es determinar el estado del objeto, por ejemplo, si el objeto está roto o no, así como si hay partes que faltan o no. Los métodos descritos en esta invención están en la rama del identificador. La rama del Identificador tiene dos subramas posibles: Aplicaciones relacionadas con el dimensionamiento del objeto 17 y la de aplicaciones de descripción de características 18 Más específicamente, esta invención se refiere a la obtención de las dimensiones de un objeto 17; mientras que la rama de características 18 devuelve atributos del objeto como el color, el material, etc.

[0030] La Figura 2 representa un sistema 20 para determinar las dimensiones de un objeto capturado en una imagen. El sistema 20 se compone generalmente de: una cámara 21 , un preprocesador de imagen 23, un detector de objetos 24 y un calculador de las dimensiones del objeto 25. El preprocesador de imagen 23 está conectado con la cámara 21 e interacciona con la cámara 21 para capturar un conjunto de imágenes 22, en el que cada imagen del set 22 se ha capturado con la cámara 21 con un número f distinto. Porcada imagen del conjunto de imágenes, el detector de objetos 24 procesa la imagen con la mayor calidad, esto es, con el mayor ratio contraste / distancia hiperfocal de entre todas las imágenes del conjunto de imágenes. El calculador de las dimensiones del objeto 25 recibe dicha imagen del detector de objetos 24. El calculador de las dimensiones del objeto 25 usa la distancia hiperfocai, calculada usando los parámetros de la cámara, y cuantifica una o más dimensiones del objeto en función de la distancia hiperfocai. [0031] La Figura 3 ilustra un ejemplo de realización para la determinación de las dimensiones de un objeto capturado en una imagen. En el paso 31 , una cámara con una lente convexa captura un fotograma. Un fotograma se define como una imagen de la escena observada por la cámara. En esta realización, los objetos a los que se les va a calcular la dimensión aparecen en el fotograma.

[0032] En el paso 32 se evalúa la presencia de objetos en el fotograma. Se puede emplear un algoritmo de sustracción de fondo (background sustraction) para detectar objetos en el primer piano de la escena. En una de las realizaciones, el algoritmo seleccionado es Background Substraction usando Local Singular Valued Decomposition Binary Pattern (BSLSVDBP) combinado con el algoritmo de presencia de objetos (objectness algorithm) basado en Binarized Normed Gradient tal y como se describe en M. Cheng et al en “Binarized Normed Gradiente for Objectness Estimation at 300 fps”, 2014 IEEE Conference on Computer Vision and Pattern Recognition (2014). Este algoritmo BSLSVDBP depende de un único parámetro. El parámetro es el learning rate. Se selecciona dependiendo del escenario. Es posible usar otros métodos de segmentación de fondo (background segmentation) o métodos de propuesta de región (región proposal) para detectar la presencia de un objeto en una escena. Este es un paso clave para la realización, dado que aborda el reto de la no supervisión

[0033] Si los objetos son detectados en el paso 32, se realiza un barrido de foco en el paso 33. El foco se define como el valor de la apertura de la cámara para cambiar la distancia hiperfocal con valores fijos de longitud focal y de circulo de confusión. El rango del foco de la cámara se barre. Para cada valor de foco, se almacena el par fotograma-foco. El número de fotogramas almacenados se define como el máximo entre un valor mínimo (30) y el número total de valores discretos del rango de foco de la cámara. El conjunto de fotogramas resultante se envía a 34 para el siguiente paso.

[0034] La identificación del objeto se realiza en el paso 35. El análisis se realiza solo en uno de los fotogramas contenidos en el conjunto. La salida del análisis puede ser: objeto conocido junto con su categoría asociada u, objeto desconocido. En una realización, la identificación del objetos se lleva a cabo por medio de un algoritmo de redes neuronales desarrollado especialmente para esta tarea. Por ejemplo, podría usarse una red neuronal RESNet-101 preentrenada con ¡mage- Net tal y como describe K. He et a! en “Deep Residual Learning for image Recognition”, 2016 IEEE Conference on Computer Vision and Pattern Recognition (2016), que se incorpora completamente aquí, aunque se podrían emplear otras redes neuronales diseñadas para llevar a cabo reconocimiento de objetos. El modelo se ha entrenado con una conjunto de datos compuesto por objetos predefinidos (conocidos), donde los objetos se seleccionan dependiendo del escenario en el que el sistema se vaya a impiementar. Por ejemplo, en un escenario de un aeropuerto, los objetos seleccionados serian bolsas de mano, mochilas, maletas con ruedas, etc. El conjunto de objetos conocidos puede cambiarse definiendo un nuevo conjunto de datos de entrenamiento.

[0035] Dependiendo de si el objeto fue identificado, el método sigue por uno de entre dos caminos diferentes. En el caso de que el objeto sea desconocido, se extrae una región de interés (Región of Interest - ROI) de cada imagen del conjunto de fotogramas en 37, donde la región de interés contiene el objeto desconocido. Por ejemplo, la región de interés se define con un rectángulo delimitador y una máscara asociada, como por ejemplo la salida del paso 32. Hay que tener en cuenta que el mismo área es aislado en todos los fotogramas del conjunto de fotogramas. El conjunto resultante de áreas aisladas se utiliza como entrada del paso 38.

[0036] A continuación, el método identifica la imagen de un conjunto de áreas aisladas usando una métrica de calidad definida como el ratio: métrica de enfoque j número f , en 38. En una realización, el conjunto de áreas aisladas se escanea para buscar el subconjunto de imágenes que superan un umbral de métrica de enfoque establecido, esto es, que su métrica de enfoque supere dicho umbral. El umbral se determina empíricamente. La calidad se analiza en términos del foco, en particular, usando una métrica de contraste ( métrica de enfoque). Se calcula una métrica de contraste para cada imagen. En una realización, la métrica de contraste se calcula con entropía difusa a nivel de pixel en su ventana vecina de tamaño wx w pixels: Por defecto, w = 5. Este valor puede modificarse dependiendo del tamaño de las regiones de interés. El contraste de toda la región de interés se calcula como la suma de todas las medidas de contraste de pixei. De todas las regiones de interés que tiene un valor de contraste que supera el umbral, se seleccionará más adelante aquella con menor valor de apertura (esto es, el número f). Esta Imagen seleccionada, junto con su valor de foco asociado, se envía a los siguientes pasos. [0037] La distancia hiperfocal (H) se calcula en el paso 39 usando ios parámetros de la cámara en el momento de tomar la imagen. En una realización, la distancia hiperfocal se calcula con la siguiente ecuación:

Donde “f es la distancia focal, “N” es el número F (esto es: f/D donde D es el diámetro de la apertura) y “c” es el límite del círculo de confusión “f” y “c” son parámetros asociados a la cámara y “N” se recibe también de la cámara en el momento en el que la imagen se captura. [0038] En 41 se cuantifican una o más dimensiones de! objeto como una función de la distancia hiperfocal. En e! ejemplo, el tamaño del objeto (rea/ object size - ROS) se calcula usando el teorema de semejanza de triángulos. Por ejemplo, el tamaño del objeto se calcula como:

Donde “SOS” es el tamaño del objeto en el sensor, “H” es la distancia hiperfocal y “f es la distancia foca!.

[0039] Finalmente, se presenta el tamaño del objeto en el paso 42, por ejemplo, en un display del sistema. Para objetos desconocidos, se obtienen dos dimensiones a partir de la imagen: la altura y el ancho de! objeto.

[0040] En el caso de que el objeto es conocido, los píxeles que contienen al objeto se aíslan en el paso 43. El proceso se realiza para todo el conjunto de fotogramas. En el ejemplo de realización, el algoritmo de segmentación está basado en una red neuronal que aísla el objeto del fondo de la imagen (segmentación) y la salida es el área de píxeles que contiene el objeto. Por ejemplo, la segmentación se realiza usando un método U-Net tai y como describe O. Ronnenberger et a! en “Convolutionai Networks for Biomedical Image Segmentaron”, Medical image Computing and Computer-Assisted invention, 2015 que se incorpora completamente en este documento. El método U-Net está preentrenado con el conjunto de datos ImageNet y refinado con el conjunto de objetos conocidos. Se aplica al fotograma para obtener la segmentación, aunque se pueden emplear otros algoritmos que realicen segmentación. El método U-Net devuelve máscaras con la segmentación de los fotogramas. Las máscaras se aplican a los fotogramas para aislar el objeto de interés en todas las imágenes del conjunto de fotogramas.

[0041] A continuación, en el paso 42, el método identifica la imagen del conjunto de áreas aisladas que tenga el menor número f entre las imágenes que se consideren bien enfocadas basado en el umbral de la métrica de enfoque en el paso 44. Este paso es el mismo que se describe en el paso 38. igualmente, la distancia hiperfocal (H) se calcula en el paso 45 usando los parámetros de la cámara de la misma forma descrita en el paso 39.

[0042] En el ejemplo de realización la clasificación de la vista del objeto se ejecuta en el paso 47. La clasificación de la vista del objeto se realiza con una red neuronal diseñada específicamente para esta tarea. Esta red emplea una arquitectura VGG16 con parámetros similares a ios definidos por K. Simonyan et al en “Very Deep Convolutionai Networks For Large-Scale Image Recognition” (2014), que se incorpora en su totalidad en este documento, aunque se pueden usar otros algoritmos para realizar la misma tarea. La red neuronal fue entrenada con un conjunto de datos compuesto por 108 vistas de cada uno de los objetos conocidos. Aunque el número de vistas puede variar, este número de vistas permite maestrear el objeto cada 10 grados en las posiciones superior, central e inferior (ver FIG 4) y cubre el objeto completamente

[0043] La reconstrucción tridimensional del objeto se lleva a cabo en el paso 48. En una realización, la reconstrucción 3D del objeto se lleva a cabo por medio de una red neuronal ResNet-34 ajustada para identificar la reconstrucción 3D (ver FIG. 5) del objeto y producir información espacial basada en la información de la posición obtenida en el paso previo. La red neuronal se entrena con un conjunto de datos que incluye las 108 vistas de todos ios objetos conocidos y ios modelos 3D de reconstrucción para cada objeto. Una vez que se recupera el modelo 3D (esto es, que se ha identificado el modelo 3D de un objeto conocido), la reconstrucción 3D se ajusta a la vista del objeto que se ha aislado en la imagen seleccionada creando una correspondencia entre los puntos de la vista original del objeto contenidos en el conjunto de datos y el objeto aislado. Por ejemplo, si el área aislada se clasifica como la vista frontal media del cubo de Rubik (ver FIG. 5A), por medio de esta información el algoritmo recupera el modelo 3D del cubo de Rubik, y ajusta las dimensiones a las del objeto que ha sido aislado. En otro ejemplo, el área aislada se clasifica como vista lateral media de la regadera (ver FIG. 5C y 5D), se identifica el modelo 3D asociado de la regadera y se calculan las dimensiones de la misma ajustando las dimensiones a las del objeto aislado.

[0044] Se cuantifican una o más dimensiones del objeto en 49. En un ejemplo, las dimensiones del objeto se calculan de una forma parecida a la del paso 41. Si alguna parte del objeto está ocluida, las dimensiones se predicen a partir del modelo y de las dimensiones conocidas de las partes visibles. Por ejemplo, si el objeto identificado es un cubo de Rubik y la vista es frontal media, la profundidad no es visible tal y como se ve en la FIG. 5A. En este caso, la profundidad se deduce a partir del modelo y de las dimensiones conocidas visibles. En el caso de la vista lateral media de la regadera, la dimensión oculta es el ancho, y el algoritmo la deducirá. En el caso de un objeto conocido, se cuantifican las tres dimensiones del objeto: alto, ancho y profundo. [0045] El método de cálculo de las dimensiones de un objeto se puede emplear en distintas aplicaciones. Por ejemplo, el método se puede usar para automatizar el control del tamaño del equipaje en ios aeropuertos, donde una cámara puede determinar las dimensiones del equipaje de mano. En este caso, la invención ayudaría a reducir el tiempo de embarque

[0046] Otra aplicación es medir de forma automática el tamaño de los camiones para autorizar o no el acceso de vehículos de gran tamaño a carreteras que estos vehículos no pueden usar. [0047] Un tercer ejemplo de aplicación es la medida de paquetes para el servicio de correos, UPS o Fedex, de manera que ios costes de envío se puedan calcular automáticamente.

[0048] Las técnicas descritas aquí podrían implementarse en uno o varios programas de ordenador y podrían ejecutarse en uno o más procesadores. Los programas de ordenador incluyen instrucciones ejecutables por el procesador que se almacenan en un medio legible por ordenado tangible no-transitorio. Los programas de ordenador pueden incluir datos almacenados. Una lista no exhaustiva de ejemplos de un medio legible por ordenado tangible no-transitorio seria memoria no volátil, almacenamiento magnético o almacenamiento óptico.

[0049] Algunas partes de la descripción anterior presentan las técnicas descritas aquí en términos de algoritmos y representaciones simbólicas de operaciones con la información. Estas descripciones algorítmicas y representaciones son ios medios empleados por ios expertos en procesado de datos para transmitir de manera más efectiva el núcleo de su trabajo a otros expertos en la materia. Estas operaciones, aunque descritas funcionalmente o lógicamente, se entiende que se implementan con programas de ordenador. Además, también ha resultado conveniente referirse a estos conjuntos de operaciones como módulos o por medio de nombres funcionales, sin que esto implique pérdida de generalidad.

[0050] Salvo que se indique específicamente lo contrario, como se desprende de la discusión anterior, se aprecia que por medio de la descripción, discusiones usando términos tales como “procesado”, o “computación”, o “calculando”, o “determinando”, o “visualizando” o similares se refieren a la acción y procesos de un sistema informático, de un ordenador o de un dispositivo electrónico de computación similar, que manipula y transforma ios datos representados como cantidades físicas (electrónicas) dentro de la memoria o de ios registros del ordenador o de otros medios de almacenamiento de la información, transmisión o dispositivos de visualización de la información.

[0051] Algunos aspectos de las técnicas descritas incluyen pasos del proceso e instrucciones descritas aquí en forma de un algoritmo. Debe tenerse en cuenta que los pasos e instrucciones del proceso descritos pueden incorporarse en software, firmware o hardware, y que cuando están incorporados en software, pueden descargarse para residir y ser operados desde diferentes plataformas utilizadas por ios sistemas operativos de red en tiempo real.

[0052] La presente invención también se refiere a un aparato para realizar las operaciones descritas aquí. Este aparato podría ser construido específicamente para este propósito o puede comprender un ordenador activado selectivamente o reconfigurado por un programa de ordenador almacenado en un medio legible para el ordenador ai que pueda acceder dicho ordenador. Tal programa de ordenador podría ser almacenado en un medio tangible de almacenamiento legible para el ordenador tal como (esta lista no es exhaustiva) cualquier tipo de disco incluyendo discos flexibles (floppy disks), discos ópticos, CD-ROMs, discos magnetoópticos, memorias de solo lectura (ROMs), memorias de acceso aleatorio (RAMs), ERROMs, EEPROMs, tarjetas magnéticas u ópticas, circuitos integrados tipo ASIC, o cualquier tipo de medio que se pueda emplear para el almacenamiento de instrucciones electrónicas y acoplar a un bus de un sistema informático u ordenador. Además, los ordenadores a los que nos referimos en la especificación podrían incluir un único procesador o una arquitectura que emplease diseños multiprocesador para incrementar la capacidad computacional

[0053] Los algoritmos y operaciones que se presentan aquí no están relacionados inherentemente a un ordenador particular o a otro aparato. También se pueden usar varios sistemas con programas de acuerdo con lo descrito en este documento podría resultar conveniente construir aparatos más especializados para realizar los distintos pasos de este método. La estructura que requieren muchos de estos sistemas junto con sus variaciones equivalentes es obvia para los expertos en la materia. Adicionalmente, la presente invención no está descrita para un lenguaje de programación en particular. Hay que indicar que se pueden usar una variedad de lenguajes de programación para implementar la invención descrita en este documento.

[0054] Las anteriores realizaciones se han proporcionado con fines ilustrativos y descriptivos. Estas realizaciones no pretenden ser exhaustivas o limitar la invención. Los elementos individuales o características de una realización particular no están limitadas generalmente a esa realización particular, sino que, donde sea aplicable, pueden intercambiarse y pueden usarse en una realización seleccionada, incluso aunque esta no se haya mostrado o descrito específicamente. Esto mismo puede ser variado de muchas maneras. Dichas variaciones no deben considerarse como una desviación de la invención, y todas esas modificaciones deben ser incluidas dentro del alcance de la invención.