Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD OF 3D RECONSTRUCTION OF A SCENE CALLING UPON ASYNCHRONOUS SENSORS
Document Type and Number:
WIPO Patent Application WO/2013/083848
Kind Code:
A1
Abstract:
The invention relates to a method of 3D reconstruction of a scene, comprising the implementation of at least two sensors each comprising a series of elementary receivers arranged so as to view the scene according to distinct respective solid angles and which are each sensitive to a physical characteristic of a signal received by said receiver originating from the scene, the sensors each being adapted for emitting an asynchronous stream of events which are each indicative of a modification of the signal received by one of the elementary receivers at a given instant, as well as the implementation of a 3D reconstruction algorithm comprising a step of pairing elementary receivers of each of the sensors utilizing signals generated by the sensors, the pairing consisting in pairing between them events generated by each of the sensors and temporarily close together.

Inventors:
BENOSMAN RYAD (FR)
CARNEIRO JOAO (FR)
IENG SIO-HOI (FR)
Application Number:
PCT/EP2012/074989
Publication Date:
June 13, 2013
Filing Date:
December 10, 2012
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV PARIS CURIE (FR)
CENTRE NAT RECH SCIENT (FR)
International Classes:
H04N13/239
Domestic Patent References:
WO2008061268A12008-05-29
Other References:
BENOSMAN R ET AL: "Asynchronous Event-Based Hebbian Epipolar Geometry", IEEE TRANSACTIONS ON NEURAL NETWORKS, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 22, no. 11, 1 November 2011 (2011-11-01), pages 1723 - 1734, XP011411486, ISSN: 1045-9227, DOI: 10.1109/TNN.2011.2167239
PATRICK LICHTSTEINER ET AL: "A 128128 120 dB 15 s Latency Asynchronous Temporal Contrast Vision Sensor", IEEE JOURNAL OF SOLID-STATE CIRCUITS, IEEE SERVICE CENTER, PISCATAWAY, NJ, USA, vol. 43, no. 2, 1 February 2008 (2008-02-01), pages 566 - 576, XP011200748, ISSN: 0018-9200, DOI: 10.1109/JSSC.2007.914337
P. LICHTSTEINER; C. POSCH; T. DELBRUCK, IEEE JOURNAL OF SOLID STATE CIRCUITS, vol. 43, no. 2, February 2008 (2008-02-01)
See also references of EP 2789166A1
Attorney, Agent or Firm:
PARZY, Benjamin et al. (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé de reconstruction 3D d'une scène, com¬ portant :

la mise en œuvre d'au moins deux capteurs (0ι,02) comportant chacun une série de récepteurs élémen¬ taires arrangés pour observer la scène selon des angles solides respectifs distincts et qui sont chacun sensibles à une caractéristique physique d'un signal reçu par ledit récepteur en provenance de la scène ;

- la mise en œuvre d'un algorithme de reconstruc¬ tion 3D comportant une étape d' appariement de récepteurs élémentaires de chacun des capteurs exploitant des si¬ gnaux générés par les capteurs ;

caractérisé en ce que le procédé comporte l'utilisation de capteurs qui sont chacun adaptés à émet¬ tre un flux asynchrone d'événements (Ei) qui sont chacun indicatifs d'une modification du signal reçu par l'un des récepteurs élémentaires à un instant donné, 1 ' appariement consistant à apparier entre eux des événements générés par chacun des capteurs en sélectionnant des événements temporellement proches.

2. Procédé selon la revendication 1, dans lequel chaque événement comprend les données suivantes :

des données permettant d' identifier le récep- teur élémentaire ayant généré l'événement ;

un indicateur de la modification du signal perçu par ledit récepteur élémentaire et prenant au moins une première valeur si le signal reçu par le récepteur élémentaire a augmenté, et une deuxième valeur s'il a di- minué ; l'instant d'occurrence de la modification du signal .

3. Procédé selon la revendication 2, dans lequel 1 ' appariement comprend la sélection, pour un événement source généré par le premier capteur à un instant d'occurrence donné, de tout événement généré par le deuxième capteur et ayant eu lieu dans une fenêtre tempo¬ relle de largeur (ΔΤ) donnée autour de l'instant (t.) d'occurrence de l'événement source.

4. Procédé selon la revendication 3, dans lequel les capteurs présentent un plan focal, et dans lequel pour chaque événement sélectionné, on calcule une dis¬ tance entre un point du plan focal du deuxième capteur correspondant au récepteur élémentaire ayant généré ledit événement sélectionné et une ligne épipolaire dans ledit plan focal associée au récepteur élémentaire du premier capteur ayant généré l'événement source, puis on élimine tous les événements sélectionnés dont la distance ainsi déterminée est supérieure à une borne D donnée.

5. Procédé selon la revendication 3, dans lequel on élimine tous les événements sélectionnés dont l'indicateur n'a pas la même valeur que l'événement source .

6. Procédé selon la revendication 3, dans lequel on élimine tous les événements sélectionnés ayant déjà fait l'objet d'un appariement.

7. Procédé selon la revendication 1, dans lequel on met en œuvre au moins trois capteurs asynchrones (Ci,C2,C3) puis, après sélection temporelle, on retient un événement généré par chacun des capteurs de sorte que chacun desdits événements retenus se trouve à l'intersection des lignes épipolaires générées par les autres événements retenus dans le plan focal correspon¬ dant .

8. Procédé selon la revendication 1, dans lequel les capteurs comprennent des caméras de type CCD ou CMOS associées à un post-traitement adapté à générer le flux asynchrone .

9. Procédé selon la revendication 1 dans lequel les capteurs sont du type comportant des récepteurs qui, de façon indépendante et en continu, quantifient des changements relatifs d'intensité lumineuse pour générer des événements, de sorte à délivrer un flux asynchrone d ' événements .

Description:
Procédé de reconstruction 3D d'une scène faisant appel à des capteurs asynchrones

L' invention est relative à un procédé de recons ¬ truction 3D d'une scène faisant appel à des capteurs asynchrones.

ARRIERE PLAN DE L'INVENTION

Il est connu de procéder à des reconstructions en trois dimensions à partir d' images prises par au moins deux caméras synchronisées prenant des images de la même scène. Les premiers algorithmes de stéréovision sont ap ¬ parus dans les années 1970. Des progrès significatifs ont été proposés ces dernières années. Ces progrès portent sur des algorithmes d' appariement de plus en plus effica ¬ ces .

Les capteurs optiques utilisés comportent des ré ¬ cepteurs élémentaires (par exemple des pixels d'une camé ¬ ra) arrangés matriciellement pour voir la scène selon des angles solides respectifs distincts, et capturent des images de la scène à des intervalles réguliers (en géné- ral plusieurs images par seconde) . Chaque image est alors représentée par un tableau de valeurs (une par récepteur élémentaire) chacune représentative d'une caractéristique physique d'un signal reçu de la scène par le capteur élé ¬ mentaire correspondant, par exemple une intensité lumi- neuse.

Plus précisément, de tels capteurs optiques génè ¬ rent, à chaque pas de temps t k , et pour chaque récepteur élémentaire placé en x,y, des informations f k (x, y) = 8 (t, t k ) - f(x, y, t) . où f est l'intensité lumineuse perçue par le récepteur placé en x,y, et δ est le symbole de Kronecker. L'information renvoyée par un tel capteur est alors la matrice ou trame I k N,yG M , où N,M sont les dimensions de la matrice, cette information étant envoyée à chaque pas de temps .

Puis l'algorithme d' appariement recherche dans ces informations des motifs pouvant être dûs à un même élé ¬ ment de la scène et apparie entre eux les capteurs élé ¬ mentaires correspondants. Connaissant la position de ces récepteurs élémentaires ainsi appariés, il est facile de retrouver par triangulation le point de la scène qui a été vu par ces deux récepteurs élémentaires, et donc de l'intégrer dans la reconstruction 3D de la scène

Chaque image peut représenter une taille de plu ¬ sieurs mégaoctets, ce au rythme de plusieurs images par seconde (typiquement 24 images par seconde) , ce qui re- présente un débit considérable. Les algorithmes de re ¬ construction 3D procèdent alors à une recherche de motifs dans les images prises par les différents capteurs au même instant en vue d'apparier entre eux des motifs cor ¬ respondant à un même élément de la scène. Ces algorithmes requièrent des logiciels gourmands en puissance et en temps de calcul, qui ne sont pas envisageables pour des applications en temps réel.

OBJET DE L'INVENTION

L'invention a pour objet un procédé de reconstruc- tion 3D d'une scène permettant une mise en œuvre en temps réel avec des moyens de calcul raisonnables.

RESUME DE L'INVENTION

En vue de la réalisation de ce but, on propose un procédé de reconstruction 3D d'une scène, comportant :

- la mise en œuvre d'au moins deux capteurs com ¬ portant chacun une série de récepteurs élémentaires ar- rangés pour observer la scène selon des angles solides respectifs distincts et qui sont chacun sensibles à une caractéristique physique d'un signal reçu par ledit ré ¬ cepteur en provenance de la scène ;

- la mise en œuvre d'un algorithme de reconstruc ¬ tion 3D comportant une étape d' appariement de récepteurs de chacun des capteurs exploitant des signaux générés par les capteurs ;

Selon l'invention, le procédé comporte l'utilisation de capteurs qui sont chacun adaptés à émet ¬ tre un flux asynchrone d'événements qui sont chacun indi ¬ catifs d'une modification du signal reçu par l'un des ré ¬ cepteurs élémentaires à un instant donné, 1 ' appariement consistant à apparier entre eux des événements générés par chacun des capteurs en sélectionnant des événements temporellement proches.

L'utilisation de tels capteurs permet de diminuer spectaculairement le débit d' information issu des cap ¬ teurs et simplifie considérablement 1 ' appariement . L' appariement d'événements temporellement proches revient de fait à apparier les récepteurs sur chacun des capteurs ayant généré les événements ainsi appariés. L' appariement est très simple à mettre en œuvre, avec des moyens de traitement modestes.

Le procédé de reconstruction 3D de l'invention peut être mis en œuvre avec des moyens raisonnables, par exem ¬ ple un simple ordinateur personnel équipé de cartes d'acquisition idoines.

DESCRIPTION DES FIGURES

L'invention sera mieux comprise à la lumière des figures des dessins annexées, parmi lesquelles : - La figure 1 est un schéma illustrant les plans focaux de deux capteurs asynchrones observant une même scène selon l'invention ;

- La figure 2 est un chronogramme d'événements dé- tectés par les capteurs de la figure 1 ;

- La figure 3 est un schéma illustrant les plans focaux de trois capteurs asynchrones observant une même scène selon l'invention ;

- La figure 4 est un chronogramme d'événements dé- tectés par les capteurs de la figure 3.

DESCRIPTION DETAILLEE DE L'INVENTION

Dans le mode de mise en œuvre ci-dessous détaillé, en référence à la figure 1, on filme une scène à l'aide de deux capteurs Cl et C2 comportant chacun une caméra CCD ou CMOS (appelées gauche et droites respectivement) .

Chaque caméra comporte MxN pixels, assimilés chacun à un capteur élémentaire. Chaque pixel voit la scène selon un angle solide donné et est sensible à l'intensité lumi ¬ neuse reçue dans cet angle solide. Sur la figure 1 sont illustrés les plans focaux des deux capteurs Cl et C2.

Cependant, dans le cadre de l'invention, les camé ¬ ras ne sont pas utilisées de façon classique. Plutôt que d'utiliser la caméra pour lui faire générer des trames I k N,yG M à intervalles réguliers dont chaque information élémentaire est représentative de l'intensité lumineuse reçue par chaque pixel à l'instant t k , on s'intéresse ici à une information dérivée, en l'occurrence le sens de variation de l'intensité lumi ¬ neuse reçue par chacun des pixels. On s'intéresse ainsi à la quantité e(x,y,t) = qui peut prendre deux va- leurs : -1 si l'intensité lumineuse du signal reçu par le pixel diminue, et 1 si l'intensité lumineuse du signal reçu par le pixel augmente. On échantillonne cette quan ¬ tité pour des instants t k d'échantillonnage : e k (x,y) = 8(t,t k )- où δ est le symbole de Kronecker.

Ainsi, cet événement est indicatif d'une augmenta ¬ tion (+1) ou d'une diminution (-1) de l'intensité lumi ¬ neuse perçue par le pixel P xy situé en x,y au temps t k -

Une telle information peut par exemple être générée par un post-traitement de l'information d'intensité lumi ¬ neuse reçue issue de chacun des pixels de la caméra qui est implanté sur une carte de traitement numérique asso ¬ ciée à la caméra et qui est implantée soit dans la caméra proprement dite, soit dans l'ordinateur à laquelle la ca- méra est reliée.

L'information matricielle I k = {f k (x,y)},x G N,yG M habituellement générée par de telles caméras et exploitées pour la reconstruction 3D dans les procédés connus est alors remplacée selon l'invention par une information ma- tricielle E k ={e k (x,y)},x€ N,y<≡ M

Une telle information matricielle est nettement moins gourmande en espace mémoire qu'une image classique, puisque chaque donnée de l'information matricielle est facilement contenue dans un seul octet.

Cependant, plutôt que de transmettre les informa ¬ tions sous forme matricielle, il est possible, selon un aspect particulièrement avantageux de l'invention de transmettre un flux asynchrone d'événements Ei, chaque événement étant identifié par : des données permettant l'identification du pixel dont la quantité e a changé de valeur, en l'occurrence ici les coordonnées x,y du pixel P xy corres ¬ pondant ;

- l'instant du changement de valeur ;

un indicateur de la modification du signal perçu par le pixel, prenant en l'occurrence ici la valeur atteinte (-1 ;1) par la quantité e lors de ce changement (ci-après appelée valeur de l'événement).

Ce flux asynchrone peut se représenter par la nota ¬ tion suivante :

où Ει= [xi, yi, ti, ei] est le premier événement, et E n [x n , y n , t n , e n ] est le n-ième événement.

Ce flux asynchrone est ici généré par la carte électronique assurant le post-traitement des données de la caméra. Les informations d'identification de chaque événement sont d'une taille mémoire modeste et peuvent être envoyées de façon séquentielle. Ces informations ne sont bien sûr envoyées que si un événement E a effective ¬ ment été généré, ce qui diminue considérablement le débit nécessaire. En l'absence d'événement (par exemple scène fixe et caméra fixe), rien n'est envoyé. On a donc ainsi créé un signal asynchrone, pouvant être transmis au moyen d'une simple liaison série, mais contenant suffisamment d' informations pour permettre une reconstruction 3D de la scène, ainsi que cela va être maintenant détaillé.

A cet effet, un procédé d' appariement très simple est mis en œuvre selon l'invention à partir des évène- ments générés par les deux capteurs C1,C2 dont les camé ¬ ras filment la même scène. Le principe de cet appariement consiste à faire l'hypothèse qu'il est très probable que des événements temporellement proches générés par les deux caméras sont relatifs à un même motif ou point de la scène. On va donc chercher à apparier deux événements temporellement proches générés par le capteur de gauche et le capteur de droite. On aura ainsi réalisé un appa- riement tant spatial que temporel.

Cependant, si à un instant donné, un changement d' intensité lumineuse dû par exemple à un mouvement dans la scène affecte tel ou tel pixel sur les deux caméras et génère le cas échéant des événements pour chacun des cap ¬ teurs, il est peu probable que les instants d'occurrence de ces événements coïncident exactement entre eux. Tout d' abord, les caméras présentent un temps de latence pour réagir et générer les événements, qui varie d'ailleurs souvent pour chacun des pixels. Ensuite, des délais peu ¬ vent subvenir dans la génération de l'information et sa transmission. Il s'avère ainsi hasardeux d'apparier des événements sur la base uniquement d'une coïncidence tem- porelle exacte d'événements générés par les deux caméras.

Il est cependant possible de sélectionner, pour chaque événement Ei généré par la caméra de gauche (nommé événement de gauche, ou événement source, et dont on voit le pixel correspondant Pi sur la figure 1), un ensemble d'événements (ici les événements E 1 ,E 1 ',E 1 " , générés par la caméra de droite (nommés événements de droite et dont on voit les pixels correspondants P 1 ,P 1 ',P"7.) qui sont inter ¬ venus dans une fenêtre temporelle ΔΤ donnée autour de l'instant d'occurrence de l'événement de gauche comme ce- la est illustré à la figure 2. On sélectionne ainsi le ou les événements de droite temporellement proches de l'événement source. Evidemment, plus la fenêtre tempo ¬ relle est petite, moins l'ensemble ainsi déterminé contient d'événements de droite.

Cette sélection préliminaire permet de ne retenir qu'un nombre réduit d'événements de droite dont l'un sera apparié avec l'événement de gauche. Le cas échéant, un seul événement de droite est sélectionné. On a alors ré ¬ alisé 1 ' appariement recherché. Si ce n'est pas le cas, il s'agit alors de filtrer les événements de droite pour ne retenir que celui qui correspond à l'événement de gauche considéré. Pour cela, on applique au moins l'une des pro ¬ cédures de tri suivantes :

- on calcule pour chacun des événements de droite sélectionnés la distance entre le pixel correspondant et la ligne épipolaire Li dans le plan focal de la caméra de droite qui correspond au pixel P l lié à l'événement de gauche. On élimine alors tous les événements de droite dont la distance ainsi déterminée est supérieure à une borne D donnée. De préférence, la distance considérée est une distance euclidienne ;

on élimine tous les événements de droite sélec ¬ tionnés n'ayant pas la même valeur que celui de gauche. Ainsi, si l'événement de gauche correspond à une augmen ¬ tation d'intensité lumineuse, on ne retiendra que les événements de droite correspondant également à une aug ¬ mentation d' intensité lumineuse ;

on élimine tous les événements de droite sélec ¬ tionnés ayant déjà fait l'objet d'un appariement, selon l'application du principe d'unicité.

De préférence, les procédures de tri sont appliqués dans l'ordre indiqué, jusqu'à ne plus retenir qu'un seul événement de droite. Ces procédures de sélection et de tri sont très peu coûteuses en taille mémoire et temps de calcul, et peuvent dont être facilement mises en œuvre en temps réel avec des moyens raisonnables, par exemple un simple ordinateur personnel.

L' appariement de deux événements permet donc de dé ¬ terminer 1 ' appariement des deux pixels correspondants ainsi que l'instant où ces deux pixels doivent être appa ¬ riés. Une triangulation classique permet alors de déter- miner la position du point de la scène qui a été vu par les deux pixels ainsi appariés.

Selon un mode de mise en œuvre particulièrement avantageux, on utilise au moins trois capteurs pour ob ¬ server la même scène, comme illustré à la figure 3. L'explication qui suit est relative à l'utilisation de trois capteurs Ci,C2,C3 mais elle se généralise aisément à plus de trois capteurs.

L'utilisation d'au moins trois capteurs permet une discrimination fine des événements. Il faut pour cela connaître les matrices fondamentales F AB , F AC , F B c liant chaque paire de capteurs.

La mise en œuvre de la sélection temporelle, comme il est dit auparavant, permet de retenir un certain nom ¬ bre d'événements générés par chacun des capteurs et sus- ceptibles de correspondre au même point de la scène.

Par exemple ici, pour l'événement Ei de pixel Pi dans le plan de Ci, ont été sélectionnés les événements E 2 ,E 2 ,E 2 de pixels respectifs P 2 ,P 2 ,P 2 dans le plan de C 2 , et les événements E 3 ,E 3 ,E 3 de pixels respectifs P 3 ,P 3 ,P 3 dans le plan C . Pour déterminer lequel des événements E 1 ,E 1 ',E 1 " et E 3 ,E 3 ',E") correspondent à l'événement Ei, il suffit de dé ¬ terminer dans le plan de Ci à l'aide des matrices fonda ¬ mentales les lignes épipolaires correspondant à chacun de ces événements dans le plan de Ci. Le pixel Pi correspon ¬ dant à l'événement est alors à l'intersection de deux li ¬ gnes épipolaires (ici les lignes Li 2 et L 13 ) générées par deux événements (ici les événements E2 et E 3 de pixels P2 et P 3 ) .

Réciproquement, on constate que le pixel P2 est à l'intersection des lignes épipolaires L2 3 et L 2 i générées par les événements Ei et E 3 dans le plan de C 2 , et que le pixel P3 est à l'intersection des lignes épipolaires L 31 et L 3 2 générées par les événements Ei et E2 dans le plan de C3. Cette propriété permet de déterminer très rapide ¬ ment dans les événements sélectionnés temporellement ceux qui doivent être appariés.

L'invention n'est bien sûr pas limitée à ce qui vient d'être décrit, mais englobe au contraire toute va- riante entrant dans le cadre défini par les revendica ¬ tions .

Pour mettre en œuvre la procédure d' appariement , on pourra appliquer ces procédures de tri décrites dans l'ordre indiqué, ou dans un autre ordre. D'autres tris peuvent bien sûr être effectués, du moment que l'on appa ¬ rie entre eux des événements temporellement proches.

On pourra bien sûr utiliser d'autres capteurs que des caméras classiques dont le signal est traité pour dé ¬ livrer des événements relatifs à des modifications d'intensité lumineuse reçue par les pixels. On pourra par exemple utiliser des capteurs tels que ceux qui sont dé- crits dans l'article « A 128x128 120 dB 15 3 latency asynchronous temporal contrast vision sensor », P. Lichtsteiner, C. Posch, T. Delbruck, IEEE Journal of Solid State Circuits, Vol. 43, No 2, Février 2008. Ce type de capteur comporte des récepteurs qui, de façon in ¬ dépendante et en continu, quantifient des changements re ¬ latifs d'intensité lumineuse pour générer des événements. Le capteur délivre par construction un flux asynchrone d'événements et est tout à fait adapté au procédé de 1 ' invention .

Bien que dans l'exemple décrit le signal perçu par les récepteurs des capteurs est une intensité lumineuse, on pourra bien sûr utiliser des capteurs sensibles à d'autres signaux en provenance de la scène, comme par exemple un rayonnement infrarouge, une intensité sonore, un écho radar...

Bien que la modification du signal perçu par les récepteurs élémentaires est ici quantifiée de façon basi ¬ que (une première valeur pour une augmentation du signal, et une deuxième valeur pour une diminution du signal) , on pourra bien sûr quantifier ces modifications de façon plus élaborée, par exemple par niveaux de gris ou de cou ¬ leur par niveaux d'intensité lumineuse, au prix d'une augmentation modeste de la taille mémoire de l'indicateur de l'événement.

Bien sûr, les récepteurs élémentaires peuvent être de véritables récepteurs, disposés pour former ensemble un capteur dont le champ visuel comporte autant de pixels que de récepteurs élémentaires. Cependant, les récepteurs élémentaires peuvent être virtuellement crées en isolant informatiquement des zones élémentaires de la surface du capteur sensible audit signal pour chacune desquelles on détecte une modification d'une caractéristique physique du signal reçu dans ladite zone, et en générant autant de signaux que de zones individualisées. En particulier, si l'ensemble des récepteurs forment un même capteur peut affecter géométrie, non forcément plane. Par exem ¬ ple, l'ensemble des récepteurs peut être disposé selon une sphère. Dans de telles géométries, la ligne épipo- laire liée à un événement détecté par un autre capteur affectera plus généralement la forme d'une géodésique.

Bien évidemment, le procédé de l'invention s'applique à une scène mobile avec des capteurs fixes aussi bien qu'à une scène fixe avec des capteurs mobiles, par exemples vibrants.

Enfin, le procédé de l'invention se généralise im ¬ médiatement à l'utilisation de plus de deux capteurs asynchrones .