Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR DETERMINING THE GEOMETRIC PARAMETERS INDICATING THE MOVEMENT OF A CAMERA
Document Type and Number:
WIPO Patent Application WO/2013/135788
Kind Code:
A1
Abstract:
The invention relates to a method for determining the geometric parameters indicating the movement of a camera, which involves: recording a set of P video images of an action carried out over at least one segment of a surface having a texture, wherein each image p is, each time, at least partially segmented into a number N of areas; selecting, for each of the images of said set, a subset of M (M ≤ N) of said areas, each of the M areas having an image element continuing said texture; each time, forming a pair of the images p-i and p so as to then create a series of S (1 ≤ s ≤ S) geometric projections of said selected M areas and determine a rate of coincidence between the projected areas; and searching, from among the S geometric projections, for the geometric projection that provides the highest rate of coincidence between the areas of the images p-i and p.

Inventors:
WERY BRUNO (BE)
ROBA OLIVIER (BE)
MAGDELYNS SEBASTIEN (BE)
Application Number:
PCT/EP2013/055185
Publication Date:
September 19, 2013
Filing Date:
March 13, 2013
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
DELTACAST S A (BE)
International Classes:
G06T7/00
Other References:
TAKAHIRO MOCHIZUKI ET AL: "Fast identification of player position in soccer broadcast video by block-based camera view angle search", IMAGE AND SIGNAL PROCESSING AND ANALYSIS, 2009. ISPA 2009. PROCEEDINGS OF 6TH INTERNATIONAL SYMPOSIUM ON, IEEE, PISCATAWAY, NJ, USA, 16 September 2009 (2009-09-16), pages 408 - 413, XP031552050, ISBN: 978-953-184-135-1
MATTHEW BROWN ET AL: "Automatic Panoramic Image Stitching using Invariant Features", INTERNATIONAL JOURNAL OF COMPUTER VISION, vol. 74, no. 1, 26 April 2007 (2007-04-26), pages 59 - 73, XP055013133, ISSN: 0920-5691, DOI: 10.1007/s11263-006-0002-3
HYUNWOON KIM ET AL: "Robust Image Mosaicing of Soccer Videos using Self-Calibration and Line Tracking", PATTERN ANALYSIS & APPLICATIONS, vol. 4, no. 1, 27 March 2001 (2001-03-27), pages 9 - 19, XP055042530, ISSN: 1433-7541, DOI: 10.1007/s100440170020
Attorney, Agent or Firm:
QUINTELIER, Claude et al. (BE)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé de détermination des paramètres géométriques indiquant ie mouvement d'une caméra dont le centre optique reste immobile ou se déplace selon une trajectoire connue, laquelle caméra enregistre un ensemble comprenant P images vidéo d'une action qui se déroule sur au moins un segment d'une surface, ledit procédé étant destiné à permettre l'incrustation d'éléments graphiques dans les images vidéo, caractérisé en ce que le procédé comporte le stockage dans une mémoire des paramètres géométriques initiaux déterminés pour une image initiale (p=1 ; (1≤p≤P)) faisant partie de l'ensemble de P images enregistrées par la caméra, et suivant lequel chaque image p est chaque fois au moins partiellement segmentée en un nombre N de zones, et en ce que pour chacune des images dudit ensemble on sélectionne, soit dans une image précédente p-i (p-i≥1 ; i<p) soit dans l'image p considérée, un sous-ensemble de M (M≤N) desdites zones dont chacune des M zones possède un élément d'image qui reprend dans la surface une texture de nature essentiellement aléatoire et qui reste essentiellement inchangée pendant l'enregistrement de l'ensemble d'images, et en ce que l'on forme chaque fois un couple entre l'image p-i et l'image p pour réaliser ensuite une série de S (1 <s≤S) projections géométriques desdites M zones sélectionnées entre les images dudit couple et déterminer pour chaque projection (s) un taux de coïncidence entre les zones projetées, et en ce que l'on recherche parmi les S projections géométriques celle qui fournit le taux de coïncidence ie plus élevé entre les zones des images p-i et p, et en ce que l'on détermine les paramètres géométriques de l'image p considérée à partir des paramètres géométriques de l'image p-i et de la projection géométrique utilisée qui a mené au taux de coïncidence le plus élevé, ladite incrustation étant réalisée selon la perspective de la caméra dans le flux de l'ensemble d'images.

2. Procédé suivant la revendication 1 , caractérisé en ce que pour déterminer le taux de coïncidence de chacune des projections géométriques on recherche un maximum de corrélation entre les zones projetées d'une même projection.

3. Procédé suivant l'une des revendications 1 ou 2, caractérisé en ce que chaque image p de l'ensemble de P images est enregistrée en couleur par la caméra et transformée en image monochrome avant de déterminer le taux de coïncidence.

4. Procédé suivant l'une des revendications 1 à 3, caractérisé en ce que ledit couple d'images est ensuite filtré à l'aide d'un filtre spatial.

5. Procédé suivant l'une des revendications 1 à 4, caractérisé en ce que le procédé est appliqué à des images vidéo concernant un jeu qui est joué sur ladite surface, en particulier un jeu de football, rugby ou de tennis, ladite sélection des M zones étant réalisée par une détection du segment de jeu du surface qui constitue la surface de jeu, suivie de ladite répartition en zones dans ledit segment de jeu.

6. Procédé suivant la revendication 5, caractérisé en ce que ladite détection du segment de jeu est réalisée par une détection de couleur, ou est approximée par une détection du segment de jeu dans une autre image de l'ensemble des images.

7. Procédé suivant la revendication 5, caractérisé en ce qu'un opérateur de dilatation est appliqué aux zones ne faisant pas partie du segment de jeu.

8. Procédé suivant la revendication 6, caractérisé en ce que la sélection des zones est réalisée en recherchant dans la texture considérée successivement celles ne comportant pas de pixels inutilisables ou dont le nombre de pixels utilisables est en dessus d'un seuil pré-établi, en maximisant la distance entre la zone sélectionnée et le centre de gravité des zones déjà sélectionnées.

9. Procédé suivant l'une des revendications 5 à 8, caractérisé en ce que ladite surface comporte des lignes de jeu et en ce que les zones comportant de telles lignes de jeu ne font pas partie des M zones sélectionnées.

10. Procédé suivant la revendication 9, caractérisé en ce que Ton détermine un seuil de corrélation par zone et que l'on rejette ces zones pour lesquelles le seuii de corrélation n'est pas atteint.

11. Procédé suivant l'une des revendications 1 à 10, caractérisé en ce que ladite série de s projections est déterminée par une prédiction de mouvement continu entre l'image p et l'image p-i.

12. Procédé suivant l'une des revendications 1 à 10, caractérisé en ce que ladite sélection des zones est réalisée par une analyse de la distribution des valeurs de pixels dans l'image p ou l'image p-i de façon à rejeter soit des zones dont la distribution des valeurs de pixels est significativement différente de la distribution moyenne observée dans les zones sélectionnées, soit des zones pour lesquelles la variance de la distribution des valeurs de pixels serait étalée au-delà d'un seuil prédéterminé, soit les deux.

13. Procédé suivant la revendication 12, caractérisé en ce que l'on mesure la distribution de niveaux de luminance dans les N zones, et que l'on sélectionne les M zones comme étant celles pour lesquelles la distribution de luminance est concentrée dans une gamme prédéterminée.

14. Procédé suivant l'une des revendications 1 à 13, caractérisé en ce que la détermination du taux de coïncidence entre les zones projetées comporte une sélection préalable de ces projections qui comportent une correspondance entre les zones des images p et p-i.

15. Procédé suivant l'une des revendications 1 à 14, caractérisé en ce que l'angle de roulis de la caméra reste constant ou évolue suivant une trajectoire prédéterminée.

16. Procédé suivant l'une des revendications 1 à 15, caractérisé en ce qu'entre l'image p et une image p-j où p-j>1 et 3≤j<p un autre couple est formé pour réaliser ensuite une série de S' (1<s'≤S') projections géométriques des M' zones sélectionnées entre les images dudit autre couple et déterminer pour chaque projection s' un autre taux de coïncidence entre les zones projetées, et en ce que l'on recherche parmi les S' projections géométriques celle qui fournit un autre taux de coïncidence le plus élevé entre les zones des images p-j et p, et en ce que l'on détermine les paramètres géométriques de l'image p considérée à partir des paramètres géométriques de l'image p-i et p-j de la projection géométrique utilisée qui ont mené à l'autre taux de coïncidence le plus élevé.

17. Procédé suivant la revendication 16, caractérisé en ce que la sélection dudit sous-ensemble de M' zones reste inchangée pour un nombre prédéterminé d'images subséquentes.

18. Procédé suivant l'une des revendications 1 à 17, caractérisé en ce que la détermination des paramètres géométriques pour une image p (p≠1) est également faite par extrapoiation à partir des paramètres déterminés pour des images de l'ensemble.

19. Procédé suivant l'une des revendications 1 à 18, caractérisé en ce que les projections réalisées pour chaque image p sont corrigées à l'aide d'une fonction de correction établie pour la lentille de la caméra et le décentrage de cette lentille.

20. Procédé suivant l'une des revendications 1 à 19, caractérisé en ce que l'on utilise la détermination d'un vecteur de mouvement dans l'image pour la détermination du segment dans la surface.

2 . Procédé suivant l'une des revendications 1 à 20, caractérisé en ce que l'on remplace la série de projections par une série de translations linéaires des M zones entre l'image p et l'image p-i.

22. Procédé suivant l'une des revendications 1 à 21 , caractérisé en ce que Ton applique un filtrage adaptif sur les paramètres géométriques déterminés.

23. Procédé suivant l'une des revendications 1 à 22, caractérisé en ce qu'un filtrage adaptif est appliqué sur les paramètres géométriques déterminés, chaque paramètre étant considéré comme un signal échantillonné.

24. Procédé suivant l'une des revendications 1 à 23, caractérisé en ce qu'à partir des paramètres géométriques déterminés la distorsion des lentilles de la caméra est déterminée.

25. Procédé suivant l'une des revendications 1 à 24, caractérisé en ce des lignes de jeu sont détectées et la distance entre les lignes de jeu détectées dans l'image et la projection des lignes de jeu est utilisée pour corriger les paramètres géométriques déterminés.

Description:
Procédé de détermination des paramètres géométriques indiquant le mouvement d'une caméra.

La présente invention concerne un procédé de détermination des paramètres géométriques indiquant le mouvement d'une caméra dont le centre optique reste immobile ou se déplace selon une trajectoire connue, laquelle caméra enregistre un ensemble comprenant P images vidéo d'une action qui se dérouie sur au moins un segment d'une surface, ledit procédé étant destiné à permettre l'incrustation d'éléments graphiques dans les images vidéo.

Un tel procédé est par exemple connu de l'article de

Hyunwoo Kim et Ki Sang Hong intitulé «Robust image mosaicing of soccer videos using sel-calibration and line tracking» publié dans Pattern Analysis & Applications volume 4, no 1 , 27/03/2001 pages 9-19. Le procédé est appliqué dans le cadre de la retransmission télévisée d'un événement sportif, dans laquelle on fait appel aux techniques dites de «réalité augmentée». La réalité augmentée consiste à modifier l'image en y insérant des graphismes particuliers en trois dimensions, de façon à les faire apparaître en cohérence avec le contenu de l'image, en particulier en s'assurant que ces graphismes présentent une perspective équivalente à celle de la scène et sont modifiés en fonction des mouvements de la caméra, ainsi que des changements de zoom. Ces graphismes apparaissent alors comme faisant partie de la scène filmée. Ces techniques permettent également d'effectuer des mesures à partir de l'image. Par exemple, il est possible d'effectuer des mesures de distances et de positions. Pour pouvoir réaliser ces insertions ou ces mesures, il est nécessaire de connaître non seulement les caractéristiques géométriques de la scène, mais aussi les paramètres géométriques de la caméra.

Dans le cadre d'une retransmission télévisée, il est nécessaire de connaître ces paramètres pour chaque image du flux vidéo. Sachant que la position de la caméra est fixe, une méthode traditionnelle pour déterminer les paramètres géométriques de la caméra en mouvement est d'équiper la caméra avec des capteurs mesurant les angles et le facteur de zoom.

Les caractéristiques de décentrage et de distorsion de lentille sont généralement mesurées comme une fonction du facteur de zoom, et éventuellement du réglage de mise au point. La caméra est alors également équipée d'un capteur relatif à ce réglage, même s'il est généralement beaucoup moins significatif.

Toutefois, même si le montage de tels capteurs permet de mesurer le mouvement de la caméra, ceci est toutefois une opération complexe qui nécessite un calibrage et une infrastructure. De plus, il n'est pas toujours possible de pouvoir agir sur le capteur ou d'y avoir accès, en particulier lorsque l'image est reçue d'une caméra qui ne se trouve pas à l'endroit où l'image est traitée.

Un désavantage du procédé connu est qu'il fait usage de lignes qui sont présentes sur la surface, il est en effet pas toujours possible de bien distinguer dans l'image ces lignes, ce qui affecte alors la qualité des paramètres déterminés. De plus, il est également possible que de telles lignes n'existent pas dans l'image.

L'invention a pour but de réaliser un procédé où les paramètres géométriques indiquant le mouvement d'une caméra peuvent être obtenus à partir des images mêmes enregistrées par la caméra sans utiliser des lignes présentes dans l'image.

A cette fin un procédé suivant l'invention est caractérisé en ce que le procédé comporte le stockage dans une mémoire des paramètres géométriques initiaux déterminés pour une image initiale (p=1 ; (1≤p≤P)) faisant partie de l'ensemble de P images enregistrées par la caméra, et suivant lequel chaque image p est chaque fois au moins partiellement segmentée en un nombre N de zones, chaque zone n (1 <n<N) représentant une partie distincte dudit segment, et en ce que pour chacune des images dudit ensemble on sélectionne, soit dans une image précédente p-i (p-i≥1 ; i<p) soit dans l'image p considérée, un sous-ensemble de M (M≤N) desdites zones dont chacune des M zones possède un élément d'image qui reprend dans la surface une texture de nature essentiellement aléatoire et qui reste essentiellement inchangée pendant l'enregistrement de l'ensemble d'images, et en ce que l'on forme chaque fois un couple entre l'image p-i et l'image p pour réaliser ensuite une série de S (1<s≤S) projections géométriques desdites M zones sélectionnées entre les images dudit couple et déterminer pour chaque projection (s) un taux de coïncidence entre les zones projetées, et en ce que Ton recherche parmi les S projections géométriques celle qui fournit le taux de coïncidence le plus élevé entre tes zones des images p-i et p, et en ce que l'on détermine les paramètres géométriques de l'image p considérée à partir des paramètres géométriques de l'image p-i et de la projection géométrique utilisée qui a mené au taux de coïncidence le plus élevé, ladite incrustation étant réalisée selon la perspective de la caméra dans ie flux de l'ensemble d'images. Dans le procédé suivant l'invention on part des paramètres géométriques déterminés pour une image initiale et qui sont stockés en mémoire. Pour chaque image subséquente de l'ensemble, l'image subséquente est segmentée en N zones dont chacune de ces zones représente une partie distincte de l'image. Parmi ces N zones M sont choisies tant dans l'image p considérée, que dans une image précédente p-i pour réaliser une série de projections géométriques entre ces M zones sélectionnées. Cette sélection est de préférence réalisée en choisissant ces M zones où une correspondance entre l'image p et l'image p-i est présente. Ces projections permettent alors de déterminer pour chaque projection un taux de coïncidence entre les zones projetées. En effet, comme la caméra peut avoir subi un changement entre l'image p et p-i, comme par exemple un zoom ou une rotation, les différentes projections permettront de détecter le mouvement de la caméra, puisque celle qui aura le taux de coïncidence le plus élevé correspondra le mieux au mouvement que la caméra aura exécuté. On pourra ainsi, à partir des paramètres géométriques déterminés pour l'image p-i et à partir de la projection indiquant le mieux le mouvement de ia caméra, déterminer les paramètres géométriques de la caméra pour l'image p considérée.

Une première forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisée en ce que pour déterminer le taux de coïncidence de chacune des projections géométriques on recherche un maximum de corrélation entre les zones projetées d'une même projection. En recherchant le maximum de corrélation on permet une sélection fiable parmi la série de S projections de celle qui indique le mieux le mouvement de la caméra entre ie couple d'images p et p-i.

Une deuxième forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisée en ce que chaque image p de l'ensemble de P images est enregistrée en couleur par la caméra et transformée en image monochrome avant de déterminer ie taux de coïncidence. L'usage d'images en couleur facilite ie choix des M zones à sélectionner, car elles permettent d'utiliser le facteur couleur dans la sélection des M zones. On fait ainsi ressortir la structure de la surface tout en éliminant des éléments tels que des ombres ou d'autres variantes d'éclairage, qui peuvent perturber le bon fonctionnement du procédé.

Une troisième forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisée en ce que le procédé est appliqué à des images vidéo concernant un jeu qui est joué sur ladite surface, en particulier un jeu de football, rugby ou de tennis, ladite sélection des zones étant réalisée par une détection du segment de jeu de la surface qui constitue ia surface de jeu, suivie de ladite répartition en zones dans ledit segment de jeu. Dans les surfaces où des jeux tels que le football, rugby ou le tennis sont joués, il y a une surface ayant une couleur reiativement uniforme, comme le gazon vert pour le football ou la brique pillée rouge pour le tennis, même si cette couleur présente néanmoins des variantes aléatoires. Le fait que ce composant de couleur reste inchangé durant tout l'ensemble vidéo permet d'établir des zones de coïncidences entre les différentes images.

Une quatrième forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisée en ce que ladite détection du segment de jeu est réalisée par une détection de couleur, ou est approximée par une détection du segment de jeu dans une autre image de l'ensemble des images. En particulier dans le sport il y a des couleurs dominantes. Ainsi par exemple en football le vert de la surface est une couleur dominante. Détecter sur base d'une couleur dans l'image permet alors de détecter sur base d'un élément dominant dans l'image, ce qui augmente la fiabilité du procédé suivant l'invention.

Une cinquième forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisée en ce que l'on détermine un seuil de corrélation par zone et que l'on rejette ces zones pour lesquelles le seuil de corrélation n'est pas atteint. On réduit ainsi le temps de traitement en rejetant des zones qui ne comportent pas d'information relevante pour déterminer les paramètres géométriques. De plus on élimine les zones qui ne seraient pas en concordance suite à un événement temporel comme par exemple la présence d'un joueur.

Une sixième forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisée en ce que ladite série de s projections est déterminée par une prédiction de mouvement continu entre l'image p et l'image p-ï. Lorsque la caméra subit un mouvement, ce mouvement est en général un mouvement continu. Pour cette raison il y a un avantage de détecter et de sélectionner ce mouvement continu, ce qui permet alors une détection rapide et fiable. Une septième forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisée en ce que pour chaque image p≠1 les zones ne faisant pas partie de la surface de jeu sont éliminées. Ceci permet de rejeter dès le départ des zones qui sont sans intérêt.

Une huitième forme de réalisation préférentielle d'un procédé suivant l'invention est caractérisé en ce qu'entre l'image p et une image p-j où p-j>1 et 3 j<p un autre couple est formé pour réaliser ensuite une série de S' (1 <s'≤S') projections géométriques desdites M zones sélectionnées entre les images dudit autre couple et déterminer pour chaque projection s' un autre taux de coïncidence entre les zones projetées, et en ce que l'on recherche parmi les S' projections géométriques celle qui fournit un autre taux de coïncidence le plus élevé entre les zones des images p-j et p, et en ce que l'on détermine les paramètres géométriques de l'image p considérée à partir des paramètres géométriques de l'image p-i et p-j de la projection géométrique utilisée qui ont mené à l'autre taux de coïncidence le plus élevé. L'écart entre des images plus éloignées dans le temps entre-elles est généralement bien plus grand que l'écart présent entre deux images qui se suivent. Traiter avec des images plus éloignées dans le temps permet alors de corriger certaines déviations.

L'invention sera maintenant décrite en détails à l'aide des dessins qui illustrent des formes de réalisation préférées du procédé suivant l'invention. Dans les dessins :

la figure 1 illustre une surface d'un terrain de sport, en particulier de football avec une caméra;

la figure 2 illustre les angles autour desquels une caméra peut être bougée;

la figure 3 illustre la sélection des zones; la figure 4 illustre la re-projection conique d'une image à partir du même centre optique; et

la figure 5 illustre les différentes étapes du procédé suivant l'invention.

Dans les dessins un même signe de référence a été attribué à un même élément ou à un élément analogue.

La technique appelée de "réalité augmentée" est entre autres utilisée dans le cadre de la retransmission télévisée d'un événement sportif, comme du football, rugby ou du tennis. La réalité augmentée consiste à modifier l'image enregistrée par une caméra en y insérant des graphismes, en particulier en trois dimensions, de façon à les faire apparaître en cohérence avec le contenu de l'image, en particulier en s'assurant que ces graphismes présentent une perspective équivalente à celle de la scène et sont modifiés en fonction du mouvement de la caméra ainsi que des changements de zoom. L'insertion ou incrustation de ces éléments graphiques dans les images vidéo est réalisée selon la perspective de la caméra dans le flux de l'ensemble d'images. Ces graphismes apparaissent alors comme faisant partie de la scène filmée. Ces techniques permettent également d'effectuer des mesures à partir de l'image enregistrée par la caméra, comme par exemple des mesures de distances et/ou de positions.

La figure 1 illustre une surface d'un terrain de football 1 le long duquel une caméra 2 est installée pour capter des images de la surface et du jeu. La caméra 2 possède un axe optique 3. Elle peut également être pivotée autour d'un angle d'azimut a qui s'étend dans le plan x, y de la surface et forme l'angle entre un axe central 4 lié à la surface et l'axe optique 3 de la caméra. Considéré dans l'espace tridimensionnel x, y, z illustré dans la figure 2, la caméra peut également se bouger dans le sens de la hauteur suivant un angle d'élévation β qui se situe entre l'axe optique 3 et une ligne d'horizon 5. Enfin un angle de roulis γ se mesure entre la ligne d'horizon 5 et un axe 6 perpendiculaire à l'axe optique 3 et permet d'exprimer la rotation de la caméra dans le plan z, x.

L'insertion de graphismes dans l'image captée ou la mesure de distances et/ou de positions dans cette image nécessite de connaître non seulement les caractéristiques géométriques de la scène, mais également les caractéristiques géométriques de la caméra. Ces caractéristiques sont (voir figure 1) :

- la position 0 dans l'espace du centre optique de la caméra exprimée en coordonnées (x 0l yo, z 0 ) par rapport au référentiel (x, y, z) de la surface;

- la position angulaire, laquelle peut s'exprimer à t'aide de trois paramètres. Traditionnellement, on utilise la rotation autour d'un axe vertical (angle «d'azimut a»), l'inclinaison autour d'un axe horizontal perpendiculaire à l'axe optique de la caméra (angle «d'élévation β») ainsi que l'angle de rotation autour de l'axe optique (angle de «roulis y»). Cette définition correspond à la mécanique habituelle des supports de caméra, mais toute autre décomposition équivalente peut être utilisée.

- la distance focale de l'objectif (ou le facteur de zoom), exprimée par rapport à la taille du capteur ou de son intervalle d'échantillonnage (taille du pixel);

Dans certains cas, il est utile de tenir compte de paramètres supplémentaires tels que :

- le décentrage de l'axe optique par rapport au centre de l'image;

- les caractéristiques de l'objectif en terme de distorsions, généralement non linéaires.

On néglige généralement les paramètres de mise au point. Néanmoins, ils sont implicitement contenus dans les paramètres précédents à partir du moment où on suppose la mise au point correctement réalisée et la géométrie de la scène connue.

On notera que l'ensemble de ces paramètres, à l'exception des caractéristiques de l'objectif en terme de distorsions non-linéraires peuvent être exprimés sous la forme d'une matrice de projection conique en coordonnées homogènes. Cette matrice, reprise ci-dessous, exprime une relation entre les coordonnées de la scène et les coordonnées dans l'image.

a b 0 c

e 0 /

{x y Q, ) = (x, y, z, \)

h 0 i

l 0 m

où x, y et z représentent les coordonnées d'un point dans la scène et les rapports (x7w') et (y',w') représentent les coordonnées de la projection de ce point à partir de la surface dans l'image. Les valeurs a jusqu'à m représentent les valeurs mathématiques de îa projection qui peuvent par exemple être calculé à partir des angles de la distance focale et de la position de la caméra. L'usage des coordonnées homogènes est nécessaire pour pouvoir exprimer le fait que cette projection est une projection conique.

Il faut noter que la représentation matricielle de Sa projection conique n'est pas la seule façon de représenter cette projection. D'autres formes, telles qu'un jeu d'équations trigonométriques peuvent être utilisées. El est également possible d'incorporer des transformations non- linéaires pour tenir compte des distorsions non-linéaires des lentilles de la caméra. Une combinaison des différentes représentations peut également être utilisée.

Dans le cadre d'une retransmission télévisée, il est nécessaire de connaître ces paramètres pour chaque image du flux vidéo. Sachant que îa position de la caméra est fixe, une méthode traditionnelle pour déterminer les autres paramètres est d'équiper la caméra avec des capteurs mesurant les angles et le facteur de zoom.

Les caractéristiques de décentrage et de distorsion de lentille sont de préférence généralement mesurées comme une fonction du facteur de zoom, et éventuellement du réglage de mise au point. La caméra peut d'ailleurs être également équipée d'un capteur relatif à ce réglage, même s'il est généralement beaucoup moins significatif.

Dans le procédé suivant l'invention les paramètres géométriques indiquant le mouvement de la caméra (2) ne sont pas déterminés à partir des capteurs, mais obtenus par traitement de Γ ensemble de P images successives (1 ≤ p < P) enregistrées par la caméra. Ceci facilite un traitement en temps réel. Pour démarrer le procédé il faut toutefois déterminer les paramètres géométriques initiaux d'une image initiale (p = 1 ) de Γ ensemble de P images. La détermination de ces paramètres géométriques initiaux de l'image initiale (p = 1 ) peut être réalisée de diverses façons telles que :

• une mesure physique de la position de la caméra;

• la triangulation sur des points de l'image initiale ou de plusieurs images initiales;

· la mise en concordance de l'image avec des images de référence pour lesquelles ces mesures sont disponibles;

• la mise en correspondance d'un abaque de la surface avec le tracé de celui-ci dans une ou plusieurs images réelles.

Après que les paramètres géométriques initiaux ont été déterminés, les paramètres géométriques des images p ≠ 1 de P ensemble de p images seront déterminés sur base de ces images et à partir des paramètres géométriques initiaux à l'aide d'un procédé itératif. Ce procédé permet de produire des résultats visuellement satisfaisants, même si les paramètres géométriques initiaux ne sont que peu précis. Au cas où une erreur serait présente dans les paramètres géométriques initiaux, le procédé propagera cette erreur, mais produira néanmoins un résultat bien adapté au flux d'images analysées. Les meilleurs résultats lors de l'application du procédé suivant l'invention, sont obtenus à partir d'images qui retransmettent une action, comme un sport, qui se joue sur une surface de jeu de texture similaire, comme du football, du hockey sur gazon ou du tennis.

Le procédé suivant l'invention sera maintenant décrit à l'aide de l'organigramme illustré à la figure 3. Le procédé est de préférence exécuté à l'aide d'un ordinateur qui reçoit i' ensemble d'images P sous forme numérique. Le procédé s'applique de préférence sur une image en couleurs. Les images sont de préférence des images non entrelacées (vidéo progressive). Toutefois, le procédé n'est pas limité à des images non entrelacées et peut également s'appliquer à un ensemble d'images entrelacées. Dans le dernier cas soit un seul et même champ de chaque image sera pris en considération, soit un processus de désentretacement vidéo de !' ensemble sera appliqué de façon à reconstituer un ensemble d'images non entrelacées, soit à la fréquence d'image initiale, soit au double de cette fréquence. Le processus de désentrelacement peut, le cas échéant, être limité à une simple interpolation. Les deux champs d'images ainsi obtenus sont considérés comme deux images successives à la fréquence double de celle du flux initiai, ce qui nécessite toutefois une correction des positions des pixels.

Après que les paramètres géométriques initiaux pour l'image initiale (p = 1 ) de ensemble de P images enregistrées par la caméra ont été déterminés (étape 10), ces paramètres géométriques initiaux sont stockés dans une mémoire (11 ). Ces paramètres géométriques sont par exemple stockés sous la forme d'une structure binaire comprenant un premier champ indiquant l'angle d'azimut a, un deuxième champ indiquant l'angle de roulis y, un troisième champ indiquant l'angle d'élévation β et d'un quatrième champ indiquant le facteur zoom. Bien entendu d'autres champs peuvent être réservés dans la structure binaire pour indiquer d'autres valeurs.

Après le stockage dans la mémoire des paramètres géométriques initiaux, le procédé va prélever (12) l'image suivante (p = p + 1) dans l'ensemble de P images. Cette image suivante est alors segmentée en un nombre de N zones comme illustré à la figure 4. Chaque zone n (1 < n < N) représente une partie distincte de l'image de la surface.

La segmentation en zones d'une image a pour but de permettre dans une étape ultérieure du procédé une sélection parmi ces zones. Après que l'image considérée à été segmentée en N zones, on sélectionne parmi les N zones, soit dans une image précédente p— i (p— i > 1 ; i < p) soit dans l'image p considérée, un sous - ensemble de M (M < N) de zones. Chacune des M zones possède un élément d'image qui devrait potentiellement reprendre la texture de la surface.

La sélection des zones comporte deux étapes, à savoir la détection de la surface de la surface à prendre en considération et la sélection même des zones dans cette surface. La détection de !a surface de jeu de la surface est de préférence réalisée à l'aide d'un mécanisme basé sur une sélection par couleurs. En particulier dans une retransmission d'un match de football la couleur verte de la pelouse est une couleur dominante. La sélection peut ainsi se baser sur la couleur verte et les pixels qui ne comportent pas un composant couleur vert seront alors rejetés comme étant inutilisables pour ia détermination des paramètres géométriques. La sélection est réalisée en sélectionnant dans la surface considérée une texture de nature essentiellement aléatoire et qui reste essentiellement inchangée pendant l'enregistrement de l'ensemble des images. De telles textures sont par exemple formées par du gazon, de la terre battue, de la brique pliée, de la glace ou du parquet.

Le cas échéant il est également possible d'appliquer un opérateur de dilatation aux zones marquées comme étant inutilisables. Ceci permet alors de masquer des zones résiduelles, comme par exemple celles où se trouve dans l'image le public.

Dans le cas d'un jeu sur gazon, une sélection approximative peut être réalisée en marquant comme inutilisables tous les pixels dont la composante rouge est nettement marquée, une telle composante étant toujours présente dans la représentation des personnages (joueurs ou public), et rarement présente dans la surface. Une opération de dilatation appropriée permettra d'éliminer tous les pixels faisant partie de ces personnages.

Une sélection plus précise peut être obtenue à l'aide d'une méthode à deux étapes : une première étape approximative, avec un grand facteur de dilatation permet d'isoler des pixels appartenant à la surface de jeu. Les couleurs de ces pixels sont utilisées pour construire une table de couleurs faisant partie de la surface de jeu. Cette table est alors utilisée pour effecteur une seconde étape de sélection plus précise.

Il faut noter qu'il n'est pas essentiel de conserver tous les pixels faisant partie de la surface de jeu. L'important est d'en conserver suffisamment pour pouvoir procéder avec l'étape suivante (par exemple, disposer d'une surface permettant de sélectionner au moins trois ou quatre zones selon la méthode présentée ci-dessous).

La procédure de sélection des M zones peut s'effectuer sur l'ensemble des pixels de l'image faisant partie de la surface de jeu. Toutefois, il reste préférable de segmenter l'image en N zones, afin de minimiser l'impact des distorsions des lentilles utilisées dans !a caméra. En segmentant l'image en zones il est possible de ne considérer que ces zones contenant un maximum de pixels faisant partie de la surface de jeu. Ayant segmenté l'image en zones, comme par exemple illustré à la figure 4, il devient possible de sélectionner que M de ces N zones pour ainsi réduire le temps de traitement, puisque le traitement ne se fera que sur cette partie de l'image qui contient de l'information pertinente pour réaliser le traitement.

Un exemple non limitatif de mécanisme de sélection applicable dans le cas d'une implémentation en temps réel est ie suivant :

• Présélectionner un ensemble de M zones dont la position est fixe. La taille des zones sera maximisée en considérant les distorsions de lentilles attendues. Il est préférable que les distorsions de lentilles restent négligeables (inférieures au pixel).

• L'exemple de la figure 4 montre une façon de prédéterminer ces zones dans le cas d'un flux vidéo SD (Simple Définition). Par exemple les zones de 60 pixels par 60 pixels sont réparties dans l'image en privilégiant le bas de celle-ci. On privilégie le bas de l'image car la surface à prendre en considération y sera beaucoup plus fréquemment présent et la texture de la surface y est plus visible ;

• Sélectionner les zones successivement en recherchant celles ne comportant pas de pixels inutilisables ou dont le nombre de pixels utilisables est en dessus d'un seuil (par exemple, un millier de pixels), en maximisant la distance entre la zone sélectionnée et le centre de gravité des zones déjà sélectionnées. Ainsi par exemple on va considérer dans un match de football les zones qui comportent du gazon car celles là font partie de la surface de jeu. Plus le nombre de zones sera grand, plus le processus sera précis.

• La sélection des M zones dans l'image peut également être réalisée en choisissant ces zones qui possèdent un élément d'image en commun. La sélection est alors réalisée sur base du contenu de l'image et du degré de distribution de cet élément dans l'image. Les zones qui possèdent un élément d'image en commun sont sélectionnées sur base de leur contenu. Les zones qui possèdent un élément d'image en commun sont également sélectionnées sur base du degré de distribution de cet élément dans l'image.

La sélection des M zones peut également être réalisée sur base d'une détection de vecteurs de mouvement différentiel dans l'image considérée. L'usage de vecteurs de mouvement est connu en soi et utilisée dans par exemple la compression d'images. Dans cette forme de réalisation on sélectionnera les zones sur base des vecteurs de mouvement. Uniquement ces zones où les vecteurs de mouvement sont considérés comme concordantes sur l'ensemble de l'image, par exemple moins de 5 % de changement, seront sélectionnés. Une telle technique permet également d'appliquer le procédé sur des images strictement monochromes.

Les ombres portées qui font parfois partie du contenu de l'image, en particulier les ombres des joueurs, peuvent perturber le procédé de détermination des paramètres géométriques, car il s'agit d'éléments de texture variables et mobiles, d'autant qu'ils seront difficiles à détecter par sélection de couleurs. Pour réduire l'impact de ces ombres des filtres mettant en évidence les grands changements de dynamique peuvent être utilisés. Il est également possible de mesurer la dynamique de l'image dans les zones où de telles ombres se produisent. Le but est de marquer les pixels qui correspondent à de grands changements dynamiques comme ne faisant pas partie de la représentation de la surface. Alternativement on peut ne pas sélectionner des zones qui comportent de tels changements dynamiques. On sélectionne les zones par une analyse de !a distribution des valeurs de pixels dans l'image p ou l'image p-i de façon à rejeter soit des zones dont la distribution des valeurs de pixels est significativement différente de la distribution moyenne observée dans les zones sélectionnées, soit des zones pour lesquelles la variance de ia distribution des valeurs de pixels serait étalée au-delà d'un seuil prédéterminé, soit les deux.

Après qu'un sous-ensemble de M (M N) zones qui possèdent chacune un élément d'image qui reprend la texture a été sélectionné on forme (étape 15) chaque fois un couple entre une image précédente p - i et l'image actuelle p. Après la formation du couple (p - i, p) d'images une série de S (1 < s < S) projections géométriques desdites M zones sélectionnées est réalisée (16) entre les images p - i et p du couple. Sur base de chaque projection (s) on détermine (17) un taux de coïncidence (TC) entre les zones projetées. La série de S projections est par exemple déterminée par un procédé itératif de recherche de minimum du taux de coïncidence. Ainsi on débute par un taux d'échantillonnage vers ces zones où l'on obtient un minimum ou un maximum du taux de coïncidence.

On recherche ensuite parmi les S projections géométriques celle qui fournit le taux de coïncidence le plus élevé entre les zones d'images p - i et p. Pour cela l'on prend chaque taux de coïncidence TCs de chaque projection s (18, 19). On vérifie (20) si le taux TCs est plus élevé que le taux stocké (TM) est si c'est le cas le taux TCs est stocké (21 ) au lieu du taux TM. Si le taux TCs est inférieur au taux TM, l'on prend !a prochaine projection et cela jusqu'à ce que chaque projection a été considérée (22; s = S).

Pour réaliser cette projection il est préférable de travailler sur des images monochromes car cela réduit le temps de traitement et permet ainsi un traitement en temps réel.

L'image monochrome est dérivée de l'image en couleur par la combinaison des canaux de couleur produisant le plus grand contraste dans la texture de la surface. Si l'image est représentée en composantes rouge-vert-bleu (RGB), on peut travailler efficacement sur le canal vert. On peut également travailler sur un canal de luminance. En pratique, tout canal ou toute combinaison maintenant un bon contraste dans la texture de la surface peut être utilisé.

On notera également que cette combinaison peut être adaptée au cours du temps de façon à maximiser la dynamique de la texture de la surface en fonction des conditions d'éclairage. L'image monochrome obtenue peut être filtrée avant le passage à l'étape suivante. Les filtrages peuvent avoir plusieurs objectifs :

• Pour réduire la puissance de calcul nécessaire, on appliquera un filtre passe-bas sur l'image, de façon à pouvoir appliquer un sous-échantillonnage à ces images lors de l'étape de sélection des zones ;

• Un filtre passe-bande ou un filtre dérivateur dans l'espace de l'image peut être appliqué pour éliminer des structures visuelles telles que les ombres de grande taille ou les "lignes de tontes" présentes dans la texture du gazon ou de la surface, ou encore pour réduire les composantes de bruit présentes dans l'image.

L'élimination des lignes de tontes et des ombres est destinée à éviter des confusions lors de l'étape suivante, qui pourraient survenir suite à la comparaison de zones différentes, contenant un "dessin" marqué similaire.

matrice suivante définit un exemple non limitatif de noyau de filtrage approprié.

0 0 0 _ 1 - 1 - 1 0 0 0

0 - 1 0 0 0 0 0 -1 0

0 0 0 0 0 0 0 0 0

- 1 0 0 2 2 2 0 0 - 1

- 1 0 0 2 0 2 0 0 - 1

- 1 0 0 2 2 2 0 0 -1

0 0 0 0 0 0 0 0 0

0 - 1 0 0 0 0 0 - 1 0

0 0 0 - 1 - 1 - 1 0 0 0

Pour former lesdits couples d'images (p - i, p) on utilise les éléments d'images exprimés en leur valeur d'intensité. A partir de ces éléments d'images on calcule des coordonnées de projection s de l'image p - i dans l'image p. Pour déterminer un taux de coïncidence on utilise les valeurs successives de chacun des couples d'éléments d'images pour calculer une valeur de corrélation, soit :

Si n représente le nombre d'éléments d'image en correspondance dans la zone, L, la luminance de l'élément de l'image p mis en correspondance via la projection avec l'élément de l'image p - i dont la luminance est R,.

A partir des valeurs de corrélation il est possible de déterminer un taux de coïncidence en éliminant d'abord les projections dont la valeur de corrélation est inférieure à un seuil prédéterminé. Ensuite on calcule la moyenne de la valeur de corrélation des zones restantes pour autant que le nombre des zones restantes sont supérieures à un seuil prédéterminé.

La méthode selon l'invention recherchera le jeu de paramètres qui maximise (ou tend à maximiser) la valeur du taux de coïncidence sur chaque zone tout en maximisant le nombre de zones proposant une valeur de corrélation élevée. Ceci est par exemple réalisé en comparant les taux de coïncidence entre eux et en déterminant ainsi la projection ayant fourni le taux de coïncidence le plus élevé.

Les corrélations obtenues sont pertinentes dans la mesure où les zones comparées font partie de la surface de jeu, car la texture de cette surface ne change pas significativement dans le temps, alors qu'elle peut être considérée comme aléatoire dans l'espace.

Pour cela il peut être nécessaire de dériver une mesure de satisfaction du jeu des valeurs de corrélations.

Une méthode simple mais non limitative consiste à, pour chaque jeu de paramètres candidats :

• Déterminer un seuii de corrélation à partir duquel une zone est considérée pour la distance (par exemple, une petite valeur positive de 0,1 à 0,2). Modifier le seuil de comparaison modifie les caractéristiques de précision et de robustesse du procédé ;

· Rejeter les zones pour lesquelles ce seuil n'est pas atteint ;

• Rejeter les solutions pour lesquelles un nombre suffisant de zones en corrélation n'est pas atteint. Puis sélectionner le jeu de paramètres candidats qui maximisent le niveau de corrélation moyen pour les zones sélectionnées, en le pondérant sur base du nombre de zones.

On notera enfin les points suivants :

• Qu'il n'est pas forcément nécessaire de calculer les corrélations sur tous les pixels valides d'une zone, ceux-ci pouvant être sous-échantillonnés ;

• La détermination des pixels appartenant à la surface de jeu peut également se faire sur l'image courante. Dans ce cas, on ne tiendra pas compte des paires de pixels correspondant à des zones rejetées ;

• Une interpolation peut être utilisée car il se peut que les coordonnées de la projection d'un élément de l'image p - i dans l'image p ne correspondent pas entièrement aux coordonnées exactes dans l'image p ;

• Si les zones sélectionnées sont suffisamment petites, il est possible d'approximer la fonction de projection pour chaque élément de la zone par une fonction déduite par interpolation de la projection obtenue pour un nombre restreint de points, par exemple si la zone est carré, les points d'angle de ces zones.

La projection géométrique desdites M zones sélectionnées sera maintenant décrite plus en détails à l'aide de la figure 5. Dans cette figure le point 0 représente le centre optique de la caméra, la ligne i r l'image p - i d'origine et ia ligne l rp l'image p - i ré-projetée qui se trouve à la distance focale f équivalente de la ré-projection. L'image d'origine se trouve à une distorsion focale f du centre optique. Dans un but de simplification les distances des lentilles et le décentrage des objectifs ne seront pas pris en considération.

La projection d'un point U de l'image p - i{plan Ir) sur l'image p (point V du plan Irp) est en réalité une projection perspective. Si on considère que la distance entre les éléments d'image est la même dans les deux projections, que cette distance est la même selon l'axe x et l'axe y, et que les centres optiques sont les origines des systèmes de référence, la formule de la transformation est où C est la matrice de projection conique associé à l'image p, les matrices R représentent trois rotations et Tr est une matrice de translation permettant de transférer le référentiel du centre de l'image de départ ("image caméra Ir") vers le point de rotation O (position effective de la caméra).

Nous considérons ici que le passage d'une position à l'autre s'effectue en modifiant l'angle d'élévation avant et après la rotation en azimut, ce qui correspond à la mécanique d'un pied de caméra. C'est pourquoi il y a trois rotations.

Les matrices de rotation s'expriment sous la forme suivante, si Θ est l'angle d'azimut de la cible par rapport à l'image d'origine, Φ 1 l'angle d'élévation de la position cible et Φ 2 l'angle d'élévation d'origine.

atrice de projection conique C s'exprime sous ia forme

Où F représente la distance focale de la caméra pour l'image dans laquelle on effectue ia projection finale.

La matrice Tr s'exprime :

où f représente la distance focale de la caméra à partir de laquelle la projection est effectuée.

Après avoir déterminé (étape 21 ) ia projection géométrique qui fournit le taux de coïncidence le plus élevé entre (es zones des images p - i et p, il devient possible de déterminer (23) les paramètres géométriques de l'image p considérée à partir des paramètres géométriques de l'image p - i et de la projection géométrique utilisée qui a mené au taux de coïncidence le plus élevé. Sur base des éléments d'images de la zone m ainsi sélectionnée et des paramètres géométriques de l'image p - i, on déterminera les paramètres géométriques de l'image p en utilisant ceux de l'image p - i pour la zone m et en les adaptant ainsi pour former ceux de la zone m de l'image p qui deviendront ainsi les paramètres géométriques de l'image p.

Ajouter les angles de rotation de la projection sélectionnée à ceux de p-i et reprenant la distance focale correspondante à cette projection.

De préférence les paramètres géométriques sont exprimés en termes d'une matrice de projection conique en coordonnées homogènes. Ceci facilite le calcul des paramètres géométriques.

La présence de segments de ligne de la surface dans l'image peut également perturber le processus en provoquant des confusions entre des zones différentes comportant des dessins similaires. Il faut remarquer qu'en cas de présence de lignes, les valeurs de corrélation obtenues ne dépendront quasiment que de ces lignes et non de la texture de la surface. Or c'est la texture de la surface qui rend le calcul en corrélation pertinent. Ce phénomène est tout à fait similaire à celui rencontré avec les lignes de tontes et les grandes ombres portées.

On peut complémenter le mécanisme de détection de la surface de jeu en marquant tes pixels appartenant à ces lignes comme ne faisant pas partie de la représentation de cette surface. On évitera ainsi la sélection de zones comportant de tels pixels ou on minimisera cette situation dans les zones effectivement sélectionnées.

Le marquage des pixels appartenant aux lignes peut se faire :

• A l'aide d'un processus détecteur de lignes ;

· Par sélection de couleur, par exemple en tenant compte du paramètre de saturation de couleur ;

• En projetant la représentation des lignes connues en terme de géométries dans l'image, en se servant des paramètres déterminés par le procédé. Dans tous les cas, des opérations de dilatation des zones marquées peuvent être nécessaires pour palier aux imprécisions.

La nature différentielle du procédé le rend sensible aux problèmes d'accumulation d'erreurs. Il en découle une dérive préjudiciable à son utilisation sur de longues ensembles.

Le procédé peut être amélioré en comparant l'image capturée à l'instant " H avec une image capturée et traitée précédemment ("référence distante"), cette image étant utilisée tant qu'elle conserve une portion commune suffisante avec l'image courante, par exemple 50 % en commun. Lorsque la mise en correspondance de l'image de référence distante s'avère impossible, cette image de référence est remplacée par la dernière image pour laquelle le procédé a permis de déterminer les paramètres géométriques. On parvient ainsi à minimiser les problèmes d'accumulation d'erreurs. Comme pour le procédé de base, la sélection des zones peut se faire aussi bien sur l'image courante que sur l'image de référence distante. La sélection peut aussi s'opérer simultanément sur les deux images de façon à maximiser le nombre de zones utiles et la surface utile dans celles-ci, en tenant compte d'une première approximation du résultat (par exemple par prédiction à partir du résultat obtenu pour l'image précédente). On peut également se servir de la sélection réalisée sur l'image précédente.

L'écart entre une référence distante et l'image courante est généralement bien plus grande que l'écart présent avec l'image de référence à court terme. Cela implique des gammes de recherche plus grandes. Il est possible d'effectuer une première recherche à l'aide de la référence à court terme, puis d'effectuer une recherche de raffinement sur base de la référence distante, autour de la solution obtenue durant la première étape.

Lors de l'utilisation d'une référence distante, du fait des écarts entre cette image distante et cette image courante, il se peut qu'une grande partie de cette image distante ne puisse pas être mise en correspondance par projection avec l'image courante. Partant du principe que l'image courante p est fort proche de l'image p - i court terme, la sélection des zones sur l'image p - i à long terme peut être modifiée pour que ne soient utilisées que des zones se projetant à l'intérieur de l'image p - i à court terme. Dans le cas ou ce choix vient impossible, on pourra remplacer cette référence distante par la dernière image pour laquelle la procédure de recherche a réussi.

Afin de minimiser les recherches, il est possible de centrer la gamme des paramètres de recherche autour de valeurs prédites sur base des valeurs précédentes. Cette prédiction peut se faire par exemple sur base d'une régression linéaire. Cette prédiction permet également de disposer d'un jeu de paramètres alternatif en cas d'échec des procédures de recherche.

Partant de l'hypothèse que les différences de paramètres géométriques entre l'image p - i à court terme et l'image courante p sont faibles, il est possible de trouver une forte corrélation entre les zones de l'image p - i et leur projection dans l'image courante p par simple translation. Dès lors, il est possible de faire précéder l'étape de recherche décrite ci-dessus par une étape préliminaire, dans laquelle chaque zone est traitée indépendamment, et analysée en corrélation avec une zone proche obtenue par translation. Si une corrélation forte est obtenue pour une zone, le processus de recherche pourra être guidé et donc accéléré efficacement en appliquant un critère de correspondance entre le centre des zones des deux images.

Le point d'entrée du processus est une première image pour laquelle les paramètres de caméra sont connus. Le procédé conduisant à ce résultat ne fait pas partie de l'invention. Néanmoins, le procédé choisi pourrait être appliqué à d'autres images du flux vidéo. Dans ce cas, il est possible de corriger le résultat du procédé faisant partie de l'invention. L'application progressive de ces corrections peut- être nécessaire lorsque le résultat du processus est utilisé pour l'incrustation d'éléments dans l'image.

Les résultats du processus de recherche sont généralement entachés d'un bruit. Ce bruit est la résultante de plusieurs sources dont :

• L'utilisation de zones de comparaison différentes lors du traitement d'images successives, qui peuvent conduire à des résultats différents du fait d'éléments perturbateurs ou de l'imprécision du modèle de la caméra (par exemple, les distorsions d'objectif) ;

• Les distorsions induites par la caméra en cas de mouvements rapides (durée de l'intégration du capteur, fonctionnement de l'obturateur, effets de balayage, etc.) ;

• Des éléments variables dans l'image tels que de la fumée, des ombres mobiles (nuages); des objets mobiles imprévus (par exemple des papiers lancés par les spectateurs), etc ;

· Le bruit thermique présent dans les images, qui ne sera pas totalement rejeté par le processus.

Ces sources vont conduire à de petites erreurs, le plus souvent aléatoires, dans le résultat obtenu pour chaque trame vidéo. Ce bruit correspond souvent à une erreur de projection inférieure à la taille du pixel, mais de telles erreurs sont visibles.

Un filtre appliqué sur l'ensemble de paramètres de caméra obtenue par le procédé peut être appliqué, en considérant l'ensemble de chaque paramètre comme un signal échantillonné.

Appliquer un simple filtre linéaire éliminera des composantes introduisant des tremblements dans les éléments insérés dans l'image. Cependant, un filtrage linéaire uniforme entraînera des effets de glissement de ces insertions lors de changements de mouvement brusque de la caméra.

L'application d'un filtre adaptatif, contrôlé à partir des dérivées successives des signaux à filtrer permet d'éviter ce problème. L'objectif est alors de détecter les changements brusques de direction et d'éviter l'application du filtre autour de ces changements.

Lors d'une grande accélération ou décélération de la caméra on ré- initialisera la référence à long terme et on commence à partir de la ré- initialisation.