Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR DETECTING AND MONITORING THE FACE OF A PERSON WEARING GLASSES IN A VIDEO STREAM
Document Type and Number:
WIPO Patent Application WO/2022/153009
Kind Code:
A1
Abstract:
The invention relates to a method for monitoring the face (125) of a person (120) in a video stream acquired by an image acquisition device (130), glasses (110) being worn on the face. The monitoring method comprises a step of evaluating parameters of a face representation comprising a model of the pair of glasses and a model of the face, such that the face representation is superimposed on the image of the face in the video stream, the parameters being evaluated in relation to a plurality of characteristic points in the face representation which have been previously detected in a video stream image which is referred to as the first image and in which all or some of the representation parameters are evaluated, taking into account at least one constraint regarding the proximity between at least one point in the model of the face and at least one point in the model of the pair of glasses.

Inventors:
CHOUKROUN ARIEL (FR)
GUENARD JÉROME (FR)
Application Number:
PCT/FR2022/050067
Publication Date:
July 21, 2022
Filing Date:
January 13, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
FITTINGBOX (FR)
International Classes:
G06T7/246
Domestic Patent References:
WO2016135078A12016-09-01
WO2013139814A22013-09-26
WO2018002533A12018-01-04
WO2019020521A12019-01-31
Foreign References:
US20170068121A12017-03-09
US20190108687A12019-04-11
FR2955409A12011-07-22
Other References:
MANINCHEDDA FABIO ET AL: "Fast 3D Reconstruction of Faces with Glasses", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE COMPUTER SOCIETY, US, 21 July 2017 (2017-07-21), pages 4608 - 4617, XP033249816, ISSN: 1063-6919, [retrieved on 20171106], DOI: 10.1109/CVPR.2017.490
Attorney, Agent or Firm:
IPSIDE (FR)
Download PDF:
Claims:
33

REVENDICATIONS Procédé (200) de suivi d’un visage (125) d’un individu (120) dans un flux vidéo acquis par un dispositif d’acquisition d’images (130), le visage portant une paire de lunettes (110), le flux vidéo comprenant une pluralité d’images acquises successivement, caractérisé en ce que le procédé de suivi comprend une étape (220, 235) d’évaluation de paramètres d’une représentation du visage comprenant un modèle de la paire de lunettes et un modèle du visage de telle sorte que ladite représentation du visage se superpose à l’image du visage dans le flux vidéo, dans lequel tout ou partie des paramètres de la représentation sont évalués en tenant compte d’au moins une contrainte de proximité entre au moins un point du modèle du visage et au moins un point du modèle de la paire de lunettes. Procédé de suivi selon la revendication précédente, dans lequel les paramètres de la représentation comprennent des valeurs externes à la représentation du visage et des valeurs internes à la représentation du visage, les valeurs externes comprenant une position tridimensionnelle et une orientation tridimensionnelle de la représentation du visage par rapport au dispositif d’acquisition d’images, les valeurs internes comprenant une position tridimensionnelle et une orientation tridimensionnelle du modèle de la paire de lunettes par rapport au modèle du visage, lesdits paramètres étant évalués par rapport à une pluralité de points caractéristiques de ladite représentation du visage, préalablement détectés dans une image du flux vidéo, dite première image, ou dans un jeu d’images acquises simultanément par une pluralité de dispositif d’acquisition d’images, le jeu d’images comprenant ladite première image. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel tout ou partie des paramètres de la représentation sont mis à jour par rapport à la position de tout ou partie des points caractéristiques, suivis ou détectés, dans une deuxième image du flux vidéo ou dans une deuxième série d’images acquises simultanément par la pluralité de dispositif d’acquisition d’images, le deuxième jeu d’images comprenant ladite deuxième image. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel tout ou partie des paramètres de la représentation sont également évalués en tenant compte d’au moins une contrainte de proximité entre un point tridimensionnel d’un des modèles inclus dans la représentation du visage et au 34 moins un point, ou une ligne de niveau, inclus(e) dans au moins une image du flux vidéo. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel tout ou partie des paramètres de la représentation sont également évalués en tenant compte d’au moins une contrainte de dimension d’un des modèles inclus dans la représentation du visage. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel le procédé comprend une étape d’appariement de deux points distincts appartenant soit à l’un des deux modèles compris dans la représentation du visage, soit chacun à un modèle distinct parmi les modèles compris dans la représentation du visage. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel le procédé comprend une étape préalable d’appariement d’un point d’un des deux modèles compris dans la représentation du visage avec au moins un point d’une image acquise par un dispositif d’acquisition d’images. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel, au cours de l’évaluation des paramètres de la représentation, un alignement du modèle de la paire de lunettes avec une image de la paire de lunettes dans le flux vidéo est effectué consécutivement à un alignement du modèle du visage avec une image du visage dans le flux vidéo. Procédé de suivi selon la revendication précédente, dans lequel l’alignement du modèle du visage est effectué en minimisant la distance entre des points caractéristiques du visage détectés dans l’image du visage et des points caractéristiques du modèle du visage projetés dans ladite image du visage. Procédé de suivi selon l’une quelconque des revendications 8 à 9, dans lequel l’alignement du modèle de la paire de lunettes est effectué en minimisant la distance entre au moins une partie du contour de la paire de lunettes dans l’image et une partie de contour similaire du modèle de la paire de lunettes projeté dans ladite image. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel les paramètres de la représentation comprennent tout ou partie de la liste suivante : une position tridimensionnelle de la représentation du visage ; une orientation tridimensionnelle de la représentation du visage ; • une taille du modèle de la paire de lunettes ;

• une taille du modèle du visage ;

• une position tridimensionnelle relative entre le modèle de la paire de lunettes et le modèle du visage ;

• une orientation tridimensionnelle relative entre le modèle de la paire de lunettes et le modèle du visage ;

• un ou des paramètre(s) de configuration du modèle de la paire de lunettes ;

• un ou des paramètre(s) de configuration du modèle du visage ;

• un ou des paramètre(s) de la caméra. Procédé de suivi selon la revendication précédente, comprenant des étapes de :

• détection d’une pluralité de points du visage dans une première image du flux vidéo ;

• initialisation du jeu de paramètres du modèle du visage par rapport à l’image du visage dans ladite première image initiale ;

• détection d’une pluralité de points d’une paire de lunettes portée par le visage de l’individu dans une deuxième image du flux vidéo, dite deuxième image initiale, la deuxième image initiale étant soit postérieure ou antérieure à la première image initiale dans le flux vidéo, soit identique à la première image dans le flux vidéo ;

• initialisation du jeu de paramètres du modèle de la paire de lunettes par rapport à l’image de la paire de lunettes dans ladite deuxième image initiale. Procédé de suivi selon la revendication précédente, dans lequel l’initialisation des paramètres du modèle du visage est effectuée par l’intermédiaire d’une méthode d’apprentissage profond analysant tout ou partie des points détectés du visage. Procédé de suivi selon la revendication précédente, dans lequel la méthode d’apprentissage profond détermine également une position initiale du modèle du visage dans le repère tridimensionnel. Procédé de suivi selon l’une quelconque des revendications précédentes, comprenant également une étape de détermination d’une échelle de l’image de la paire de lunettes portée par le visage de l’individu par l’intermédiaire d’une dimension dans l’image d’un élément de taille connue de la paire de lunettes. Procédé de suivi selon la revendication précédente, dans lequel la détermination de l’échelle est effectuée par l’intermédiaire d’une reconnaissance préalable de la paire de lunettes portée par le visage de l’individu. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel des images acquises par un deuxième dispositif d’acquisition d’images sont utilisées pour évaluer les paramètres de la représentation. Procédé de suivi selon l’une quelconque des revendications précédentes, dans lequel le modèle de la paire de lunettes de la représentation correspond à une modélisation préalable de ladite paire de lunettes, et varie uniquement en déformation. Procédé de réalité augmentée comprenant des étapes de :

• acquisition d’au moins un flux d’images d’un individu portant une paire de lunettes sur son visage par au moins un dispositif d’acquisition d’images ;

• suivi du visage de l’individu par un procédé de suivi selon l’une quelconque des revendications 1 à 18, une position et une orientation d’une représentation du visage ;

• modification de tout ou partie des images dudit ou d’un desdits flux d’images, appelé flux vidéo principal, acquis par le dispositif d’acquisition d’images ou par l’un des dispositifs d’acquisition d’images, appelé dispositif principal d’acquisition d’images, grâce à la représentation du visage se superposant en temps réel au visage de l’individu sur le flux vidéo principal ;

• affichage sur un écran du flux vidéo principal modifié précédemment. Dispositif électronique comportant une mémoire informatique stockant des instructions d’un procédé selon l’une quelques des revendications précédentes.

Description:
Procédé de détection et de suivi dans un flux vidéo d’un visage d’un individu portant une paire de lunettes

DOMAINE TECHNIQUE DE L’INVENTION

[1] Le domaine de l’invention est celui de l’analyse d’images.

[2] Plus précisément, l’invention concerne un procédé de détection et de suivi dans un flux vidéo d’un visage d’un individu portant une paire de lunettes.

[3] L’invention trouve notamment des applications pour l’essayage virtuel d’une paire de lunettes. L’invention trouve également des applications en réalité augmentée ou diminuée sur un visage porteur de lunettes, avec notamment l’occultation à l’image de la paire de lunettes portée par l’individu, combiné ou non avec l’ajout de lentilles, de bijoux et/ou de maquillage. L’invention trouve également des applications pour la prise de mesure ophtalmique (PD, monoPD, hauteurs, etc.) sur une paire de lunettes portée réellement ou virtuellement par un individu.

ÉTAT DE LA TECHNIQUE

[4] Il est connu de l’art antérieur des techniques qui permettent de détecter et de suivre un visage d’un individu dans un flux vidéo.

[5] Ces techniques sont généralement basées sur la détection et le suivi de points caractéristiques du visage, tels qu’un coin des yeux, un nez ou un coin d’une bouche. La qualité de la détection du visage est généralement fonction du nombre et de la position des points caractéristiques utilisés.

[6] Ces techniques sont généralement fiables pour détecter et suivre un visage d’un individu sans accessoire dans un flux vidéo.

[7] De telles techniques sont notamment décrites dans le brevet français publié sous le numéro FR 2955409 et dans la demande internationale de brevet publiée sous le numéro WO 2016/135078, de la société déposant la présente demande de brevet.

[8] Toutefois, lorsque l’individu porte une paire de lunettes comprenant des verres correcteurs, la qualité de la détection du visage a tendance à se dégrader car une partie des points caractéristiques utilisés au cours de la détection, généralement les coins des yeux, sont généralement déformés par les verres assemblés dans la monture, voire masqués lorsque les verres sont teintés. En outre, même si les verres ne sont pas teintés, il arrive que la monture masque une partie des points caractéristiques utilisés lors de la détection. Lorsqu’une partie des points caractéristiques est invisible ou leur position à l’image est déformée, le visage détecté, représenté par un modèle, est généralement décalé en position et/ou en orientation par rapport au visage réel, voire à la mauvaise échelle.

[9] Aucun des systèmes actuels ne permet de répondre simultanément à tous les besoins requis, à savoir de proposer une technique de suivi d’un visage portant une paire de lunettes réelle, qui soit plus précis et plus robuste aux mouvements de l’individu, afin d’offrir un rendu amélioré de réalité augmentée.

EXPOSÉ DE L’INVENTION

[10] La présente invention vise à remédier à tout ou partie des inconvénients de l’état de la technique cités ci-dessus.

[11] À cet effet, l’invention vise, un procédé de suivi d’un visage d’un individu dans un flux vidéo acquis par un dispositif d’acquisition d’images, le visage portant une paire de lunettes, le flux vidéo comprenant une pluralité d’images acquises successivement.

[12] Le procédé de suivi comprend une étape d’évaluation de paramètres d’une représentation du visage comprenant un modèle de la paire de lunettes et un modèle du visage de telle sorte que ladite représentation du visage se superpose à l’image du visage dans le flux vidéo.

[13] Selon l’invention, tout ou partie des paramètres de la représentation sont évalués en tenant compte d’au moins une contrainte de proximité entre au moins un point du modèle du visage et au moins un point du modèle de la paire de lunettes.

[14] A titre d’exemple, une contrainte de proximité peut par exemple définir qu’une branche de la paire de lunettes repose au niveau de la jonction entre le pavillon de l’oreille et le crâne, du côté supérieur, à savoir du côté de l’hélix.

[15] En d’ autres termes, la contrainte de proximité est définie entre une zone du modèle du visage et une zone du modèle de la paire de lunettes, la zone pouvant être un point ou un ensemble de points, tel qu’une surface ou une arête.

[16] On entend par proximité une distance nulle ou inférieure à un seuil prédéterminé, par exemple de l’ordre de quelques millimètres.

[17] Ainsi, l’utilisation d’une contrainte de proximité au cours de l’évaluation des paramètres de la représentation du visage permet d’obtenir une pose plus fidèle de la représentation du visage par rapport à la caméra, avec un nombre limité de calculs. Un suivi en temps réel de l’individu peut par conséquent être effectué de manière plus robuste au regard de mouvements inopinés de l’individu par rapport au dispositif d’acquisition d’images.

[18] En outre, l’utilisation conjointe du modèle de la paire de lunettes et du modèle du visage permet d’améliorer la position du visage, notamment par rapport au suivi d’un visage sans lunettes. En effet, dans ce dernier cas, la position des points caractéristiques des tempes est généralement imprécise. Le suivi de la paire de lunettes permet d’apporter une meilleure estimation de la pose de la représentation du visage dans la mesure où les branches de la paire de lunettes se superposant aux tempes de l’individu permettent d’obtenir des informations plus précises sur les points caractéristiques détectés dans une zone de l’image comprenant une tempe de l’individu.

[19] Préférentiellement, les paramètres de la représentation comprennent des valeurs externes à la représentation du visage et des valeurs internes à la représentation du visage, les valeurs externes comprenant une position tridimensionnelle et une orientation tridimensionnelle de la représentation du visage par rapport au dispositif d’acquisition d’images, les valeurs internes comprenant une position tridimensionnelle et une orientation tridimensionnelle du modèle de la paire de lunettes par rapport au modèle du visage, lesdits paramètres étant évalués par rapport à une pluralité de points caractéristiques de ladite représentation du visage, préalablement détectés dans une image du flux vidéo, dite première image, ou dans un jeu d’images acquises simultanément par une pluralité de dispositif d’acquisition d’images, le jeu d’images comprenant ladite première image.

[20] En d’autres termes, la représentation du visage pouvant être appelée avatar comprend des paramètres externes de positionnement et d’orientation dans un environnement tridimensionnel, et des paramètres internes de positionnement et d’orientation relatifs entre le modèle du visage et le modèle de la paire de lunettes. D’autres paramètres internes peuvent être ajoutés tels que les paramètres de configuration de la paire de lunettes : type de monture, taille de monture, matériau, etc. Les paramètres de configuration peuvent également comprendre des paramètres liés à la déformation de la monture de la paire de lunettes et notamment des branches, lorsque la paire de lunettes est portée sur le visage de l’individu. De tels paramètres de configuration peuvent être par exemple les angles d’ouverture ou de fermeture des branches par rapport à un plan de référence tel qu’un plan principal, ou tangent, de la face de la paire de lunettes.

[21] La représentation du visage comprend des modèles tridimensionnels du visage et de la paire de lunettes.

[22] Dans des modes particuliers de mise en œuvre de l’invention, tout ou partie des paramètres de la représentation sont mis à jour par rapport à la position de tout ou partie des points caractéristiques, suivis ou détectés, dans une deuxième image du flux vidéo ou dans une deuxième série d’images acquises simultanément par la pluralité de dispositif d’acquisition d’images, le deuxième jeu d’images comprenant ladite deuxième image.

[23] Ainsi, la mise à jour des paramètres de la représentation, et notamment des valeurs de positionnement et d’orientation relatifs entre le modèle de la paire de lunettes et le modèle du visage, voire des paramètres de configuration, permet d’obtenir un suivi du visage de l’individu plus robuste et plus précis.

[24] Avantageusement, la deuxième image ou le deuxième jeu d’images présente une vue du visage de l’individu selon un angle distinct de celui de la première image ou du premier jeu d’images.

[25] Dans des modes particuliers de mise en œuvre de l’invention, tout ou partie des paramètres de la représentation sont également évalués en tenant compte d’au moins une contrainte de proximité entre un point tridimensionnel d’un des modèles inclus dans la représentation du visage et au moins un point, ou une ligne de niveau, inclus(e) dans au moins une image du flux vidéo.

[26] Dans des modes particuliers de mise en œuvre de l’invention, tout ou partie des paramètres de la représentation sont également évalués en tenant compte d’au moins une contrainte de dimension d’un des modèles inclus dans la représentation du visage.

[27] Dans des modes particuliers de mise en œuvre de l’invention, le procédé comprend une étape d’appariement de deux points distincts appartenant soit à l’un des deux modèles compris dans la représentation du visage, soit chacun à un modèle distinct parmi les modèles compris dans la représentation du visage.

[28] L’appariement de deux points permet notamment de contraindre une relation de distance entre ces deux points, telle qu’une proximité ou une dimension connue entre ces deux points. Une dimension connue est par exemple une distance interpupillaire pour un visage, une largeur d’une monture, une taille caractéristique ou moyen d’un iris, ou toute combinaison de ces valeurs selon une ou des loi(s) de distribution autour d’une valeur moyenne connue de l’un de ces valeurs.

[29] Dans des modes particuliers de mise en œuvre de l’invention, le procédé comprend une étape préalable d’appariement d’un point d’un des deux modèles compris dans la représentation du visage avec au moins un point d’une image acquise par un dispositif d’acquisition d’images.

[30] L’appariement d’un point d’un modèle avec un point d’une image ou un ensemble de points tel qu’une courbe de niveau, est généralement effectué automatiquement.

[31] Dans des modes particuliers de mise en œuvre de l’invention, au cours de l’évaluation des paramètres de la représentation, un alignement du modèle de la paire de lunettes avec une image de la paire de lunettes dans le flux vidéo est effectué consécutivement à un alignement du modèle du visage avec une image du visage dans le flux vidéo.

[32] Dans des modes particuliers de mise en œuvre de l’invention, l’alignement du modèle du visage est effectué en minimisant la distance entre des points caractéristiques du visage détectés dans l’image du visage et des points caractéristiques du modèle du visage projetés dans ladite image.

[33] Dans des modes particuliers de mise en œuvre de l’invention, l’alignement du modèle de la paire de lunettes est effectué en minimisant la distance entre au moins une partie du contour de la paire de lunettes dans l’image et une partie de contour similaire du modèle de la paire de lunettes projeté dans ladite image.

[34] Il convient en effet de souligner que le modèle de la paire de lunettes est un modèle 3D. Une projection de ce modèle 3D est ainsi effectuée dans l’image afin de déterminer un contour similaire qui est utilisé dans le calcul de minimisation de la distance avec le contour de la paire de lunettes détectée dans l’image.

[35] Dans des modes particuliers de mise en œuvre de l’invention, les paramètres de la représentation comprennent également un jeu de paramètres de configuration du modèle du visage et/ou un jeu de paramètres de configuration du modèle de la paire de lunettes.

[36] Les paramètres de configuration du modèle du visage ou ceux du modèle de la paire de lunettes peuvent être par exemple des paramètres morphologiques caractérisant respectivement la forme et la taille du modèle du visage ou celles du modèle de la paire de lunettes. Les paramètres de configuration peuvent également comprendre des paramètres de déformation du modèle, notamment dans le cadre d’une paire de lunettes, pour tenir compte de la déformation d’une branche voire de la face de la paire de lunettes, voire de l’ouverture/fermeture de chaque branche par rapport à la face de la paire de lunettes.

[37] Dans le cadre du modèle de visage, les paramètres de configuration peuvent également comprendre des paramètres d’ouverture et de fermeture des paupières, de la bouche, ou encore des paramètres liés aux déformations de la surface du visage dues aux expressions.

[38] Dans des modes particuliers de mise en œuvre de l’invention, les paramètres de la représentation comprennent tout ou partie de la liste suivante :

- une position tridimensionnelle de la représentation du visage ;

- une orientation tridimensionnelle de la représentation du visage ;

- une taille du modèle de la paire de lunettes ;

- une taille du modèle du visage ;

- une position tridimensionnelle relative entre le modèle de la paire de lunettes et le modèle du visage ;

- une orientation tridimensionnelle relative entre le modèle de la paire de lunettes et le modèle du visage ;

- un ou des paramètre(s) de configuration du modèle de la paire de lunettes ;

- un ou des paramètre(s) de configuration du modèle du visage ;

- un ou des paramètre(s) de la caméra.

[39] Dans des modes particuliers de mise en œuvre de l’invention, le procédé de suivi comprend des étapes de :

- détection d’une pluralité de points du visage dans une première image du flux vidéo ;

- initialisation du jeu de paramètres du modèle du visage par rapport à l’image du visage dans ladite première image initiale ;

- détection d’une pluralité de points d’une paire de lunettes portée par le visage de l’individu dans une deuxième image du flux vidéo, dite deuxième image initiale, la deuxième image initiale étant soit postérieure ou antérieure à la première image initiale dans le flux vidéo, soit identique à la première image dans le flux vidéo ;

- initialisation du jeu de paramètres du modèle de la paire de lunettes par rapport à l’image de la paire de lunettes dans ladite deuxième image initiale. [40] Dans des modes particuliers de mise en œuvre de l’invention, l’initialisation des paramètres du modèle du visage est effectuée par l’intermédiaire d’une méthode d’apprentissage profond analysant tout ou partie des points détectés du visage.

[41] Dans des modes particuliers de mise en œuvre de l’invention, la méthode d’apprentissage profond détermine également une position initiale du modèle du visage dans le repère tridimensionnel.

[42] Dans des modes particuliers de mise en œuvre de l’invention, le procédé de suivi comprend également une étape de détermination d’une échelle de l’image de la paire de lunettes portée par le visage de l’individu par l’intermédiaire d’une dimension dans l’image d’un élément de taille connue de la paire de lunettes.

[43] Dans des modes particuliers de mise en œuvre de l’invention, la détermination de l’échelle est effectuée par l’intermédiaire d’une reconnaissance préalable de la paire de lunettes portée par le visage de l’individu.

[44] Dans des modes particuliers de mise en œuvre de l’invention, des images acquises par un deuxième dispositif d’acquisition d’images sont utilisées pour évaluer les paramètres de la représentation.

[45] Dans des modes particuliers de mise en œuvre de l’invention le modèle de la paire de lunettes de la représentation correspond à une modélisation préalable de ladite paire de lunettes, et varie uniquement en déformation.

[46] La forme et la taille du modèle de la paire de lunettes restant invariant, cela permet d’obtenir une meilleure résolution dans un temps de calcul plus court.

[47] L’ invention vise également un procédé de réalité augmentée comprenant des étapes de :

- acquisition d’au moins un flux d’images d’un individu portant une paire de lunettes sur son visage par au moins un dispositif d’acquisition d’images ;

- suivi du visage de l’individu par un procédé de suivi selon l’un quelconque des modes de mise en œuvre précédents, une position et une orientation d’une représentation du visage ;

- modification de tout ou partie des images dudit ou d’un desdits flux d’images, appelé flux vidéo principal, acquis par le dispositif d’acquisition d’images ou par l’un des dispositifs d’acquisition d’images, appelé dispositif principal d’acquisition d’images, grâce à la représentation du visage se superposant en temps réel au visage de l’individu sur le flux vidéo principal ; - affichage sur un écran du flux vidéo principal modifié précédemment.

[48] Il convient de souligner que les étapes du procédé de réalité augmentée sont avantageusement effectuées en temps réel.

[49] L’ invention vise également un dispositif électronique comportant une mémoire informatique stockant des instructions d’un procédé de suivi ou de réalité augmentée selon l’un quelconque des modes de mise en œuvre précédents.

[50] Avantageusement, le dispositif électronique comprend un processeur apte à traiter des instructions dudit procédé.

BRÈVE DESCRIPTION DES FIGURES

[51] D’autres avantages, buts et caractéristiques particulières de la présente invention ressortiront de la description non limitative qui suit d’au moins un mode de réalisation particulier des dispositifs et procédés objets de la présente invention, en regard des dessins annexés, dans lesquels :

- la figure 1 est une vue schématique d’un dispositif de réalité augmentée mettant en œuvre un mode de mise en œuvre du procédé de détection et de suivi selon l’invention ;

- la figure 2 est un schéma synoptique du procédé de détection et de suivi mis en œuvre par le dispositif de réalité augmentée de la figure 1 ;

- la figure 3 représente une vue du masque d’une paire de lunettes (sous-figure a) et de la répartition des points du contour du masque selon des catégories (sous-figures b et c) ;

- la figure 4 est une vue en perspective de la face d’un modèle de paire de lunettes, avec et sans enveloppe extérieure (respectivement sous figure b et a) ;

- la figure 5 illustre l’étape de régression du procédé de la figure 2 à l’aide d’un extrait d’une image acquise par le dispositif d’acquisition d’images du dispositif de la figure 1 , sur laquelle est superposée un modèle d’une paire de lunettes ;

- la figure 6 illustre les contraintes de positionnement entre un modèle de la paire de lunettes et un modèle du visage ;

- la figure 7 est une vue en perspective d’un modèle paramétrique (3DMM) d’une paire de lunettes ;

- la figure 8 est une vue simplifiée de la face du modèle paramétrique de la figure 7. DESCRIPTION DÉTAILLÉE DE MODES DE RÉALISATION DE L’INVENTION

[52] La présente description est donnée à titre non limitatif, chaque caractéristique d’un mode de réalisation pouvant être combinée à toute autre caractéristique de tout autre mode de réalisation de manière avantageuse.

[53] On note, dès à présent, que les figures ne sont pas à l’échelle.

Exemple d’un mode de réalisation particulier

[54] La figure 1 représente un dispositif 100 de réalité augmentée utilisé par un individu 120 portant une paire de lunettes 110 sur son visage 125. La paire de lunettes 110 comprend usuellement une monture 111 comportant une face 112 et deux branches 113 s’étendant de part et d’autre du visage de l’individu 120. En outre, la face 112 permet notamment de porter des verres 114 placés à l’intérieur des deux cercles 115 configurés dans la face 112. Deux plaquettes (non représentées sur la figure 1 ) sont solidarisées chacune en saillie sur le bord d’un cercle 115 distinct de telle sorte qu’elles puissent reposer sur le nez 121 de l’individu 120. Un pont 117 reliant les deux cercles 115 chevauchent le nez 121 lorsque la paire de lunettes 110 est portée par le visage de l’individu 120.

[55] Le dispositif 100 comprend un dispositif principal d’acquisition d’images, en l’occurrence une caméra 130, acquérant une pluralité d’images successives formant un flux vidéo, s’affichant en temps réel sur un écran 150 du dispositif 100. Un processeur informatique 140 inclus dans le dispositif 100 traite en temps réel les images acquises par la caméra 130 selon les instructions d’un procédé suivi selon l’invention qui sont stockées dans une mémoire informatique 141 du dispositif 100.

[56] Optionnellement, le dispositif 100 peut également comprendre au moins un dispositif secondaire d’acquisition d’images, en l’occurrence au moins une caméra secondaire 160, pouvant être orienté similairement ou différemment par rapport à la caméra 130, permettant d’acquérir un deuxième flux d’images du visage 125 de l’individu 120. Auquel cas, il convient de souligner que la position et l’orientation relative de la caméra secondaire 160, ou de chaque caméra secondaire, par rapport à la caméra 130 sont généralement avantageusement connues.

[57] La figure 2 illustre sous la forme d’un schéma synoptique le procédé 200 de suivi dans le flux vidéo acquis par la caméra 130 du visage de l’individu 120.

[58] Tout d’abord, il convient de souligner que le procédé 200 de suivi est généralement mis en œuvre en boucle sur des images, généralement successives, du flux vidéo. Pour chaque image, plusieurs itérations de chaque étape peuvent être effectuées notamment pour la convergence des algorithmes utilisés.

[59] Le procédé 200 comprend une première étape 210 de détection de la présence du visage de l’individu 120 portant la paire de lunettes 110 dans une image du flux vidéo, dite image initiale.

[60] Cette détection peut être effectuée de plusieurs manières :

- soit à partir d’une base d’apprentissage de visages portant une paire de lunette en utilisant un algorithme d’apprentissage profond, également connu sous le terme anglais « deep learning », préalablement entraîné sur une base de données comprenant des images de visage portant une paire de lunettes ;

- soit en utilisant un modèle tridimensionnel d’un visage portant une paire de lunettes que l’on cherche à faire correspondre à l’image du visage dans l’image initiale en déterminant une pose, en orientation et en dimension, du modèle tridimensionnel par rapport à la caméra 130. La correspondance du modèle du visage et de l’image du visage dans l’image initiale peut être notamment effectuée par l’intermédiaire d’une projection sur l’image initiale du modèle du visage portant une paire de lunettes. Il convient de souligner que cette correspondance peut s’effectuer même si une partie du visage ou de la paire de lunettes est cachée dans l’image, comme c’est le cas par exemple lorsque le visage est tourné par rapport à la caméra ou lorsque des éléments viennent se superposer au visage comme une paire de lunettes ou des cheveux, ou se superposer à la paire de lunettes comme des cheveux.

[61] Alternativement, l’étape 210 de détection dans l’image initiale du visage de l’individu 120 portant une paire de lunettes 110 peut être effectuée en détectant dans un premier temps l’un des deux éléments, par exemple le visage, puis dans un deuxième temps l’autre élément, à savoir ici la paire de lunettes. La détection du visage s’effectue par exemple par l’intermédiaire de la détection de points caractéristiques du visage dans l’image. Une telle méthode de détection du visage est connue de l’homme du métier. La détection de la paire de lunettes peut s’effectuer par exemple par l’intermédiaire d’un algorithme d’apprentissage profond, également connu sous le terme anglais « deep learning », préalablement entraîné sur une base de données d’images de paire de lunettes, préférentiellement portée par un visage.

[62] Il convient de souligner que l’étape 210 de détection peut n’être effectuée qu’une seule fois pour une pluralité d’images du flux vidéo. [63] Comme illustré sur la figure 3, l’algorithme d’apprentissage permet notamment de calculer un masque 350 binaire de la paire de lunettes pour chacune des images acquises.

[64] Les points contour du masque, notés p2D, sont associés chacun à au moins une catégorie telle que :

- un contour extérieur 360 du masque ;

- un contour intérieur 370 du masque, correspondant généralement à un contour d’un verre ;

- un contour 380 du haut du masque ;

- un contour 390 du bas du masque.

[65] Alternativement, les points contour du masque, p2D, sont calculés en utilisant une distance robuste, c’est-à-dire variant peu entre deux itérations successives, entre des points caractéristiques de la paire de lunettes détectés dans l’image et des points du contour du masque.

[66] Après avoir détecté le visage de l’individu 120 portant la paire de lunettes 110, le procédé 200 comprend une deuxième étape 220 d’alignement d’une représentation du visage de l’individu, appelée par la suite « avatar », avec l’image du visage de l’individu 120 dans l’image initiale. L’avatar comprend ici avantageusement deux modèles paramétriques, l’un correspondant à un modèle de visage sans paire de lunettes et l’autre à un modèle d’une paire de lunettes. Il convient de souligner que les modèles paramétriques sont généralement placés dans un espace virtuel dont l’origine du repère correspond à la caméra 130. On parlera ainsi de repère de la caméra.

[67] L’ utilisation conjointe de ces deux modèles paramétriques permet d’accroître la performance de la régression et d’obtenir une meilleure estimation de la position du modèle du visage de l’individu par rapport à la caméra.

[68] En outre, les deux modèles paramétriques de l’avatar sont ici avantageusement liés entre eux par des paramètres relatifs d’orientation et de positionnement. Initialement, les paramètres relatifs d’orientation et de positionnement correspondent par exemple à une pose standard du modèle paramétrique de la paire de lunettes par rapport au modèle paramétrique du visage, c’est-à-dire de telle sorte que la monture repose sur le nez, en face des yeux de l’individu et que les branches s’étendant le long des tempes de l’individu reposent sur les oreilles de ce dernier. Cette pose standard est par exemple calculée par un positionnement moyen d’une paire de lunettes positionné naturellement sur le visage d’un individu. Il convient de souligner que la paire de lunettes peut être plus ou moins avancée sur le nez en fonction des individus.

[69] Le modèle paramétrique de la paire de lunettes est dans le présent exemple non limitatif de l’invention un modèle comportant une monture tridimensionnelle dont l’enveloppe comporte une épaisseur non nulle en au moins une section. Avantageusement, l’épaisseur est non nulle en chaque partie de la section de la monture.

[70] La figure 4 présente la face 300 du modèle paramétrique de la paire de lunettes selon deux vues. La première vue, notée 4a, correspond à une vue du squelette de la face 300, sans enveloppe extérieure. La deuxième vue, notée 4b, correspond à la même vue mais avec l’enveloppe extérieure 320. Comme illustré, le modèle paramétrique de la paire de lunettes peut être représenté par une succession de contours 330 de section chacune perpendiculaire à une âme 340 de la monture de la paire de lunettes. Les contours 330 forment ainsi un squelette pour l’enveloppe extérieure 320. Ce modèle paramétrique est de type 3D avec épaisseur.

[71] Il convient de souligner que le modèle paramétrique de la paire de lunettes peut avantageusement comprendre un nombre prédéterminé de sections numérotées de telles sortes que la position des sections autour de la monture est identique pour deux modèles distincts de paire de lunettes. La section correspondant au point de la monture, tel qu’un point bas d’un cercle, un point haut d’un cercle, un point de jonction entre un cercle et le pont, ou un point de jonction entre un cercle et un tenon portant une charnière avec une branche, a ainsi le même numéro dans les deux modèles distincts. Il est ainsi plus facile d’adapter le modèle de la paire de lunettes aux indications de dimensions de la monture. Ces indications, couramment appelées par le terme anglais « frame marking », définissent la largeur d’un verre, celle du pont ou encore la longueur des branches. Ces informations peuvent alors servir dans la définition de contraintes entre deux points, correspondant par exemple au centre ou au bord de deux sections choisies en fonction de leur position sur la monture. Le modèle de la paire de lunettes peut ainsi être modifié tout en respectant les contraintes de dimensions.

[72] Un exemple de modèle paramétrique d’une paire de lunettes utilisé par le présent procédé est présenté ultérieurement plus en détails dans une section intitulée « Exemple d’un modèle paramétrique d’une paire de lunettes ». [73] Dans des modes alternatifs de mise en œuvre de l’invention, le modèle paramétrique de la paire de lunettes comporte une monture tridimensionnelle d’épaisseur nulle. Il s’agit alors d’un modèle de type 3D sans épaisseur.

[74] L’ ensemble des paramètres permettant de définir la morphologie et la taille de la paire de lunettes sont appelés paramètres de configuration.

[75] Il convient de souligner que la forme initiale de la monture du modèle paramétrique peut avantageusement correspondre à la forme de la monture de la paire de lunettes qui a été préalablement modélisée par une méthode telle que décrite par exemple dans le brevet français publié sous le numéro FR 2955409 ou dans la demande internationale de brevet publiée sous le numéro WO 2013/139814.

[76] Le modèle paramétrique de la paire de lunettes peut également être avantageusement déformé, par exemple au niveau des branches ou de la face, qui sont généralement formés dans un matériau pouvant se déformer de manière élastique. Les paramètres de déformation sont inclus dans les paramètres de configuration du modèle de paire de lunettes. Dans le cas où le modèle de la paire de lunettes est connu, grâce par exemple une modélisation préalable de la paire de lunettes 110, le modèle de la paire de lunettes peut avantageusement rester invariant en taille et en forme au cours de la résolution. Seule la déformation du modèle de la paire de lunettes est alors calculée. Le nombre de paramètres à calculer étant réduit, le temps de calcul est plus court pour obtenir un résultat satisfaisant.

[77] Pour aligner les deux modèles paramétriques de la représentation du visage par rapport à l’image de la paire de lunettes et du visage dans l’image initiale, une régression des points des modèles paramétriques est effectuée au cours de la deuxième étape 220 afin que les modèles paramétriques correspondent en forme, en taille, en position et en orientation respectivement à la paire de lunettes 110 portée par l’individu 120 et au visage de l’individu 120.

[78] Les paramètres de l’avatar traités par la régression sont ainsi dans le présent exemple non limitatif de l’invention :

- la position tridimensionnelle de l’avatar, c’est-à-dire de l’ensemble {modèle de paire de lunettes, modèle de visage} ;

- l’orientation tridimensionnelle de l’avatar ;

- la taille du modèle de la paire de lunettes ;

- la taille du modèle du visage ; - la position tridimensionnelle relative entre le modèle de la paire de lunettes et le modèle du visage ;

- l’orientation tridimensionnelle relative entre le modèle de la paire de lunettes et le modèle du visage ;

- optionnellement, des paramètres de configuration du modèle de la paire de lunettes ;

- optionnellement, des paramètres de configuration du modèle du visage tels que des paramètres morphologiques permettant de définir la forme, la taille, la position des différents éléments constitutifs d’un visage tel que notamment le nez, la bouche, les yeux, les tempes, les joues, etc . Les paramètres de configuration peuvent également comprendre des paramètres d’ouverture ou de fermeture des paupières ou de la bouche, et/ou des paramètres liés aux déformations de la surface du visage dues aux expressions ;

- optionnellement des paramètres de la caméra, tels qu’une focale ou un paramètre de calibration métrique.

[79] Alternativement, seule une partie des paramètres de l’avatar listés précédemment sont traités par la régression.

[80] Les paramètres de la caméra peuvent avantageusement être calculés lorsque la géométrie 3D du modèle de la paire de lunettes est connue, par exemple lorsque la paire de lunettes 110 portée par l’individu 120 a été reconnue. L’ajustement des paramètres de la caméra contribue à l’obtention d’une meilleure estimation des paramètres de l’avatar, et par conséquent à un meilleur suivi du visage dans l’image.

[81] La régression est effectuée avantageusement ici en deux temps. Dans un premier temps, une minimisation des points caractéristiques du modèle du visage avec les points caractéristiques détectés sur l’image initiale est effectuée pour obtenir une position estimative de l’avatar dans le repère de la caméra.

[82] Dans un deuxième temps, les paramètres de l’avatar sont affinés en effectuant une régression des points du contour du modèle de la paire de lunettes par rapport à la paire de lunettes telle que visible sur l’image initiale du flux vidéo. Les points du contour du modèle de la paire de lunettes considérés lors de la régression sont généralement issus de la monture de la paire de lunettes.

[83] A cet effet, comme illustré en figure 5, les points 410 considérés du contour du modèle 420 de la paire de lunettes sont ceux dont les normales 430 sont perpendiculaires à l’axe entre le point 410 correspondant et la caméra. A chaque point 410 considéré du contour du modèle de la paire de lunettes est associé un point du contour de la paire de lunettes sur l’image initiale, en recherchant le point 440 le long de la normale 430 ayant le plus fort gradient, par exemple dans un spectre de couleur donné tel qu’en niveau de gris. Le contour de la paire de lunettes peut également être déterminé par l’intermédiaire d’une méthode d’apprentissage profond, également connue sous le terme anglais « deep learning », préalablement entraînée sur des images de paires de lunettes segmentées, préférentiellement portées par un visage. En minimisant la position entre les points des contours du modèle et de la paire de lunettes sur l’image initiale, il est ainsi possible d’affiner les paramètres de l’avatar dans le repère de la caméra.

[84] Il convient de souligner que par soucis de clarté, seuls cinq points 410 ont été mis en avant sur la figure 5. Le nombre de points utilisés par la régression est généralement nettement plus élevé. Les points 410 sont représentés par un cercle sur la figure 4, les points 440 correspondent à un sommet d’un triangle glissant le long d’une normale 430.

[85] L’ association d’un point du contour du modèle de la paire de lunettes avec un point du contour de la paire de lunettes 110 dans l’image correspond à un appariement d’un point 3D du modèle de la paire de lunettes avec un point 2D de l’image. Il convient de souligner que cet appariement est préférentiellement évalué à chaque itération, voire à chaque image, car le point correspondant dans l’image peut avoir glissé d’une image à l’autre.

[86] En outre, la ou les catégories du point du contour dans l’image étant avantageusement connue(s), l’appariement de ce point avec un point 3D du modèle de la paire de lunettes peut être effectué de manière plus efficace en appariant des points ayant les mêmes catégories. Il convient en effet de souligner que les points du modèle de la paire de lunettes peuvent également être classés selon les mêmes catégories que les points du contour du masque de la paire de lunettes dans l’image.

[87] Afin d’améliorer la régression autour du positionnement du modèle de la paire de lunettes, un contour d’une section est avantageusement associé à la majorité des points considérés du contour du modèle de la paire de lunettes. La section associée à un point correspond généralement à la tranche de la monture comprenant ce point. Chaque section est définie par un polygone comprenant un nombre prédéterminé d’arrêtés. Ainsi, lors de la régression, le calcul de la normale est amélioré en étant plus précis, ce qui permet d’avoir une meilleure estimation de la pose du modèle de la paire de lunettes par rapport à l’image. Cette amélioration est notamment applicable dans le cas de l’utilisation d’un modèle paramétrique de la paire de lunettes 3D avec épaisseur.

[88] Il convient également de souligner que lors de la régression, des contraintes de positionnement entre le modèle du visage et le modèle de la paire de lunettes sont avantageusement prises en compte afin de réduire le temps de calcul tout en offrant une meilleure qualité de pose. Les contraintes indiquent par exemple une collision de points entre une partie du modèle du visage et une partie du modèle de la paire de lunettes. Ces contraintes traduisent par exemple que les cercles, via les plaquettes ou non, de la paire de lunettes reposent sur le nez et que les branches reposent sur les oreilles. Généralement les contraintes de positionnement entre le modèle du visage et le modèle de la paire de lunettes permettent de paramétrer le positionnement de la paire de lunettes sur le visage avec un seul paramètre, par exemple la position de la paire de lunettes sur le nez de l’individu. Entre deux positions sur le nez, la paire de lunettes effectue une translation selon une courbe 3D correspondant à l’arête du nez, voire une rotation selon un axe perpendiculaire à ce plan de symétrie médian. Localement entre deux points proches, il peut être considéré que la translation de la paire de lunettes selon la courbe 3D suit un plan de symétrie locale du nez.

[89] En d’autres termes, la contrainte est traduite par un appariement d’un point du modèle du visage avec un point du modèle de la paire de lunettes. Il convient de souligner que l’appariement entre les deux points peut être de type partiel, à savoir ne porter que sur un type de coordonnées, par exemple seulement l’axe des x afin de laisser libre la translation d’un des deux modèles par rapport à l’autre selon les deux autres axes.

[90] Par ailleurs, chacun des deux modèles paramétriques compris dans l’avatar, c’est-à-dire celui du visage et celui de la paire de lunettes, peut également être avantageusement contraints selon une dimension connue telle qu’une distance interpupillaire préalablement mesurée pour le visage ou une dimension caractéristique de la monture préalablement reconnue. Un appariement entre deux points du même modèle peut ainsi être effectué pour contraindre la distance entre ces deux points selon la dimension connue. [91] Pour plus de détails mathématiques de l’algorithme, il est possible de se référer à la présentation effectuée ultérieurement au cours de la section intitulée « Détails du procédé mis en œuvre ».

[92] Il convient de souligner que lorsqu’au moins une caméra secondaire est disponible, plusieurs vues du visage de l’individu portant la paire de lunettes sont disponibles, ce qui permet d’améliorer le calcul de régression des paramètres de l’avatar. En effet, les différentes vues sont acquises avec un angle distinct, permettant ainsi d’améliorer la connaissance du visage de l’individu en affichant des parties cachées sur l’image acquise par la caméra principale.

[93] La figure 6 illustre le positionnement du modèle paramétrique 610 de la paire de lunettes sur le modèle paramétrique 620 du visage de l’avatar qui est visible selon une vue en perspective en sous-figure a. Le repère utilisé est illustré par la sous- figure e de la figure 6. Le déplacement du modèle paramétrique 610 de la paire de lunettes est ici paramétré selon un déplacement des branches 630 sur les oreilles 640, correspondant à la translation selon l’axe z (sous-figure c de la figure 6). La translation selon l’axe y correspondante est visible sur la sous-figure b de la figure 6. La rotation autour de l’axe x est illustré sur la sous-figure d de la figure 6.

[94] Des contraintes de non collision entre certaines parties du modèle du visage et certaines parties du modèle de la paire de lunettes peuvent également être ajoutées afin d’éviter un mauvais positionnement du modèle de la paire de lunettes sur le modèle du visage, par exemple une branche dans un œil de l’individu, etc.

[95] Une difficulté surmontée par la présente invention est la gestion des parties cachées de la paire de lunettes dans l’image initiale, qui peuvent entraîner des erreurs dans la régression du modèle paramétrique de la paire de lunettes, notamment au niveau de la position et de l’orientation du modèle paramétrique par rapport à la paire de lunettes 110 réellement portée par l’individu 120. Ces parties cachées correspondent généralement à des parties de la monture qui sont masquées soit par le visage de l’individu, par exemple quand le visage est tourné par rapport à la caméra afin de voir un profil du visage, soit directement par la paire de lunettes, par exemple par des verres teintés. Il convient en outre de souligner que la partie des branches venant se poser sur chaque oreille est généralement occultée, quel que soit l’orientation du visage de l’individu 120, par une oreille et/ou par des cheveux de l’individu 120. [96] Ces parties cachées peuvent être par exemple estimées lors de la détection en considérant un modèle de segmentation de la monture et/ou des points du contour de ces parties cachées. Les parties cachées de la paire de lunettes peuvent également être estimées en calculant une pose d’un modèle paramétrique d’une paire de lunettes par rapport à la position estimée du visage de l’individu 120. Le modèle paramètre utilisé ici peut être le même que celui utilisé pour l’avatar.

[97] L’alignement du modèle paramétrique de la paire de lunettes permet également de reconnaître le modèle de la paire de lunettes 110 réellement portée par l’individu 120. En effet, la régression des points permet d’obtenir un contour approximatif 3D d’au moins une partie de la paire de lunettes 110. Ce contour approximatif est ensuite comparé aux contours de paires de lunettes préalablement modélisées, enregistrés dans une base de données. L’image incluse dans le contour peut également être comparé à l’apparence des paires de lunettes enregistrées dans la base de données pour une meilleure reconnaissance du modèle de la paire de lunettes 110 portée par l’individu 120. Il convient en effet de souligner que les modèles de paires de lunettes stockées dans la base de données ont généralement également été modélisés en texture et en matière.

[98] Le modèle paramétrique de la paire de lunettes peut être déformé et/ou articulé afin de correspondre au mieux à la paire de lunettes 110 portée par l’individu 120. Généralement, les branches du modèle de la paire de lunettes forment initialement entre elles un angle de l’ordre de 5°. Cet angle peut être ajusté en modélisant la déformation de la paire de lunettes en fonction de la forme de la monture et de la rigidité de la matière utilisée pour les branches, voire également de la matière utilisée pour la face de la monture de la paire de lunettes qui peut être distincte de celle des branches. Une approche paramétrique peut être utilisée pour modéliser la déformation du modèle paramétrique de la paire de lunettes.

[99] Un suivi en temps réel du visage et/ou de la paire de lunettes dans le flux vidéo, sur des images successives à ladite image initiale, est effectué au cours d’une troisième étape 230 du procédé 200 illustré en figure 2.

[100] Le suivi en temps réel peut par exemple être basé sur le suivi de points caractéristiques dans des images successives du flux vidéo, par exemple en utilisant une méthode de flot optique. [101] Ce suivi peut notamment être effectué en temps réel car la mise à jour des paramètres pour une image du flux vidéo est généralement effectué par rapport aux paramètres d’alignement calculées à l’image précédente.

[102] Afin d’améliorer la robustesse du suivi, l’utilisation d’images-clés, couramment appelées par le terme anglais « keyframe », où la pose de l’avatar par rapport au visage de l’individu est considérée comme satisfaisante peut être utilisée pour apporter des contraintes sur les images présentant des vues du visage orienté de manière similaire au visage dans une image-clé. En d’autres termes, une image- clé d’une sélection d’images du flux vidéo, pouvant également être appelée image de référence, correspond généralement à une des images de la sélection où le score associé à la pose de l’avatar par rapport au visage de l’individu est le plus important. Un tel suivi est par exemple décrit en détails dans la demande internationale de brevet publiée sous le numéro WO 2016/135078.

[103] Il convient de souligner que le choix d’une image-clé peut être effectué de manière dynamique et que la sélection d’images peut correspondre à une séquence continue du flux vidéo.

[104] En outre, le suivi peut utiliser avantageusement plusieurs images-clés, chacune correspondant à une orientation distincte du visage de l’individu.

[105] Il convient également de souligner que le suivi conjoint du visage et de la paire de lunettes permet d’obtenir de meilleurs résultats, plus robustes, car basés sur un nombre de points caractéristiques plus élevés. En outre, les contraintes de positionnement relatif des modèles paramétriques du visage et de la paire de lunettes sont généralement utilisées au cours du suivi, ce qui permet d’obtenir un suivi plus précis de la tête de l’individu en temps réel, et par conséquent une meilleure pose de l’avatar.

[106] Par ailleurs, le suivi d’une paire de lunettes, qui est un objet manufacturé, est généralement plus précis que le suivi d’un visage seul, car la paire de lunettes comporte des amers bien identifiables dans une image, tels qu’une arrête d’une branche, une arrête de la face ou un cercle de la face de la monture.

[107] Il convient de souligner qu’un suivi de la paire de lunettes, sans utilisation d’un modèle paramétrique de la paire de lunettes, serait moins robuste et nécessiterait un grand nombre de calculs pour chaque image. Un tel suivi est ainsi plus difficile à mettre en œuvre en temps réel au regard des puissances de calcul actuellement disponible. Toutefois, compte-tenu de l’augmentation régulière de la puissance des processeurs, un suivi sans utilisation d’un modèle paramétrique de la paire de lunettes pourrait être envisagé lorsque les puissances des processeurs seront suffisantes pour une telle application.

[108] Il convient également de souligner qu’il est possible d’effectuer un suivi de l’individu en se basant uniquement sur le modèle paramétrique de la paire de lunettes. L’optimisation de la pose du modèle de la paire de lunettes par rapport à la caméra, c’est-à-dire de l’alignement du modèle de la paire de lunettes par rapport à l’image, est effectuée pour chaque image.

[109] Une mise à jour des paramètres d’alignement des modèles paramétriques du visage et de la paire de lunettes avec l’image est ensuite effectuée pour chaque nouvelle image du flux vidéo acquis par la caméra 130, concomitamment à l’étape 230 de suivi, au cours d’une étape 235.

[110] Alternativement, la mise à jour des paramètres d’alignement des modèles paramétriques du visage et de la paire de lunettes est effectuée à chaque image-clé.

[111] Cette mise à jour des paramètres d’alignement peut également comprendre le paramètre de pose du modèle paramétrique de la paire de lunettes sur le modèle paramétrique du visage, afin d’améliorer l’estimation du positionnement du visage de l’individu par rapport à la caméra. Cette mise à jour peut notamment être effectuée lorsque le visage de l’individu est orienté différemment par rapport à la caméra, offrant ainsi un autre angle de vue de son visage.

[112] Un raffinement des modèles paramétriques peut être effectué au cours d’une quatrième étape 240 du procédé 200 en analysant les images-clés de référence utilisées au cours du suivi. Ce raffinement permet par exemple de compléter le modèle paramétrique de la paire de lunettes avec des détails de la paire de lunettes 110 qui n’auraient pas été capturés précédemment. Ces détails sont par exemple un relief, une lumière ou une sérigraphie spécifique à la paire de lunettes.

[113] L’analyse des images-clés est effectuée par une méthode d’ajustement de faisceaux, également connue sous le terme anglais de « bundle adjustment », qui permet de raffiner les coordonnées 3D d’un modèle géométrique décrivant un objet de la scène, tel que la paire de lunettes ou le visage. La méthode de « bundle adjustment » est basée sur une minimisation des erreurs de reprojection entre les points observés et les points du modèle.

[114] Ainsi, il est possible d’obtenir des modèles paramétriques plus conformes au visage de l’individu portant la paire de lunettes. [115] L’analyse par la méthode de « bundle adjustment » met ici en œuvre des points caractéristiques du visage et des points des lunettes qui sont identifiables avec plus de précision dans lïmage-clé. Ces points peuvent être des points du contour du visage ou des lunettes.

[116] Il convient de souligner que la méthode de « bundle adjustment » traite de manière générale une scène définie par une série de points 3D pouvant bouger entre deux images. La méthode de « bundle adjustment » permet de résoudre simultanément la position tridimensionnelle de chaque point 3D de la scène dans un référentiel donné (par exemple celui de la scène), les paramètres de mouvements relatifs de la scène par rapport à la caméra et les paramètres optiques de la ou des caméra(s) ayant acquises les images.

[117] Des points glissants calculés grâce à une méthode de flot optique, par exemple liés aux points du contour du visage ou des lunettes, peuvent également être utilisés par la méthode de « bundle adjustment ». Toutefois, le flot optique se calculant entre deux images distinctes, généralement consécutives dans le flux vidéo, ou entre deux images-clés, la matrice obtenue au cours de la méthode de « bundle adjustment » pour les points issus du flot optique est généralement creuse. Pour compenser ce manque d’informations, des points du contour des lunettes peuvent être avantageusement utilisés par la méthode de « bundle adjustment ».

[118] Il convient de souligner que de nouvelles informations permettant d’améliorer le modèle paramétrique du visage ou le modèle paramétrique de la paire de lunettes peuvent être obtenues pour une nouvelle image-clé. En outre, une nouvelle détection du visage portant la paire de lunettes, comme celle décrite dans l’étape 210, peut être réalisée dans cette nouvelle image-clé, afin de compléter ou de remplacer les points utilisés par la méthode de « bundle adjustment ». Une contrainte de résolution avec un poids plus important peut être associé aux nouveaux points détectés afin d’obtenir que le raffinement des modèles paramétriques soit plus proche de l’image en cours du flux vidéo.

[119] Des points glissants du contour des lunettes peuvent être appariés au modèle 3D de la paire de lunettes sur une ligne de niveau du contour des lunettes, correspondant à l’ensemble des points du modèle de la paire de lunettes dont la normale est à 90 degrés.

[120] Dans un exemple de mise en œuvre de l’invention, les images-clefs correspondent à des images lorsque le visage de l’individu 120 portant la paire de lunettes 110 est de face, et/ou à des images où le visage de l’individu 120 est tourné à gauche ou à droite par rapport au port naturel de la tête d’un angle de l’ordre de 15 degrés par rapport au plan sagittal. Pour ces images-clefs, de nouvelles parties du visage 125 et de la paire de lunettes 110 sont visibles. Les paramètres des modèles du visage et de la paire de lunettes peuvent ainsi être déterminés avec plus de précision. Le nombre d’images-clefs peut être fixé arbitrairement à un nombre compris entre 3 et 5 images afin d’obtenir des résultats satisfaisants dans l’apprentissage du visage 125 et de la paire de lunettes 110 pour établir les modèles correspondants.

[121] La taille de la paire de lunettes 110 portée par l’individu 120 peut également être introduit au cours du procédé 200 lors d’une étape 250, notamment pour obtenir une métrique de la scène, et définir une échelle notamment pour déterminer une mesure optique du visage de l’individu, telle que par exemple une distance interpupillaire ou une taille d’un iris qui peut être définie comme une taille moyenne.

[122] La taille de la paire de lunettes 110 peut être définie de manière statistique par rapport à une liste de paires de lunettes préalablement définie, ou correspondre à la taille effective de la paire de lunettes 110.

[123] Il peut être prévu une interface pour indiquer au procédé 200 quel est le « frame marking » indiqué dans la paire de lunettes 110. Alternativement, une lecture automatique sur une image peut être effectuée par le procédé 200 pour reconnaitre les caractères du « frame marking » et obtenir automatiquement les valeurs associées.

[124] Il convient de souligner que lorsque le « frame marking » est connu, le modèle paramétrique de la paire de lunettes 110 peut être avantageusement connu, notamment si la paire de lunettes 110 a préalablement été modélisée.

[125] Lorsqu’aucune information de taille sur la paire de lunettes n’est disponible, par exemple lorsque le « frame marking » est inconnu, le modèle paramétrique de la paire de lunettes utilisé initialement est un modèle paramétrique standard comprenant des valeurs statistiquement moyennes des paires de lunettes couramment utilisées par les individus. Ce cadre statistique permet d’obtenir un résultat satisfaisant, proche du modèle de la paire de lunettes 110 réellement porté par l’individu 120, chaque nouvelle image améliorant les paramètres du modèle de la paire de lunettes.

[126] Une caméra de profondeur peut également être utilisée au cours du procédé 200 afin d’affiner la forme et la position du visage. [127] Il convient de souligner que la caméra de profondeur est un type de capteur de profondeur, couramment connu sous le nom anglais de « depth sensor ». En outre, la caméra de profondeur, fonctionnant généralement en utilisant l’émission d’une lumière infrarouge, n’est pas suffisamment précise pour acquérir les contours de la paire de lunettes 110 portée par l’individu 120, notamment à cause des problèmes de réfraction, de transmission et/ou de réflexion introduits par les verres et/ou le matériau d’une face de la paire de lunettes. Dans certains cas, des conditions lumineuses, telle que la présence d’une source lumineuse intense dans le champ de la caméra, empêchent le bon fonctionnement de la caméra de profondeur à infrarouge en introduisant un bruit important empêchant toutes mesures fiables. Cependant, les mesures de profondeur peuvent être utilisées sur des parties visibles du visage, afin de garantir des mesures de profondeur sur la surface visible du visage, la métrique et une meilleure estimation de la taille et de la forme du modèle du visage voire également du modèle de la paire de lunettes.

[128] Dès lors où le visage de l’individu 120, ou du moins seulement la paire de lunettes 110, est suivi par le procédé 200 décrit précédemment, un effacement de la paire de lunettes 110 porté par l’individu 120 dans le flux vidéo peut être effectué en se référant notamment à la technique décrite dans la demande de brevet internationale publiée sous le numéro WO 2018/002533. Un essayage virtuel d’une nouvelle paire de lunettes peut en outre être effectué.

[129] Il convient de souligner que le procédé 200 de suivi étant plus efficace, l’effacement de la paire de lunettes dans l’image en occultant la paire de lunettes portée est effectué de manière plus réaliste car la position de la paire de lunettes est déterminée plus précisément par rapport à la caméra par le présent procédé de suivi.

[130] Il est également envisageable grâce au procédé de suivi ici décrit de modifier tout ou partie de la paire de lunettes portée par l’individu, en effectuant par exemple un changement de couleur, de teinte des verres, un ajout d’un élément telle qu’une sérigraphie, etc.

[131] Le procédé 200 de suivi peut ainsi être inclus dans un procédé de réalité augmentée.

[132] Il convient de souligner que le procédé 200 de suivi peut également être utilisé dans un procédé de mesure d’un paramètre optique, tel que celui décrit dans la demande internationale de brevet publiée sous le numéro WO 2019/020521. En utilisant le procédé 200 de suivi, la mesure d’un paramètre optique peut être plus précise car les modèles paramétriques de la paire de lunettes et du visage sont résolus conjointement dans un même référentiel, ce qui n’est pas le cas dans les techniques antérieures où chaque modèle est optimisé indépendamment sans tenir compte des contraintes de positionnement relatif du modèle de la paire de lunettes et du modèle du visage.

Détails du procédé mis en œuvre

[133] L’algorithme présenté dans la présente section correspond à une mise en œuvre générique d’une partie d’un procédé de suivi objet de l’exemple détaillé précédemment. Cette partie correspond notamment à la résolution des paramètres, notamment de pose et de configuration/morphologie, du modèle du visage et du modèle de la paire de lunettes par rapport à des points détectés dans au moins un flux d’images (étape 220 ci-dessus) et à leur mise à jour (étape 235 ci-dessus). Il convient de souligner que ces deux étapes sont généralement basées sur une même équation résolue sous contrainte. Les modes morphologiques du modèle du visage et du modèle de la paire de lunettes peuvent également être résolus au cours de cette partie.

[134] L’ intérêt de résoudre en même temps le modèle du visage et le modèle de la paire de lunettes est d’apporter de nouvelles contraintes de collision ou de proximité entre le modèle du visage et le modèle de la paire de lunettes. En effet, il est ainsi assuré d’une part que les deux maillages, correspondant chacun à un modèle distinct, ne s’interpénétrent pas entre eux mais également qu’il y ait au moins des points qui sont en collision, ou à proximité, entre les deux maillages, notamment au niveau des oreilles et du nez de l’individu. Il convient de souligner qu’un des problèmes majeurs lors de la résolution de la pose d’un modèle du visage correspond aux positionnements des points au niveau des tempes dont l’emplacement est rarement déterminé précisément par le détecteur de points, usuellement mis en œuvre. L’utilisation des branches des lunettes qui sont souvent bien plus visibles dans l’image et physiquement contre les tempes est par conséquent avantageux.

[135] Il convient de souligner qu’il est difficile de mettre en place un algorithme de collision à l’intérieur d’une minimisation car les deux modèles utilisés sont des modèles paramétriques, et par conséquent déformables. Les deux modèles se déformant à chaque itération les points de contact peuvent alors être distincts d’une itération à l’autre. [136] Dans le présent exemple non limitatif de l’invention, n caméras calibrées sont considérées, chacune acquérant p vues, à savoir p images. Il convient de souligner que les paramètres intrinsèques de chaque caméra et leur position relative sont connus. La position et l’orientation du visage est néanmoins à déterminer pour chacune des vues. Le modèle paramétrique 3D du visage utilisé, noté M f , est un maillage composé de points 3D p3D déformables linéairement grâce à v paramètres notés a k k=l v . Ainsi, chaque point 3D de ce maillage s’écrit sous la forme d’une combinaison linéaire :

[137] [Math 1] p3D_f j (a 1 , ... , a ) - m3D f + Y a mode f k k-l

[138] où m3Dj désigne le j ème point moyen du modèle et mode le j ème vecteur du k ème mode du modèle. L’indice _f est ajouté à m3Dj, p3D et mode pour indiquer que le modèle utilisé est celui du visage. Une équation similaire pour le modèle de la paire de lunettes noté M g peut s’écrire :

[139] [Math 2]

[140] où Pk,k=i...n- correspondent à p paramètres du modèle paramétrique de la paire de lunettes M g

[141] Le visage en 3D est replacé dans un premier temps dans un repère tridimensionnel, dit repère monde, pour chacune des p acquisitions. Le repère monde peut par exemple correspondre au repère de la caméra ou à un repère de l’un des deux modèles. Les positions et orientations du modèle du visage sont initialement inconnues et par conséquent recherchées lors de la minimisation, ce qui correspond à une phase de régression des points du modèle du visage avec des points caractéristiques détectés à l’image.

[142] Avant d’effectuer cette régression, le modèle M g de la paire de lunettes est positionné sur le modèle M f du visage. À cet effet, les points p3D_g du modèle de la paire de lunettes peuvent s’écrire dans le repère du visage en tenant compte d’une matrice R_g de rotation 3D et d’un vecteur T_g de translation. [143] [Math 3]

[144] La régression aboutit ensuite à une pose en orientation et en translation du modèle de visage dans le repère dans le repère de la vue l d’une des caméras, correspondant ici au repère monde.

[145] [Math 4]

[146] où R représente une matrice de rotation 3D, T un vecteur de translation et l une vue d’une caméra

[147] Une fonction de projection d’un modèle p3D dans l’image i utilisée au cours du procédé est notée :

[148] [Math 5]

Proj 1 (p3D)~ /C[/? l T { ']p3D

[149] où K 1 correspond à la matrice de calibrage de l’image i. R 1 et T 1 correspondent respectivement à une matrice de rotation et à un vecteur de translation entre le repère monde et le repère de la caméra ayant acquis l’image i. Le symbole ~ désigne quant à lui une égalité à un facteur d’échelle près. Cette égalité peut notamment se traduire par le fait que la dernière composante de la projection est égale à 1.

[150] Lors de la résolution de la pose des modèles de la représentation du visage, il existe cinq types de contraintes :

- les contraintes 2D visage ;

- les contraintes 2D lunettes ;

- les contraintes 3D visage - lunettes ;

- les contraintes 3D visage, correspondant par exemple à une distance interpupillaire PD, à un écart entre les tempes, à une taille moyenne d’iris ou à un mélange de distributions de plusieurs contraintes de taille. Un mélange de distribution peut correspondre à un mélange de deux distributions gaussiennes autour de la taille d’un iris et de la distance interpupillaire. La combinaison de ces contraintes peut faire appel à une formulation de type filtre GH ; - les contraintes 3D des lunettes, correspondant par exemple à une dimension connue issue du marquage sur la monture, couramment appelée par le terme anglais « frame marking ».

[151] Les contraintes 2D du visage sont basées sur un appariement des points du modèle 3D à des points 2D dans l’image du visage pour au moins une vue et pour au moins une caméra. Préférentiellement, cet appariement est effectué pour chaque vue et pour chaque caméra. Il convient de souligner que les appariements peuvent être fixes pour les points du visage non compris sur le contour du visage dans l’image ou glissant le long de lignes de niveaux pour les points du contour du visage. Ce degré de liberté dans l’appariement d’un point du contour du visage avec un point de l’image permet notamment d’améliorer la stabilité de la pose du modèle 3D du visage par rapport à l’image, offrant ainsi une meilleure continuité de pose du modèle 3D du visage entre deux images successives.

[152] L’appariement d’un point du modèle 3D du visage avec un point 2D de l’image peut se traduire mathématiquement par l’équation suivante :

[153] [Math 6]

[154] où (pj'i'i et Qu'l représentent respectivement un indice d’un point 3D du modèle paramétrique Mf du visage et un indice d’un point 2D du visage dans les images pour une vue i et une caméra l.

[155] Les contraintes 2D des lunettes sont basées sur un appariement des points 3D du modèle de la paire de lunettes avec des points 2D des lunettes dans une image en utilisant notamment les contours des masques dans les images.

[156] [Math 7]

[157] où 9j i i et ùj.i.i représentent respectivement un indice d’un point 3D du modèle paramétrique Mg de la paire de lunettes et un indice d’un point 2D de la paire de lunettes dans les images pour une vue i et une caméra l.

[158] Les contraintes 3D visage - lunettes sont basées sur un appariement des points 3D du modèle du visage et des points 3D du modèle de la paire de lunettes, dont la distance est définie par une contrainte de proximité, voire de collision (distance nulle). Une fonction d’influence peut être appliquée pour calculer la distance de collision avec par exemple un poids plus important pour les distances négatives par rapport à la normale de la surface du modèle du visage orientée vers l’extérieur du modèle du visage. Il convient de souligner que pour certains points, la contrainte peut être uniquement sur une partie des coordonnées, comme par exemple selon un axe pour la relation entre les tempes du visage et les branches de la paire de lunettes.

[159] L’appariement des points 3D du modèle du visage et des points 3D du modèle de la paire de lunettes peut se traduire mathématiquement par l’équation suivante :

[160] [Math 8] p D_f p . p3D_g Tj

[161] où pj et j représentent respectivement un indice d’un point 3D du modèle paramétrique Mf du visage et un indice d’un point 3D du modèle paramétrique Mg de la paire de lunettes.

[162] Les contraintes 3D sur le visage sont basées sur une distance connue du visage, préalablement mesurée, comme par exemple la distance interpupillaire (distance entre le centre de chaque pupille, correspondant également à la distance entre le centre de rotation de chaque œil). Une distance métrique peut ainsi être appariée à un couple de points.

[163] [Math 9] P^D_f t .,p3D_f Uj ) dist t .u .

[164] où tj etUj représentent chacun un indice d’un point 3D distinct du modèle paramétrique Mf du visage.

[165] Les contraintes 3D sur la paire de lunettes sont basées sur une distance connue du modèle de la paire de lunettes portée par l’individu, telle que la taille d’un verre (par exemple selon la norme BOXING ou la norme DATUM), la taille du pont ou la taille des branches. Cette distance peut notamment être traduite du marquage de la monture, généralement située à l’intérieur d’une branche, couramment appelée « frame marking ». Une distance métrique peut alors être appariée à un couple de points du modèle de la paire de lunettes.

[166] [Math 10] [167] où V et wj représentent chacun un indice d’un point 3D distinct du modèle paramétrique Mg de la paire de lunettes.

[168] Les données d’entrée de l’algorithme sont ainsi :

- p images issues de n caméras d’une personne portant une paire de lunettes ;

- points 2D caractéristiques du visage, détectés dans une image ;

- appariements 2D ou 3D pour une partie des points, éventuellement évalués à chaque itération dans le cas des points dits glissants (ex : le long des lignes de niveaux) ;

- le masque de la paire de lunettes dans au moins une image ;

- la matrice de calibrage et la pose de chaque caméra.

[169] L’algorithme va permettre de calculer les données de sortie suivantes :

- les p poses de l’avatar : R fl , T fl ;

- les v modes du modèle paramétrique du visage : a lt a 2 , ... , a v ;

- la pose du modèle de la paire de lunettes par rapport au modèle du visage : Rg^ Tg ,

- les p modes du modèle paramétrique de la paire de lunettes - > Pg-

[170] A cet effet, l’algorithme procède selon les étapes suivantes :

- effectuer les appariements des points (p^ <-> (Tj ^ pour les contraintes 2D du visage ;

- effectuer les appariements des points les contraintes 2D de la paire de lunettes ;

- effectuer les appariements des points pj <-> T 7 pour les contraintes 3D entre le modèle du visage et le modèle de la paire de lunettes ;

- effectuer les appariements des points t 7 <-> u 7 et les associer à une distance métrique dist t u pour établir les contraintes 3D sur le modèle du visage;

- effectuer les appariements des points v 7 <-> w 7 et les associer à une distance métrique dist VjWj pour établir les contraintes 3D sur le modèle de la paire de lunettes ;

- résoudre l’équation mathématique suivante.

[171] [Math 11]

[172] où Y1<Y2<Y3<Y4<Y5 sont des poids entre chaque bloc de contrainte, visi est une fonction indiquant si un point p2D est visible dans l’image, c’est-à-dire non occulté par le modèle de visage Mf ou par le modèle de la paire de lunettes Mg, #(yisi == 1) correspond au nombre de points visibles.

[173] Dans des variantes de ce mode de mise en œuvre particulier de l’invention, la focale de la caméra fait partie des paramètres à optimiser. En effet, dans les cas où l’acquisition des images est effectuée par une caméra inconnue, certaines images acquises sont préalablement recadrées ou redimensionnées. Auquel cas, il est préférable de laisser la focale de la caméra en tant que degré de liberté lors de la minimisation.

[174] Dans des variantes de ce mode de mise en œuvre particulier de l’invention, les matrices de variance et de covariance qui représentent les axes et valeurs d’incertitudes/confiance des paramètres pour les équations de contraintes de collisions entre le modèle du visage et le modèle de la paire de lunettes, sont prises en compte lors de la résolution.

[175] Dans des variantes de ce mode de mise en œuvre particulier de l’invention, certains paramètres de la pose du modèle de la paire de lunettes par rapport au modèle du visage sont figés. Cela peut être la traduction d’une hypothèse d’alignement entre le modèle de la paire de lunettes et le modèle du visage. Dans ce cas, seule la rotation selon l’axe des x, soit selon un axe perpendiculaire au plan sagittal, ainsi que la translation en y et z, soit dans le plan sagittal, sont calculées. La fonction de coût, représentée par [Math 11 ] peut être simplifiée, ce qui permet d’obtenir une convergence plus facile vers le résultat. De cette manière, il est également possible d’obtenir des résultats très satisfaisants pour des visages fortement asymétriques où la paire de lunettes peut être positionnée différemment par rapport à un visage symétrique, par exemple légèrement inclinée d’un côté du visage.

Exemple d’un modèle paramétrique d’une paire de lunettes

[176] Chaque paire de lunettes comporte des éléments communs tels que les verres, le pont et les branches. Un modèle paramétrique (3DMM) 700 de paire de lunettes, tel que représenté en figure 7, peut ainsi être défini comme un ensemble de sections 710 reliées entre elles par des faces triangulaires 715 définies en amont.

[177] Les faces triangulaires 715 forment une enveloppe convexe 720 dont une partie n’est pas représentée sur la figure 7.

[178] Chacune des sections 710, définie par un même nombre de points, se situe avantageusement au même endroit sur l’ensemble des modèles de paire de lunettes.

[179] En outre, chaque section 710 coupe la paire selon un plan perpendiculaire au squelette 730.

[180] Trois types de sections peuvent ainsi être définies :

- les sections 710A autour des verres, paramétrisées par exemple par un angle par rapport à un plan de référence perpendiculaire au squelette d’un cercle, afin d’avoir une section toute les n degrés ;

- les sections 710B du pont, parallèles au plan de référence

- les sections 710c des branches, le long du squelette 730B des branches

[181] Il convient de souligner que dans le cas d’une paire sans cercle autour d’un verre, couramment qualifiée par le terme anglais « rimless », ou dans le cas d’une paire dite demi-cerclées ou « semi-rimless », c’est-à-dire qu’un cercle entoure qu’une partie d’un verre, tout ou partie des sections 710A autour des verres présente qu’un seul point correspondant à la réunion de l’ensemble des points d’une même section 710A.

[182] Par ailleurs, l’analyse en composantes principales (ACP) utilisée lors de l’alignement du modèle 700 de la paire de lunettes avec la représentation de la paire de lunettes dans l’image, impose un nombre de points communs. A cet effet, des points qui se trouvent sur l’enveloppe 720 convexe du modèle de la paire de lunettes sont choisis afin d’assurer de retrouver dans l’image l’ensemble des pixels appartenant à la paire de lunettes alignée. [183] Pour permettre de retrouver des lumières dans la paire de lunettes, comme par exemple dans le cas d’une paire de lunettes présentant un double pont, un template de modèle de paire de lunettes, par exemple avec un double pont, peut être choisi au préalable pour s’adapter au près de la paire de lunettes.

[184] Dans la mesure où un point du modèle paramétrique, référencé avec un indice donné, se trouve constamment au même endroit relatif sur le modèle de la paire de lunettes, une définition de la distance connue entre deux points peut être facilitée. Cette distance connue peut être obtenue par le « frame marking » inscrit sur une paire de lunettes, qui permet de définir la largeur des verres, la largeur du pont ou encore la longueur des branches.

[185] Ces informations peuvent alors être imposées dans la résolution du modèle 700 de lunettes en sélectionnant les points correspondants, comme illustré par la figure 8. Dans la figure 8, seuls les points 810 caractérisant les contours des sections 710 de la face de la paire de lunettes sont représentés, et d correspond à la largeur d’un verre tel que défini grâce notamment au « frame marking ».

[186] Dans une variante de l’alignement visage et lunettes, un grand nombre de visages et un grand nombre de lunettes sont générés à partir des deux modèles paramétriques respectifs du visage et de la paire de lunettes. L’algorithme de positionnement automatique est ensuite utilisé pour positionner chaque modèle de paire de lunettes sur chaque modèle de visage. Avantageusement une génération de bruit et des statistiques de positionnement différentes - lunettes au bout du nez, enfoncement des plaquettes, positionnement lâche sur les tempes, etc. - sont utilisés pour positionner automatiquement les paires de lunettes sur les visages. Un nouveau modèle paramétrique pour la paire de lunettes et pour le visage est ensuite calculé à partir de l’ensemble des points des modèles du visage et de la paire de lunettes. Ce nouveau modèle paramétrique garantit la collision et le parfait positionnement de la paire de lunettes sur le visage, ce qui simplifie la résolution. En effet, une seule transformation est recherchée, ce qui correspond au calcul de six paramètres au lieu de douze, et les équations de collision sont retirées. Cependant, un plus grand nombre de modes sont généralement estimés dans ce cas car ce sont eux qui encodent ces contraintes.