METHOD AND DEVICE FOR ESTIMATING THE AUTHENTICITY OF AUDIO OR VIDEO CONTENT AND ASSOCIATED COMPUTER PROGRAM

Title:

METHOD AND DEVICE FOR ESTIMATING THE AUTHENTICITY OF AUDIO OR VIDEO CONTENT AND ASSOCIATED COMPUTER PROGRAM

Document Type and Number:

WIPO Patent Application WO/2024/003016

Kind Code:

Abstract:

The present invention relates to a method for estimating the authenticity of audio or video content, the audio or video content being represented by a set of input values, the method comprising the steps of: - determining, by means of a processing system (5) and on the basis of the set of input values, an intermediate vector (w) in accordance with a learned distribution, the processing system (5) being configured, in advance, to produce, as output, output vectors distributed according to the learned distribution and designed so that a generative network produces content of the same type as the audio or video content when the output vectors are applied as input to this generative neural network, and - estimating a level of authenticity (m) of the audio or video content by applying classification means (20) to the intermediate vector (w). The invention also relates to a device for estimating the authenticity of audio or video content and an associated computer program.

Inventors:

DELMAS MATTHIEU (FR)
KACETE AMINE (FR)
PAQUELET STÉPHANE (FR)

Application Number:

PCT/EP2023/067405

Publication Date:

January 04, 2024

Filing Date:

June 27, 2023

Export Citation:

Click for automatic bibliography generation Help

Assignee:

FOND B COM (FR)

International Classes:

G06F21/64; G06N3/042; G06N3/0455; G06N3/0475; G06N3/094; G06N5/01; G06V10/82; G06N3/084; G10L25/30

Other References:

DAVIDE COZZOLINO ET AL: "ForensicTransfer: Weakly-supervised Domain Adaptation for Forgery Detection", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 6 December 2018 (2018-12-06), XP081556449
KHALID HASAM ET AL: "OC-FakeDect: Classifying Deepfakes Using One-class Variational Autoencoder", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS (CVPRW), IEEE, 14 June 2020 (2020-06-14), pages 2794 - 2803, XP033799086, DOI: 10.1109/CVPRW50498.2020.00336
D. COZZOLINOA. RΔSSLERJ. THIESM. NIEFTNERL. VERDOLIVA: "ID-Reveal : Identity-aware Deepfake Video Detection", 2021 IEEE/CVF INTERNATIONAL CONFÉRENCE ON COMPUTER VISION (ICCV, 2021, pages 15088 - 15097
ABDAL R.QIN Y.WONKA P., IMAGE2STYLEGAN++: HOW TO EDIT THE EMBEDDED IMAGES?, 2019
BREIMAN L.: "Random forests", MACHINE LEAMING, vol. 45, no. 1, 2001, pages 5 - 3, XP019213368, DOI: 10.1023/A:1010933404324
KARRAS T.LAINE S.AITTALA M.HELLSTEN J.LEHTINEN J.AILA T.: "Analyzing and Improving the Image Quality of StyleGAN", 2020 IEEE/CVF CONFÉRENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2020, pages 8107 - 8116, XP033804835, DOI: 10.1109/CVPR42600.2020.00813
KARRAS T.AILA T.LAINE SLEHTINEN J., PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION, 2017
SADOK, S.LEGLAIVE, S.GIRIN, L.ALAMEDA-PINEDA, X.SÉGUIER, R., LEARNING AND CONTROLLING THE SOURCE-FILTER REPRÉSENTATION OF SPEECH WITH A VARIATIONAL AUTOENCODER, 2022
ZHU, JIAPENGSHEN, YUJUNZHAO, DELIZHOU, BOLEI, IN-DOMAIN GAN INVERSION FOR REAL IMAGE EDITING, 2020

Attorney, Agent or Firm:

BONNANS, Arnaud et al. (FR)

Download PDF:

View/Download PDF PDF Help

Claims:

Revendications

[Revendication 1 ] Procédé d’estimation de l’authenticité d’un contenu audio ou vidéo, le contenu audio ou vidéo étant représenté par un ensemble de valeurs d’entrée, le procédé comprenant des étapes de :

- détermination (E6), au moyen d’un système de traitement (5) et sur la base dudit ensemble de valeurs d’entrée, d’un vecteur intermédiaire (w) conformément à une distribution apprise (p_w), le système de traitement (5) étant configuré, au préalable, pour produire, en sortie, des vecteurs de sortie répartis selon la distribution apprise (p_w) et conçus de sorte qu’un réseau générateur (34) produise un contenu de même type que le contenu audio ou vidéo lorsque lesdits vecteurs de sortie sont appliqués en entrée de ce réseau générateur (34), et

- estimation (E22) d’un niveau d’authenticité (m) du contenu audio ou vidéo par application de moyens de classification (20) audit vecteur intermédiaire (w).

[Revendication 2] Procédé selon la revendication 1 , dans lequel il est également prévu, préalablement à l’étape d’estimation, un procédé préliminaire d’apprentissage de la distribution (p_w) comprenant des étapes de :

- fourniture (E52), en entrée d’un réseau de redistribution (32), de données (z) réparties selon une distribution aléatoire, de manière à obtenir, en sortie, des vecteurs (u) répartis selon une distribution (p_w), lesdits vecteurs (u) étant fournis en entrée du réseau générateur (34) de manière à fournir, en sortie, un ensemble de valeurs d’apprentissage (x), et

- entraînement (E54) du réseau de redistribution (32) et du réseau générateur (34) de manière à actualiser ladite distribution (p_w).

[Revendication 3] Procédé selon la revendication 1 ou 2, dans lequel il est prévu, lors de l’étape de détermination (E6), des sous-étapes de :

- fourniture (E10), en entrée d’un réseau générateur (34), dudit vecteur intermédiaire (w) de manière à obtenir, en sortie dudit réseau générateur (34), un ensemble généré de valeurs, et

- actualisation (E18) dudit vecteur intermédiaire (w) de manière à optimiser une fonction de coût représentant une distance entre l’ensemble de valeurs d’entrée et ledit ensemble généré de valeurs, ledit vecteur intermédiaire actualisé étant utilisé en tant que vecteur intermédiaire (w) lors de l’étape d’estimation. [Revendication 4] Procédé selon la revendication 3, dans lequel l’étape d’actualisation (E18) est mise en œuvre par une méthode de descente de gradient.

[Revendication 5] Procédé selon la revendication 3 ou 4, dans lequel il est prévu, préalablement à l’étape d’estimation (E22), des étapes de :

- fourniture, en entrée du réseau générateur (34), dudit vecteur intermédiaire actualisé de manière à obtenir, en sortie dudit réseau générateur (34), un ensemble généré actualisé de valeurs, et

- nouvelle actualisation dudit vecteur intermédiaire (w) de manière à optimiser une fonction de coût représentant une distance entre l’ensemble de valeurs d’entrée et ledit ensemble généré actualisé de valeurs.

[Revendication 6] Procédé selon l’une quelconque des revendications 1 à 5, dans lequel l’étape de détermination comprend la fourniture, en entrée du système de traitement (5), dudit ensemble de valeurs d’entrée de manière à obtenir, en sortie dudit système de traitement (5) et sur la base de la distribution apprise (p_w), ledit vecteur intermédiaire (w).

[Revendication 7] Procédé selon l’une quelconque des revendications 1 à 6, dans lequel l’ensemble de valeurs d’entrée comprend un premier nombre de valeurs et le vecteur intermédiaire (w) comprend un deuxième nombre de valeurs, le deuxième nombre de valeurs étant strictement inférieur au premier nombre de valeurs.

[Revendication 8] Procédé selon la revendication 7, dans lequel le deuxième nombre de valeurs est compris entre un centième et un trentième du premier nombre de valeurs.

[Revendication 9] Procédé selon la revendication 7 ou 8, dans lequel le deuxième nombre de valeurs est inférieur ou égal à 512.

[Revendication 10] Procédé selon l’une quelconque des revendications 1 à 9, dans lequel il est prévu, en amont de l’étape d’estimation (E22), une étape d’entraînement des moyens de classification (20) à partir d’une pluralité de vecteurs intermédiaires associés chacun à un contenu audio ou vidéo authentique ou falsifié de telle manière que l’estimation du niveau d’authenticité (m) pour un vecteur intermédiaire (w) associé à un contenu audio ou vidéo authentique donne un premier résultat et que l’estimation du niveau d’authenticité (m) pour un vecteur intermédiaire (w) associé à un contenu audio ou vidéo falsifié donne un deuxième résultat distinct du premier résultat. [Revendication 11] Procédé selon l’une quelconque des revendications 1 à 10, dans lequel l’ensemble de valeurs d’entrée est obtenu par extraction d’une partie du contenu audio ou vidéo.

[Revendication 12] Procédé selon l’une quelconque des revendications 1 à 11 , dans lequel l’ensemble de valeurs d’entrée est formé de valeurs associées à des pixels d’une image.

[Revendication 13] Dispositif (50) d’estimation de l’authenticité d’un contenu audio ou vidéo, le contenu audio ou vidéo étant représenté par un ensemble de valeurs d’entrée, le dispositif (50) comprenant :

- un système de traitement (5) configuré pour déterminer, sur la base dudit ensemble de valeurs d’entrée, un vecteur intermédiaire (w) conformément à une distribution apprise (p_w), le système de traitement (5) étant configuré pour produire, en sortie, des vecteurs de sortie répartis selon la distribution apprise (p_w) et conçus de sorte qu’un réseau générateur (34) produise un contenu de même type que le contenu audio ou vidéo lorsque lesdits vecteurs de sortie sont appliqués en entrée de ce réseau générateur (34), et

- un module d’estimation d’un niveau d’authenticité (m) du contenu audio au vidéo par application de moyens de classification (20) audit vecteur intermédiaire (w).

[Revendication 14] Programme d’ordinateur comprenant des instructions exécutables par un processeur (54) et conçues pour mettre en œuvre un procédé selon l’une des revendications 1 à 12 lorsque ces instructions sont exécutées par le processeur (54).

Description:

Titre de l'invention : Procédé et dispositif d’estimation de l’authenticité d’un contenu audio ou vidéo et programme d’ordinateur associé

Domaine technique de l'invention

La présente invention concerne le domaine technique de la détermination de l’authenticité de données, et en particulier de l’authenticité de contenu audio ou vidéo.

Elle concerne en particulier un procédé et un dispositif d’estimation de l’authenticité d’un contenu audio ou vidéo et un programme d’ordinateur associé.

Etat de la technique

L’hypertrucage (ou « deepfake » selon le terme d’origine anglosaxonne couramment utilisé) est une technique qui consiste à modifier des données existantes, par exemple des données vidéos, pour les manipuler et associer à ces données un message différent de celui qui était associé initialement.

Cette technique est notamment connue pour reproduire la voix d’une personne et lui faire tenir des propos inventés. La détection de données manipulées constitue donc un enjeu majeur.

Il est par exemple connu d’utiliser des structures de réseaux de neurones artificiels pour détecter d’éventuelles données falsifiées.

L’utilisation de ces structures de réseaux de neurones artificiels rend cette détection très efficace. Toutefois, ces structures de réseaux de neurones artificiels sont souvent entraînées sur des données manipulées d’une certaine manière (par exemple, avec l’utilisation d’une méthode de compression particulière pour des données vidéos). Ainsi, dès que les éléments structurels des données analysées (par exemple la forme ou la résolution des données) changent, les performances des structures des réseaux artificiels utilisées sont fortement réduites.

L’article « ID-Reveal : Identity-aware Deepfake Video Detection » de D. Cozzolino, A. Rôssler, J. Thies, M. Nieftner and L. Verdoliva, 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 2021 , pp. 15088-15097, doi: 10.1109/ICCV48922.2021 .01483 décrit une mise en œuvre des structures de réseaux de neurones artificiels permettant de s’affranchir de ces changements dans les éléments structurels des données analysées.

Dans ce document, les structures de réseaux de neurones ne sont pas entraînées pour détecter des empreintes de manipulation des données mais pour analyser les expressions et mouvements de visages présents sur les images considérées. Ainsi, en analysant les expressions et mouvements des visages et en les comparant à des expressions connues comme authentiques, la structure de réseaux de neurones concernée détecte une éventuelle falsification de l’image (ou de la vidéo) initiale.

Cependant, la mise en œuvre de telle structure de réseaux de neurones est très lourde et nécessite l’utilisation de formats de données volumineux. Par ailleurs, la connaissance de données authentiques pour les visages analysés est nécessaire pour réussir à identifier d’éventuelles falsifications des expressions et mouvements de ces visages.

Présentation de l'invention

Dans ce contexte, la présente invention propose d’améliorer la détermination de l’authenticité de contenu audio ou vidéo.

Plus particulièrement, on propose selon l’invention un procédé d’estimation de l’authenticité d’un contenu audio ou vidéo, le contenu audio ou vidéo étant représenté par un ensemble de valeurs d’entrée, le procédé comprenant des étapes de :

- détermination, au moyen d’un système de traitement et sur la base dudit ensemble de valeurs d’entrée, d’un vecteur intermédiaire conformément à une distribution apprise, le système de traitement étant configuré, au préalable, pour produire, en sortie, des vecteurs de sortie répartis selon la distribution apprise et conçus de sorte qu’un réseau générateur produise un contenu de même type que le contenu audio ou vidéo lorsque lesdits vecteurs de sortie sont appliqués en entrée de ce réseau générateur, et

- estimation d’un niveau d’authenticité du contenu audio ou vidéo par application de moyens de classification audit vecteur intermédiaire.

Ainsi, l’utilisation d’un vecteur intermédiaire, qui peut présenter une dimension réduite par rapport à la dimension du contenu audio ou vidéo initial, permet d’améliorer la simplicité et le temps d’analyse. Par ailleurs, l’utilisation de ce vecteur intermédiaire ne diminue pas la robustesse du niveau d’authenticité obtenu car ce vecteur intermédiaire, grâce à l’utilisation de la distribution apprise, ne comprend que les paramètres pertinents nécessaires pour la détermination de ce niveau d’authenticité. D’autres caractéristiques non limitatives et avantageuses du procédé conforme à l’invention, prises individuellement ou selon toutes les combinaisons techniquement possibles, sont les suivantes :

- il est également prévu, préalablement à l’étape d’estimation, un procédé préliminaire d’apprentissage de la distribution comprenant des étapes de :

- fourniture, en entrée d’un réseau de redistribution, de données réparties selon une distribution aléatoire, de manière à obtenir, en sortie, des vecteurs répartis selon une distribution (initiale ou courante), lesdits vecteurs étant fournis en entrée du réseau générateur de manière à fournir, en sortie, un ensemble de valeurs d’apprentissage, et

- entraînement du réseau de redistribution et du réseau générateur de manière à actualiser ladite distribution (en vue de l’optimisation de la distribution) ;

- il est également prévu, lors de l’étape de détermination, des sous-étapes de :

- fourniture, en entrée d’un réseau générateur, dudit vecteur intermédiaire de manière à obtenir, en sortie dudit réseau générateur, un ensemble généré de valeurs, et

- actualisation dudit vecteur intermédiaire de manière à optimiser une fonction de coût représentant une distance entre l’ensemble de valeurs d’entrée et ledit ensemble généré de valeurs, ledit vecteur intermédiaire actualisé étant utilisé en tant que vecteur intermédiaire lors de l’étape d’estimation ;

- l’étape d’actualisation est mise en œuvre par une méthode de descente de gradient ;

- il est prévu, préalablement à l’étape d’estimation, des étapes de :

- fourniture, en entrée du réseau générateur, dudit vecteur intermédiaire actualisé de manière à obtenir, en sortie dudit réseau générateur, un ensemble généré actualisé de valeurs, et

- nouvelle actualisation dudit vecteur intermédiaire de manière à optimiser une fonction de coût représentant une distance entre l’ensemble de valeurs d’entrée et ledit ensemble généré actualisé de valeurs ;

- l’étape de détermination comprend la fourniture, en entrée du système de traitement, dudit ensemble de valeurs d’entrée de manière à obtenir, en sortie du système de traitement et sur la base de la distribution apprise, ledit vecteur intermédiaire ;

- l’ensemble de valeurs d’entrée comprend un premier nombre de valeurs et le vecteur intermédiaire comprend un deuxième nombre de valeurs, le deuxième nombre de valeurs étant strictement inférieur au premier nombre de valeurs ;

- le deuxième nombre de valeurs est compris entre un centième et un trentième du premier nombre de valeurs ;

- le deuxième nombre de valeurs est inférieur ou égal à 512 ;

- il est prévu, en amont de l’étape d’estimation, une étape d’entraînement des moyens de classification à partir d’une pluralité de vecteurs intermédiaires associés chacun à un contenu audio ou vidéo authentique ou falsifié de telle manière que l’estimation du niveau d’authenticité pour un vecteur intermédiaire associé à un contenu audio ou vidéo authentique donne un premier résultat et que l’estimation du niveau d’authenticité pour un vecteur intermédiaire associé à un contenu audio ou vidéo falsifié donne un deuxième résultat distinct du premier résultat ;

- l’ensemble de valeurs d’entrée est obtenu par extraction d’une partie du contenu audio ou vidéo ; et

- l’ensemble de valeurs d’entrée est formé de valeurs associées à des pixels d’une image.

La présente invention concerne également un dispositif d’estimation de l’authenticité d’un contenu audio ou vidéo, le contenu audio ou vidéo étant représenté par un ensemble de valeurs d’entrée, le dispositif comprenant :

- un système de traitement configuré pour déterminer, sur la base dudit ensemble de valeurs d’entrée, un vecteur intermédiaire conformément à une distribution apprise, le système de traitement étant configuré pour produire, en sortie, des vecteurs de sortie répartis selon la distribution apprise et conçus de sorte qu’un réseau générateur produise un contenu de même type que le contenu audio ou vidéo lorsque lesdits vecteurs de sortie sont appliqués en entrée de ce réseau générateur, et

- un module d’estimation d’un niveau d’authenticité du contenu audio au vidéo par application de moyens de classification audit vecteur intermédiaire.

La présente invention concerne encore un programme d’ordinateur comprenant des instructions exécutables par un processeur et conçues pour mettre en œuvre un procédé d’estimation tel qu’introduit précédemment lorsque ces instructions sont exécutées par le processeur.

Bien entendu, les différentes caractéristiques, variantes et formes de réalisation de l'invention peuvent être associées les unes avec les autres selon diverses combinaisons dans la mesure où elles ne sont pas incompatibles ou exclusives les unes des autres.

Description détaillée de l'invention

De plus, diverses autres caractéristiques de l'invention ressortent de la description annexée effectuée en référence aux dessins qui illustrent des formes, non limitatives, de réalisation de l'invention et où :

Figure 1 représente un ensemble d’éléments mis en jeu dans le cadre du procédé d’estimation d’un niveau d’authenticité conforme à la présente invention,

Figure 2 représente un ensemble de réseaux de neurones artificiels mis en jeu dans le cadre d’un procédé préliminaire d’apprentissage conforme à la présente invention,

Figure 3 représente, sous forme fonctionnelle, un dispositif d’estimation d’un niveau d’authenticité configuré pour mettre en œuvre un procédé d’estimation d’un niveau d’authenticité d’un contenu audio ou vidéo conforme à l’invention,

Figure 4 représente, sous forme de logigramme, un exemple de procédé d’estimation d’un niveau d’authenticité d’un contenu audio ou vidéo conforme à la présente invention,

Figure 5 représente, sous forme de logigramme, un exemple de procédé préliminaire d’apprentissage utilisable dans le cadre de l’invention, et

Figure 6 représente, sous forme de logigramme, un exemple de procédé préliminaire d’entraînement utilisable dans le cadre de l’invention.

La figure 1 représente un exemple d’un ensemble 1 d’éléments mis en jeu dans la présente invention. Cet ensemble 1 comprend ici un système de traitement 5 et des moyens de classification 20.

Cet ensemble 1 d’éléments est configuré pour traiter des données d’entrée. Ces données d’entrée sont par exemple sous forme d’images. Comme cela sera vu par la suite, ces images sont par exemple issues ici d’un contenu audio ou vidéo.

Pour la suite, on note que chaque image est représentée, en utilisant une pluralité de pixels, par une pluralité de composantes pour chaque pixel. Généralement, chaque image est représentée par trois composantes couleur pour chaque pixel (une composante rouge R, une composante verte G et une composante bleue B). En d’autres termes, chaque image est représentée par un ensemble de valeurs associé aux différents pixels la formant.

Le système de traitement 5 comporte ici un bloc d’optimisation 10, un bloc de transmission 12 et un réseau générateur 34.

Le système de traitement 5 présente les caractéristiques d’un encodeur, c’est- à-dire qu’il est configuré pour condenser les informations qui lui sont fournies en entrée.

En pratique, à partir de données d’entrée, ici à partir d’une image Im fournie en entrée du système de traitement 5 (figure 1) c’est-à-dire d’un ensemble de valeurs d’entrée qui lui sont associées, ce système de traitement 5 est configuré pour fournir, en sortie, un vecteur intermédiaire w de taille réduite par rapport à l’ensemble de valeurs d’entrée.

En d’autres termes, en considérant que l’ensemble de valeurs d’entrée comprend un premier nombre de valeurs et que le vecteur intermédiaire comprend un deuxième nombre de valeurs, le deuxième nombre de valeurs est ici strictement inférieur au premier nombre de valeurs. Par exemple ici, le deuxième nombre de valeurs est compris entre un centième et un trentième du premier nombre de valeurs. Par exemple, le deuxième nombre de valeurs est inférieur à 512.

Ainsi, le système de traitement 5 fournit, en sortie, un vecteur intermédiaire w représenté dans un espace particulier dit « espace latent ». Le vecteur intermédiaire w est également appelé « vecteur latent ». Ce vecteur latent correspond donc à une nouvelle représentation de l’image fournie en entrée du système de traitement 5. Cette nouvelle représentation conserve les informations les plus pertinentes de l’image Im fournie en entrée, c’est-à-dire celles qui caractérisent le mieux cette image Im, avec une dimension bien plus faible que celle de l’image Im.

De manière générale, le système de traitement 5 met en œuvre une fonction d’inversion associée à une fonction de génération.

Cette fonction d’inversion est par exemple mise en œuvre par l’intermédiaire du système de traitement 5 à l’aide du bloc d’optimisation 10, selon des étapes d’optimisation décrites dans la suite. La fonction d’inversion est par exemple du type de celle présentée dans l’article « lmage2StyleGAN++: How to Edit the Embedded Images? » de Abdal R., Qin Y. et Wonka P., 10.48550/ARXIV.1911 .11544, 2019.

La fonction de génération est mise en œuvre par le réseau générateur 34 décrit ci-après.

Comme cela est représenté sur la figure 1 , l’ensemble 1 d’éléments comprend également les moyens de classification 20. Ces moyens de classification 20 reposent par exemple ici sur l’utilisation d’un algorithme couramment dénommé « forêt d’arbres décisionnels » (ou « Random Forest » selon l’appellation d’origine anglo-saxonne couramment utilisée). Plus de détails sur les forêts d’arbres décisionnels peuvent être trouvés dans l’article « Random forests », de Breiman L, dans Machine learning, 45(1 ), 5-3, 2001.

Ainsi, comme le montre la figure 1 , à partir du vecteur intermédiaire w reçu en entrée, les moyens de classification 20 estiment un niveau m d’authenticité de l’ensemble de valeurs d’entrée associé à l’image Im. Ce niveau m d’authenticité prend par exemple un premier résultat mi lorsque l’ensemble de valeurs d’entrée est associé à un contenu audio ou vidéo authentique. Il prend par exemple un deuxième résultat m2 lorsque l’ensemble de valeurs d’entrée est associé à un contenu audio ou vidéo falsifié. Le deuxième résultat m2 est distinct du premier résultat m-i.

En variante, les moyens de classification peuvent comprendre un réseau de neurones artificiels configuré pour recevoir, en entrée, le vecteur intermédiaire w et fournir, en sortie, une estimation du niveau d’authenticité du contenu audio ou vidéo associé au vecteur intermédiaire w (fourni en entrée).

De manière avantageuse selon l’invention, le système de traitement 5 est configuré pour déterminer le vecteur intermédiaire w conformément à une distribution p _w apprise au préalable. Cette distribution p _w est apprise préalablement à la mise en œuvre du procédé d’estimation conforme à l’invention, selon un procédé préliminaire d’apprentissage décrit ci-après.

Ce procédé préliminaire d’apprentissage (qui sera décrit ultérieurement en référence à la figure 5) est mis en œuvre par l’intermédiaire d’une structure 35 de réseaux de neurones artificiels. Cette structure 35 de réseaux de neurones artificiels est représentée sur la figure 2.

Comme le montre la figure 2, la structure 35 de réseaux de neurones artificiels comprend un réseau 32 dit de redistribution (ou « mapping network » selon l’appellation d’origine anglosaxonne) et le réseau générateur 34 (compris dans le système de traitement 5 introduit précédemment).

Le réseau 32 de redistribution et le réseau générateur 34 sont par exemple du type de ceux utilisés dans les réseaux adverses génératifs StyleGAN. Plus de détails sur les réseaux de type StyleGAN peuvent être trouvés dans l’article « Analyzing and Improving the Image Quality of StyleGAN » de Karras T., Laine S., Aittala M., Hellsten J., Lehtinen J. and Aila T., 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8107-8116, 2020.

En pratique, le réseau 32 de redistribution comprend par exemple ici huit couches. Le réseau 32 de redistribution est par exemple de type perceptron multicouche (avec ici huit couches).

Comme la montre la figure 2, le réseau 32 de redistribution reçoit, en entrée, des données z réparties selon une distribution aléatoire. Ce réseau 32 de redistribution est alors configuré pour fournir, en sortie, un vecteur latent u représenté dans un espace latent prédéterminé.

Le réseau générateur 34 est un réseau de neurones artificiels qui comprend ici une pluralité de couches. Chacune de ces couches est par exemple une couche de convolution combinée à une fonction de normalisation et une fonction de non- linéarité.

En pratique, la structure 35 de réseaux de neurones artificiels est structurée par l’intermédiaire de nœuds formant les différentes couches du réseau 32 de redistribution et du réseau générateur 34. Ces nœuds sont caractérisés par une pluralité de coefficients de pondération qui peuvent être ajustés, préalablement à la mise en œuvre du procédé d’estimation du niveau d’authenticité lui-même, grâce à une phase d’entraînement telle que décrite ultérieurement dans le procédé préliminaire d’apprentissage.

Comme cela est représenté sur la figure 2, le réseau générateur 34 est configuré pour recevoir, en entrée, le vecteur latent u obtenu en sortie du réseau 32 de redistribution et pour fournir en sortie un ensemble de valeurs x (associé à une image).

La présente invention concerne plus particulièrement l’estimation du niveau m d’authenticité d’un contenu audio ou vidéo. Pour cela, l’invention concerne également un dispositif 50 d’estimation de l’authenticité du contenu audio ou vidéo. La figure 3 représente, sous forme fonctionnelle, un tel dispositif 50 d’estimation configuré pour mettre en œuvre l’invention.

Ce dispositif 50 d’estimation comprend une unité de commande 52 munie d’un processeur 54 et d’une mémoire 56.

Ce dispositif 50 d’estimation est conçu pour mettre en œuvre un ensemble de modules et blocs fonctionnels. Par exemple, il comprend un module d’estimation, le bloc d’optimisation 10 et le bloc de transmission 12. Chacun des différents modules et blocs est par exemple réalisé au moyen d’instructions de programme d’ordinateur mémorisées par la mémoire 56 de l’unité de commande 52 et conçues pour mettre en œuvre le module concerné lorsque ces instructions sont exécutées par le processeur 54 de l’unité de commande 52.

La figure 4 est un logigramme représentant un exemple de procédé d’estimation de l’authenticité d’un contenu audio ou vidéo mis en œuvre dans le contexte décrit précédemment.

Comme indiqué précédemment, préalablement à la mise en œuvre du procédé d’estimation, un procédé préliminaire d’apprentissage est mis en œuvre afin de procéder à l’apprentissage de la distribution p _w (qui permet ensuite la détermination du vecteur intermédiaire w).

La figure 5 est un logigramme représentant un exemple de procédé préliminaire d’apprentissage. En pratique, ce procédé préliminaire d’apprentissage permet de déterminer les coefficients de pondération associés à la pluralité de nœuds de la structure 35 de réseaux de neurones artificiels.

Comme le montre cette figure, ce procédé préliminaire comprend une première étape (étape E50) d’initialisation des coefficients de pondération de la structure 35 de réseaux de neurones artificiels à des valeurs initiales. Ces valeurs initiales sont par exemple des valeurs aléatoires.

Le procédé préliminaire d’apprentissage se poursuit ensuite à l’étape E52 lors de laquelle des données z réparties selon une distribution aléatoire sont fournies en entrée de la structure 35 de réseaux de neurones artificiels. Le vecteur u est obtenu en sortie du réseau 32 de redistribution. Un ensemble de valeurs d’apprentissage x est alors obtenu en sortie de la structure 35 de réseaux de neurones.

Le procédé se poursuit ensuite à l’étape E54 formant une étape d’apprentissage du réseau 32 de redistribution et du réseau générateur 34. De manière générale, cette étape vise à actualiser les coefficients de pondération de la structure 35 de réseaux de neurones artificiels (plus particulièrement les coefficients de pondération respectifs du réseau 32 de redistribution et du réseau générateur 34) de manière que le contenu obtenu en sortie de la structure 35 de réseaux de neurones artificiels s’approche le plus possible d’un contenu de référence (à savoir ici un contenu de référence dont il est connu qu’il correspond à un contenu authentique). En pratique ce contenu de référence peut comprendre des images (vérifiées comme authentiques) d’une base de données.

Cette étape d’apprentissage repose par exemple sur l’optimisation d’une fonction de coût dite adversaire progressive telle que décrite dans l’article « Progressive Growing of GANs for Improved Quality, Stability, and Variation » de Karras T., Aila T., Laine S. et Lehtinen J., doi : 10.48550/ARXIV.1710.10196, 2017.

Finalement, les coefficients de pondération sont modifiés de manière à minimiser la fonction de coût, par exemple au cours de plusieurs itérations, jusqu’à obtenir les coefficients de pondération optimaux qui minimise effectivement la fonction de coût. Ces coefficients de pondération optimaux permettent alors l’obtention de vecteurs u répartis selon une certaine distribution p _w déterminée (dite « distribution apprise p _w »).

En variante, l’optimisation de la fonction de coût peut être mise en œuvre par l’intermédiaire d’un nombre prédéterminé d’itérations. Dans ce cas, les coefficients de pondération obtenus ne sont pas forcément optimaux mais en forment une approximation correcte permettant également d’obtenir des vecteurs u répartis selon une distribution p _w convenable (formant donc une bonne approximation de la distribution apprise précédemment décrite). Une telle variante permet notamment d’obtenir plus rapidement cette distribution.

Cette distribution apprise p _w est ensuite utilisée dans le procédé d’estimation de l’authenticité d’un contenu audio ou vidéo décrit ci-après.

Le procédé d’estimation de l’authenticité d’un contenu audio ou vidéo est donc mis en œuvre à la suite du procédé préliminaire d’apprentissage.

Comme le montre la figure 4, le procédé d’estimation débute à l’étape E2 lors de laquelle l’unité de commande 52 reçoit un contenu audio ou vidéo. Il s’agit du contenu audio ou vidéo dont on souhaite déterminer s’il est authentique ou s’il a été falsifié (totalement ou en partie). Pour cela, à l’étape E4, le processeur 54 détermine un ensemble de valeurs d’entrée associées au contenu audio ou vidéo. Cet ensemble de valeurs d’entrée est obtenu par extraction d’une partie du contenu audio ou vidéo.

Plus précisément, dans le cas d’un contenu vidéo (c’est-à-dire que ce contenu comprend au moins une image, éventuellement une séquence d’images), ce dernier est décomposé sous la forme d’une pluralité d’images selon des méthodes bien connues (en décomposant, par exemple, le contenu vidéo selon une séquence d’une pluralité de plans immobiles, à intervalles de temps réguliers, chacun correspondant alors à une image).

Dans le cas d’un contenu audio, les composantes sonores peuvent être transcrites sous la forme de composantes d’une image comme cela est par exemple décrit dans l’article « Learning and controlling the source-filter representation of speech with a variational autoencoder », de Sadok, S., Leglaive, S., Girin, L, Alameda-Pineda, X. et Séguier, R., 10.48550/ARXIV.2204.07075, 2022. D’après cet article, les composantes sonores sont traitées sous la forme de spectrogrammes qui sont des graphiques représentant la fréquence en fonction du temps. Sur ces spectrogrammes, une échelle de couleur traduit l’intensité de chaque composante sonore. L’intensité de chaque composante sonore représentée par un couleur peut donc être utilisée comme la valeur de pixel d’une image (correspondant alors à l’image utilisée ci-après).

Ainsi, que le contenu initial reçu à l’étape E2 soit un contenu audio ou vidéo, le procédé d’estimation de son authenticité est basé sur des données d’entrée formées à partir d’une image formatée par exemple de la manière décrite ci-après.

Sur chaque image, le processeur 54 détecte tout d’abord la présence du visage d’au moins une personne. Cela s’effectue par exemple en identifiant certaines particularités permettant de définir un visage.

Puis, une fois le visage détecté sur l’image, le processeur 54 extrait l’image autour du visage détecté. Il « rogne » l’image de manière à ne conserver que la partie de l’image comprenant le visage détecté.

Ensuite, le processeur 54 adapte la partie de l’image comprenant le visage de manière à procéder à un alignement du visage. Cela consiste alors à localiser des points caractéristiques du visage afin d’identifier la structure géométrique du visage concerné. Plus précisément, le processeur 54 se base sur les éléments du visage contenant le plus d’information sémantique (comme par exemple les yeux, le nez ou la bouche) afin de déterminer la géométrie des composantes du visage. Cela permet alors de représenter de manière fiable les éléments « non rigides » du visage. Le processeur 54 détermine alors une image modifiée sur laquelle le visage est « aligné ».

Enfin, à l’issue de cette étape E4, le processeur 54 décompose l’image modifiée en un ensemble de valeurs d’entrée associé aux différents pixels la formant. Comme défini précédemment, l’ensemble de valeurs d’entrée est formé des valeurs associées aux différents pixels de l’image (ici l’image modifiée).

Comme le montre la figure 4, le procédé d’estimation se poursuit à l’étape E6. Lors de cette étape, le processeur 54 fournit, en entrée du système de traitement 5, et plus particulièrement en entrée du bloc d’optimisation 10, l’ensemble de valeurs d’entrée obtenu à l’étape E4. Ce système de traitement 5 fournit alors, en sortie, un vecteur initial wo. Ce vecteur initial wo est par exemple déterminé de manière aléatoire.

En variante, afin d’accélérer le processus d’optimisation décrit ci-après, le vecteur initial peut être déterminé de la manière décrite dans l’article « In-Domain GAN Inversion for Real Image Editing » de Zhu, Jiapeng and Shen, Yujun and Zhao, Deli and Zhou, Bolei, 10.48550/ARXIV.2004.00049, 2020.

Afin d’obtenir la meilleure estimation possible du niveau d’authenticité du contenu audio ou vidéo reçu, le procédé d’estimation comprend un processus d’optimisation du vecteur intermédiaire décrit ci-après par les étapes E8 à E20. La méthode d’optimisation du vecteur intermédiaire w est par exemple ici une méthode d’optimisation itérative par descente de gradient.

Pour cela, le procédé d’estimation comprend une étape E8 d’initialisation à la valeur 0 d’un indice i. Cet indice i désigne le tour courant de cette méthode d’optimisation. Lors de cette étape, le processeur 54 initialise également le vecteur intermédiaire. Le vecteur initial wo déterminé à l’étape E6 est utilisé comme valeur d’initialisation.

A l’étape E10, comme cela est également illustré sur la figure 1 , pour le tour courant, le processeur 54 fournit, en entrée du réseau générateur 34, la valeur courante du vecteur intermédiaire Wj (pour le premier tour, il s’agit donc du vecteur initial wo). Le réseau générateur 34 fournit alors, en sortie, un ensemble de valeurs généré correspondant à ce vecteur intermédiaire Wi courant. En d’autres termes, le réseau générateur 34 fournit, en sortie, l’image Yj correspondant au vecteur intermédiaire Wi courant.

Les deux ensembles de valeurs, l’ensemble de valeurs d’entrée et l’ensemble de valeurs généré sont ensuite comparés, par le bloc d’optimisation 10, pour évaluer si le vecteur intermédiaire Wi courant forme une représentation pertinente de l’image initiale Im issue du contenu audio ou vidéo reçu à l’étape E2.

Plus précisément, à l’étape E12, le processeur 54 détermine une fonction de coût L. Cette fonction de coût L dépend de l’ensemble des valeurs d’entrée (étape E4) et de l’ensemble des valeurs généré (étape E10). Cette fonction de coût permet de quantifier la différence entre l’image reçue en entrée (à l’étape E2) et celle générée à partir du vecteur intermédiaire Wi courant.

En pratique, lors de cette étape E12, la fonction de coût L est ici représentée par une distance entre l’ensemble des valeurs d’entrée et l’ensemble des valeurs généré.

La fonction de coût L s’exprime de la forme suivante : avec Im l’image reçue en entrée (à l’étape E2), Y l’image générée à partir du vecteur intermédiaire wi, À un paramètre variable en fonction de l’application, N le nombre total de pixels dans chaque image Im ou Y, la notation ||Y, lm||2 représentant la distance euclidienne entre les deux éléments Im et Y et Lpercept une fonction définie par l’expression suivante : avec la notation vgg correspondant à l’application d’un réseau de neurones artificiels de type vgg16 à l’image Im ou l’image Y, le résultat obtenu, pour chaque image étant par exemple un vecteur associé de 4096 valeurs.

Comme le montre la figure 4, le procédé se poursuit à l’étape E14 lors de laquelle le processeur 54 évalue si l’ensemble de valeurs généré permet d’optimiser la fonction de coût L. Par exemple, le processeur 54 évalue ici si la distance entre l’ensemble des valeurs d’entrée et l’ensemble des valeurs généré est suffisamment faible. Cette distance évalue par exemple l’écart quadratique moyen entre l’ensemble des valeurs d’entrée et l’ensemble des valeurs généré. Pour cela, le processeur 54 compare cette distance à une valeur prédéterminée s.

Si, à l’étape E16, la fonction de coût (c’est-à-dire ici la distance entre l’ensemble des valeurs d’entrée et l’ensemble des valeurs généré) est supérieure à cette valeur prédéterminée s, cela signifie que l’ensemble de valeurs généré, et donc le vecteur intermédiaire courant Wi concerné, ne forment pas une représentation pertinente de l’image issue du contenu audio ou vidéo. Le procédé se poursuit alors à l’étape E18. Lors de cette étape, le processeur 54 actualise le vecteur intermédiaire courant Wi sur la base de la fonction de coût déterminée. Plus précisément, le vecteur intermédiaire actualisé w _act est donné par l’expression suivante :

Wact = Wi ~ r/. VLÇw^ x') avec Wact, le vecteur intermédiaire actualisé, Wi, le vecteur intermédiaire courant, r| une constante, L(Wi, x) la fonction de coût dépendant de l’ensemble de valeurs d’entrée et de l’ensemble de valeurs généré et V l’opérateur gradient.

Puis, à l’étape E20, l’indice i est incrémenté. Le vecteur intermédiaire actualisé Wact devient la valeur courante du vecteur intermédiaire. Une nouvelle itération est alors mise en œuvre et le procédé reprend à l’étape E12.

En revanche, si, à l’étape E16, la fonction de coût L est inférieure à la valeur prédéterminée s, le vecteur intermédiaire courant Wi peut être considéré comme correspondant à une représentation pertinente de l’image d’entrée. Le vecteur intermédiaire courant Wi est donc utilisé pour la suite du procédé d’estimation. Le vecteur intermédiaire courant Wi optimisé (et utilisé pour la suite du procédé d’estimation) est noté « vecteur intermédiaire w ».

Ce vecteur intermédiaire w est déterminé conformément à la distribution apprise p _w lors du procédé préliminaire d’apprentissage décrit précédemment. Grâce au procédé préliminaire d’apprentissage décrit précédemment, le vecteur intermédiaire obtenu est tel que, lorsque ce vecteur intermédiaire est fourni en entrée du réseau générateur 34, ce dernier fournit, en sortie, un contenu de même type (c’est-à-dire par exemple une image représentant une personne de même identité, pose et expression que sur l’image de référence). Autrement dit, le réseau générateur 34 permet d’obtenir, à partir d’un vecteur intermédiaire w suivant la distribution apprise p _w, un contenu plausible (par rapport à un contenu de référence dont il est connu qu’il est authentique).

Ainsi, le système de traitement 5 tel qu’il est conçu peut être vu comme un encodeur qui permet de produire des vecteurs intermédiaires répartis selon une certaine distribution p _w préalablement apprise. De manière avantageuse, lorsque le réseau générateur 34 est appliqué au vecteur intermédiaire w, cela permet alors de retrouver, sensiblement, les données d’entrée.

Le bloc de transmission 12 transmet, vers les moyens de classification 20, ensuite, à l’étape E22, ce vecteur intermédiaire w (ici sous la commande du bloc d'optimisation 20 lorsque la condition d'arrêt de l'optimisation est rencontrée), pour la mise en œuvre de l’étape E24.

Comme cela est représenté sur la figure 4, le procédé se poursuit à l’étape E24 d’estimation du niveau d’authenticité du contenu audio ou vidéo reçu à l’étape E2.

Pour cela, le processeur 54 fournit le vecteur intermédiaire w, transmis à l’étape E22, aux moyens de classification 20. Les moyens de classification 20 estiment alors le niveau m d’authenticité de l’ensemble de valeurs d’entrée associé à l’image issue du contenu audio ou vidéo reçu à l’étape E2. Les moyens de classification 20 fournissent alors, en sortie, un premier résultat mi ou un deuxième résultat m2. Le premier résultat mi et le deuxième résultat m2 sont distincts l’un de l’autre. Ici, le premier résultat mi s’interprète par exemple comme un caractère authentique du contenu audio ou vidéo analysé tandis que le deuxième résultat m2 signifie que le contenu audio ou vidéo reçu à l’étape E2 a été falsifié.

Les moyens de classification 20 sont entraînés préalablement à la mise en œuvre de l’étape E24 selon un procédé préliminaire d’entraînement. La figure 6 est un logigramme représentant un exemple de procédé préliminaire d’entraînement. Ce procédé préliminaire d’entraînement est par exemple mis en œuvre préalablement à la mise en œuvre du procédé d’estimation (donc en amont de l’étape E2).

Ce procédé préliminaire d’entraînement est mis en œuvre pour des contenus audio ou vidéo dont le statut « authentique » ou « falsifié » est connu. Ces contenus sont par exemple ceux issus de la base de données FaceForensics++. Comme le montre la figure 6, ce procédé débute par une étape E70 d’initialisation des valeurs de nœuds des moyens de classification 20 à des valeurs initiales. Ces valeurs initiales sont par exemple des valeurs aléatoires.

Le procédé préliminaire d’entraînement se poursuit ensuite à l’étape E72. Lors de cette étape, le processeur 54 reçoit un contenu audio ou vidéo de référence dont le statut (authentique ou falsifié) est connu.

Puis, de manière similaire à l’étape E4 décrite précédemment, le processeur 54 décompose le contenu audio ou vidéo en une pluralité d’images et détermine, pour chaque image, un ensemble de valeurs d’entrée de référence (étape E74).

A l’étape E76, le processeur 54 fournit, en entrée du système de traitement 5, l’ensemble de valeurs d’entrée de référence. De manière similaire à l’étape E6 décrite, un vecteur intermédiaire de référence est déterminé à l’issue de cette étape E76.

Ce vecteur intermédiaire de référence est ensuite optimisé lors des étapes E78 à E90 de la même façon qu’aux étapes E8 à E20 décrites précédemment.

A l’étape E92, le processeur 54 fournit, en entrée des moyens de classification 20, le vecteur intermédiaire de référence (actualisé).

Puis, à l’étape E94, le processeur 54 ajuste les valeurs de nœuds des moyens de classification de manière que l’estimation du niveau d’authenticité pour un vecteur intermédiaire de référence associé à un contenu audio ou vidéo authentique donne le premier résultat mi et que l’estimation du niveau d’authenticité pour un vecteur intermédiaire de référence associé à un contenu audio ou vidéo falsifié donne le deuxième résultat m2 distinct du premier résultat m-i.

De manière avantageuse selon l’invention, l’utilisation du vecteur intermédiaire, présentant une dimension considérablement réduite par rapport à la dimension de la partie d’image analysée, permet d’améliorer la simplicité et le temps d’analyse. Par ailleurs, cette réduction de dimension (donc en apparence d’informations disponibles pour effectuer l’estimation de l’authenticité) ne diminue pas la robustesse du niveau d’authenticité obtenu car finalement le vecteur intermédiaire ne comprend que les paramètres pertinents nécessaires pour la détermination de ce niveau. Par exemple, le procédé selon l’invention ne prend pas en compte les informations concernant les éclairages ou les arrière-plans, informations qui ne sont pas utiles pour la détermination de l’authenticité du contenu à partir des visages présents sur l’image analysée.

De plus, les réseaux de neurones et moyens de classification impliqués dans l’invention ne nécessitent pas de phase d’entraînement coûteuse (en temps, en mémoire disponible).

La présente invention présente une application particulièrement avantageuse pour la détection de contenus audio ou vidéo qui auraient falsifiés mais qui seraient diffusés, de manière intentionnelle, en tant que contenus authentiques. Cela est particulièrement avantageux afin d’identifier des contenus diffusant de fausses informations (ou « fake news »), de lutter contre le cyberharcèlement ou encore de lutter contre certaines arnaques liées à d’éventuels chantages basés sur des contenus falsifiés.

Previous Patent: DEVICE FOR SECURING AN OBJECT

Next Patent: METHOD FOR SYNTHESISING 5-HYDROXYMETHYLFURFURAL