Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR EVALUATING THE RISK OF RE-IDENTIFICATION OF ANONYMISED DATA
Document Type and Number:
WIPO Patent Application WO/2022/074301
Kind Code:
A1
Abstract:
The method of the invention provides a protection rate (txP2) representative of the risk of re-identification of data. In the case of a distance-based correspondence-seeking attack, the method comprises the steps of: a) linking an original dataset (EDO) comprising a plurality of original individuals (IO) with an anonymised dataset (EDA) comprising a plurality of anonymised individuals (IA); b) transforming (PCA, MCA, FAMD) the original individuals and the anonymous individuals in a Euclidean space; c) identifying, for each original individual, one or more nearest anonymous individuals based on a distance, by a method referred to as the "k-NN" method; and d) calculating the protection rate, being a mean number (Nm) of anonymous individuals, nearest to a considered original individual (IOi), who are not a valid anonymous individual corresponding to the original individual considered, the nearest anonymous individuals being those identified in step c) and having a distance (dy) relative to the considered original individual less than the distance between the considered original individual and the valid anonymous individual.

Inventors:
GUILLAUDEUX MORGAN (FR)
BREILLACQ OLIVIER (FR)
Application Number:
PCT/FR2021/000113
Publication Date:
April 14, 2022
Filing Date:
October 07, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BIG DATA SANTE (FR)
International Classes:
G06F21/62; G06F21/60; H04W12/02
Foreign References:
EP3567508A12019-11-13
FR3048101A12017-08-25
Other References:
CALVINO AIDA ET AL: "Factor Analysis for Anonymization", 2017 IEEE INTERNATIONAL CONFERENCE ON DATA MINING WORKSHOPS (ICDMW), IEEE, 18 November 2017 (2017-11-18), pages 984 - 991, XP033279471, DOI: 10.1109/ICDMW.2017.139
JOSEP DOMINGO-FERRER ET AL: "Disclosure risk assessment in statistical microdata protection via advanced record linkage", STATISTICS AND COMPUTING, KLUWER ACADEMIC PUBLISHERS, BO, vol. 13, no. 4, 1 October 2003 (2003-10-01), pages 343 - 354, XP019215605, ISSN: 1573-1375, DOI: 10.1023/A:1025666923033
"Statistical Disclosure Control", 30 July 1998, article PAGLIUCA DANIELA ET AL: "Some Results of Individual Ranking Method on the System of Enterprise Accounts Annual Survey", XP055805674
ROBINSON-COX J.F.: "A record-linkage approach to imputation of missing data : Analyzing tag rétention in a tag-recapture experiment", JOURNAL OF AGRICULTURAL, BIOLOGICAL, AND ENVIRONMENTAL STATISTICS, vol. 3, no. 1, 1998, pages 48 - 61
GILL L: "National Statistics Methodology Series no. 25", 2001, OFFICE FOR NATIONAL STATISTICS, article "Methods for Automatic Record Matching and Linking and Their Use in National Statistics"
WINKLER W.E.: "Business Survey Methods", 1995, WILEY, article "Matching and record linkage", pages: 355 - 384
FELLEGI I.P.JARO M.A.WINKLER W.E. ET AL.: "A theory of record linkage", JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, vol. 64, 1969, pages 1183 - 1210, XP009015729
"Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida", JOURNAL OF THE AMERICAN STATISTICAL ASSOCIATION, vol. 84, 1989, pages 414 - 420
"Advanced methods for record linkage", PROCEEDINGS OF THE AMERICAN STATISTICAL ASSOCIATION SECTION ON SURVEY RESEARCH METHODS, 1995, pages 467 - 472
PAGLIUCA D ET AL.: "Some Results of Individual Ranking Method on the System of Enterprise Accounts Annual Survey, Esprit SDC Project", DELIVERABLE MI-3/D2, 1999
Attorney, Agent or Firm:
TOUROUDE & ASSOCIATES (FR)
Download PDF:
Claims:
9

Revendications Procédé de traitement de données mis en oeuvre par ordinateur pour l’évaluation d’un risque de ré-identification de données anonymisées, ledit procédé fournissant un taux de protection (txP2) représentatif dudit risque de ré-identification dans le cas d’une attaque de recherche de correspondance basée sur une distance, ledit procédé comprenant les étapes de a) lier un ensemble de données d’origine (EDO) comprenant une pluralité d’individus d’origine (IO) à un ensemble de données anonymisées (EDA) comprenant une pluralité d’individus anonymes (IA), lesdits individus anonymes (IA) étant produits par un processus d’anonymisation desdits individus d’origine (IO); b) transformer (PCA, MCA, FAMD) lesdits individus d’origine (IO) et lesdits individus anonymes (IA) dans un espace euclidien (A1 , A2), lesdits individus d’origine (IO) et individus anonymes (IA) étant représentés par des coordonnées dans ledit espace euclidien (A1 , A2) ; c) identifier pour chaque dit individu d’origine (IO) un ou plusieurs dits individus anonymes (IA) les plus proches sur la base d'une distance, par une méthode dite « k-NN >> ; et d) calculer ledit taux de protection (txP2) comme étant un nombre moyen (Nm) de dits individus anonymes (IAj) les plus proches d’un dit individu d’origine (IOi) qui ne sont pas un individu anonyme valide (IAi) correspondant audit individu d’origine (IOi), lesdits individus anonymes (IAj) les plus proches étant ceux identifiés à l’étape c) et ayant une distance (dij) avec ledit individu d’origine (IOi) inférieure à la distance (dû) entre ledit individu d’origine (IOi) et ledit individu anonyme valide (IAi). Procédé selon la revendication 1 , caractérisé en ce que ladite distance est une distance euclidienne. Procédé selon la revendication 1 ou 2, caractérisé en ce que la transformation de l’étape b) est réalisée par une méthode factorielle (PCA, MCA, FAMD) et/ou à l’aide d’un réseau de neurones artificiels dit « autoencodeur ». Procédé selon la revendication 3, caractérisé en ce que ladite méthode factorielle est une méthode dite « Analyse en Composantes Principales >> (PCA) lorsque lesdits individus (IO, IA) comprennent des variables de type continu, une méthode dite « Analyse des Correspondances Multiples >> (MCA) lorsque lesdits individus (IO, IA) comprennent des variables de type qualitatif, ou une méthode dite « Analyse Factorielle de Données Mixtes >> (FAMD) lorsque lesdits individus (IO, IA) comprennent des variables de type mixte « continu/qualitatif >>. Système informatique d’anonymisation de données (SAD) comportant un dispositif de stockage de données (SD) stockant des instructions de programme (MET) pour la mise en oeuvre du procédé selon l’une quelconque des revendications 1 à 4. Produit programme d’ordinateur comportant un support dans lequel sont enregistrées des instructions de programme (MET) lisibles par un processeur pour la mise en oeuvre du procédé selon l’une quelconque des revendications 1 à 4.

Description:
Description

Titre de l’invention : PROCÉDÉ D’ÉVALUATION DU RISQUE DE RÉIDENTIFICATION DE DONNÉES ANONYMISÉES

L’invention concerne de manière générale l’anonymisation de données sensibles destinées à être partagées avec des tiers, par exemple, à des fins de recherche, d’analyse ou d’exploitation de celles-ci. Plus particulièrement, l’invention se rapporte à un procédé d’évaluation du risque de ré-identification de données anonymisées.

De manière générale, les données sont pour les organisations une source de performance et constituent pour celles-ci un actif important. Les données apportent des informations cruciales et précieuses pour la production de biens et de services de qualité, ainsi que pour la prise de décision. Elles procurent un avantage concurrentiel qui permet aux organisations de perdurer et de se démarquer de la concurrence. Le partage de données, par exemple sous la forme de données ouvertes dites « open data >> en anglais, est aujourd’hui perçu comme offrant de nombreuses opportunités, notamment pour l’extension des connaissances et du savoir humain, l’innovation et la création de nouveaux produits et services.

Les données sont devenues aisément partageables avec les technologies du numérique et les innovations technologiques, et ce au-delà des organisations qui les collectent et les stockent en vue de leur exploitation. La transformation numérique de la société, avec l’essor des réseaux sociaux, la généralisation de la consommation en ligne, la dématérialisation des services, etc., génère un phénomène de massification des données dit « big data >> en anglais. Ce phénomène de massification des données s’est accentué avec l’adoption par un grand nombre de pays de politiques publiques dites « open data >> qui favorisent l'ouverture et le partage des données. Les technologies qui sont actuellement disponibles autorisent le stockage, le traitement et l’analyse de cette masse de données toujours croissante et permettent d’en extraire des connaissances et des informations exploitables.

Les données sont susceptibles de contenir des données à caractère personnel, dites « données personnelles >>, qui font l’objet de réglementations relatives à la protection de la vie privée. Ainsi, de manière générale, l’utilisation, le stockage et le partage des données personnelles sont soumis en France au règlement européen RGPD, pour « Règlement Général sur la Protection des Données », et à la loi française connue sous le nom « loi informatique et libertés >>. Certaines données, comme celles relatives à l'état de santé, à la vie privée et familiale, au patrimoine et autres, sont particulièrement sensibles et doivent faire l'objet de précautions particulières.

Plusieurs méthodes d’anonymisation sont connues et utilisées pour traiter des données originales de façon à protéger la vie privée des individus. L’anonymisation des données peut être définie comme un processus qui supprime l’association entre l'ensemble de données identifiant et le sujet des données. Le processus d’anonymisation vise à empêcher la singularisation d’un individu dans un ensemble de données, le lien entre deux enregistrements au sein d'un même ensemble de données, ou entre deux ensembles de données distincts, lorsque l’un des enregistrements correspond à des données propres à un individu, et la déduction d’informations dans l’ensemble de données. Ainsi, suite à un processus d’anonymisation, les données sont présentées sous une forme qui ne doit pas permettre d’identifier les individus, même par combinaison avec d’autres données.

La méthode d’anonymisation dite « k-anonymisation >> est l’une des méthodes plus utilisées. Cette méthode cherche à rendre indiscernable chaque enregistrement d'un ensemble de données d'au moins k-1 autres enregistrements de cet ensemble de données. La méthode d’anonymisation dite « L-diversité >> est une extension de la méthode de « k-anonymisation >> qui autorise une meilleure protection des données en impliquant dans chaque groupe de k enregistrements, dit « k-groupe >>, la présence d'au moins L valeurs d'attributs sensibles.

De manière générale, les principaux algorithmes d'anonymisation connus modifient les données par suppression, généralisation ou remplacement des informations personnelles dans les enregistrements individuels. Une altération du contenu informatif des données peut être la conséquence d’une anonymisation excessive. Or, il est important que les données anonymisées restent des données de qualité qui conservent un maximum de contenu informatif. C’est à cette condition que les données anonymisées gardent une utilité pour l’extraction de connaissances par l’analyse et le rapprochement avec d’autres données.

Le choix de l’algorithme d’anonymisation et l’ajustement des paramètres de fonctionnement de celui-ci sont importants pour concilier à la fois l’obligation de respect de la vie privée et la nécessité de préserver l’utilité des données. Dans l’état de la technique, il n’est pas connu d’algorithme d’anonymisation unique qui s’adapte à tous les contextes et qui donne le meilleur résultat à chaque fois. Plusieurs algorithmes d'anonymisation existent avec des degrés de fiabilité et des contextes d’applicabilité variables. Le contexte d’applicabilité des algorithmes d’anonymisation est caractérisé, entre autres, par le type de données à anonymiser et par l’usage souhaité des données anonymisées.

Le degré de fiabilité de l’algorithme d'anonymisation est en lien direct avec le risque de ré-identification des données anonymisées. Ce risque englobe le risque d’individualisation, c’est-à-dire, la possibilité d’isoler un individu, le risque de corrélation, c’est-à-dire, la possibilité de relier des ensembles de données distincts concernant un même individu, et le risque d’inférence, c’est-à-dire, la possibilité de déduction d’information sur un individu. Cependant, face à l’évolution des technologies de l’information qui rendent possible le lien entre des données de différentes sources, il est quasiment impossible de garantir une anonymisation qui offrirait un risque de ré-identification nul. Différentes méthodes d’évaluation du risque de ré-identification d’un ensemble de données ayant subi un traitement d’anonymisation, dites aussi « métriques >> ci-après, ont été proposées et procurent des évaluations quantitatives de ce risque.

Certaines de ces métriques font appel à une méthode dite de couplage d’enregistrements, ou « record-linkage >> en anglais, qui est décrite par Robinson- Cox J. F. dans l’article « A record-linkage approach to imputation of missing data : Analyzing tag retention in a tag-recapture experiment >>, Journal of Agricultural, Biological, and Environmental Statistics 3(1 ), 1998, pp. 48-61. Cette méthode, qui consiste à comparer les individus d’un ensemble de données ayant fait l’objet d’un traitement d’anonymisation à un ensemble de données d’origine, fut initialement développée pour améliorer la qualité des données en reliant dans des fichiers distincts des enregistrements relatifs à la même personne. Elle permet en outre d’évaluer la robustesse d’un traitement d’anonymisation face une tentative de ré-identification dans laquelle l’attaquant serait en possession de l’ensemble de données anonymisées et de données originales d’un ou plusieurs individus dont il cherche à prouver l’appartenance à la cohorte anonymisée.

Les méthodes de couplage déterministes, traitées par Gill L. dans l’article « Methods for Automatic Record Matching and Linking and Their Use in National Statistics >>, National Statistics Methodology Series no. 25, 2001 , London : Office for National Statistics, supposent l'existence d'un ensemble de variables communes dans les fichiers à relier. Le problème majeur d'une telle hypothèse est qu'une procédure d'appariement exacte des valeurs prises par les variables communes aux individus n’est pas toujours possible, ou suffisante, pour établir un lien entre les enregistrements. Cette problématique est abordée par Winkler W.E. dans l’article « Matching and record linkage », Cox B. G. (Ed.), Business Survey Methods, Wiley, New York, 1995, pp. 355-384. Dans la réalité, il existe entre les variables communes à deux enregistrements appariés une multitude de petites ou grandes différences provenant de plusieurs facteurs qui empêchent une correspondance parfaite des valeurs de ces variables.

Pour pallier au problème susmentionné, des méthodes non déterministes ont été développées et permettent d’établir un lien entre deux enregistrements, avec un appariement qui peut être probabiliste ou basé sur une distance entre les individus.

L’appariement probabiliste permet d’établir des probabilités de lien entre des enregistrements. Deux enregistrements sont considérés comme liés lorsque la probabilité de lien entre eux dépasse un certain seuil. L’appariement probabiliste est décrit par Fellegi LP. et al., Jaro M.A., et Winkler W.E. dans leurs articles respectifs « A theory of record linkage >>, Journal of the American Statistical Association 64, 1969, pp. 1 183-1210, « Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida >>, Journal of the American Statistical Association 84, 1989, pp. 414-420, et « Advanced methods for record linkage >>, Proceedings of the American Statistical Association Section on Survey Research Methods, 1995, pp. 467-472. L’appariement basé sur la distance est décrit par Pagliuca D. et al. dans la publication « Some Results of Individual Ranking Method on the System of Enterprise Accounts Annual Survey, Esprit SDC Project», Deliverable MI-3/D2, 1999. Dans cette approche, des distances sont établies entre les individus et chaque individu se voit associé l’enregistrement le plus proche ou le deuxième enregistrement le plus proche, et est dit respectivement « linked to nearest » ou « linked to 2nd nearest », en anglais.

La présente invention a pour objectif de fournir un nouveau procédé d’évaluation du risque de ré-identification de données anonymisées lors d’une attaque de recherche de correspondance basée sur la distance.

Selon un premier aspect, l’invention concerne un procédé de traitement de données mis en oeuvre par ordinateur pour l’évaluation d’un risque de réidentification de données anonymisées, le procédé fournissant un taux de protection représentatif du risque de ré-identification dans le cas d’une attaque de recherche de correspondance basée sur une distance, le procédé comprenant les étapes de a) lier un ensemble de données d’origine comprenant une pluralité d’individus d’origine à un ensemble de données anonymisées comprenant une pluralité d’individus anonymes, les individus anonymes étant produits par un processus d’anonymisation des individus d’origine ; b) transformer les individus d’origine et les individus anonymes dans un espace euclidien, les individus d’origine et individus anonymes étant représentés par des coordonnées dans l’espace euclidien ; c) identifier pour chaque dit individu d’origine un ou plusieurs individus anonymes les plus proches sur la base d'une distance, par une méthode dite « k-NN » ; et d) calculer le taux de protection comme étant un nombre moyen d’individus anonymes les plus proches de l’individu d’origine considéré qui ne sont pas un individu anonyme valide correspondant à l’individu d’origine considéré, les individus anonymes les plus proches étant ceux identifiés à l’étape c) et ayant une distance avec l’individu d’origine considéré inférieure à la distance entre l’individu d’origine considéré et l’individu anonyme valide.

Selon une caractéristique particulière du procédé, la distance précitée est une distance euclidienne.

Selon une autre caractéristique particulière du procédé, la transformation de l’étape b) est réalisée par une méthode factorielle et/ou à l’aide d’un réseau de neurones artificiels dit « auto-encodeur ».

Selon encore une autre caractéristique particulière du procédé, la méthode factorielle utilisée à l’étape b) est une méthode dite « Analyse en Composantes Principales » lorsque les individus comprennent des variables de type continu, une méthode dite « Analyse des Correspondances Multiples » lorsque les individus comprennent des variables de type qualitatif ou une méthode dite « Analyse Factorielle de Données Mixtes » lorsque les individus comprennent des variables de type mixte « continu/qualitatif ». L’invention concerne aussi un système informatique d’anonymisation de données comportant un dispositif de stockage de données stockant des instructions de programme pour la mise en oeuvre du procédé tel que décrit brièvement ci- dessus.

L’invention concerne aussi un produit programme d’ordinateur comportant un support dans lequel sont enregistrées des instructions de programme lisibles par un processeur pour la mise en oeuvre du procédé tel que décrit brièvement ci- dessus.

D’autres avantages et caractéristiques de la présente invention apparaîtront plus clairement à la lecture de la description ci-dessous de plusieurs modes de réalisation particuliers en référence aux dessins annexés, dans lesquels :

[Fig.1 ] La Fig.1 est un logigramme montrant un mode de réalisation particulier du procédé selon l’invention.

[Fig.2] La Fig.2 représente un diagramme illustratif relatif au mode de réalisation du procédé selon l’invention de la Fig.1 .

[Fig.3] La Fig.3 montre un exemple d’une architecture générale d’un système informatique d’anonymisation de données dans lequel est mis en oeuvre le procédé selon l’invention.

Dans la description qui suit, à des fins d'explication et non de limitation, des détails spécifiques sont fournis afin de permettre une compréhension de la technologie décrite. Il sera évident pour l'homme du métier que d'autres modes ou formes de réalisation peuvent être mis en pratique en dehors des détails spécifiques décrits ci-dessous. Dans d'autres cas, les descriptions détaillées de méthodes, techniques, etc., bien connus sont omises afin de ne pas complexifier la description avec des détails inutiles.

L’évaluation du risque de ré-identification nécessite de comparer un ensemble de données d’origine formé d’individus dits d’origine à un ensemble de données anonymisées formés d’individus dits anonymes. Les individus sont typiquement des enregistrements de données. Chaque individu anonyme de l’ensemble de données anonymisées représente une version anonymisée d’un individu d’origine correspondant. Une paire constituée par un individu d’origine et un individu anonyme correspondant est désignée « paire origine / anonyme ». Le risque de ré-identification est le risque qu’un attaquant réussisse à lier un individu d’origine à son enregistrement anonymisé, autrement dit l’individu anonyme correspondant, formant ainsi une paire origine / anonyme valide.

Le procédé selon l’invention pour l’évaluation du risque de ré-identification de données procure une métrique, basée sur une approche individu centrique, qui permet de quantifier le risque de ré-identification d’une donnée personnelle lors d’une attaque de recherche de correspondance basée sur la distance. En référence aux Figs.1 et 2, il est maintenant décrit un mode de réalisation particulier, désigné MR2, du procédé de l’invention, ayant une applicabilité intéressante dans le contexte d’une attaque de recherche de correspondance basée sur la distance. Ce mode de réalisation particulier MR2 est construit avec une approche résolument différente par rapport aux méthodes connues de l’état de l’art, en établissant un taux de protection qui est basé sur l’évaluation d’une densité de présence d’individus anonymes dans l’environnement immédiat des individus d’origine.

Comme visible à la Fig.1 , ce mode de réalisation MR2 comprend cinq étapes S2- 1 à S2-5.

La première étape S2-1 effectue un traitement de jonction des données. La première étape S2-1 est une étape de jonction des données. Dans l’étape S2-1 , un ensemble de données d’origine EDO comprenant une pluralité d’individus d’origine IO est lié à un ensemble de données anonymisées EDA comprenant une pluralité d’individus anonymes IA. Les données anonymisées EDA sont celles fournies par un processus d’anonymisation ayant traité les données d’origine EDO et correspondant à celles-ci.

La deuxième étape S2-2 effectue un traitement de transformation des individus IO et IA dans un espace euclidien. Conformément à l’invention, différentes méthodes de transformation pourront être utilisées. Typiquement, mais pas exclusivement, une méthode factorielle ou un réseau de neurones artificiels dit « auto-encodeur >>, ou « autoencoder >> en anglais, pourra être utilisé pour convertir les individus IO et IA sous forme de coordonnées dans un espace euclidien.

Différentes méthodes factorielles pourront être utilisées en fonction du type des données. Ainsi, l’Analyse en Composantes Principales dite « ACP », ou « PCA >> en anglais pour « Principal Component Analysis”, sera utilisée typiquement lorsque les variables sont continues. L’Analyse des Correspondances Multiples dite « ACM >>, ou « MCA >> en anglais pour « Multiple Correspondance Analysis >>, sera utilisée typiquement si les variables sont qualitatives. L’« Analyse Factorielle de Données Mixtes >> dite « AFDM >>, ou « FAMD >> en anglais pour « Factor Analysis of Mixed Data >>, sera utilisée typiquement si les variables sont mixtes, c’est-à-dire, de type continu et de type qualitatif.

Dans l’exemple de réalisation traité ici, une méthode factorielle est utilisée à l’étape S2-2. Dans cette étape S2-2, des axes de variance signifiants sont identifiés dans les ensembles de données par une analyse de données multivariée. Ces axes de variance signifiants déterminent les axes de l’espace euclidien sur lesquels sont projetés les individus IO et IA.

La transformation des individus IO et IA dans l’espace euclidien rend possible des calculs de distance mathématique entre les individus, à partir de leurs coordonnées. Le procédé de l’invention prévoit une utilisation privilégiée d’une distance euclidienne en tant que distance mathématique. Cependant, on notera que l’utilisation de différentes autres distances mathématiques, telles qu’une distance de Manhattan, une distance de Mahalanobis et autres, est incluse dans la vision de la présente invention.

La troisième étape S2-3 est une étape de calcul de distance mathématique, telle qu’une distance euclidienne. Dans cette étape S2-3, comme illustré à la Fig.2 dans laquelle les individus d’origine 10 et les individus anonyme IA sont représentés respectivement par des cercles noirs et des cercles blancs, dans un espace euclidien ayant des axes A1 et A2, il est calculé pour chaque individu d’origine IOi la distance mathématique dû qui le sépare de l’individu anonyme IAi avec qui il forme une paire origine / anonyme valide (IOi, IAi).

La quatrième étape S2-4 est une étape de comptage, pour chaque individu d’origine IOi, du nombre Nj des individus anonymes non valides IAj séparés de l’individu d’origine IOi par une distance mathématique dij qui est inférieure à la distance dû calculée à l’étape S2-3. La méthode des « k plus proches voisins >> dite « k-NN >> (de « k-Nearest Neighbors >> en anglais) est ici utilisée pour identifier pour chaque individu d’origine un ou plusieurs individus anonymes les plus proches sur la base d'une distance mathématique, telle qu’une distance euclidienne.

Dans cette étape S2-4, comme illustré à la Fig.2, il est donc compté le nombre Nj des individus anonymes non valides IAj présents dans la zone contenue dans le cercle de rayon dû centré sur l’individu d’origine IOi.

L’individu d’origine IOi est d’autant mieux protégé contre une ré-identification que le nombre Nj est élevé. En effet, les Nj individus anonymes non valides IAj étant plus proches, en termes de distance mathématique, de l’individu d’origine IOi que l’individu anonyme valide IAi, une attaque basée sur la distance sera fondée à sélectionner prioritairement l’un des Nj individus anonymes non valides IAj comme étant l’individu anonyme correspondant. Le nombre Nj représente le nombre de correspondances possibles pour l’attaquant avant de sélectionner l’individu anonyme valide IAi.

La cinquième étape S2-5 est une étape de calcul du taux de protection des données contre la ré-identification, désigné ici txP2, pour l’ensemble de données considéré. Le taux de protection txP2 est ici calculé comme étant un nombre médian Nm d’individus anonymes non valides IAj présents autour d’un individu d’origine dans l’ensemble de données considéré.

A titre d’exemple, on considère ici le cas d’un attaquant qui est en possession d'un ensemble de données contenant des données anonymes (individus IA) de 100 personnes dont fait partie une personne considérée i. L’attaquant est également en possession de la donnée originale (individu IOi) de la personne considérée i. L’attaquant tente de prouver que la donnée originale (individu IOi) de la personne considérée i fait partie de la cohorte anonymisée. Afin de réidentifier la paire origine / anonyme valide (IOi, IAi), l’attaquant doit procéder à une mise en correspondance des individus et utilise pour cela une distance mathématique entre ceux-ci, telle qu’une distance euclidienne. Si, par exemple, le taux de protection des données est de txP2=7 pour cet ensemble de données, cela signifie que l’attaquant se trouvera alors dans une situation, comme représentée à la Fig.2, dans laquelle il aura en moyenne Nj=7 individus anonymes non valides IAj plus proches que l’individu anonyme valide IAi et potentiellement sélectionnâmes. Ainsi, plus l’environnement de l’individu d’origine IOi est dense, avec de nombreux individus anonymes non valides IAj, et plus cet individu IOi sera difficile à ré-identifier.

Une architecture générale d’un système informatique d’anonymisation de données SAD dans lequel est mis en oeuvre le procédé selon l’invention d’évaluation du risque de ré-identification est montrée à titre d’exemple à la Fig.3.

Le système SAD est implanté ici dans un système informatique local DSL et comprend deux modules logiciels MAD et MET. Les modules logiciels MAD et MET sont hébergés dans des dispositifs de stockage de données SD, tels que mémoire et/ou disque dur, du système informatique local DSL. Le système informatique local DSL héberge également une base de données d’origine BDO dans laquelle sont stockées des données d’origine DO et une base de données anonymisées BDA dans laquelle sont stockées des données anonymisées DA.

Le module logiciel MAD met en oeuvre un processus d’anonymisation de données qui traite les données d’origine DO et fournit en sortie les données anonymisées DA.

Le module logiciel MET met en oeuvre le procédé selon l’invention pour l’évaluation du risque de ré-identification des données. Le module logiciel MET reçoit en entrée des données d’origine DO et des données anonymisées DA et fournit en sortie un taux de protection TP contre le risque de ré-identification. La mise en oeuvre du procédé selon l’invention est assurée par l'exécution d'instructions de code du module logiciel MET par un processeur (non représenté) du système informatique local DSL. Le taux de protection TP fourni par le module logiciel MET procure une mesure de la performance du processus d’anonymisation de données mis en oeuvre par le module logiciel MAD.

Bien entendu, l’invention ne se limite pas aux exemples de réalisation qui ont été décrits ici à titre illustratif. L’homme du métier, selon les applications de l’invention, pourra apporter différentes modifications et variantes entrant dans le champ de protection de l’invention.