Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR VERIFYING THE AUTHOR OF A SHORT MESSAGE
Document Type and Number:
WIPO Patent Application WO/2019/202450
Kind Code:
A1
Abstract:
A method for verifying whether a queried text of less than 500 characters has been compiled by an author, comprising the following steps: multivariate statistical analysis of the queried text, for example, PCA or PCoA, in order to generate a matrix of coordinates in a space with N dimensions; hierarchical clustering of the points of this space that can be represented by a dendrogram; verification of the author of the queried text on the basis of this clustering 10 (fig. 1).

Inventors:
GENILLOUD GUY (CH)
COTTY ALEXANDRE-PIERRE (CH)
KASSER AUGUSTIN CAMILLE (CH)
JOVER ANTOINE (CH)
DONNET-MONAY ADRIEN (CH)
DEVILLARD FLORENT (CH)
ANDEL RIMENSBERGER CONSTANZE (CH)
ROTEN VALENTIN (CH)
CODRESCU STEFAN (CH)
FAVRE ALAIN (CH)
POCHON LUC-OLIVIER (CH)
POUSAZ LIONEL (US)
ROTEN CLAIRE (CH)
RIAND STÉPHANE (CH)
NICOLLERAT SERGE (RO)
EUGSTER MYRIAM (CH)
BUHLMANN JEAN-LUC (FR)
STUDER LÉONARD ANDRÉ HENRI (CH)
ROTEN CLAUDE-ALAIN (CH)
Application Number:
PCT/IB2019/053037
Publication Date:
October 24, 2019
Filing Date:
April 12, 2019
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ORPHANALYTICS SA (CH)
International Classes:
G06F17/27
Domestic Patent References:
WO2008036059A12008-03-27
WO2017144939A12017-08-31
Other References:
LAYTON R ET AL: "Authorship Attribution for Twitter in 140 Characters or Less", CYBERCRIME AND TRUSTWORTHY COMPUTING WORKSHOP (CTC), 2010 SECOND, IEEE, PISCATAWAY, NJ, USA, 19 July 2010 (2010-07-19), pages 1 - 8, XP031784752, ISBN: 978-1-4244-8054-8
MACIEJ EDER: "Visualization in stylometry: Cluster analysis using networks", DIGITAL SCHOLARSHIP IN THE HUMANITIES, vol. 32, no. 1, 2 December 2015 (2015-12-02), pages 50 - 64, XP055602753, ISSN: 2055-7671, DOI: 10.1093/llc/fqv061
HELENA GÓMEZ-ADORNO ET AL: "Author Clustering using Hierarchical Clustering Analysis", 12 October 2017 (2017-10-12), XP055602841, Retrieved from the Internet [retrieved on 20190705]
SEUNG-SEOK CHOI ET AL.: "A Survey of Binary Similarity and Distance Measures", SYSTEMICS, CYBERNETICS AND INFORMATICS, vol. 8, no. 1, 2000
Attorney, Agent or Firm:
P&TS SA (AG, LTD.) (CH)
Download PDF:
Claims:
Revendications

1. Procédé permettant de vérifier si un texte questionné de moins de 500 caractères a été rédigé par un auteur, comprenant les étapes suivantes : analyse statistique multivariée du texte questionné, par exemple PCA ou PCoA, de manière à générer une matrice de coordonnées dans un espace à N dimensions ;

clusterisation hiérarchique des points de cet espace représentable par un dendrogramme;

vérification de l'auteur du texte questionné sur la base de cette clusterisation.

2. Le procédé de la revendication 1, ladite clusterisation comprenant un procédé UPGMA, Minimum Variance, WPGMA, ou NJ.

3. Le procédé de l'une des revendications 1 ou 2, comportant

l'établissement d'une mesure de robustesse du dendrogramme à l'aide d'un coefficient de corrélation cophénétique.

4. Procédé selon l'une des revendications 1 à 3, comprenant une étape de détermination si la structure du dendrogramme est parfaite, presque- parfaite ou imbriquée.

5. Le procédé de l'une des revendications 1 à 4, comprenant la

comparaison du texte questionné avec des textes de plusieurs auteurs, et l'attribution de l'auteur le plus probable au texte questionné.

6. Le procédé de la revendication 5, comprenant :

calcul de la distance du texte questionné (Q) avec au moins deux autres groupes de textes (A et B) d'auteurs connus ;

pour chaque couple de groupes (QQ, QA, QB, AA, AB et BB), calcul de la moyenne des distances entre les fragments de textes des deux groupes du couple, avec leur écart type ;

pour chaque groupe, calcul d'un intervalle de confiance, qui est la distance de part et d'autre de la moyenne qui contient le une proportion donnée des fragments de texte de ce groupe.

7. Le procédé de l'une des revendications 5 ou 6, comportant une clusterisation des fragments de texte questionnés en plusieurs groupes de texte questionnés associés à plusieurs auteurs.

8. Le procédé de l'une des revendications 1 à 7, ladite analyse statistique multivariée et/ou ladite clusterisation comprenant le calcul d'une distance booléenne entre deux textes.

9. Le procédé de l'une des revendications 1 à 8, comprenant :

détermination par processeur du nombre d'occurrences de motifs prédéfinis dans ledit texte questionné, lesdits motifs prédéfinis comprenant exclusivement des motifs de lettres intra et/ou inter-mots,

analyse des dits nombres d'occurrence.

10. Procédé selon la revendication 9, lesdits motifs correspondant

à des trigrammes ; et/ou

à des bigrammes avec n lettres intercalaires ; et/ou

à des bigrammes au début de mots, au milieu de mots ou en fin de mots, ou à des bigrammes inter-mots.

11. Procédé selon l'une des revendications 9 ou 10, lesdits motifs

comprenant des occurrence de multi-grammes à n-grammes, avec ou sans n lettres intercalaires.

12. Procédé selon l'une des revendications 9 à 11, lesdits motifs comprenant des bigrammes de chaînage entre deux mots, avec ou sans mot intercalaire.

13. Le procédé de l'une des revendications 1 à 12, comprenant :

normalisation du texte questionné en supprimant les signes de ponctuation, en remplaçant les lettres majuscules par des minuscules, et en replaçant les lettres accentuées ou autres variations des lettres de base par la forme principale des lettres correspondantes.

14. Le procédé de l'une des revendications 1 à 13, comprenant :

découpage automatique du texte questionné en une pluralité de fenêtres, au moins deux fenêtres se recoupant, lesdites fenêtres étant décalées entre elles de t caractères, certaines fenêtres comprenant une portion de la fin du texte et une portion du début du texte.

15. Le procédé de l'une des revendications 1 à 14, comprenant :

découpage automatique d'un texte de référence en une pluralité de fenêtres, au moins deux fenêtres se recoupant, lesdites fenêtres étant décalées entre elles de t caractères, certaines fenêtres comprenant une portion de la fin du texte et une portion du début du texte.

16. Procédé selon l'une des revendications 1 à 15, ladite analyse étant basée sur une mesure de distance aux barycentres.

17. Procédé selon la revendication 16, dans lequel plusieurs textes

questionnés sont confrontés à tour de rôle à des textes d'au moins deux auteurs de référence.

18. Procédé selon l'une des revendications 1 à 17, dans lequel :

on teste tout d'abord si un groupe de textes questionnés est éloigné de deux autres groupes de textes de référence d'auteurs connus, auquel il est confronté ;

si le groupe de textes questionné est suffisamment éloigné des deux autres groupes de texte de référence, on créé deux sous-clusters de textes questionnés à partir du groupe de textes questionnés, selon leur distance à l'un desdits groupes de texte de référence, et l'on détermine la différence entre la moyenne des distances cophénétiques entre les fragments de chaque sous-cluster avec un groupe de texte de référence afin de

déterminer si les deux sous-clusters proviennent ou non d'un même auteur.

19. Support de données informatique comportant un programme

informatique destiné à être exécuté par un processeur pour lui faire exécuter le procédé de l'une des revendications précédentes.

Description:
Procédé et dispositif de vérification de l'auteur d'un message court

Domaine technique

[001] La présente invention concerne le problème de l'attribution d'un auteur à un texte, en particulier d'un texte court, par exemple un texte de moins de 500 caractères.

Etat de la technique

[002] La connaissance du véritable auteur d'un texte est souvent importante pour des raisons de droit d'auteur, d'authentification de document, ou en forensique, par exemple pour identifier l'auteur d'une lettre anonyme, d'une note de suicide, pour attester l'auteur d'un e-mail, d'un message sur Twitter, d'une publication sur un autre réseau social, etc.

[003] Diverses solutions ont donc été proposées afin d'authentifier ou d'identifier l'auteur d'un document.

[004] W02008/036059 décrit un procédé d'identification d'auteur basé sur l'analyse linguistique d'unités du texte. L'analyse linguistique se base par exemple sur l'analyse lexicale, y compris la fréquence d'apparitions de certains mots ou de prépositions, ainsi que l'analyse stylométrique, y compris la ponctuation, la longueur moyenne des mots, le nombre de mots courts, ou la longueur moyenne des paragraphes. Une analyse

graphémique incluant un comptage des lettres et des signes de

ponctuation, et une analyse syntaxique incluant un comptage des noms, des verbes, etc., sont aussi suggérées. L'analyse est effectuée au niveau de chaque phrase ou du document entier. Il est donc destiné à

l'authentification de documents complets.

[005] JGAAP (Java Graphical Authorship Attribution Program) est un programme Java modulaire qui, à la date de dépôt de la présente invention, peut être téléchargé depuis le site web

[006] Dans sa version 6.0, il permet l'analyse stylométrique et textométrique de texte dans un but de catégorisation et d'attribution d'auteur.

[007] La demande de brevet WO2017144939, dont le contenu est ici inclus par référence, décrit un procédé et un dispositif de détection de rupture de style par calcul de distance stylométrique entre portions ou fenêtres du texte. Ce procédé est particulièrement adapté à la détection de passage plagiés ou « ghostwrités » au sein d'un document plus long. Les procédés décrits sont cependant peu adaptés à la vérification d'auteur d'un texte très court, par exemple un texte de moins de 500 caractères.

Bref résumé de l'invention

[008] Il existe donc un besoin pour un procédé de vérification d'auteur spécialement adapté à des textes courts, par exemple des textes de moins de 500 caractères ou même de moins de 160 caractères, et qui puisse être automatisé et exécuté par exemple à l'aide d'une machine ou d'un système informatique.

[009] Il existe aussi un besoin pour un procédé qui améliore l'efficacité des et la rapidité des procédés de vérification d'auteur de textes courts, grâce é un procédé qui comprend des étapes pouvant être réalisées de manière efficace avec un ordinateur ou un système de traitement numérique.

[0010] Selon un aspect de l'invention, ces buts sont atteints notamment au moyen de paramètres caractérisant le style du document, ou d'une fenêtre dans le document. Le choix de ces paramètres de style et/ou leur valeur peuvent être déterminés automatiquement. Ils permettent avantageusement de caractériser le style d'une fenêtre de manière automatique et objective.

[0011] L'invention a aussi pour objet un procédé permettant de vérifier si un texte questionné, complet ou fragmenté, de moins de 500 caractères a été rédigé par un auteur, comprenant les étapes suivantes :

analyse statistique multivariée du texte questionné, de manière à générer une matrice de coordonnées dans un espace à N dimensions ;

clusterisation hiérarchique des points de cet espace représentable par un dendrogramme,

vérification de l'auteur du texte questionné sur la base de cette clusterisation.

[0012] Ce procédé peut être effectué par un ordinateur ou un autre système de traitement numérique. Il présente l'avantage de ne comporter que des étapes pouvant être mises en oeuvre de manière efficace par un système de traitement numérique, mais qui seraient en revanche très difficile ou pratiquement impossibles à réaliser sans l'assistance d'un tel système.

[0013] Par rapport aux procédés de vérification d'auteur existantes, ce procédé permet donc une réalisation informatique performante et efficace.

[0014] Le texte questionné peut être un texte complet, par exemple un message de moins de 500 caractères, ou un fragment de moins de 500 caractères extrait d'un texte complet.

[0015] La clusterisation (clustering) consiste en un regroupement des points.

[0016] Cette clusterisation hiérarchique minimise les distances dans un dendrogramme (on parle de distances cophénétiques).

[0017] Selon un aspect, le procédé de l'invention combine ainsi deux outils d'analyses statistiques qui sont normalement utilisées

indépendamment l'un de l'autre : une ASM (analyse statistique multivariée, par exemple une PCA ou une PCoA) et une clusterisation des distances représentées par un arbre, plus précisément un dendrogramme. [0018] Cette clusterisation peut mettre en œuvre des procédés de type UPGMA, Minimum Variance, WPGMA, NJ par exemple. Le résultat de l'ASM est une matrice de coordonnées à N dimensions qui est soumise à une clusterisation hiérarchique des distances entre points d'un espace multidimensionnel.

[0019] Le résultat obtenu peut être représenté par un dendrogramme, qui permet, s'il est robuste, de décider si un texte peut être attribué à un auteur, ou non.

[0020] Le procédé peut comporter l'établissement d'une mesure de robustesse du dendrogramme à l'aide d'un coefficient de corrélation cophénétique. Cette technique d'évaluation du dendrogramme permet d'utiliser plus souvent les résultats du procédé même quand le coefficient de corrélation cophénétique est moyen, voire faible.

[0021] D'autres techniques d'évaluation du dendrogramme, y compris des techniques spécifiques au problème d'attribution d'auteur, peuvent être mises en œuvre.

[0022] Une confirmation visuelle de la robustesse d'un dendrogramme peut être obtenue en comparant sa structure avec celle d'autres

dendrogrammes obtenus par des méthodes de clusterisation différentes (UPGMA, Minimum Variance, WPGMA, NJ, ...).

[0023] La robustesse d'un dendrogramme est en outre testable soit en analysant statistiquement les mesures de distances cophénétiques, soit en comparant les relations de proximité des bourgeons terminaux (« leaf nodes ») du dendrogramme.

[0024] L'attribution d'auteur se fait en confirmant ou en infirmant la distribution des textes selon une hypothèse de départ, HD1, selon laquelle le texte questionné est attribué à un auteur. [0025] Afin de tester la robustesse de HD1, le ou les textes questionnés sont confrontés à tour de rôle à des textes d'au moins deux auteurs de référence (auteurs connus qui ont certifié la production de leurs textes). Ces textes de référence sont de nature, de nombre et de taille similaires que les textes questionnés.

[0026] Par exemple, avec l'auteur questionné en HD1 et 15 auteurs de référence, 560 (16! / [3! * 13!]) dendrogrammes, qui testent trois auteurs par comparaison, sont générés. Dans notre approche basée sur la structure du dendrogramme, chaque auteur est testé par paire d'auteurs 210 fois. Un décompte statistique est établi pour déterminer le nombre de fois où l'hypothèse à la base de chaque dendrogramme est vérifiée. La fréquence de résultats en faveur de l'hypothèse est établie. Les 350 tests, qui comparent uniquement des auteurs de référence, permettent d'établir la hauteur du signal nécessaire à l'acceptation de l'hypothèse de l'attribution d'auteur des textes questionnés. La robustesse de l'approche est testée en formulant une nouvelle hypothèse HD2, par exemple en ajoutant aux textes questionnés en HD1 un ou des textes supplémentaires du même auteur ou d'un autre auteur. Plusieurs hypothèses de départ, concernant des textes dont l'auteur est à attribué, sont ainsi testables en parallèle.

[0027] Selon un aspect, l'invention part aussi de la constatation que des motifs sémantiques (par exemple le nombre d'occurrences de mots ou de lemmes) dans un texte court sont peu utiles pour identifier un auteur, car ce type de motif est statistiquement trop rare pour fournir une indication fiable de l'auteur. Le procédé de l'invention propose par conséquent de n'utiliser que des motifs relativement fréquents, par exemple des motifs de lettres.

[0028] Afin d'augmenter encore le nombre d'occurrence de ces motifs de lettre, et donc leur représentativité, le procédé propose aussi de normaliser le texte, en remplaçant toutes les lettres majuscules par des minuscules, et toutes les lettres accentuées par le caractère minuscule de base correspondant (par exemple la lettre « é » est remplacée par « e », « ç » par « c », etc). De manière surprenante, il a constaté que cette

normalisation n'affecte pas le caractère discriminant des motifs.

[0029] Selon un aspect, le problème de la vérification d'auteur d'un texte questionné court, par exemple un texte de moins de 500 mots, est en particulier résolu grâce à un procédé comprenant les étapes suivantes :

normalisation du texte questionné et/ou d'un ou plusieurs textes de référence, en supprimant les signes de ponctuation, en remplaçant les lettres majuscules par des minuscules, et en replaçant les lettres accentuées ou autres variations des lettres de base par la forme principale des lettres correspondantes ;

découpage automatique du texte questionné et/ou d'un ou plusieurs textes de référence en une pluralité de fenêtres, au moins deux fenêtres se recoupant ;

détermination par processeur du nombre d'occurrences de motifs prédéfinis dans lesdites fenêtres, lesdits motifs prédéfinis comprenant exclusivement des motifs de lettres intra et/ou inter-mots,

analyse des dits nombres d'occurrence ;

comparaison des résultats de ladite analyse avec les résultats d'une analyse effectuée sur un texte de l'auteur, afin de déterminer.

[0030] Dans le cas d'un texte rédigé dans un alphabet latin, la

normalisation convertit de préférence le texte de base en un texte comportant 27 caractères seulement (26 lettres et le symbole espace).

[0031] Le découpage est avantageusement indépendant du contenu ; par exemple, il est avantageux de découper un texte ou une autre séquence de symboles en fenêtre ayant toutes, ou quasiment toutes à l'exception par exemple de la première ou de la dernière, la même longueur. Cette caractéristique permet d'effectuer des comparaisons avec des fenêtres de longueur optimale, c'est-à-dire ni trop courte pour éviter des mesures de style perturbées par des événements rares, ni trop longues pour permettre une détection de plagiat de séquences courtes. [0032] La longueur des fenêtres est avantageusement comprise entre 150 et 2000. Dans ce cas, le texte questionné n'est ainsi pas découpé ;

cependant le ou les textes de référence, qui peuvent être plus longs, seront découpés.

[0033] Les fenêtres sont de préférence décalées entre elles de t caractères, certaines fenêtres comprenant une portion de la fin du texte et une portion du début du texte. Cette cyclisation permet de stabiliser le signal stylométrique final.

[0034] Les motifs correspondent de préférence soit :

à des trigrammes (par exemple <aaa>, <aab>, <aac>) ; et/ou à des bigrammes avec n lettres intercalaires <a*a>, <a*b>, etc.). On parle de bigrammes à multi-intercalaires ; et/ou

à des bigrammes au début de mots, au milieu de mots ou en fin de mots, ou à des bigrammes inter-mots.

[0035] Il est aussi possible de combiner différents type de ces motifs dans un seul texte.

[0036] Par exemple, si on utilise à la fois des unigrammes, des

bigrammes, des trigrammes, etc, on parle de motifs sous forme de multigrammes à n-grammes.

[0037] Il est aussi possible de détecter des n-grammes de début de mot, combinés avec des n-grammes de fin de mot. On parle alors de

multigrammes de bornes (début, milieu, et fin) de mots.

[0038] Il est aussi possible d'utiliser des multigrammes d'autres types : syllabes, longueurs de mots, fonctions des mots (parts of speech),

ponctuation, etc.

[0039] On peut aussi combiner les différents types de multigrammes entre eux : par exemple, combiner des multigrammes à n-grammes avec des bigrammes à multi-intercalaires. [0040] On évite ainsi l'utilisation de motifs de mots ou de lemmes, trop peu fréquents dans un texte court pour fournir une base statistique fiable.

[0041] L'analyse peut être une analyse multivariée (PCA ou PCoA).

[0042] Le procédé peut comporter une étape de clustérisation des résultats de l'analyse multivariée (UPGMA, Minimum Variance, WPGMA, NJ,

[0043] L'analyse peut être basée sur une mesure de distance aux barycentres.

[0044] Le procédé peut comporter l'établissement d'un dendrogramme afin de déterminer si deux textes ont été produits par le même auteur.

[0045] Le texte questionné est attribué à un auteur en confirmant ou en infirmant une distribution du texte selon une hypothèse d'attribution.

[0046] Plusieurs textes questionnés peuvent être confrontés à tour de rôle à des textes d'au moins deux auteurs de référence. [0047] Dans un mode de réalisation, on teste tout d'abord si un groupe de textes questionnés est éloigné de deux autres groupes de textes de référence ; d'auteurs connus, auquel il est confronté ;

si le groupe de textes questionné est suffisamment éloigné des deux autres groupes de texte de référence, on créé deux sous-clusters de textes questionnés à partir du groupe de textes questionnés, selon leur distance à l'un desdits groupes de texte de référence, et l'on détermine la différence entre la moyenne des distances cophénétiques entre les fragments de chaque sous-cluster avec un groupe de texte de référence afin de déterminer si les deux sous-clusters proviennent ou non d'un même auteur.

[0048] Le type de distance utilisé lors de l'analyse statistique multivariée peut être sélectionné en fonction de la stratégie d'analyse. Par exemple, on choisira de préférence une distance booléenne pour un texte court, et une autre distance, par exemple une distance euclidienne, pour un texte plus long..Le type de distance utilisé lors de la construction du dendrogramme peut être sélectionné.

[0049] On choisira par exemple un premier type de distance pour une approche multivariée, et deuxième type de distance pour une approche basée sur un dendrogramme, et un troisième type pour une approche basée sur la distance à un barycentre.

[0050] Le type de distance utilisé pour la mesure des distances aux barycentres peut être sélectionné en fonction de la stratégie d'analyse. Les distances à pondération statistique (par exemple la distance euclidienne standardisée, pondérée selon l'écart type) ainsi que les distances

booléennes ou binaires, ne seront de préférence pas appliquées pour cette approche.

[0051] A chacun de ces niveaux, le choix du type de distance

sélectionnable comprend au moins deux distances, par exemple deux distances à choix parmi les distances suivantes : distance des cordes, euclidienne, euclidienne normalisée, Manhattan, Canberra, Khi carré [c 2 ], distance de Jaccard généralisée.

[0052] Le style de chaque portion de texte est ainsi déterminé à partir d'éléments de langage très simples, un peu comme si l'on déterminait le style gothique d'une cathédrale en étudiant ses pierres de taille employées au lieu de s'intéresser à l'impression d'ensemble.

[0053] Selon un aspect, l'invention vient de la constatation que ces briques de langages sont hautement personnelles et difficiles à manipuler. Les paramètres de style de chaque portion de texte constituent ainsi une trace biométrique de la signature stylométrique de l'auteur. Il est observé que les paramètres de style associés à chaque auteur dépendent de son mode de pensée, un peu comme le phrasé joué par un jazzman est hautement personnel. [0054] Les motifs de lettres dans un texte dépendent naturellement du type de texte. En français, un texte médical présente une occurrence élevée des trigrammes « ose » ou « ite ».

[0055] D'autres motifs sont plus personnels. De manière tout à fait inattendue, certaines personnes emploient systématiquement certains trigrammes, ou certains autres motifs etc. plus souvent que d'autres - indépendamment du type de texte, du niveau d'éducation ou du style littéraire.

[0056] Dans un mode de réalisation préférentiel, plusieurs centaines de motifs sont calculés pour certaines ou toutes les fenêtres. La distance stylométrique dépend alors d'un grand nombre de paramètres de style distincts, rendant ainsi très difficile toute tentative d'imiter le style d'un autre auteur.

[0057] Le procédé peut comporter le calcul d'une distance stylométrique entre les nombres d'occurrences de motifs dans un texte à vérifier et un texte de référence : par exemple une distance des cordes, euclidienne, euclidienne normalisée, Manhattan, Canberra, Khi carré (c 2 ), etc. Elle peut être mesurée entre deux fenêtres, entre une fenêtre et un groupe de fenêtres ou entre deux groupes de fenêtres représentant tout ou partie d'une ou de plusieurs séquences de lettres.

[0058] L'analyse des occurrences de motifs prédéfinis peut comprendre des regroupements par différents traitements statistiques multivariés. Par exemple, une analyse en composantes principales (PCA), ou une analyse en coordonnées principales (PCoA principal coordinates aussi appelée MDS MultiDimensional Scaling) travaillant sur les distances mathématiques définies entre observations des paramètres de style (par exemple les bigrammes) réduit le nombre de dimensions originales (le nombre de types de bigrammes). De tels regroupements permettent de détecter les paramètres de style les plus caractéristiques d'un auteur. [0059] Dans une variante, la distance euclidienne est effectuée sans traitement statistique multivarié. Cette approche est plus sensible au bruit, puisque la distance stylométrique entre deux fenêtres tient compte de tous les paramètres de style, même les moins individuels. Elle évite en revanche de moyenner les paramètres de style les plus caractéristiques avec des paramètres moins personnels, ou de négliger des paramètres de style très individuelles mais d'occurrence rare.

Brève description des figures

[0060] Des exemples de mise en oeuvre de l'invention sont indiqués dans la description illustrée par les figures annexées dans lesquelles : · La figure 1 illustre à titre d'exemple un dispositif informatique

comprenant notamment certains des composants nécessaires à la mise en oeuvre de l'invention ;

La figure 2 illustre la mémoire du dispositif de la figure 1 ;

• La figure 3 illustre un exemple de séquence de symboles, en

l'occurrence un document de type texte, et de fenêtrage au sein de ce texte ;

• La figure 4 illustre la position dans un espace à trois dimensions de 17 fenêtres représentées chacune par un symbole résultant d'une analyse multivariée ; · La figure 5 illustre graphiquement la distance stylistique entre

différentes fenêtres d'une séquence de symboles et une fenêtre de référence ou un ensemble de fenêtres de référence.

• La figure 6 représente les deux premières dimensions d'une ASM sur des trigrammes tirés des fragments de textes obtenus après découpage à 500 caractères environ. • La figure 7 est établie à partir d'une ASM (comme celle de la figure 6) et illustre la distance de chaque fragment de texte aux barycentres de trois clusters.

La figure 8 illustre un exemple de dendrogramme. · La figure 9 illustre un exemple de dendrogramme parfait.

• La figure 10 illustre un premier exemple de dendrogramme presque parfait.

• La figure 11 illustre un deuxième exemple de dendrogramme

presque parfait. · La figure 12 illustre un exemple de dendrogramme à deux branches intriquées.

• La figure 13 illustre un exemple de dendrogramme à trois branches intriquées.

Exemple(s) de mode de réalisation de l'invention

[0061] Le procédé de détection de ruptures de style décrit dans cette demande a notamment l'avantage de pouvoir être mis en oeuvre au moyen d'un dispositif informatique 1, par exemple d'un ordinateur ou d'un serveur tel que celui illustré schématiquement sur la figure 1. Ce dispositif comprend notamment un ou plusieurs processeurs 10, une mémoire vive 11, une mémoire morte 12, une carte graphique 13 pour contrôler un écran 17, un port d'entrée-sortie, par exemple un port USB 14, permettant la connexion de périphériques externes tels que scanner 18, imprimante, etc., une carte réseau 15 pour la connexion à un réseau 19, par exemple un réseau Ethernet, et des périphériques d'entrée de donnée tels que clavier, souris, écran tactile, etc. [0062] La mémoire 11 comprend une portion 110 pour le système d'exploitation, une portion 111 pour les données et une portion 112 pour les programmes applicatifs. Cette portion 112 comporte notamment un module de fenêtrage 113, un module de détermination de paramètres stylistiques 114, un module de calcul de distance stylistique 115, et un module d'identification de ruptures de style 116. Les « modules » ci-dessus sont avantageusement constitués par des portions de code informatiques, par exemple des programmes, des extraits de programmes, des routines, des procédures, etc., agencés pour être exécutés par le microprocesseur 10 afin de lui faire exécuter les opérations de fenêtrage, de détermination de paramètres stylistiques, de calcul de distance stylistique, et respectivement d'identification de ruptures de style qui vont être décrites plus bas à titre d'exemple. Ces modules peuvent être stockés sur un support informatique, par exemple un cd-rom, un disque dur, une mémoire flash, etc., avant d'être chargés en mémoire 11 comme illustré.

[0063] Le procédé permet de vérifier le style d'un document, et de le comparer avec le style d'un document de référence pour déterminer s'ils ont été rédigés par le même auteur. Par style, on entend le catalogue d'occurrence de motifs de lettres prédéfinis.

[0064] La première étape du procédé consiste donc à se procurer en copie électronique au moins un texte court à tester (texte questionné) et au moins un texte de référence de l'auteur à vérifier (texte de référence). Le texte de référence peut être plus long que le texte questionné. Cette séquence de symboles peut être chargée par exemple depuis Internet, via e- mail, depuis un support de données amovible etc.

[0065] Un module de fenêtrage 113 normalise le texte à questionner, et au moins un texte de référence, en supprimant les symboles de

ponctuation, en désaccentuant les lettres accentuées, en remplaçant les variations d'une lettre par la forme de base (« ç » -> « c », etc) et en remplaçant les majuscules par des minuscules. Dans le cas d'un texte latin, on obtient donc un texte normalisé formé de 27 caractères différents au maximum (26 lettres de l'alphabet plus l'espace). Ce nombre de lettres peut être différent pour un texte rédigé dans un autre alphabet.

[0066] Avant ou après normalisation, le module de fenêtrage 113 découpe au moins un texte de référence, et éventuellement le texte questionné, en une pluralité de fenêtres 20A, 20B, etc. Chaque fenêtre 20 est constituée par une suite de L lettres consécutives au sein de la séquence complète.

[0067] Le découpage en fenêtre est de préférence indépendant du contenu ; il ne s'agit donc pas d'un découpage en éléments grammaticaux ou syntaxiques, et est indépendant par exemple du début ou de la fin des phrases, des paragraphes ou des pages. Cela permet une analyse avec des tailles de fenêtre indépendante du style de l'auteur. Cela permet aussi une analyse des séquences de ponctuation par fenêtres de longueur fixe.

[0068] Un découpage en fenêtres dépendant du contenu peut aussi être envisagé.

[0069] Selon un aspect, les fenêtres 20 se chevauchent partiellement, en ce sens que certains symboles, ou même la plupart des symboles

appartiennent simultanément à plusieurs fenêtres. Sur l'exemple de la figure 3, la fenêtre 20A comprend la suite de caractères

Lorem ipsum dolor sit amet, consectetur adipiscing élit. Vivamus ultricies hendrerit tellus, eu sollicitudin enim porta ut. Quisq tandis que la fenêtre suivante 20B comporte la suite t amet, consectetur adipiscing élit. Vivamus ultricies hendrerit tellus, eu sollicitudin enim porta ut. Quisque convallis vulputa

[0070] A l'exception des 20 premiers symboles de la fenêtre 20A et des 20 derniers symboles de la fenêtre 20B, les deux fenêtres 20A et 20B sont donc identiques. La fenêtre 20B est obtenue à partir de la première fenêtre 20A et de la séquence de symboles 2 par un décalage de K symboles, ici 20. Des valeurs de décalage K différentes de 20 peuvent aussi être utilisées, pour autant que K soit inférieur à la longueur L des fenêtres. La valeur de décalage peut être un paramètre choisi par l'utilisateur lors de l'exécution du programme, selon le type de documents, la puissance de calcul à disposition, la précision requise, etc. La valeur de décalage peut être dérivée d'un ou d'autres paramètres choisis par l'utilisateur. Par exemple, l'utilisateur choisit un degré de couverture C, indiquant le nombre de fenêtres auxquelles chaque symbole doit appartenir simultanément, et la valeur de K est calculée en conséquence.

[0071] Le module 114 détermine ensuite le nombre d'occurrence de motifs prédéfinis dans chaque fenêtre. Le nombre de motifs comptabilisé dans chaque fenêtre peut être important ; par exemple, dans le cas d'un calcul de trigrammes, le nombre de trigrammes possibles sera de 27*27*27.

[0072] Les motifs comptabilisés sont exclusivement des motifs pouvant se produire en quantités statistiquement représentatives dans un texte court. On exclura de préférence les motifs sémantiques, la probabilité de retrouver plusieurs fois le même mot dans un texte court étant faible. Les occurrences de motifs suivants peuvent être comptabilisées :

• Nombre d'occurrence de trigrammes prédéfinis dans la fenêtre - un trigramme étant constitué par une série de trois lettres consécutives

• Nombre d'occurrence de suites de caractères prédéfinies dans la fenêtre, chaque suite pouvant comporter un ou plusieurs caractères intercalaires de remplacement (<a*a>, <a*b>, etc. ; <a**a>, <a**b>, etc., le caractère intercalaire * pouvant représenter n'importe quel caractère). Un décompte final est établi en établissant un catalogue d'usage cumulatif des intercalaires, i.e. au catalogue de fréquence d'usage du bigramme nominale (27x27=729 possibilités), c'est-à-dire sans intercalaire, on ajoute le catalogue de fréquence de bigrammes à 1 intercalaire (27x27), puis le catalogue de bigrammes à 2 intercalaires (27x27),... puis le catalogue de bigrammes à 3 intercalaires (27x27) pour obtenir un profil d'usage de 0 à n intercalaires ((27x27)x((n+1)) dimensions qui seront analysée par la multivariée (PCA/PCoA).

• Nombre d'occurrence de bigrammes de chaînage, tenant compte par exemple de la dernière lettre du mot précédent et de la première du mot suivant. On peut aussi comptabiliser les bigrammes de chaînages avec un ou plusieurs mots intercalaires ; dans ce cas, au lieu de comptabiliser les bigrammes dans les chaînages de mots 1 et 2, puis 2 et 3..., on comptabilise les bigrammes dans le chaînage des mots 1 et 3, puis 2 et 4... par exemple. Cet exemple correspond à un chaînage de mots avec un intercalaire de 1

• Distribution de N-grammes de début et/ou de fin de mot, etc. Par exemple bigrammes d'enchaînement intra mots (bigrammes au début de mots, au milieu de mots ou en fin de mots, e.g. enchaînement) ou en inter mot (inter mot) : seuls ou ensemble (27X27 ou ... 4 X27x27)

[0073] Dans un mode de réalisation, les occurrences de motifs

comptabilisés comprennent un cumul des signaux de bigrammes, de trigrammes, etc afin de faire une analyse multivariée sur l'ensemble de ces dimensions. On parle de multivariée de multigrammes à n-grammes.

[0074] Ces différentes occurrences de motifs, ou certaines de ces occurrences, peuvent être cumulés, éventuellement avec des pondérations sur les dimensions. L'analyse comporte ainsi un traitement statistique multivarié en composantes principales (PCA, Principal Component Analysis) afin de regrouper les comptages de différents motifs. Dans une variante, l'analyse comporte une PCoA (Principal Coordinate Analysis).

[0075] La figure 4 illustre la position dans un espace à trois dimensions de 17 fenêtres représentées chacune par un symbole, résultant d'une analyse multivariée. Chaque axe peut par exemple correspondre à la fréquence d'un motif ; dans une variante, chaque axe correspond à une dimension obtenue après une analyse multivariée, selon la réduction de dimensions d'un traitement statistique multivarié pour optimiser la variance entre fenêtres portée par les paramètres de style. Les ronds correspondent à des fenêtres écrites par un premier auteur, les deux triangles à des fenêtres écrites par un deuxième auteur; les étoiles correspondent aux points moyens des groupes de fenêtres correspondant à chacun des deux auteurs. Il est évident que le nombre de dimensions peut être beaucoup plus important que trois dans le cas où plus de trois motifs distincts sont extraits de chaque fenêtre 20 et que ces motifs ne sont pas regroupés.

[0076] [0055] La figure 5 cartographie la distance au point moyen de chaque fenêtre (20A, 20B, ...., 20i ) sur une courbe. Le saut de distance important entre la fenêtre 20A et la fenêtre 20B au début de la séquence montre une rupture de style entre ces deux fenêtres et est un indice de changement d'auteur. La distance stylométrique mathématique entre points peut être une distance euclidienne, une distance Manhattan, ou une distance cos Q par exemple.

[0077] Dans un mode de réalisation, la distance stylométrique employée est une distance booléenne, par exemple une distance entre deux vecteurs binaires (dite distance binaire), chaque composant du vecteur indiquant la présence ou l'absence d'un motif stylométrique. On peut par exemple employer une distance Jaccard, de Rogers-Tanimoto, de Simpson ou de Yule Sigma. Une description de ce type de distances et de leur usage en clusterisation est présentée par Seung-Seok Choi et al. dans « A Survey of Binary Similarity and Distance Measures », SYSTEMICS, CYBERNETICS AND INFORMATICS, Vol.8, num. 1, 2000.

[0078] Ce type de distance permet de travailler avec un nombre important de dimensions et est donc particulièrement adapté aux approches cumulées mentionnées plus haut, dans lesquelles un grand nombre de motifs différents sont comptabilisés. Elles permettent donc de mesurer une distance entre un grand nombre de dimensions d'un objet de petite taille, par exemple un texte court.

[0079] Le module de calcul de distance stylométrique 115 regroupe ensuite les extraits de texte en calculant la distance stylométrique entre points de l'espace multidimensionnel représentée par un dendrogramme. Les différents textes questionnés et de référence sont regroupés à l'aide d'une méthode de classification/clusterisation, telle que UPGMA, UPGMC, Minimum Variance, WPGMA, WPGMC, NJ, ...)

[0080] Dans un mode de réalisation, le résultat de l'analyse statistique multivariée, une matrice de coordonnées à N dimensions, est ainsi employé afin de construire une taxonomie.

[0081] Le résultat de ce regroupement est un dendrogramme, c'est-à- dire un diagramme qui représente des affinités (similarités de style) entre textes, qui peuvent être des textes questionnés ou des textes de référence. Le groupement de ces textes se base sur la matrice de coordonnées, qui indique les (dis)similarités ou distances entre textes. Des textes de styles très similaires sont portés ensemble par une branche commune du

dendrogramme.

[0082] Un dendrogramme robuste permet de décider si un texte questionné peut être attribué à un auteur du match à plusieurs, ou non. Aucune décision fiable ne peut en revanche être prise si le dendrogramme n'est pas suffisamment robuste.

[0083] Une mesure standard de robustesse d'un dendrogramme est le coefficient de corrélation cophénétique. Elle est basée sur les distances cophénétiques entre les fragments, mesurées sur le dendrogramme. Ces distances sont différentes des distances originales entre les mêmes fragments mais mesurées dans l'ASM. Le coefficient de corrélation cophénétique évalue la relation entre les distances cophénétiques (issues du dendrogramme) et les distances "originales" (entre les fragments dans l'ASM).

[0084] Une confirmation de la robustesse d'un dendrogramme peut être obtenue en comparant sa structure avec celle d'autres dendrogrammes obtenus par des méthodes de clustérisation différentes (UPGMA, Minimum Variance, WPGMA, NJ, ...). [0085] La robustesse d'un dendrogramme est en plus testable soit en analysant statistiquement les mesures de distances cophénétiques, soit en comparant les relations de proximité des bourgeons terminaux du dendrogramme.

[0086] Dans un mode d'évaluation statistique, une technique ad hoc d'évaluation du dendrogramme spécifique au problème d'attribution d'auteur est mise en oeuvre. Celle-ci permet d'utiliser plus souvent les résultats de notre procédure, même quand le coefficient de corrélation cophénétique est moyen, voire faible.

[0087] Cette technique se déroule en deux étapes :

[0088] Dans une première étape, on teste si le groupe de textes questionné (Q) est éloigné significativement des deux autres groupes de textes de référence (A et B), d'auteurs connus, auquel il est confronté. Pour chaque couple de groupes (QQ, QA, QB, AA, AB et BB), on calcule la moyenne des distances entre les fragments de textes des deux groupes du couple, avec leur écart type et leur effectif (i.e. nombre de fragments de textes). Ensuite, pour chaque groupe, on calcule son intervalle de

confiance, qui est la distance de part et d'autre de la moyenne qui contient une fraction, par exemple le 95 % des fragments de texte de ce groupe (95 %, si on a choisi un seuil d'acceptabilité de 5 %, par exemple). Si la distance entre les moyennes de Q et de A, par exemple, est supérieure à la somme de leurs intervalles de confiance respectifs, les deux groupes Q et A sont distincts avec une probabilité de 95 %. On répète l'opération avec Q et B pour estimer si Q est distinct de B.

Si Q est distinct de A et de B, on passe à la deuxième étape.

[0089] Dans une deuxième étape, la ramification de l'arbre

(dendrogramme) qui contient les fragments du groupe Q formant un cluster est parfois automatiquement divisée en plusieurs sous-clusters à l'aide d'un algorithme. Nous formulons l'hypothèse statistique H0 : il existe deux sous-clusters Q1 et Q2 distincts. [0090] On teste d'abord les distances des fragments du cluster Q par rapport au cluster A. Pour cela, on met dans le sous-cluster Q1 tous les fragments du cluster Q dont la distance cophénétique au cluster A est supérieure à la distance moyenne de tous les fragments de Q par rapport à ce même groupe. Par opposition, on met dans le sous-cluster Q2 tous les fragments du cluster Q dont la distance cophénétique au cluster A est inférieure à la distance moyenne de tous les fragments de Q par rapport à ce même groupe.

[0091] Si la différence entre la moyenne des distances cophénétiques entre les fragments de Q1 avec A et la moyenne des distances

cophénétiques entre les fragments de Q2 avec A est supérieure à la somme des intervalles de confiance qui leur sont associés, l'hypothèse statistique H0 est acceptée : les clusters Q1 et Q2 sont distincts ; il y a donc quatre clusters dans le dendrogramme considéré (Q1, Q2, A et B). L'expérience ne permet donc pas d'établir que Q1 et Q2 sont du même rédacteur. Dans le cas contraire (si cette différence est inférieure à la somme des intervalles de confiance), l'hypothèse statistique H0 est rejetée : on peut alors affirmer que Q1 et Q2 sont du même rédacteur avec une probabilité de se tromper égale au seuil de probabilité choisi pour calculer l'intervalle de confiance.

[0092] La clusterisation du groupe de textes questionnés revient donc à partitionner l'ensemble des textes questionnés en au moins deux groupes tels que la distance stylométrique entre membre d'un groupe est réduite.

[0093] Dans le mode de réalisation décrit plus haut, l'ASM calcule les coordonnées des extraits de textes sur N dimensions, N étant le nombre de dimensions nécessaires pour atteindre un pourcentage cumulé de variance (e.g., 90%). En d'autres termes, toutes les coordonnées sont utilisées avec un coefficient 1 pour les N dimensions principales, qui portent le signal discriminant, et 0 pour les autres dimensions, dont le signal est bruité. Dans un autre mode de réalisation, des coefficients de pondération sont mis en oeuvre afin de donner davantage de poids aux premières dimensions, en fonction de leur importance. [0094] Le module 116 détermine sur la base du dendrogramme si le texte questionné provient du même auteur que l'un des textes, ou ensemble de textes de référence A, B.

[0095] Le coefficient de corrélation cophénétique peut être calculé et affiché.

[0096] Par exemple, pour mesurer si deux textes à analyser (textes questionnés) ont été produit par un même auteur, on peut comparer ces deux à quatre textes d'une base de données (par exemple deux textes produits par deux auteurs A et B). Si les deux textes questionnés (Q 1 et Q2) ont été produits par un seul auteur, ils formeront une branche (Q 1 et Q2) dans le dendrogramme, et deux autres branches (A et B) seront formées par les auteurs A et B respectivement. Si Q1 et Q2 ont été produits par deux auteurs, le dendrogramme produira quatre branches (Q1, Q2, A et B).

[0097] Afin de valider le processus, les textes des auteurs A et B peuvent être remplacé par des textes d'autres auteurs : pour 2 auteurs de référence 1 expérience pour 3 auteurs de référence 3 expériences possibles : 1+2=3 pour 4 auteurs de référence 6 expériences possibles : 3+3=6 pour 5 auteurs de référence 10 expériences possibles : 6+4=10 pour 6 auteurs de référence 15 expériences possibles : 10+5=15

[0098] Une statistique finale sur les résultats avec par exemple 6 auteurs de référence permet de savoir si les deux textes questionnés dans cet exemple se comportent comme les texte d'un auteur ou non.

[0099] Dans un mode de réalisation, plusieurs tests d'attribution d'auteur avec plusieurs types de validations statistiques complémentaires sont effectués, en utilisant des textes de même nature (par exemple deux textes provenant d'un blog, deux messages de menace etc). Ces textes de même nature servent de textes de référence, provenant d'au moins trois auteurs connus, et sont collectés dans ce but. Par exemple, la réalisation de 10 tests indépendants (avec 10 rédacteurs de référence différents) permet d'abaisser d'un facteur 10 la probabilité de se tromper. Dans notre exemple, cette probabilité passerait de 5 % à 0.5 %.

[00100] Alternativement au mode d'évaluation statistique décrit ci- dessus, une approche par analyse de structure de dendrogrammes peut être mise en oeuvre après avoir défini trois types de structure utiles.

[00101] Un dendrogramme sera appelé parfait s'il est à distribution parfaite, c'est-à-dire s'il regroupe les textes de styles/auteurs supposés en autant de branches principales que de styles/auteurs. La figure 9 illustre à cet égard un exemple d'un dendrogramme parfait. Les trois auteurs ou styles supposés A, B et C clustérisent selon les trois branches principales du dendrogramme. Dans cette figure, la distance entre A1 et B1 est égale à la distance entre A1 et B2, et à celle entre A2 et B1, etc. De manière générale, la relation entre les textes d'une paire d'auteurs est considérée comme parfaite si les distances entre bourgeons terminaux d'un auteur aux bourgeons terminaux de l'autre auteur sont identiques.

[00102] Un dendrogramme sera appelé presque-parfait si une branche portant un style est portée dans une autre branche de style différent. La figure 10 illustre ainsi un premier exemple d'un dendrogramme presque- parfait. Les textes de l'auteur A sont portés par la branche qui porte l'auteur B. Dans cette figure, les distances entre les textes de B sont plus grandes que les distances entre les textes de A. La figure 11 illustre un autre exemple d'un dendrogramme presque-parfait. Les textes de l'auteur B sont portés par la branche qui porte l'auteur A. De manière générale, la relation entre les textes d'une paire d'auteurs est considérée comme presque- parfaite si le maximum des distances entre bourgeons terminaux des textes d'un auteur est plus petit que le minimum des distances entre bourgeons terminaux des textes de l'autre auteur. [00103] Un dendrogramme sera appelé intriqué dans tous les autres cas. Ainsi la figure 12 illustre un exemple d'un dendrogramme avec une intrication partielle. Les textes des auteurs B et C sont intriqués. Ni les textes de l'auteur B, ni ceux de l'auteur C ne se retrouvent portés

exclusivement par une seule branche. Dans cette figure, les auteurs B et C sont intriqués, car ni les textes de l'auteur B, ni ceux de l'auteur C ne se retrouvent portés exclusivement par une seule branche du dendrogramme. La figure 13 illustre quant à elle un exemple d'un dendrogramme avec une intrication généralisée. Les textes des trois auteurs sont intriqués. Les textes d'aucun auteur A, B ou C ne se retrouvent portés exclusivement par une seule branche. De manière générale, la relation entre les textes d'une paire d'auteurs est considérée comme intriquée si les deux conditions

précédentes (relation parfaite ou presque-parfaite) ne sont pas remplies.

[00104] Par définition :

- un dendrogramme intriqué contient au moins une paire d'auteurs à relation intriquée ;

- un dendrogramme presque-parfait ne contient aucune paire à relation intriquée mais au moins une paire à relation presque-parfaite ;

un dendrogramme parfait ne contient que des paires à relation parfaite .

[00105] L'examen des dendrogrammes (UPGMA, Minimum Variance, WPGMA, NJ, ...) peut se faire automatiquement par exemple en comparant les structures ou les distances entre les noeuds ou les branches des dendrogrammes.

[00106] Une démarche préliminaire d'automatisation consiste à vérifier l'hypothèse de départ : une série de textes attribuée à chaque auteur. Cette hypothèse est validée si chaque branche principale porte exclusivement les textes d'un auteur. Une automatisation de mesures des distances entre chaque bourgeon terminal (leaf node) permet d'évaluer la pertinence de l'hypothèse de départ : les bourgeons terminaux d'une branche principale auront en général des distances entre eux plus courtes que celles prévalant entre un bourgeon terminal d'une branche principale et un bourgeon terminal d'une autre branche principale. La mesure des distances pour valider la répartition des textes d'un auteur sur une branche principale se vérifie dans la majorité des dendrogrammes. Un type de dendrogrammes, les dendrogrammes ultramétriques, permet une vérification stricte de cette dernière proposition.

[00107] Un dendrogramme UPGMA est ultramétrique, car il est enraciné et les distances entre sa racine et ses bourgeons terminaux sont identiques. Cette propriété d'ultramétricité permet d'automatiser strictement l'examen des dendrogrammes UPGMA, par exemple en comparant toutes les distances entre bourgeons terminaux pour chaque paire d'auteurs.

[00108] Alternativement aux dendrogrammes, une expérience de comparaison multiple peut être faite à partir de mesure de distance aux barycentres centroïdes définis pour les séquences de chaque auteur. Un score peut être établi.

[00109] Dans une variante, il est possible de se passer de l'analyse multivariée (PCoA/PCA) pour tester directement les fragments questionnés avec des dendrogrammes ou des mesures de distance aux barycentres centroïdes.

[00110] Dans un mode de réalisation, le procédé peut être utilisé non seulement pour authentifier l'auteur allégué d'un texte court (c'est-à-dire vérifier s'il est le véritable auteur), mais aussi pour identifier l'auteur d'un texte anonyme ou signé par une autre personne. Dans ce but, il est possible, à partir de quelques textes, d'aller chercher dans une collection de textes les textes qui sont les plus proches de textes de références (par exemple des textes de suspects préalablement identifiés dans une application forensique).

[00111] Le procédé de l'invention permet de déterminer si un message (texte court) peut être attribué à un auteur connu dont on connaît au moins un autre texte court ou long. Il permet par exemple aux abonnés des messages d'une personne - par exemple aux abonnés tweeter, ou aux abonnés d'autres réseaux sociaux ou aux destinataires de e-mails - de s'assurer que les messages courts lus proviennent de l'auteur supposé qui a signé le message, et pas d'un usurpateur.

[00112] Cette procédure peut être répétée pour comparer un message questionné avec quelques messages d'usurpateurs supposés, et avec quelques messages d'un auteur de référence. Si l'un de ces matches à trois (inconnu, usurpateur, référence) classifie le message questionné avec ceux de l'usurpateur, le message est attribué, avec une certaine probabilité, à cet usurpateur. Le procédé peut être utilisé dans un logiciel anti-spam ou anti phishing pour déterminer, éventuellement avec d'autres méthodes, la probabilité que le message provienne d'un usurpateur.

[00113] Dans un logiciel anti-spam ou anti-phishing, l'usurpateur peut être un spammeur.

[00114] Les messages comparés peuvent porter sur des sujets très différents, l'approche étant indépendante du vocabulaire spécifique utilisé. Les messages sont cependant de préférence de même nature - par exemple tous des e-mails, ou des messages de dénigrement.

[00115] La figure 6 est tirée d'un exemple avec trois auteurs de lettres factices, chacun ayant produit deux lettres d'environ 500 et 1750 caractères. L'auteur questionné (groupe en bas à gauche) dans ce test a en outre produit un document d'une centaine de caractères seulement (carrés en bas à gauche de la figure). Ces textes ont été découpés à une taille préférée de 500 caractères environ, avec un degré de couverture de trois.

[00116] La figure 6 représente les deux premières dimensions d'une ASM sur des trigrammes tirés des fragments de textes obtenus après découpage à 500 caractères environ et recouvrement (degré de couverture de 3). A cette ASM correspond une matrice F x N (F = nombre de fragments et N = le nombre de dimensions retenues pour atteindre un pourcentage cumulé de variance de 90%). [00117] La matrice de coordonnées résultante de cette ASM est stockée dans une table.

[00118] La figure 7 est établie à partir d'une ASM et illustre la distance de chaque fragment de texte aux barycentres des trois clusters visibles sur cette ASM. La figure représente en X le numéro de l'extrait et en Y la distance de cet extrait au oint représentatif. Par exemple, les 15 premiers fragments sont plus proches du barycentre du cluster en bas à gauche et font donc partie de ce cluster.

[00119] Ce diagramme permet d'identifier les points mal placés d'un cluster car plus proches du barycentre d'un autre cluster. Il est donc possible de calculer la proportion de points mal placés à partir des données d'élaboration de ce graphique et de déterminer la probabilité de

l'existence de trois clusters correspondant à trois styles rédactionnels différents.

[00120] La figure 8 montre le dendrogramme obtenu à partir de la matrice de coordonnées issues d'une ASM. On remarque trois branches principales (clusters) contenant les fragments des textes placés dans l'ordre suivant, de haut en bas : 88 (cluster en bas à gauche), 95 (cluster en haut à gauche) et 90 (cluster à droite). Ce dendrogramme de clustérisation non- hiérarchisée valide l'existence et la claire séparation des trois clusters, correspondant à trois auteurs.

[00121] La technique d'affinement du dendrogramme mesure la robustesse statistique des résultats de ce dendrogramme. Ce

dendrogramme de clustérisation non-hiérarchisée clustérise donc le texte très court de 130 caractères (0088R2.txt1) avec les autres fragments issus des deux textes 0088L et 0088C, qui tous ensemble constituent le cluster en bas à gauche.