Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR MULTIDIMENSIONAL INDEXING OF TEXTUAL CONTENT
Document Type and Number:
WIPO Patent Application WO/2020/229760
Kind Code:
A1
Abstract:
The invention relates to a method for multidimensional indexing of digital textual content, comprising: - a first step of extracting the words from the textual content (6) to build a digital word table; - a second step of filtering consisting in deleting the non-significant words from the digital word table; - a third step consisting in vectorising each of the words to build a vector table from a vector model (5); - a fourth step of calculating a single vector according to the vectors of the vector table. According to the invention, there is also a step of: - building a table from the digital vectors neighbouring the single vector; - calculating a second vector representation of the textual content by combining the neighbouring vectors.

Inventors:
HAMID MIRISAEE (FR)
LAGNIER CÉDRIC (FR)
GAUSSIER ERIC (FR)
GUERRAZ AGNÈS (FR)
EMERY GUILLAUME (FR)
Application Number:
PCT/FR2020/050766
Publication Date:
November 19, 2020
Filing Date:
May 11, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SKOPAI (FR)
UNIV GRENOBLE ALPES (FR)
International Classes:
G06F16/31
Foreign References:
EP2624149A22013-08-07
US20180300295A12018-10-18
EP3118751A12017-01-18
EP1828933A12007-09-05
FR2835940A12003-08-15
Other References:
JON EZEIZA ALVAREZ: "A review of word embedding and document similarity algorithms applied to academic text", 22 October 2017 (2017-10-22), XP055634328, Retrieved from the Internet [retrieved on 20191021]
JULIAN BRENDL: "Keyword Based Document Retrieval via Document Embeddings", 15 June 2018 (2018-06-15), XP055634324, Retrieved from the Internet [retrieved on 20191021]
K. BEYERJ. GOLDSTEINR. RAMAKRISHNANU. SHAFT: "When is ''nearest neighbor'' meaningful ?", PROCEEDINGS OF THE 7TH INTERNATIONAL CONFÉRENCE ON DATABASE THEORY, January 1999 (1999-01-01), pages 217 - 235
R. WEBERH.-J. SCHEKS. BLOTT: "A quantitative analysis and performance study for similarity search methods in high-dimensional spaces", PROCEEDINGS OF THE 24TH INTERNATIONAL CONFÉRENCE ON VERY LARGE DATA BASES, August 1998 (1998-08-01), pages 194 - 205
Attorney, Agent or Firm:
BREESE, Pierre (FR)
Download PDF:
Claims:
REVENDICATIONS

1. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique, le procédé étant mis en œuvre par un dispositif d'exécution d'instructions, et comportant :

Une première étape d'extraction des mots dudit contenu textuel (6) pour constituer une table numérique de mots (M,) ;

Une deuxième étape de filtrage consistant à supprimer de ladite table numérique de mots (M±) les mots non signifiants ;

Une troisième étape consistant à vectoriser chacun des mots (Mi) pour construire une table de vecteurs (V±) à partir d'un modèle linguistique vectoriel (5) ;

Une quatrième étape de calcul d'un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (V±) , le vecteur unique formant une première représentation vectorielle VU du contenu textuel ;

caractérisé en ce que l'on procède en outre :

à la constitution d'une table de vecteurs numériques voisins (VVj) dudit vecteur unique (VU) ;

au calcul d'une seconde représentation vectorielle (VUaiPha) du contenu textuel par combinaison des vecteurs voisins

(Wj) .

2. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication 1 dans lequel la table de vecteurs numériques voisins (VVj) dudit vecteur unique (VU) est établie par :

la constitution d'une première table de vecteurs numériques voisins dudit vecteur unique (VU) ;

le calcul d'un ensemble de N-uplets de vecteurs (VVjaiPha) par combinaisons desdits vecteurs de la première table ; au calcul, pour chacun desdits N-uplets de vecteurs (VV alpha) , d'un vecteur nouveau unique (VNaiPha) pour former la table de vecteurs numériques voisins (VVj) .

3. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication précédente caractérisé en ce qu'il comporte une étape additionnelle de sélection d'au moins un vecteur, parmi les vecteurs nouveaux uniques (VNaiPha) , présentant la plus forte occurrence pour former une table de vecteurs numériques voisins (VVj).

4. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes caractérisé en ce que ladite table de vecteurs (Vi) comporte en outre un indicateur d'occurrence (Cy) fonction du nombre d'occurrences du mot M± associé au vecteur Vi, dans ledit contenu textuel.

5. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes caractérisé en ce que ladite table de vecteurs (Vi) comporte en outre un indicateur de fréquence (Fi) fonction du nombre d'apparitions du mot Mi associé au vecteur Vi, dans le corpus constituant ledit modèle vectoriel (5) .

6. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications 1 à 3 caractérisé en ce que ladite quatrième étape de calcul d'un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (Vi) consiste à calculer la moyenne desdits vecteurs (Vi) .

7. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication 4 ou 5 caractérisé en ce que ladite quatrième étape de calcul d'un vecteur unique (VU) fonction des vecteurs de ladite table de vecteurs (Vi) consiste à calculer le barycentre pondéré en fonction desdits indicateurs d'occurrence (Oi) et/ou de fréquence (Fi) desdits vecteurs (Vi) .

8. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes dans lequel ladite deuxième étape de filtrage consiste à supprimer de ladite table numérique de mots (Mi) les mots du texte brut non compris dans le dictionnaire d'entrée du modèle vectoriel

(5) pour former le contenu textuel (6) .

9. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des revendications précédentes

.comprenant les étapes suivantes :

- identifier dans le modèle linguistique (5) un premier nombre de vecteurs les plus proches du vecteur unique (VU) ;

- identifier dans le modèle linguistique un second nombre de vecteurs les plus proches de la seconde représentation vectorielle (VUaiPha) ;

- retenir les vecteurs communs au premier et au deuxième nombre de vecteurs pour former au moins en partie une liste des vecteurs clés.

10. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication précédente dans lequel la liste des vecteurs clés comprend également des vecteurs issus d'une analyse par graphe du contenu textuel

(6) .

11. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon l'une des deux revendications précédentes dans lequel les vecteurs clés de la liste des vecteurs clés sont associés à un degré de pertinence.

12. Procédé d'indexation multidimensionnelle d'un contenu textuel numérique selon la revendication précédente, dans lequel le degré de pertinence est une similarité cosinus entre le vecteur clé et le vecteur unique (VU) ou la deuxième représentation vectorielle (VUaiPha) ·

13. Procédé de regroupement de contenus textuels caractérisé en ce que l'on procède pour chacun desdits contenus textuels à une indexation multidimensionnelle selon l'une au moins des revendications 1 à 11 et en ce que l'on associe un indicateur de regroupement (R) aux contenus textuels dont les secondes représentations vectorielles (VUaiPha) présentent entre eux une distance euclidienne inférieure à une valeur seuil (D) .

14. Procédé de recherche de contenus similaires à un document de référence caractérisé en ce que l'on procède pour une collection de contenus textuels ainsi que pour ledit document de référence à une indexation multidimensionnelle selon l'une au moins des revendications 1 à 11 et en ce que l'on recherche les contenus textuels dont la seconde représentation vectorielle (VUaiPha) associée est la plus proche de la seconde représentation vectorielle (VUaiPha) associée audit document de référence .

15. Procédé de représentation graphique du positionnement de documents à contenu textuel caractérisé en ce que l'on procède pour une collection de contenus textuels à une indexation multidimensionnelle selon l'une au moins des revendications 1 à 11 et en ce que l'on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l'interface graphique étant une fonction de la distance euclidienne entre les secondes représentations vectorielles (VUaiPha) de chacun desdits documents .

Description:
DESCRIPTION

TITRE : PROCEDE D'INDEXATION MULTIDIMENSIONNELLE DE CONTENUS

TEXTUELS

DOMAINE DE L' INVENTION

La présente invention concerne un procédé d' indexation multidimensionnelle automatique d'un contenu textuel numérique. L'indexation conduit à l'enregistrement des concepts contenus dans un document, sous une forme organisée et facilement accessible, permettant la recherche des informations enregistrées à partir de ces outils de recherche documentaire et les traitements automatiques d' analyse de grands volumes de documents pour procéder à des classifications, des regroupements par similarité de contenu, des ordonnancements et plus généralement tous types de traitements automatiques permettant d'exploiter de manière efficace et pertinente de grands volumes d' écrits .

L' indexation date du XVIème siècle et consistait initialement à établir une « table » des termes signifiants d'un ouvrage ou d'une collection d'ouvrages pour en faciliter l'accès. Très vite, les limites d'une telle démarche, menée de manière empirique par des documentalistes, sont apparues : En tête du tome V de ses Diversités (1610), Jean-Pierre Camus, l'évêque de Belley, dit son hostilité à la pratique de l'indexation, désignée alors par la « représentation tabulaire », et au mode de lecture qu'elle induit. « L'indexation est une erreur populaire, qui n'infecte que les faibles cerveaux, qui appellent cela l'âme du livre, et c'est l'instrument de leur stupidité. Ces gens peuvent être appelés Doctores tabularii, lesquels sapiunt tantum per Indices. Les enquerrez-vous de ce qu'ils savent? Ils vous demandent un livre pour le montrer, et aussitôt à la Table pour trouver ce qu'ils cherchent, les habiles appellent cela le pont aux ânes . » Jean-Pierre Camus : « Les tables des tomes précédents de l'auteur, faites par je ne sais qui, et à son insu, lui déplaisent, sachant qu'il faut retrancher tant que l'on peut ce qui fomente la paresse, paresse mère de l'ignorance. »

Le développement de l'informatique a permis de palier partiellement au problème du biais cognitif induite par la culture personnelle des documentalistes humains, en automatisant les traitements par des approches totalement objectives. L' introduction de formats numériques de type XML a également conduit à l'enrichissement de textes avec des métadonnées facilitant l'indexation automatique de documents numériques.

Une nouvelle étape a été franchie par le développement des techniques d'indexation vectorielle, ouvrant la voie à des traitements automatiques pour permettre des recherches de similarité, de plus proches voisins, et d'accélérer l'accès à une grande collection de données par leurs positions dans un espace multidimensionnel.

A titre d' illustration, la thèse de Thierry Urruty « Optimisation de l'indexation multidimensionnelle : application aux descripteurs multimédia » soutenue en 2007 à l'université de Lille 1 présente les principes généraux des traitements de contenus multimédias ayant fait l'objet d'une indexation multidimensionnelle. La pertinence de ces approches est fortement dépendante de la qualité des traitements numériques de construction des représentations numériques d'un document textuel, et la présente invention concerne plus particulièrement cette étape essentielle du traitement automatique de contenus.

Plusieurs techniques d'indexation multidimensionnelle ont été développées. Elles reposent sur le même principe : regrouper a priori les données de la base de telle sorte que les données proches dans l'espace soient dans le même groupe, puis développer des algorithmes qui exploitent a posteriori la structure mise en place pour effectuer des recherches efficaces dans la base.

Ces techniques peuvent être classées en trois familles : les techniques basées sur le partitionnement des données, connues sous les appellations anglaises R*-tree, SR-tree, X-tree, etc., les techniques basées sur le partitionnement de l'espace, k-d- b-tree, LSD h-tree, PyramidTree, etc., et les techniques basées sur la compression, le VA-File et ses variantes.

Plusieurs travaux ont montré que ces techniques sont inefficaces dans les espaces de grande dimension pour diverses raisons. D'une part, les groupes de données sont généralement mal formés, car les procédures de structuration des données sont très sensibles à l'ordre d'insertion des vecteurs et à la distribution des données, et d'autre part, les procédures de recherche sont incapables de confiner la recherche à un petit sous-ensemble des données auquel il suffit d'accéder pour construire l'ensemble résultat. Ce dernier problème est dû principalement à la complexité de l'organisation, généralement arborescente, des groupes de données.

L'article intitulé "When is "nearest neighbor" meaningful ?" dans la revue Proceedings of the 7th International Conférence on Database Theory, 217-235, Jérusalem, Israël, January 1999, de K. Beyer, J. Goldstein, R. Ramakrishnan and U. Shaft ou l'article "A quantitative analysis and performance study for similarity search methods in high-dimensional spaces" dans la revue Proceedings of the 24th International Conférence on Very Large Data Bases, 194-205, New York City, New York, USA, August 1998, de R. Weber, H. -J. Schek and S. Blott, ont même montré que, dans certains cas, les performances des techniques connues en indexation multidimensionnelle sont inférieures à celles d'une simple recherche séquentielle. ARRIERE PLAN TECHNOLOGIQUE DE L' INVENTION

On connaît par exemple du document EP3118751 une telle méthode. Elle comprend l'obtention d'un texte brut, par exemple du code source HTML extrait d'un site Web, et la préparation de ce texte brut pour former un contenu textuel exploitable (formatage, lemmatisation) . Des mots-clés sont ensuite extraits du contenu textuel exploitable.

On connaît aussi le brevet européen délivré sous le numéro EP1828933 décrivant un procédé d'indexation de documents comprenant des étapes de stockage de ces documents dans au moins une arborescence de répertoires imbriqués les uns dans les autres à partir d'un répertoire racine, d'un espace de stockage, caractérisé en ce qu'il comprend en outre les étapes consistant à :

- pour chaque document mémorisé dans l'espace de stockage, indexer par un ordinateur le contenu sémantique du document et les noms des répertoires imbriqués dans lesquels le document est stocké,

mémoriser le résultat de l'indexation dans une base d'indexation multidimensionnelle en association avec le document présent dans l'espace de stockage.

On connaît aussi le brevet français délivré sous le numéro FR2835940 qui a pour objet un procédé de recherche des k plus proches voisins d'un vecteur requête q dans une base de données multidimensionnelle de N vecteurs comprenant une phase de structuration de la base en clusters pour le regroupement des vecteurs et une phase de recherche, caractérisé en ce qu'il comprend les étapes suivantes :

- calcul de la distance Dppc (C, p) du centre de gravité d'un cluster C de la base au pième plus proche vecteur voisin parmi les vecteurs du cluster, p étant un entier naturel supérieur ou égal à k,

- calcul de la distance distc (C, q) du vecteur requête q au centre de gravité du cluster C,

- calcul de la somme distPc (C, q, p) des distances distc (C, q) et Dppc (C, p) ,

- calcul, sur l'ensemble des clusters C de la base, de la plus petite valeur distPc (C, q, p) ,

- élimination des clusters C de la base dont la distance mindist (C, q) , qui est la plus petite distance entre le vecteur requête q et la sphère englobante du cluster C, est supérieure à la plus petite valeur distPc.

Inconvénients de l ' art antérieur

Le problème à résoudre concerne le calcul d'une représentation vectorielle d'un document à contenu textuel ne se limitant pas à l'exploitation de ce contenu textuel uniquement, pour permettre un positionnement dans un espace multidimensionnel homogène par rapport au positionnement d'autre documents à contenu textuel.

Dans les solutions de l'art antérieur, chaque document fait l'objet d'un traitement sur la base de son propre contenu, pour calculer une représentation vectorielle qui fait ensuite l'objet de comparaison avec la représentation vectorielle d'autres documents, par des calculs de distance euclidienne dans un espace multidimensionnel commun.

La plupart des documents analysés sont élaborés de manière indépendante, chaque rédacteur d'un document ayant son propre vocabulaire, ses propres biais cognitifs et son propre contexte thématique, ce qui se traduit par des contenus dont les termes constitutifs et la structuration ne sont pas harmonisés. Les traitements automatiques appliqués sur la base des indexations multidimensionnelles de l'art antérieur sont donc peu fiables et conduisent à des résultats très approximatifs voire erronés.

OBJET DE L' INVENTION

La présente invention, en s'appuyant sur le formalisme du plongement de mot, cherche donc, par calcul arithmétique sur des vecteurs, à établir au moins un vecteur représentatif d'un contenu textuel, ce vecteur ne faisant pas nécessairement partie des vecteurs associés à un mot-clé du champ lexical du document. Autrement dit, la présente invention propose d'indexer automatiquement, par des vecteurs qui peuvent être représentatifs de mots-clés, un document ou une collection de documents. Ces vecteurs et ces mots-clés sont représentatifs du contenu des documents sans correspondre précisément aux mots qu'ils contiennent.

BREVE DESCRIPTION DE L' INVENTION

En vue de la réalisation de ce but, l'objet de l'invention propose selon son acception la plus générale un procédé d'indexation multidimensionnelle d'un contenu textuel numérique comportant :

Une première étape d'extraction des mots dudit contenu textuel pour constituer une table numérique de mots ;

Une deuxième étape de filtrage consistant à supprimer de ladite table numérique de mots les mots non signifiants ; Une troisième étape consistant à vectoriser chacun des mots pour construire une table de vecteurs à partir d'un modèle vectoriel ;

Une quatrième étape de calcul d'un vecteur unique fonction des vecteurs de ladite table de vecteurs.

Selon l'invention, on procède en outre : à la constitution d'une table de vecteurs numériques voisins dudit vecteur unique ;

au calcul d'une seconde représentation vectorielle du contenu textuel par combinaison des vecteurs voisins.

De manière préférée, la table de vecteurs numériques voisins dudit vecteur unique est établie par :

la constitution d'une première table de vecteurs numériques voisins dudit vecteur unique ;

le calcul d'un ensemble de N-uplets de vecteurs par combinaisons desdits vecteurs de la première table ;

au calcul, pour chacun desdits N-uplets de vecteurs, d'un vecteur nouveau unique pour former la table de vecteurs numériques voisins.

Selon une variante de ce mode préféré, le procédé comporte une étape additionnelle de sélection d'au moins un vecteur, parmi les vecteurs nouveaux uniques, présentant la plus forte occurrence pour former une table de vecteurs numériques voisins.

Selon une première variante, ladite table de vecteurs comporte en outre un indicateur Oi fonction du nombre d' occurrence du mot Mi associé au vecteur Vi, dans ledit contenu textuel.

Selon une deuxième variante, non exclusive de la précédente, ladite table de vecteurs comporte en outre un indicateur Fi fonction du nombre d'apparition du mot Mi associé au vecteur Vi, dans ledit modèle vectoriel.

Avantageusement, ladite quatrième étape de calcul d'un vecteur unique fonction des vecteurs de ladite table de vecteurs consiste à calculer la moyenne desdits vecteurs. De préférence, ladite quatrième étape de calcul d'un vecteur unique fonction des vecteurs de ladite table de vecteurs consiste à calculer le barycentre pondéré en fonction desdits indicateurs Oi et/ou Fi desdits vecteurs.

Selon un mode de réalisation particulier, ladite deuxième étape de filtrage consiste supprimer de ladite table numérique de mots les mots du texte brut non compris dans le dictionnaire d'entrée du modèle vectoriel pour former le contenu textuel.

Dans un exemple d'application particulier, le procédé comprend de plus les étapes suivantes :

- identifier dans le modèle linguistique un premier nombre de vecteurs les plus proches du vecteur unique ;

- identifier dans le modèle linguistique un second nombre de vecteurs les plus proches de la deuxième représentation vectorielle ;

- retenir les vecteurs communs au premier et au deuxième nombre de vecteurs pour former au moins en partie une liste des vecteurs clés .

Avantageusement, la liste des vecteurs clés comprend également des vecteurs issus d'une analyse par graphe du contenu textuel.

Selon un mode de réalisation particulier, les vecteurs clés de la liste des vecteurs clés sont associés à un degré de pertinence .

Avantageusement, le degré de pertinence est une similarité cosinus entre le vecteur clé et le vecteur unique ou la deuxième représentation vectorielle.

L' invention concerne aussi un procédé de regroupement de contenus textuels caractérisé en ce que l'on procède pour chacun desdits contenus textuels à une indexation multidimensionnelle susvisée et en ce que l'on associe un indicateur de regroupement aux contenus textuels dont les secondes représentations vectorielles présentent entre eux une distance euclidienne inférieure à une valeur seuil.

L' invention concerne encore un procédé de recherche de contenus similaires à un document de référence caractérisé en ce que l'on procède pour une collection de contenus textuels ainsi que pour ledit document de référence à une indexation multidimensionnelle précitée et en ce que l'on recherche les contenus textuels dont la seconde représentation vectorielle associée est la plus proche de la seconde représentation vectorielle associée audit document de référence.

L' invention concerne aussi un procédé de représentation graphique du positionnement de documents à contenu textuel caractérisé en ce que l'on procède pour une collection de contenus textuels à une indexation multidimensionnelle susvisée et en ce que l'on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l'interface graphique étant une fonction de la distance euclidienne entre les secondes représentations vectorielles de chacun desdits documents.

BREVE DESCRIPTION DES FIGURES

D'autres caractéristiques et avantages de l'invention ressortiront de la description détaillée de l'invention qui va suivre en référence aux figures annexées sur lesquels :

La figure 1 représente un environnement informatique permettant de mettre en œuvre un procédé d'extraction de mots-clés conforme à 1 ' invention ; La figure 2 représente le logigramme d'un procédé d'indexation conforme à l'invention.

DESCRIPTION DETAILLEE DE L'INVENTION

On a représenté sur la figure 1, un environnement informatique permettant de mettre en œuvre un procédé conforme à l'invention.

Une unité de traitement informatique 1 est configurée pour exécuter un programme informatique. Elle est reliée à des moyens de stockage de données 2 et connectée à un réseau informatique 3, par exemple le réseau Internet. L'unité de traitement informatique 1 dispose par ailleurs de toutes les interfaces d'entrée-sortie conventionnelles (écran, clavier, ports de communication,...) .

Ces moyens informatiques donnent notamment accès à des ressources documentaires 4, tels que des sites Web accessibles via le réseau 3 ou des fichiers de texte enregistrés dans les moyens de stockage 2. Ces ressources documentaires 4 constituent des textes bruts qui peuvent former des données d'entrée du procédé qui fait l'objet de la présente description.

Modèle linguistique multidimensionnel

On dispose également, par exemple enregistré dans les moyens de stockage 2 de l'environnement informatique de la figure 1, d'un modèle linguistique vectoriel 5 mettant respectivement en correspondance les mots d'un dictionnaire avec des vecteurs.

Le modèle vectoriel vise à représenter documents et requêtes comme des vecteurs dans un espace à n dimensions.

Comme cela a été précisé en introduction, ce modèle linguistique qui peut se présenter sous la forme d'une simple table de donnée mots - vecteurs, associe des mots linguistiquement proches à des vecteurs également proches dans l'espace multidimensionnel dans lequel ces vecteurs sont définis. La dimension de l'espace vectoriel de définition des vecteurs peut être très importante, typiquement de plusieurs centaines. La mesure de proximité de deux vecteurs dans cet espace peut être déterminée par une mesure de similarité de ces deux vecteurs, par exemple la mesure de similarité cosinus.

Le modèle linguistique vectoriel 5 peut être un modèle préexistant et accessible publiquement. Mais avantageusement, lorsque le procédé d'extraction de mots-clés vise un domaine d'application spécifique, le modèle linguistique vectoriel 5 a été préalablement élaboré à partir d'un corpus de documents de ce domaine d'application. On pourra se référer au document de la littérature citée en introduction de cette demande pour obtenir le détail d'implémentation permettant de constituer, par apprentissage, un tel modèle linguistique vectoriel à partir d'un corpus de documents choisis.

Extraction des mots

Dans une étape préliminaire du procédé d'extraction, on fournit un texte brut 4 que l'on prépare pour former un contenu textuel 6 exploitable de type table numérique de mots [Mi ; M2 ; ... ; Mi] , dont le format et le contenu sont adaptés à son futur traitement. Cette étape de fourniture peut être mise en œuvre par un module logiciel d'extraction enregistré dans les moyens de stockage 2 et s'exécutant sur l'unité de traitement 1. Ce module accède au texte brut 4 à partir par exemple d'adresse Web ou de chemins d'accès aux moyens de stockages 2 qui lui sont fournis. Ce module peut consister ou comprendre un robot d' indexation (« web crawler », selon la terminologie anglo-saxonne usuelle dans ce domaine) qui explore automatiquement le réseau pour collecter des ressources documentaires 4 d'intérêt. Le texte brut 4 est préparé, au cours d'une étape de filtrage opérée par le module logiciel d'extraction, par des opérations classiques d'élimination de mots non signifiants tels que les conjonctions de coordination, par lemmatisation, ou par toute autre opération permettant d'établir un contenu textuel ne comportant que des mots connus du modèle linguistique 5.

Généralement, le dictionnaire de mots formant l'entrée du modèle linguistique 5 est établi dans une langue déterminée, ce qui ne permet pas de traiter des textes bruts exprimés dans d' autres langues. Pour traiter cette situation de textes bruts en langue étrangère, l'invention prévoit une étape de traduction. Cette étape de traduction s'appuie sur une pluralité de modèles de traduction vectoriels, un par langue que l'on souhaite traiter. Chaque modèle de traduction est similaire au modèle linguistique vectoriel 5, et associe un mot à un vecteur dans un espace multidimensionnel, par exemple par l'intermédiaire d'une table de mise en correspondance. Les modèles de traduction et le modèle linguistique sont cohérents entre eux, c'est-à-dire que deux mots identiques dans des langues différents sont respectivement reliés à des vecteurs identiques ou très proches. Il existe de nombreux modèles de traduction préexistants et librement disponibles. Pour traiter un texte brut en langue étrangère, on emploie le modèle de traduction correspondant à cette langue pour transformer tous les mots en vecteurs, puis on applique le modèle linguistique pour effectuer la transformation inverse, i.e. transformer les vecteurs en mots. On peut de la sorte revenir à un texte brut qui s'exprime dans la langue du modèle linguistique, et on peut y appliquer les traitements préliminaires permettant de fournir le contenu textuel.

On dispose donc, à l'issue de cette étape préliminaire, de données exploitables 6, désignées par « contenu textuel » dans la suite de cette description, qui peut se présenter sous la forme d'une chaine ou table numérique de mots uniques Mi enregistrés dans les moyens de stockage 2, et dont le format et le contenu sont réguliers. Le contenu textuel 6 associé à un texte brut 4 peut être composé d'un grand nombre de mots, plusieurs centaines, voire plusieurs milliers. Le contenu textuel 6 associé à un texte brut d'origine peut donc être traité de manière systématique par les étapes suivantes du procédé.

L'étape préliminaire mise en œuvre par le module d'extraction peut effectuer d'autres opérations sur le texte brut 4 d'origine, comme par exemple déterminer le coefficient numérique de TF-IDF (« term frequency-inverse document frequency » ou Fréquence d'un Terme - Fréquence inverse de document) des mots composant le contenu textuel. Ce coefficient, dont le calcul est bien connu dans le domaine, vise à mesurer numériquement l'importance d'un mot dans un document. Ces coefficients peuvent être enregistrés conjointement avec les mots extraits du texte brut 4 traité, sous la forme d'une structure de données adéquate constituant le contenu textuel 6.

Les facteurs TF et IDF permettent de considérer les pondérations locales et globales d'un terme. On distingue la fréquence d'apparition d'un terme dans un document (term frequency, TF) et la fréquence d' apparition de ce même terme dans toute la collection considérée (inverse document frequency, IDF) . La mesure TF*IDF permet d' approximer la représentativité d'un terme dans un document, surtout dans les corpus de documents de tailles homogènes .

L'étape d'extraction aboutit à une table de mots Mi associés optionnellement à un indicateur d'occurrence Oi fonction du nombre d'occurrences du mot Mi considéré dans le document origine ainsi qu'à un indicateur de fréquence Fi fonction de la fréquence d'apparition du mot Mi considéré dans le corpus constituant le modèle vectoriel 5.

Dans une étape suivante du procédé d'extraction, on cherche à établir une première représentation VU du contenu textuel 6. Pour cela, on détermine le vecteur V± correspondant à chaque mot unique Mi composant le contenu textuel 6 à l'aide du modèle linguistique vectoriel 5. Puis, on combine ensemble numériquement les vecteurs V± de mots pour former cette première représentation vectorielle VU du contenu textuel 6.

La combinaison peut correspondre à une simple moyenne, mais préférablement cette combinaison numérique est un calcul de barycentre pour lequel on pondère chaque vecteur V± de mot Mi d'une mesure d'importance du mot correspondant, par exemple Cy et/ou Fi, c'est à dire les coefficients numériques de TF et/ou IDF de ce mot Mi dans le texte brut 4, qui a pu être établi par le module logiciel d'extraction au cours de l'étape préliminaire du procédé.

À l'issue de cette étape, on dispose donc d'un premier vecteur unique VU représentatif du contenu textuel 6 traité.

On note que ce premier vecteur unique VU, calculé numériquement, ne correspond pas nécessairement à un mot existant dans le modèle linguistique, mais il découle toutefois très directement des mots du contenu textuel 6.

Pour tenter de se détacher du champ lexical précisément employé dans le texte brut 4 et qui se retrouve dans le contenu textuel 6, un procédé conforme à la présente description prévoit plusieurs étapes complémentaires cherchant à fournir une seconde représentation vectorielle VU aiP ha du contenu textuel, qui s'affranchisse justement des mots extraits du contenu textuel 6. Enrichissement de la représentation vectorielle

Ainsi, au cours d'une nouvelle étape du procédé, on établit une liste de vecteurs voisins VV j de la première représentation vectorielle VU.

On peut s'appuyer pour cela sur le modèle linguistique vectoriel 5, en établissant par exemple un coefficient de similarité entre le premier vecteur unique représentatif VU et chaque vecteur composant ce modèle 5. Comme on l'a vu, ce coefficient de similarité peut être calculé pratiquement comme une mesure de similarité cosinus. Cela permet de déterminer très aisément la liste de vecteurs de ce modèle 5 situés dans un voisinage du premier vecteur représentatif VU, c'est-à-dire dont le degré de similarité est inférieur à un seuil prédéterminé. Alternativement cette liste de vecteurs peut présenter une taille prédéterminée, et dans ce cas on choisit les vecteurs voisins VV j comme les vecteurs du modèle 5 dont les degrés de similarité avec le premier vecteur représentatif VU sont les plus faibles.

Il existe de nombreuses autres manières permettant d'établir cette liste. Dans un exemple avantageux, on forme dans un premier temps une première liste de N vecteurs du modèle linguistique 5 les plus proches du premier vecteur représentatif VU. Pour chacun des vecteurs de la première liste, on recherche à nouveau les M vecteurs les plus proches dans le modèle linguistique 5, et on forme une seconde liste qui réunisse ces N*M vecteurs. N et M peuvent par exemple être compris entre 5 et 20, typiquement 10 On collecte de la sorte, dans la seconde liste, les vecteurs présents dans le voisinage du voisinage du premier vecteur représentatif VU, et on s'assure de capturer une grande variété de vecteurs et donc de se détacher du contenu textuel 6 ou du texte brut 4 d'origine. On pourrait d'ailleurs prévoir de poursuivre un plus grand nombre de fois cette récurrence pour diversifier encore plus la seconde liste des vecteurs ou d'appliquer d'autres approches, en complément au remplacement de celle qui sont proposées, pour accroître encore cette diversité.

La seconde liste de vecteurs peut présenter une taille particulièrement importante, et comporter des vecteurs insignifiants. Aussi, la liste des vecteurs voisins VV j de la première représentation vectorielle VU qui est établie au cours de cet exemple ne correspond pas exactement, dans un mode préféré de mise en œuvre du procédé, à la seconde liste. La liste des vecteurs voisins VV j de la première représentation vectorielle VU est préférentiellement établie en choisissant dans la seconde liste le groupe de vecteurs ayant la plus grande occurrence. On peut ainsi choisir, et à titre d'exemple, 5 à 10 vecteurs pour former la liste des vecteurs voisins VV j du premier vecteur représentatif VU d'un contenu textuel 6.

Dans un autre exemple avantageux pour former une table de vecteurs voisins VV j , on forme dans un premier temps, et tout comme dans l'exemple précédent, une première table de vecteurs du modèle linguistique 5 les plus proches du premier vecteur représentatif VU. On calcule ensuite des combinaisons de vecteurs de la première table pour former des N-uplets de N vecteurs VV jaiPha de la première table, dont on calcule, pour chaque N-uplet, la moyenne ou barycentre sous la forme d'un vecteur nouveau unique VN aiPha. Il peut ainsi s'agir de déterminer tous les N-uplets possibles dans cette première liste ou une partie de ceux-ci uniquement. On désigne par K le nombre de N- uplets déterminés et donc de vecteurs nouveaux uniques VN aiPha déterminés. Pour chacun des vecteurs VN aiPha , on recherche à nouveau les M vecteurs les plus proches dans le modèle linguistique 5, et on forme une seconde liste qui réunisse ces K*M vecteurs. On collecte de la sorte une grande variété de vecteurs. Tout comme dans l'exemple précédent, la liste des vecteurs voisins VV j de la première représentation vectorielle VU est préférentiellement établie en choisissant dans la seconde liste le groupe de vecteurs ayant la plus grande occurrence. On peut ainsi choisir, et à titre d'exemple, 5 à 10 vecteurs pour former la liste des vecteurs voisins VV j du premier vecteur représentatif VU d'un contenu textuel 6.

Quelle que soit la méthode choisie pour élaborer la liste des vecteurs voisins VV j , on peut alors combiner numériquement entre eux les vecteurs formant cette liste, par exemple à l'aide d'une simple moyenne, pour établir une seconde représentation vectorielle sous la forme d'un second vecteur unique représentatif VU aiPha du contenu textuel.

Ce vecteur VU aiPha , tout comme la première représentation vectorielle VU, ne correspond pas nécessairement à un mot du dictionnaire d'entrée du modèle linguistique vectoriel 5. Aussi, dans un exemple d'application, pour établir au moins un mot-clé à partir de ces vecteurs représentatifs VU, VU aiPha , il est donc nécessaire de les projeter dans le référentiel défini par le modèle linguistique vectoriel 5 en vue d'obtenir au moins un vecteur représentatif associé dans ce modèle à au moins un mot du dictionnaire d'entrée. Ce ou ces mots formera le mot-clé extrait du contenu textuel 6, qui en est représentatif et qui peut permettre, par exemple, de l'indexer.

Extraction de vecteurs et mots clés

A cet effet, le procédé peut comprendre une étape additionnelle visant à former une liste de vecteurs-clés, contenue dans le modèle linguistique vectoriel 5, cette liste de vecteurs-clés comprenant des vecteurs proches de la première et de la deuxième représentation VU, VU aiPha ·

Pour cela, on peut par exemple identifier respectivement dans le modèle linguistique vectoriel 5, un premier nombre et un deuxième nombre de vecteurs les plus proches de la première représentation VU et de la deuxième représentation VU aiPha · À nouveau, on pourra faire usage dans ce traitement du calcul de proximité par similarité cosinus. Puis on retient les vecteurs communs à ce premier et second nombre de vecteurs, c'est-à-dire que l'on prend 1 ' intersection de ces deux ensembles pour former au moins en partie la liste des vecteurs-clés. Le premier et le deuxième nombre de vecteurs peuvent être choisis assez librement, par exemple entre 10 et 200.

Dans une étape suivante du procédé, on peut transformer cette liste de vecteurs clés, ou une partie de celle-ci, en une liste de mots-clés, en s'appuyant sur le modèle linguistique vectoriel 5. Cette liste peut ainsi former les mots-clés indexant le contenu textuel qui vient d'être traité.

De préférence toutefois, on préférera fournir un nombre plus limité de mots-clés que le nombre de vecteurs composant la liste de vecteurs-clés. Le procédé comprend alors une étape de sélection d'au moins un vecteur-clé dans la liste. Pour opérer cette sélection, on peut ordonner les vecteurs-clés par ordre décroissant de proximité avec les premier et deuxième vecteurs représentatifs VU et VU aiPha . La sélection consiste alors à prendre en tout premier lieu les vecteurs-clés présentant la plus grande proximité. On s'assure de la sorte de la pertinence des mots-clés choisis. En d'autres termes, on choisit au moins un vecteur clé dans la liste des vecteurs clés et on établit au moins un mot-clé représentatif du contenu textuel 6 en déterminant, à l'aide du modèle linguistique, le (s) mot (s) - clé (s) correspondant au (x) vecteur ( s ) -clé ( s ) choisi (s) .

La liste de vecteurs-clés peut être complétée par d'autres méthodes, de manière à ce que la sélection soit le plus riche possible. Par exemple, la liste des mots-clés peut être augmentée des mots-clés issus d'une analyse par graphe du contenu textuel 6, comme cela a été présenté en introduction de la demande.

Un procédé conforme à la présente description peut trouver de nombreuses autres applications.

Il peut par exemple s'appliquer au regroupement de contenus textuel. Dans cet exemple, on applique le procédé d'indexation multidimensionnelle qui vient d'être présenté à des contenus textuels disponibles, et l'on associe un indicateur de regroupement R aux contenus dont les secondes représentations vectorielles VU aiP ha présentent entre elles une distance euclidienne inférieure à une valeur seuil D, qui peut être prédéterminée .

Il peut également s'appliquer à la recherche de contenus similaires à un document de référence. On procède alors pour une collection de contenus textuels ainsi que pour ledit document de référence à l'indexation multidimensionnelle précitée et l'on recherche les contenus textuels dont la seconde représentation vectorielle VU aiP ha associée est la plus proche du vecteur unique associé audit document de référence.

Dans un autre exemple d'application, on peut former une représentation graphique du positionnement de documents à contenu textuel. On procède pour une collection de documents à contenus textuels à l'indexation multidimensionnelle susvisée et l'on affiche pour chacun desdits documents un symbole graphique, la distance entre les symboles graphiques de deux documents sur l'interface graphique étant une fonction de la distance, par exemple euclidienne, ou la similarité entre les secondes représentations vectorielles VU aiP ha de chacun desdits documents.

Bien entendu l'invention n'est pas limitée au mode de mise en œuvre décrit et on peut y apporter des variantes de réalisation sans sortir du cadre de l'invention tel que défini par les revendications .

Il est à noter que les procédés décrits ici ont vocation à être mis en œuvre par des instructions, stockées sur un support lisible par ordinateur, et exécutées par une machine, un appareil ou un dispositif d'exécution d'instructions, tel qu'un ordinateur, une machine basée sur ordinateur ou contenant un processeur .