Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DYNAMIC METHOD FOR AUTOMATICALLY PUTTING ON-LINE EXTRACTS FROM PAPER DOCUMENT HOLDINGS
Document Type and Number:
WIPO Patent Application WO/2006/000660
Kind Code:
A2
Abstract:
The invention relates to a method for consulting heavy documents on public networks and digitalised paper documents, using a system for the operation of conditions which are optimised in terms of access, selectivity and quality of said access. To this end, the invention relates to a dynamic method for automatically putting on-line holdings of documents available on paper support, on user stations which are wired-up in a network. Said method consists of (i) elaborating an industrial production chain, for pages from digitalised or digital documents, for processing the documents for the qualitative improvement thereof and extracting information relating to the text, for the geolocalisation of said documents, the indexing thereof and the compression of the pages, (ii) presenting a results list in the form of pictures (31) which are dynamically generated and centred on the desired word(s), thus isolating a context of use of the page according to a given mode, to the user who has formulated a request of at least one word (20) to the search engine, relating to the full text information and to associated metadata, and (iii) performing an accelerated presentation of the page to the user for reading, by means of a plug-in, for any resolution.

Inventors:
BELIN PHILIPPE (FR)
Application Number:
PCT/FR2005/001092
Publication Date:
January 05, 2006
Filing Date:
May 02, 2005
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
IMMANENS SAS (FR)
BELIN PHILIPPE (FR)
International Classes:
G06F17/30
Domestic Patent References:
WO1999018523A11999-04-15
Foreign References:
EP0596247A21994-05-11
Other References:
SHENGJIN WANG ET AL: "Adaptive data transmission on browsing of scanned documents using JPEG2000" CONFERENCE PROCEEDINGS ARTICLE, 10 juillet 2002 (2002-07-10), pages 78-83, XP010620992
MARINAI S ET AL: "A general system for the retrieval of document images from digital libraries" DOCUMENT IMAGE ANALYSIS FOR LIBRARIES, 2004. PROCEEDINGS. FIRST INTERNATIONAL WORKSHOP ON PALO ALTO, CA, USA 23-24 JAN. 2004, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 23 janvier 2004 (2004-01-23), pages 150-173, XP010681126 ISBN: 0-7695-2088-X
GOTTESMAN B ET AL: "Ending the Paper Chase" PC MAGAZINE, A PC COMMUNICATION CORP. NEW YORK, US, 24 octobre 1995 (1995-10-24), pages 129,131,134,13-,154, XP002091671 ISSN: 0888-8507
YUE LU ET AL: "Retrieving imaged documents in digital libraries based on word image coding" DOCUMENT IMAGE ANALYSIS FOR LIBRARIES, 2004. PROCEEDINGS. FIRST INTERNATIONAL WORKSHOP ON PALO ALTO, CA, USA 23-24 JAN. 2004, LOS ALAMITOS, CA, USA,IEEE COMPUT. SOC, US, 23 janvier 2004 (2004-01-23), pages 174-187, XP010681127 ISBN: 0-7695-2088-X
LU Y ET AL: "Document retrieval from compressed images" PATTERN RECOGNITION, ELSEVIER, KIDLINGTON, GB, vol. 36, no. 4, avril 2002 (2002-04), pages 987-996, XP004398637 ISSN: 0031-3203
Attorney, Agent or Firm:
Schwartz, Thierry (36 rue de Saint Pétersbourg, PARIS, FR)
Download PDF:
Description:
PROCEDE DYNAMIQUE DE MISE EN LIGNE AUTOMATIQUE D'EXTRAITS DE FONDS DE DOCUMENTS PAPIERS

L'invention concerne un procédé dynamique de mise en ligne automatique sur postes d'utilisateurs câblés en réseau d'une sélection d'extraits provenant d'un fonds de documents disponibles sur support papiers. L'invention se rapporte au domaine de la mise en ligne de fonds papier importants ou, d'une façon générale, de documents pour lesquels on ne dispose pas d'un fichier source. L'invention vise plus particulièrement la consultation sur des réseaux publics de documents « lourds » en termes de taille de fichiers, par exemple supérieur au Mégaoctet. Ces documents, tels que : documents imprimés ou presse, catalogues, documents de communication, photographies, plans, cartes, etc., sont habituellement difficiles à transférer sur les réseaux. Un autre but de l'invention est de permettre une consultation sécurisée des documents. Les moteurs de recherche de l'état de la technique fonctionnent essentiellement sur de l'information fournie sous forme de documents bureautiques ou bien de format « PDF Texte » générés à partir de ces mêmes outils bureautiques. Concernant les documents papiers, les produits de reconnaissance de caractères, par exemple de reconnaissance optique ou « OCR », permettent de cacher l'information texte derrière l'image. Il est alors possible d'indexer ce texte dans un moteur, puis de produire l'image entière lorsque celle-ci répond au critère de recherche. Cependant, à l'aide de ces outils, l'image est toujours présentée dans son ensemble : il est alors nécessaire d'ouvrir le document dans sa totalité pour valider si celui-ci est effectivement intéressant, d'où un dépouillement très laborieux du résultat de la recherche. De plus, les temps de réponse sur les réseaux étendus, de type «WAN », sont très lents du fait qu'ils manipulent de l'image, ce qui nécessite des fichiers lourds. Aussi, seules des applications limitées en intranet sur des réseaux très rapides ont pu voir le jour. Il apparaît donc difficile, voire impossible, d'afficher le résultat de la reconnaissance de caractères à l'utilisateur sur des réseaux étendus pour des raisons qualitatives, particulièrement sur des documents couleurs. Les listes résultats de recherche ne sont pas véritablement exploitables car le contexte du mot recherché n'est pas fourni. De plus, le temps d'accès aux documents est rédhibitoire sur des réseaux WAN. L'invention propose une cinématique de fonctionnement qui pallie ces insuffisances afin de permettre, en particulier, une consultation de documents dans des conditions optimisées en termes de temps d'accès, de sélectivité et de qualité de cet accès. La démarche empruntée par l'invention consiste à construire un moteur de recherche capable d'exploiter correctement, c'est-à-dire sans déstructuration, le texte dans l'image sur des documents fournis sous leur forme finale, à savoir sur support de papier, par extraction directe sous forme d'imagette. Plus précisément, l'invention a pour objet un procédé dynamique de mise en ligne automatique, sur postes d'utilisateurs câblés en réseau, d'un fonds de documents disponibles sur support papiers, consistant à (i) élaborer une chaîne de production industrielle réalisant, sur des pages provenant de documents numérisés ou numériques, des traitements d'amélioration qualitative du document et d'extraction d'informations relatives au texte, leur géolocalisation puis leur indexation et la compression de ces pages, (ii) présenter à l'utilisateur qui a formulé une requête d'au moins un mot au moteur de recherche, portant sur l'information plein texte et sur des métadonnées associées, une liste résultat sous forme d'imagettes générées dynamiquement et centrées sur le(s) mot(s) recherché(s) en isolant ainsi un contexte d'utilisation de la page selon un mode donné, et (iii) réaliser par un plug-in une présentation accélérée de la page à l'utilisateur pour lecture, quelle que soit sa résolution. Le plug-in est un plug-in de visualisation de document de toute nature, par exemple d'une image ou un document composite. La cinématique de fonctionnement de l'invention permet ainsi d'éviter la nécessité d'ouvrir systématiquement tout document proposé par le moteur de recherche et de respecter le délai d'attente toléré par un utilisateur, qui ne dépasse pas statistiquement 5 secondes, à l'accès aux documents en particulier aux documents de grande taille. Selon des modes particuliers de mise en oeuvre : - la chaîne est alimentée à partir de fichiers provenant de numérisation du papier et/ou à partir de fichiers numériques PDF ou bureautiques ; - le tri du résultat de recherche est effectué à partir de la police de caractère d'au moins un mot clé recherché pour proposer une fonction qui équivaut à une recherche par titre ; - un filtrage est réalisé à partir de types de champs descriptifs de métadonnées telles que dates, titres de document, thèmes, rubriques, messages publicitaires, etc, définies et renseignées au préalable ; - la compression d'image est de type pyramidale progressive ; - le mode de présentation des imagettes étant choisi parmi le mode imagettes courtes, imagettes longues, et le mode de présentation mixte de l'imagette associée à une représentation vignette de la page dans son entier ; - une fonction de cryptage de l'image est réalisée ; - des fonctions d'interactivité dans le plug-in permettent de rendre sensibles des zones de l'image pour renvoyer vers des hyperliens, ou de sélectionner graphiquement une zone de l'image ; - des outils documentaires du moteur de recherche permettent une meilleure appropriation du fonds documentaire détecté, tels que « mes documents » pour se constituer des dossiers thématiques, « mes alertes » pour notifier l'utilisateur dès qu'un nouveau document est reconnu par la requête de recherche. D'autres avantages et caractéristiques de l'invention apparaîtront à la lecture de l'exemple de réalisation détaillé qui suit, en référence aux figures annexées qui représentent respectivement : - la figure 1 , une recherche sur document par l'introduction d'un mot- clé, - les figures 2 à 4, différents modes de présentation de ce résultat de la recherche, - la figure 5, la visualisation de la page choisie par le plug-in, et - les figures 6 et 7, deux outils documentaires d'appropriation du fond documentaire. Dans l'exemple détaillé ci-après, le moteur de recherche s'apparente à un moteur de type « Google », en ce sens qu'il en reprend la simplicité d'utilisation et, pour chaque élément de la liste résultat, une présentation contextuelle du mot trouvé. La différence fondamentale réside, comme indiqué dans l'introduction ci-dessus, dans le principe d'une matérialisation directe de ce contexte par extraction du document sous forme d'imagettes. Le moteur est alimenté par une chaîne de production industrielle qui réalise, à partir de fichiers provenant de numérisation de documents papier : - un traitement qualitatif en vue d'améliorer l'image (redressement, détourage, correction de gamma, déflouage, association pages droite&gauche, etc), - l'extraction de texte par reconnaissance de caractères avec un outil d'OCR - la géolocalisation de l'information texte, à savoir le repérage géographique dans la page de chaque caractère - l'analyse sélective des informations contenues dans les pages texte du document par reconnaissance de caractères afin d'en extraire des métadonnées d'identification, dans l'exemple les rubriques (date, titre, thème, rubrique, messages publicitaires, etc), - l'indexation on plein texte du document et des métadonnées des documents étant réalisée par un moteur d'indexation connu, - la compression et le cryptage des documents, tels que détaillés ci- après. Cette chaîne est alimentée en particulier à partir de fichiers provenant de la numérisation du papier par scanner haut débit. Cette chaîne d'arrière- plan, ou « back-office », dispose d'un haut degré d'automatisation, permettant ainsi d'atteindre un prix de revient très bas. Avec ce moteur de recherche, la recherche en plein texte est effectuée à partir de l'introduction du mot clé recherché 20, par exemple le mot « Porsche » comme illustré en figure 1. La présentation est « dynamique » en ce qu'elle est réalisée, au moyen d'un outil de visualisation d'imagettes dit « Image Context », comme indiqué ci- après : - la recherche porte sur l'information plein texte, telle qu'extraite du document par la chaîne de production ; - le résultat de recherche est alors présenté à l'utilisateur sous la forme d'imagettes 31 successives générées dynamiquement grâce aux informations de géolocalisation du mot dans chaque page contenant ce mot en tenant compte du facteur de zoom adapté à appliquer, les imagettes étant centrées sur le mot le plus pertinent 20 de la page ; - l'utilisateur peut alors exploiter très rapidement une liste résultat sans qu'il lui soit nécessaire d'ouvrir chaque document, ce qui représente un gain de temps et de confort important. Par ailleurs, dans la mesure où un coup d'œil permet d'écarter instantanément des réponses manifestement sans rapport avec le sujet véritable de la recherche, l'utilisateur n'a pas besoin d'être un expert de la recherche documentaire. Plusieurs modes de présentation sont proposés: - imagettes courtes 31 (figure 2) - imagettes longues 32 (figure 3), - présentation mixte de l'imagette 30 associée à une représentation vignette de la page dans son entier 40 (figure 4). Le moteur de recherche dynamique s'appuie sur différents moteurs de recherche texte du marché, dont il exploite les possibilités : pertinence, recherche floue, prise en compte de dates,... En option, deux caractéristiques supplémentaires sont avantageusement intégrées au moteur de recherche dynamique : - le tri du résultat de recherche à partir de la police de caractère du mot clé recherché et trouvé ; cette fonctionnalité permet en outre d'effectuer des recherches dans les titres ; - le filtrage à partir de types de rubriques définies et renseignées au préalable. Afin de garantir des temps de réponse de consultation à distance inférieurs à 5 secondes, l'invention utilise un programme d'activation d'accès, ou « plug-in » de visualisation, par une compression d'image pyramidale progressive. Le document image est rendu accessible à partir du poste de l'utilisateur grâce au plug-in (figure 5). Cet outil de consultation exploite les images préalablement comprimées par la chaîne de production. Celles-ci sont d'abord découpées en tuiles hiérarchiques de différentes définitions par le logiciel de compression, le plug-in assurant ensuite la gestion des requêtes au serveur d'image et l'affichage de la seule portion d'image 50 nécessaire à la réalisation de l'affichage écran. Ainsi, concrètement, le plug-in ne va chercher sur le serveur que les informations nécessaires à l'affichage et n'attend pas d'avoir récupéré toute l'information pour commencer à afficher. La valeur ajoutée du plug-in réside principalement : (i) dans son activation en couche réseau qui permet d'implémenter différentes stratégies de requête au serveur pour s'adapter à la bande passante du réseau utilisé (RTC, ADSL, très haut débit), et (ii) dans l'implémentation technique des mécanismes de compression qui ne fait appel qu'à la puissance CPU du poste utilisateur, permettant ainsi de servir un grand nombre de postes utilisateurs à partir d'un même serveur. Le plug-in propose une ergonomie simplifiée et fonctionne entièrement en mémoire : aucun dépôt de fichier, temporaire ou permanent, n'est effectué sur le poste de l'utilisateur. Des fonctions d'interactivité dans le plug-in permettent de : - mettre en évidence des zones 39 de l'image 50 par surlignage, - rendre sensible des zones 51 lesquelles l'utilisateur pourra effectuer une action ; le prétraitement de la chaîne de production permet ainsi de générer des liens hypertextes, par exemple un lien avec des adresses du réseau, telle que www.societe.com, - sélectionner graphiquement une zone de l'image pour effectuer une correction de l'OCR, ou plus généralement tout type d'action. Avantageusement, une fonction de cryptage est appliquée sur l'en-tête de l'image par des algorithmes polynomiaux de type 128 bits. Les images avec entête cryptée permettent une meilleure défense contre le piratage. Enfin, les mécanismes intégrés appairent les documents à leur serveur. Ainsi, les documents déchargés de façon frauduleuse à partir de leur serveur d'exploitation sur une autre machine sont inexploitables. Le moteur offre des outils documentaires à l'utilisateur pour lui faciliter l'appropriation du fonds documentaire détecté: - « Mes documents » 60 (figure 6) : permet à l'utilisateur de se constituer des dossiers thématiques, qu'il pourra éventuellement partager ; - « Mes alertes » 70 (figure 7) : permet à l'utilisateur d'être notifié dès lors qu'un nouveau document est reconnu par la requête de recherche qu'il a au préalable définie auprès du moteur. L'invention n'est pas limitée à l'exemple décrit et revendiqué. Par exemple, le plug-in de compression d'images peut faire appel à une technique de compression différente, par l'utilisation d'autres algorithmes tels que par exemple CCITT4, JBIG. Par ailleurs, le moteur de recherche texte peut intégrer des fonctionnalités différentes, par exemple, des techniques linguistiques différentes ou de logique floue. La présentation des imagettes peut varier en généralisant la fonction de modes. Il est également possible de limiter le fonctionnement à un accès à des fichiers en format PDF ou autre format, ou d'unifier l'ergonomie d'accès à des fonds mixtes, PDF et images numérisées. Enfin, il est possible de généraliser les langues de reconnaissance pour localiser la détection, non seulement aux langues d'alphabet latin (français, anglais, italien, ...) pour des textes rédigés dans ces langues, mais également pour des langues présentant des caractères particuliers (russe, grec,...) ou des idéogrammes (japonais, chinois).