Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DETECTION OF A SIMILARITY OF DOCUMENTS BY CITATION PROXIMITY ANALYSIS
Document Type and Number:
WIPO Patent Application WO/2010/078857
Kind Code:
A1
Abstract:
The invention relates to a computer-implemented method for detecting a similarity between at least one input document and a plurality of documents. First documents and second documents are detected which are directly or indirectly cited by the input document or which directly or indirectly cite the input document. At least one preliminary similarity value is calculated for every detected document. If more than one preliminary similarity value has been calculated for a document, a final similarity value is calculated from the preliminary similarity values. The method can then be applied to the detected first documents and second documents to detect further documents that are similar to the input document and to calculate their similarity values to the input document.

Inventors:
BEEL JOERAN (DE)
GIPP BELA (DE)
Application Number:
PCT/DE2009/000015
Publication Date:
July 15, 2010
Filing Date:
January 08, 2009
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BEEL JOERAN (DE)
GIPP BELA (DE)
International Classes:
G06F17/30
Other References:
GARFIELD E: "Science Citation Index"-A New Dimension in Indexing", SCIENCE, vol. 144, no. 3619, 8 May 1964 (1964-05-08), pages 649 - 654, XP002535039, Retrieved from the Internet [retrieved on 20090701]
BOLLACKER K ET AL: "CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications", PROCEEDINGS OF THE 2ND INTERNATIONAL CONFERENCE ON AUTONOMOUS AGENTS MINNEAPOLIS/ST.PAUL, MN, MAY 9 - 13, 1998; [PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON AUTONOMOUS AGENTS], NEW YORK, NY : ACM, US, vol. 2TH, 9 May 1998 (1998-05-09), pages 116 - 123, XP002519189, ISBN: 978-0-89791-983-8
SHEN HUANG ET AL: "TSSP: A Reinforcement Algorithm to Find Related Papers", PROCEEDINGS OF THE IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE, WI 2004, 20 September 2004 (2004-09-20) - 24 September 2004 (2004-09-24), XP002535040, Retrieved from the Internet [retrieved on 20090702]
HERLACH G: "Can retrieval of information from citation indexes be simplified? Multiple mention of a reference as a characteristic of the link between cited and citing article", JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, vol. 29, no. 6, 1978, pages 308 - 310, XP002535041, Retrieved from the Internet [retrieved on 20090702]
Attorney, Agent or Firm:
BEEL, Jöran (DE)
Download PDF:
Claims:
Patentansprüche

1. Computer-implementiertes Verfahren zum Ermitteln einer Ähnlichkeit zwischen zumindest einem Eingabedokument (ID) und einer Anzahl von Dokumenten, umfassend zumindest die folgenden Schritte: a) Ermitteln erster Dokumente (Doc A bis Doc E), wobei die ersten Dokumente von dem Eingabedokument (ID) referenziert werden (Doc C bis Doc E) oder das Eingabedokument referenzieren (Doc A, Doc B); b) Ermitteln zweiter Dokumente (Doc CoCh, Doc BibCol, Doc BibCo 2), wobei jedes der zweiten Dokumente zumindest von einem der ersten Dokumente referenziert wird (Doc CoCit) oder zumindest eines der ersten Dokumente referenziert (Doc BibCol, Doc BibCo 2); c) Berechnen zumindest eines vorläufigen Ähnlichkeitswertes (ItIF, CPI, CS, CCS) für jedes der ermittelten ersten und zweiten Dokumente (Doc A bis Doc E, Doc CoCit, Doc BibCol, Doc BibCo 2) zu dem Eingabedokument (ID); und d) Berechnen eines endgültigen Ähnlichkeitswertes für jedes der ermittelten ersten und zweiten Dokumente für welche mehr als ein vorläufiger Ähnlichkeitswert (ItIF, CPI, CS, CCS) zu dem Eingabedokument (ID) berechnet wurde.

2. Verfahren nach Anspruch 1, weiter umfassend folgenden Schritt: e) Wiederholen der Schritte a) bis d) für jedes der im Schritt a) und/oder Schritt b) ermittelten Dokumente, wobei das Dokument für welches die Wiederholung der Schritte a) bis d) durchgeführt wird als Eingabedokument (IDW) der Wiederholung dient, und Berechnen eines endgültigen Ähnlichkeitswertes (W) für jedes im Schritt a) und/oder Schritt b) der Wiederholung ermittelte Dokument zu dem Eingabedokument (ID).

3. Verfahren nach Anspruch 2, wobei der endgültige Ähnlichkeitswert (W) aus dem endgültigen Ähnlichkeitswert des Eingabedokuments (IDW) der Wiederholung zu dem Eingabedokument (ID) und dem endgültigen Ähnlichkeitswert des jeweiligen im Schritt a) und/oder Schritt b) der Wiederholung ermittelte Dokument zu dem Eingabedokuments (IDW) der Wiederholung berechnet wird.

4. Verfahren nach Anspruch 2, wobei der endgültige Ähnlichkeitswert (W) aus den endgültigen Ähnlichkeitswerten der vorhergehenden Wiederholungen und dem endgültigen Ähnlichkeitswert des jeweiligen im Schritt a) und/oder Schritt b) der aktuelle Wiederholung ermittelte Dokument zu dem Eingabedokuments (IDW) der aktuelle Wiederholung berechnet wird.

5. Verfahren nach Anspruch 3 oder 4, wobei für die Berechnung des endgültigen Ahnlichkeitswertes (W) der in einer Wiederholung ermittelte endgültige Ähnlichkeitswert unterschiedlich zu dem in einer vorhergehenden Wiederholung ermittelte Ähnlichkeitswert gewichtet wird.

6. Verfahren nach einem der vorhergehenden Ansprüche, wobei der vorläufige Ähnlichkeitswert in Schritt c) zumindest nach einem der folgenden Verfahren berechnet wird:

- In-text-Impact-Factor (ItIF);

- Citation Proximity Index (CPI);

- Co-Citation Strength (CCS);

- Coupling Strength (CS).

7. Verfahren nach Anspruch 6, wobei das Verfahren Citation Proximity Index zumindest die folgenden Schritte umfasst:

- Ermitteln der Positionen der Referenzen zu mindestens zwei referenzierten Dokumenten innerhalb wenigstens eines Referenzdokuments;

- Ermitteln eines Distanzwertes zwischen den Positionen der Referenzen innerhalb des wenigstens einen Referenzdokuments; und

- Berechnen eines Ähnlichkeitswertes (CPI) für die referenzierten Dokumente und wobei der Ähnlichkeitswert (CPI) abhängig von dem Distanzwert zwischen den beiden die Dokumente referenzierenden Referenzen ist.

8. Verfahren nach Anspruch 6, wobei das Verfahren In-text-Impact-Factor zumindest die folgenden Schritte umfasst:

- Ermitteln der Anzahl der Referenzen für jedes innerhalb des Eingabedokumentes (ID) referenzierte Dokument;

- Berechnen eines Ähnlichkeitswertes für jedes innerhalb des Eingabedokumentes (ID) referenzierte Dokument, wobei der Ähnlichkeitswert in Abhängigkeit von der ermittelten Anzahl der Referenzen zu dem jeweiligen referenzierten Dokument, von der Verteilung der Referenzen für jedes innerhalb des Eingabedokumentes (ID) referenzierte Dokument und von dem Abstand einer Referenz zu nächsten Referenz innerhalb des Eingabedokumentes (ID) berechnet wird.

9. Verfahren nach einem der vorhergehenden Ansprüche, weiter umfassend einen Schritt zum Speichern der endgültigen Ähnlichkeitswerte und der vorläufigen Ähnlichkeitswerte für jedes ermittelte Dokument.

10. Computer-implementiertes Verfahren zum Auffinden und/oder Identifizieren von zu einem Eingabedokument (ID) ähnliche Dokumente, wobei für die Dokumente jeweils ein Ähnlichkeitsweit nach einem der Ansprüche 1 bis 9 ermittelbar ist, wobei der Ähnlichkeitswert jeweils die Ähnlichkeit eines Dokumentes zu dem Eingabedokument (ID) angibt, und wobei das Verfahren wenigstens folgende Schritte umfasst:

- Entgegennehmen wenigstens eines Eingabedokuments (ID) oder einer Kennung für das wenigstens eine Eingabedokument (ID), für welches ähnliche Dokumente aufgefunden und identifiziert werden sollen;

- Ermitteln von Dokumenten aus einer Kollektion von Dokumenten für welche ein Ähnlichkeitswert zu dem Eingabedokument (ID) ermittelbar ist; und

- Bereitstellen einer Liste der ermittelten Dokumente zur Ausgabe auf einer Anzeigeeinrichtung, wobei die Reihenfolge der Dokumente innerhalb der Liste abhängig von den Ähnlichkeitswerten der Dokumente ist.

11. Verfahren nach Anspruch 10, wobei die Ähnlichkeitswerte nach dem Entgegennehmen des Eingabedokuments oder der Kennung für das Eingabedokument ermittelt werden.

12. Verfahren nach Anspruch 10, wobei die Ähnlichkeitswerte vor dem Entgegennehmen des Eingabedokuments oder der Kennung für das Eingabedokument ermittelt werden und in einer Speichereinrichtung gespeichert werden und die Ähnlichkeitswerte durch Anfrage an die Speichereinrichtung ermittelt werden.

13. System zum Ermitteln einer Ähnlichkeit von Dokumenten zu einem Eingabedokument, aufweisend:

- wenigstens eine Speichereinrichtung zum Speichern der Dokumente und des Eingabedokumentes und/oder einer Kennung der Dokumente und des Eingabedokuments;

- eine Verarbeitungseinrichtung, welche mit der Speichereinrichtung gekoppelt ist und welche ausgestaltet ist zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche.

14. System nach Anspruch 13, wobei wenigstens eine Schnittstelle vorgesehen ist, um über ein LAN und / oder ein WAN, insbesondere das Internet oder das World Wide Web Anfragen nach ähnlichen Dokumenten zu einem Eingabedokument (ID) entgegenzunehmen und ähnliche Dokumente (Dl, D2) zu dem Eingabedokument (ID) bereitzustellen, wobei die Schnittstelle mit der Verarbeitungseinrichtung gekoppelt ist.

15. Datenträgerprodukt mit einem darauf gespeicherten Programmcode, welcher in einen Computer und / oder in ein Computernetzwerk ladbar ist und ausgestaltet ist, ein Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.

Description:
Ermitteln einer Ähnlichkeit von Dokumenten mittels Referenz- und

Distanzanalyse

Gebiet der Erfindung

Die vorliegende Erfindung betrifft ein Verfahren und ein System zum Ermitteln einer Ähnlichkeit von Dokumenten. Insbesondere betrifft die Erfindung ein Verfahren und ein System zum Ermitteln einer Ähnlichkeit von Dokumenten zu mindestens einem vorbestimmten Dokument, wobei ausgehend von dem vorbestimmten Dokument ähnliche Dokumente zu dem vorbestimmten Dokument anhand einer Analyse der Referenzen ermittelt werden. Die vorbestimmten Dokumente können als sowohl als Dokumente selbst oder als Kennungen der Dokumente verwendet werden.

Stand der Technik

Jährlich werden Millionen wissenschaftlicher Arbeiten als gedruckte Dokumente, elektronische Dokumente oder in Form von Internetseiten veröffentlicht. Dies macht es schwer zu einem bestimmten Themenbereich relevante Publikationen zu recherchieren oder zu finden, da unmöglich alle Publikationen gelesen werden können.

Es sind Suchmaschinen bekannt, welche speziell für die Recherche nach wissenschaftlichen Publikationen angepasst sind. Suchmaschinen für wissenschaftliche Dokumente, wie etwa Google Scholar von Google Inc. verwenden zwei Ansätze um die Suche nach relevanten Publikationen zu unterstützen, nämlich die wortbasierte Analyse von Dokumenten und die so genannte Referenzanalyse (engl. Citation Analysis). Bei der wortbasierten Analyse gibt die suchende Person ein oder mehrere Stichworte vor, vorzugsweise aus einem Themenbereich in dem die Suche vorgenommen werden soll. Das zugrunde liegende System ermittelt aufgrund der Stichworte ein oder mehrere Dokumente. Nachteilig hierbei ist, dass auch Dokumente vorgeschlagen werden, welche thematisch keinen Bezug zum recherchierten Themenbereich haben. Im schlechtesten Fall werden irrelevante Dokumente aufgrund einer vorgegebenen Sortierreihenfolge der Suchmaschinen fälschlicherweise sogar als besonders relevant eingestuft, etwa weil die Stichworte besonders häufig in diesen Dokumenten vorkommen, was eine manuelle Filterung der von der Suchmaschine vorgeschlagenen Dokumente erforderlich macht.

Bei der Referenzanalyse gibt die suchende Person ein Dokument (Eingabedokument) vor, welches er beispielsweise zu einem Themenbereich für interessant oder relevant hält. Ausgehenden von diesem Eingabedokument schlägt die Suchmaschine Dokumente vor, welche das Eingabedokument referenzieren (z.B. über Verweise) oder welche von dem Eingabedokument referenziert werden und ähnliches. Fig. 1 verdeutlicht das Verfahren der Referenzanalyse. Hält die suchende Person als Eingabedokument das Dokument Input Doc für relevant oder interessant, so könnte die Suchmaschine ihm folgende Dokumente vorschlagen:

(1) Dokumente, welche das Eingabedokument Input Doc referenzieren, d.h. die Dokumente Doc A und Doc B;

(2) Dokumente, welche das Eingabedokument Input Doc referenziert, d.h. die Dokumente Doc C, Doc D und Doc E;

(3) Dokumente, welche von den mittels (1) bestimmten Dokumenten (Doc A und Doc B) sonst noch referenziert werden, d.h. das Dokument Doc CoCit. Dieses Verfahren ist auch unter dem Begriff Co-Citation Analysis bekannt;

(4) Dokumente, welche die gleichen Dokumente referenzieren wie das Eingabedokument Input Doc, d.h. die Dokumente Doc BiboCol und Doc BiboCo2. Dieses Verfahren ist auch unter dem Begriff Bibliographie Coupling bekannt. Diese Verfahren geben zwar jeweils einen ersten Hinweis darauf, dass (gegebenenfalls über mehrere Ebenen) miteinander verknüpfte Dokumente einen gewissen inhaltlichen Bezug haben könnten, sie geben aber keinen Hinweis auf den Grad oder die Stärke der Ähnlichkeit dieser Dokumente zueinander, sodass die Reihenfolge der recherchierten Dokumente in dem Ergebnis einer Referenzanalyse keinen Rückschluss auf die tatsächliche Ähnlichkeit der referenzierten Dokumente zu dem Eingabedokument liefert. Die Verknüpfung der Dokumente, auch über mehrere Ebenen, wird als Zitationsgraph bezeichnet.

Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und ein System zur Verfügung zu stellen, mit denen eine verbesserte Recherche, insbesondere eine verbesserte computer-basierte Recherche nach ähnlichen Dokumenten durchführbar ist.

Gegenstand und Definition der Erfindung

Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruches 1, ein Verfahren mit den Merkmalen des Anspruches 10 sowie ein System mit den Merkmalen des Anspruches 13 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in der nachfolgenden Beschreibung sowie den weiteren Ansprüchen angegeben.

Demnach wird in einem ersten Aspekt der Erfindung ein Verfahren zum Ermitteln einer Ähnlichkeit zwischen zumindest einem Eingabedokument (ID) und einer Anzahl von Dokumenten bereitgestellt, wobei das Verfahren zumindest die folgenden Schritte umfasst: a) Ermitteln erster Dokumente, wobei die ersten Dokumente von dem Eingabedokument referenziert werden oder das Eingabedokument referenzieren; b) Ermitteln zweiter Dokumente, wobei jedes der zweiten Dokumente zumindest von einem der ersten Dokumente referenziert wird oder zumindest eines der ersten Dokumente referenziert; c) Berechnen zumindest eines vorläufigen Ähnlichkeitswertes für jedes der ermittelten ersten und zweiten Dokumente zu dem Eingabedokument; und d) Berechnen eines endgültigen Ähnlichkeits wertes für jedes der ermittelten ersten und zweiten Dokumente für welche mehr als ein vorläufiger Ähnlichkeitswert zu dem Eingabedokument berechnet wurde.

Ist für ein Dokument nur ein vorläufiger Ähnlichkeitswert berechnet worden, kann dieser vorläufige Ähnlichkeitswert für dieses Dokument als endgültiger Ahnlichkeitswert verwendet werden.

Dieses Verfahren kombiniert in besonders vorteilhafter Weise unterschiedliche Verfahren zur Referenzanalyse und um so einen endgültigen referenzbasierten Ahnlichkeitswert zwischen zwei Dokumenten zu berechnen, was zu einem verbesserten Ergebnis einer Ähnlichkeitsrecherche fuhrt. Bekannte Verfahren der Textanalyse können ebenfalls mit den Verfahren der Referenzanalyse kombiniert werden um einen endgültigen Ähnlichkeitswert zu berechnen.

Sind für ein Dokument mehrere Ähnlichkeitswerte aufgrund unterschiedlicher Referenzanalysen berechnet worden, wird aus diesen Ähnlichkeitswerten ein endgültiger Ähnlichkeitswert berechnet.

Die Schritte a) bis d) können für jedes der im Schritt a) und/oder Schritt b) ermittelte Dokument wiederholt werden, wobei das Dokument für welches die Wiederholung der Schritte a) bis d) durchgeführt wird als Eingabedokument der Wiederholung dient, und wobei ein endgültiger Ähnlichkeits werte für jedes im Schritt a) und/oder Schritt b) der Wiederholung ermittelte Dokument zu dem Eingabedokument berechnet wird.

Damit wird es möglich Ähnlichkeitswerte zu dem Eingabedokument auch über mehrere Ebenen hinweg zu berechnen, d.h. es kann ein Ähnlichkeitswert zu einem Dokument berechnet werden, welches z.B. nur über mehrere weitere Dokumente vom Eingabedokument aus über Referenzen erreichbar ist bzw. referenziert wird. In einer Ausgestaltung der Erfindung kann der endgültige Ähnlichkeitswert aus dem endgültigen Ähnlichkeitswert des Eingabedokuments der Wiederholung zu dem Eingabedokument und dem endgültigen Ähnlichkeitswert des jeweiligen im Schritt a) und/oder Schritt b) der Wiederholung ermittelte Dokument zu dem Eingabedokuments der Wiederholung berechnet wird.

In einer Ausgestaltung der Erfindung kann der endgültige Ähnlichkeitswert aus den endgültigen Ähnlichkeitswerten der vorhergehenden Wiederholungen und dem endgültigen Ähnlichkeitsweit des jeweiligen im Schritt a) und/oder Schritt b) der aktuelle Wiederholung ermittelte Dokument zu dem Eingabedokuments der aktuelle Wiederholung berechnet wird.

Für die Berechnung des endgültigen Ähnlichkeitswertes kann der in einer Wiederholung ermittelte endgültige Ähnlichkeitswert unterschiedlich zu dem in einer vorhergehenden Wiederholung ermittelte Ähnlichkeitswert gewichtet werden. D.h. dass ein Ähnlichkeitswert für ein Dokument, welches im Zitationsgraph näher am Eingabedokument angeordnet ist höher gewichtet wird als ein Dokument, welches im Zitationsgraph weiter entfernt vom Eingabedokument angeordnet ist. Als Entfernung zum Eingabedokument kann die Anzahl der Kanten im Zitationsgraph zwischen Dokument und Eingabedokument verwendet werden.

Der vorläufige Ähnlichkeitswert in Schritt c) kann zumindest nach einem der folgenden Verfahren berechnet wird:

In-text-Impact-Factor;

Citation Proximity Index; - Co-Citation Strength (CCS);

Coupling Strength.

Das Verfahren Citation Proximity Index kann zumindest die folgenden Schritte umfassen:

Ermitteln der Positionen der Referenzen zu mindestens zwei referenzierten Dokumenten innerhalb wenigstens eines Referenzdokuments; Ermitteln eines Distanzwertes zwischen den Positionen der Referenzen innerhalb des wenigstens einen Referenzdokuments; und Berechnen eines Ähnlichkeitswertes für die referenzierten Dokumente und wobei der Ähnlichkeitswert abhängig von dem Distanzwert zwischen den beiden die Dokumente referenzierenden Referenzen ist.

Das Verfahren In-text-Impact-Factor kann zumindest die folgenden Schritte umfassen:

Ermitteln der Anzahl der Referenzen für jedes innerhalb des Eingabedokumentes referenzierte Dokument;

Berechnen eines Ähnlichkeitswertes für jedes innerhalb des Eingabedokumentes referenzierte Dokument, wobei der Ähnlichkeitswert in Abhängigkeit von der ermittelten Anzahl der Referenzen zu dem jeweiligen referenzierten Dokument, von der Verteilung der Referenzen für jedes innerhalb des Eingabedokumentes referenzierte Dokument und von dem Abstand einer Referenz zu nächsten Referenz innerhalb des Eingabedokumentes berechnet wird.

Die Verfahren Co-Citation Strength und Coupling Strength sind aus dem Stand der Technik bekannt und werden hier nicht näher erläutert. Weitere Verfahren zum Berechnen eines Ähnlichkeitswertes können verwendet alternativ oder zusätzlich werden. Aufgrund der Schritte c) und d) der erfϊndungsgemäßen Verfahren fließen auch diese Ähnlichkeitswerte in Berechnung des endgültigen Ahnlichkeitswertes mit ein.

In einem weiteren Aspekt der Erfindung wird ein System zur Ausführung des erfindungsgemäßen Verfahrens bereitgestellt.

Kurzbeschreibung der Zeichnung

Die weitere Erläuterung der Erfindung erfolgt anhand der Zeichnung. Die Zeichnung zeigt: Fig. 1 ein aus dem Stand der Technik bekannte Verfahren zur Bestimmung ähnlicher Dokumente; Fig. 2 Beispiel einer ersten Ausfuhrungsform zur Bestimmung ähnlicher

Dokumente nach dem erfindungsgemäßen Verfahren; und Fig. 3 Beispiel einer zweiten Ausführungsform zur Bestimmung ähnlicher

Dokumente nach dem erfindungsgemäßen Verfahren.

Beschreibung einer bevorzugten Ausführungsform

Fig. 2 zeigt ein Beispiel einer ersten Ausführungsform zum Berechnen von Ähnlichkeitswerten.

Das Dokument Input Doc ID stellt das Eingabedokument dar, zu welchem ähnliche Dokumente ermittelt werden sollen. Dazu werden in einem ersten Schritt zunächst alle Dokumente ermittelt, welche direkt vom dem Eingabedokument ID referenziert werden und/oder welche das Eingabedokument referenzieren. Zu diesen Dokumenten werden in einem weiteren Schritt alle Dokumente ermittelt, welche zumindest ein Dokument aus dem ersten Schritt referenzieren oder welche zumindest von einem der Dokumente aus dem ersten Schritt referenziert werden. Der zweite Schritt kann beispielsweise mittels der so genannten Co-Citation Analysis und / oder der dem so genannten Bibliographie Coupling - Verfahren ausgeführt werden.

Die so ermittelten Dokumente sind in Fig. 2 mit Doc 1, Doc 2 und Doc 3 bezeichnet und bild einen so genannten Zitationsgraphen mit einer Ebene oder der Tiefe 1. Jedes der Dokumente Doc 1 bis Doc 3 bildet zusammen mit dem Eingabedokument ID jeweils ein Dokumentenpaar.

Als nächstes wird für jedes Dokumentenpaar ein endgültiger Ähnlichkeitswert berechnet. Hierfür können Verfahren wie beispielsweise das Coupling Strength Verfahren (CS), das Co-Citation Strength Verfahren (CCS), das Citation Proximity Index Verfahren (CPI) und/oder das In-text Impact Factor Verfahren (ItIF) verwendet werden. Diese Verfahren bieten eine Möglichkeit den Grad der Ähnlichkeit zwischen zwei Dokumenten zu messen. Andere geeignete Verfahren zum Bestimmen der Ähnlichkeit zwischen zwei Dokumenten können ebenfalls verwendet werden.

Die Coupling Strength (CS) gibt an, wieviele Dokumente das Eingabedokument und ein weiteres Dokument gemeinsam referenzieren. In Fig.l wäre die Coupling Strength von Input Doc und Doc BibCol zwei, da die beiden Dokumente Input Doc und Doc BibCol zwei Dokumente gemeinsam referenzieren, nämlich Doc D und Doc E. Die Coupling Strength zwischen Input Doc und Dokument Doc BibCo2 ist eins, da Input Doc und Doc BibCo2 nur Dokument Doc E gemeinsam referenzieren. Die maximale Coupling Strength kann also die Anzahl der Referenzen im Eingabedokumentes sein, was bedeuten würde, dass es ein Dokument gäbe, welche alle Dokumente referenziert, die auch von dem Eingabedokument referenziert werden. Coupling Strength kann auch als relative Zahl angegeben werden, etwa als Verhältnis zwischen „Maximal mögliche Coupling Strength von Dokument 1 und 2" zu „Tatsächliche Coupling Strength von Dokument 1 und 2".

Die Co-Citation Strength (CCS) gibt an, wie viele Dokumente, die das Eingabedokument referenzieren, das Dokument referenzieren zu welchem die Co- Citation Strength ausgerechnet werden soll. Die Co-Citation Strength zwischen Input Doc und Doc CoCit ist eins, da nur ein anderes Dokument (Doc A) diese beiden Dokumente referenziert. Würde Doc B ebenfalls Dokument CoCit referenzieren wäre die Co-Citation Strength zwei, da es zwei Dokumente gibt, die Input Doc und Doc CoCit referenzieren. Die maximale Co-Citation Strength ist gleich der Anzahl Dokumente die das Eingabedokument referenzieren. Im Beispiel wäre dies zwei. Auch hier kann der Wert als relative Zahl angegeben werden analog zur Coupling Strength.

Gemäß dem Citation Proximity Index Verfahren (CPI) wird ein Ähnlichkeitswerte zwischen zwei Dokumente berechnet, indem die Distanz zwischen zwei Referenzen innerhalb eines Referenzdokumentes verwendet wird. Je näher zwei Referenzen zu zwei Dokumenten innerhalb eines Referenzdokumentes zusammen liegen umso größer ist die Ähnlichkeit dieser beiden referenzierten Dokumente.

Bei dem In-text Impact Factor - Verfahren (ItIF) wird die Anzahl der Referenzen innerhalb des Eingabedokumentes (oder eines Teils davon) ermittelt. Für jedes referenzierte Dokument wird dann ein Ähnlichkeitswert berechnet, welcher abhängig ist von

- der ermittelten Anzahl der Referenzen zu dem jeweiligen referenzierten Dokument,

- der Verteilung der Referenzen für jedes innerhalb des Eingabedokumentes referenzierte Dokument, und / oder

- dem Abstand einer Referenz zu nächsten Referenz innerhalb des Eingabedokumentes.

Diese Verfahren können einzeln oder in Kombination angewandt werden, um Ahnlichkeitswerte zwischen zwei Dokumente zu berechnen. Werden mehrere Verfahren nebeneinander angewandt, können sich mehrere verschiedene Ähnlichkeitswerte ergeben. Diese verschiedenen Ahnlichkeitswerte werden als vorläufige Ähnlichkeitswerte bezeichnet.

Aus den ermittelten vorläufigen Ähnlichkeitswerten werden in einem nächsten Schritt endgültige Ähnlichkeitswerte berechnet, sodass anschließend für jedes Dokumentenpaar genau ein endgültiger Ähnlichkeitswert zur Verfügung steht, um eine Ähnlichkeitsrecherche durchzuführen. In Fig. 2 sind bereits endgültige Ähnlichkeits werte dargestellt. Diese sind für die Dokumentenpaare folgende: A(ID, Doc l) = 0,9; A(ID, Doc 2) = 0,55; A(ID, Doc 3) = 0,1.

Zur Berechnung der endgültigen Ahnlichkeitswerte kann etwa der Mittelwert der vorläufigen Ähnlichkeitswerte herangezogen werden. Zur Bildung des Mittelwertes können Ähnlichkeitswerte, welche von verschiedenen Verfahren errechnet wurden verschieden gewichtet werden. Somit stehen nun endgültige Ähnlichkeitswerte für alle Dokumentenpaare aus dem Zitationsgraphen bis zur ersten Ebene zur Verfugung.

In einem weiteren Schritt wird für alle bereits ermittelten Dokumente Doc 1 bis Doc 3 das bisher beschriebene Verfahren erneut angewandt um weitere ähnliche Dokumente zum Eingabedokument zu ermitteln. Durch das erneute anwenden des Verfahrens vergrößert sich der Zitationsgraph, d.h. er wird um eine Ebene tiefer.

Das Beispiel aus Fig. 2 zeigt einen Zitationsgraphen, welcher sich ergibt, wenn das zuvor beschriebene Verfahren auf die Dokumente Doc 1 und Doc 3 angewandt wird. Bei dem erneuten anwenden des Verfahrens auf die Dokumente Doc 1 und Doc 3 dienen die Dokumente Doc 1 und Doc 3 jeweils als Eingabedokumente zu denen ähnliche Dokumente ermittelt und jeweils ein endgültiger Ähnlichkeitswert zu den jeweiligen Eingabedokumenten Doc 1 und Doc 3 ermittelt werden. Es werden also endgültige Ähnlichkeitswerte für die Dokumentenpaare (Docl, Doc 5) und (Doc 3, Doc 4) berechnet. Die Ähnlichkeitswerte für diese Dokumentenpaare sind folgende: Ä(Doc 1, Doc 5) = 0,97; Ä(Doc 3, Doc 4) = 0,53.

Dieses Verfahren könnte nun wiederum auf die Dokumente Doc 4 und Doc 5 angewandt werden um ähnliche Dokumente zu diesen zu finden.

Fig. 3 zeigt nun wie aus den so ermittelten Ähnlichkeitswerten für die Dokumente aus der zweiten Ebene des Zitationsgraphen bzgl. der Dokumente aus der ersten Ebene des Zitationsgraphen Ähnlichkeitswerte für die Dokumente aus der zweiten Ebene des Zitationsgraphen zum Eingabedokument berechnet werden können.

In dem Beispiel aus Fig. 2 sieht man, dass sich Input Doc und Doc 1 sehr ähnlich sind (Ä = 0,9) und außerdem Doc 1 und Doc 5 sich sehr ähnlich sind (Ä = 0,97). Es kann daher angenommen werden, dass Doc 5 und Input Doc ebenfalls eine hohe Ähnlichkeit zueinander aufweisen. Diese Ähnlichkeit ist vermutlich auch größer als die Ähnlichkeit zum Beispiel zwischen Input Doc und Doc 3. In einem weiteren Schritt wird daher jeweils ein Ähnlichkeitswert zwischen dem Input Doc und den Dokumenten der nächsten Ebene (in Fig. 3 der Ebene 2 mit den Dokumenten Doc 5 und Doc 4) berechnet.

Bei dieser Berechnung wird wiederum eine Gewichtung vorgenommen, indem Ähnlichkeitswerte für Dokumente einer höheren Ebene (d.h. näher zum Eingabedokumente) stärker gewichtet werden als Ähnlichkeitswerte für Dokumente tieferer Ebenen. Diese Gewichtung wird für jedes Dokumentenpaar innerhalb des Zitationsgraphen vorgenommen, welche relevant sind für die Berechnung der Ähnlichkeitswerte zwischen Dokumente einer tieferen Ebenen (d.h. Ebene > 1) und dem Eingabedokument. Als Gewichtungen können entweder Vorgabewerte genommen werden, der Anwender kann sie manuell verändern oder die Werte werden automatisch angepasst über die Zeit. Hierzu kann analysiert, welche Suchergebnisse ein Anwender für relevant erachtet (er kann dies explizit angeben oder es wird analysiert, welche Ergebnisse er auswählt).

Eine erste Variante zum Berechnen des Ähnlichkeitswertes zwischen dem Eingabedokument ID und dem Dokumente Doc 5 besteht darin, sämtliche Ähnlichkeitswerte entlang des Pfades des Zitationsgraphen, welcher Doc 5 mit dem Eingabedokument verbindet, zu verwenden und daraus einen gewichtet Mittelwert zu berechnen. In Beispiel aus Fig. 3 wären die hierfür relevanten Ahnlichkeitswerte die Ähnlichkeitswerte der Dokumentenpaare (ID, Doc 1) und (Doc 1, Doc 5) als die Werte Ä=0,9 und Ä=0,97. Aus diesen beiden Werte wird eine gewichteter Mittelwert gebildet, wobei der Wert Ä=0,9 mehr gewichtet wird, weil sich Doc 1 in der näher zum Eingabedokument befindet. Als Ergebnis könnte man, je nach Gewichtung, etwa den Ä=0,92 erhalten. Dieser Ähnlichkeitswert gibt nun die Ähnlichkeit zwischen dem Eingabedokument ID und dem Dokument Doc 5 an.

Der Ähnlichkeitswert zwischen dem Eingabedokument ID und dem Dokument Doc 4 wird analog berechnet.

In Fig. 3 ist noch ein zu Dokument Doc 5 ähnliches Dokument Doc 6 gezeigt (Doc 6 befindet sich in der dritten Ebene des Zitationsgraphen), mit einem Ähnlichkeitswert von Ä=0,77 zum Dokument Doc 5. Ab der dritten Ebene stehen zwei grundsätzliche Varianten zur Verfügung, um einen Ähnlichkeitswert zwischen Dokumenten der dritten Ebene und dem Eingabedokument zu berechnen.

Die erste Variante stellt eine Fortführung der bereits für Dokumente aus der zweiten Ebene beschriebenen Methode den Ähnlichkeitsweit zu berechnen dar. Dabei werden alle Ähnlichkeitswerte entlang des Pfades, welcher das Dokument Doc 6 mit dem Eingabedokument verbindet verwendet und daraus ein gewichteter Ähnlichkeitswert ermittelt. Es werden also die Ähnlichkeitswerte Ä=0,9, Ä=0,97 und Ä=0,77 herangezogen um den Ähnlichkeitswert zwischen Doc 6 und dem Eingabedokument zu berechnen.

Die zweite Variante besteht darin, für die Berechnung des Ähnlichkeitswertes zwischen Doc 6 und dem Eingabedokument den Ähnlichkeitswert des Dokumentes aus der aktuelle Ebene (d.h. Ebene 3) und den endgültigen Ähnlichkeitswert des Dokumentes der nächst höheren Ebene zum Eingabedokument zu verwenden und daraus den endgültigen Ähnlichkeitswert zwischen Doc 6 und dem Eingabedokument ID zu berechnen. Im Beispiel aus Fig. 3 wäre dieses Vorgehen wie folgt:

Doc 6 ist das Dokument der aktuellen Ebene 3.

Doc 5 ist das Dokument der nächst höheren Ebene (also Ebene 2)

Doc 6 hat einen Ähnlichkeitswert zu Doc 5 von Ä = 0,77

Doc 5 hat einen endgültigen Ähnlichkeitswert zum Eingabedokument ID von

Ä = 0,92;

Aus den Ähnlichkeitswerten Ä = 0,77 und Ä=0,92 wird ein gewichteter

Mittelwert berechnet, welcher den Ähnlichkeitswert zwischen Doc 6 und dem

Eingabedokument darstellt.

Die zweite Variante hat den Vorteil, dass bei sehr tiefen Zitationsgraphen (also mit vielen Ebenen) nicht jedes Mal der gesamte zum Eingabedokument durchlaufen werden muss und dennoch die einzelnen Gewichtungen berücksichtigt werden. Das zugrunde liegende System, etwa ein Computer oder ein Computernetzwerk mit angeschlossener Speichereinrichtung, kann über eine Schnittstelle verfugen um auch Anfragen nach ähnlichen Dokumenten zu einem Referenzdokument aus dem Internet entgegenzunehmen und zu bearbeiten. Die Speichereinrichtung ist derart ausgestaltet, dass in ihr die Dokumente und die Ähnlichkeitswerte speicherbar sind. Die Dokumente können auch in Form einer Referenz gespeichert sein, etwa wenn es sich um Webseite handelt. Die Ähnlichkeitswerte können als endgültige Ähnlichkeitswerte gespeichert sein. Zusätzlich können auch die vorläufigen Ähnlichkeitswerte gespeichert sein aus welchen sich die endgültigen Ähnlichkeitswerte zusammensetzen oder berechnen lassen, um so effizient Update- Operation durchführen zu können, wenn sich z.B. die Gewichtung der einzelnen vorläufigen Ähnlichkeitswerte ändern sollte.