Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND COMPUTER SYSTEM FOR DETERMINING THE RELEVANCE OF A TEXT
Document Type and Number:
WIPO Patent Application WO/2021/204849
Kind Code:
A1
Abstract:
The invention relates to a method and a computer system for determining the relevance of a text. The method comprises the following steps: determining (201) the similarity of the text (D1, D2) to texts (Di) of a stock, the text (D1, D2) being compared with each of the texts (Di) of the stock in the context of an individual comparison by ascertaining a similarity value (S) which indicates the similarity between the respective two texts; assigning (202) the similarity value (S) at least to that one of the two texts of the individual comparison carried out which was published at an earlier time or which was first acquired at an earlier time by an acquisition system; calculating a relevance value (SRank) from the similarity values (S) which were ascertained in the individual comparisons and were assigned to the text (D1, D2), and storing the calculated relevance value (SRank) and/or transmitting the calculated relevance value (SRank) via a computer network to a communication end system (Ni, Nj).

Inventors:
NITSCHE THOMAS (DE)
NITSCHE OXANA (DE)
DÜKER ANTONIA (DE)
NITSCHE HAHN RAPHAEL (DE)
NITSCHE HAHN MAXIM (DE)
Application Number:
PCT/EP2021/059021
Publication Date:
October 14, 2021
Filing Date:
April 07, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
CONTEXON GMBH (DE)
International Classes:
G06F16/30; G06F16/31; G06F16/38
Other References:
BORGES EDUARDO NUNES ET AL: "ARGOsearch: An Information Retrieval System Based on Text Similarity and Extensible Relevance Criteria", 2012 31ST INTERNATIONAL CONFERENCE OF THE CHILEAN COMPUTER SCIENCE SOCIETY, IEEE, 12 November 2012 (2012-11-12), pages 133 - 141, XP032549006, ISSN: 1522-4902, [retrieved on 20131224], DOI: 10.1109/SCCC.2012.23
ZHANG JIAYUE ET AL: "Promoting electronic health record search through a time-aware approach", 2013 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE, IEEE, 18 December 2013 (2013-12-18), pages 593 - 596, XP032562140, DOI: 10.1109/BIBM.2013.6732564
Attorney, Agent or Firm:
MÜLLER, Wolfram Hubertus (DE)
Download PDF:
Claims:
Patentansprüche

1. Computerimplementiertes Verfahren zur Bestimmung der Relevanz eines Textes, das die Schritte aufweist:

Bestimmung (201) der Ähnlichkeit des Textes (D1, D2) mit Texten (Di) eines Bestands, wobei der Text (D1, D2) mit jedem der Texte (Di) des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts (S), der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird, Zuordnen (202) des Ähnlichkeitswerts (S) zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde, wobei o der Ähnlichkeitswert (S) eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, oder o der Ähnlichkeitswert (S) eines Einzelvergleichs beiden Texten des jeweiligen Einzelvergleichs zugeordnet wird, wobei der Ähnlichkeitswert dem Text des Einzelvergleichs, der zu einem späteren Zeitpunkt veröffentlicht oder erfasst wurde, mit einer geringeren Gewichtung zugeordnet wird,

Berechnen eines Relevanzwerts (SRank) aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten (S), die dem Text (D1, D2) zugeordnet wurden, und Speichern des berechneten Relevanzwertes (SRank) und/oder Übertragen des berechneten Relevanzwertes (SRank) über ein Computernetzwerk an ein Kommunikations-Endsystem (Ni, Nj).

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die Texte des Bestandes entsprechend den den Texten zugeordneten Relevanzwerten (SRank) oder mit deren Berücksichtigung in einer Rangliste angeordnet werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Rangliste von einer Suchmaschine in Antwort auf eine Suchabfrage bereitgestellt wird, die als Suchbegriff mindestens ein Keyword enthält, das in dem Text enthalten ist.

4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass, sofern die Ähnlichkeit des Textes mit einem Text des Bestands, die im Rahmen eines Einzelvergleichs bestimmt wird, einen Schwellwert übersteigt, der Ähnlichkeitswert (S) um einen Zusatzwert inkrementiert wird, wobei der um den Zusatzwert inkrementierte Ähnlichkeitswert zumindest demjenigen der beiden Texte des durchgeführten Einzelvergleichs zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht wurde.

5. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Bestimmung der Ähnlichkeit des Textes (D1, D2) mit einem Text des Bestands folgende Schritte umfasst:

Ermitteln von Keywords des jeweiligen Textes,

Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem jeweils betrachteten Text angibt,

- Ableiten eines Ähnlichkeitswerts (S) aus der Anzahl der in den beiden Texten übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword- Relevanz-Werte.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass als Keywords eines Textes dessen Namen und/oder Substantive ermittelt werden.

7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass die Häufigkeit der Keywords in dem jeweiligen Text bestimmt wird, wobei jedem Keyword als Keyword- Relevanz-Wert ein Häufigkeitswert zugeordnet wird.

8. Verfahren nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, dass als Keyword-Relevanz-Wert das tf-idf-Maß verwendet wird, wobei der Keyword-Relevanz- Wert gleich dem Produkt aus einem dem jeweiligen Keyword zugeordneten Häufigkeitswert mit der inversen Texthäufigkeit in den Texten des Bestandes ist.

9. Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass ein normiertes Profil des jeweiligen Textes gebildet wird, indem als Keyword-Relevanz- Werte normierte Keyword-Relevanz-Werte verwendet werden, die aus den Keyword- Relevanz-Werten durch Dividieren mit einem Normierungsfaktor erzeugt werden.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten normierten Keyword-Relevanz- Werten abgeleitet wird, indem die Summe der Mittelwerte der normierten Keyword- Relevanz-Werte der übereinstimmenden Keywords bestimmt wird. 11. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass aus dem normierten Profil des jeweiligen Textes ein gefiltertes Profil des jeweiligen Textes gebildet wird, indem als Keyword-Relevanz-Werte gefilterte Keyword-Relevanz-Werte verwendet werden, die aus den normierten Keyword-Relevanz-Werten gebildet werden, indem der normierte Keyword-Relevanz-Wert mit einem Schwellwert gefiltert wird, wobei der normierte Keyword-Relevanz-Wert nur beibehalten wird, wenn er über dem Schwellwert liegt und anderenfalls auf Null gesetzt wird.

12. Verfahren nach Anspruch 11 , dadurch gekennzeichnet, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten gefilterten Keyword-Relevanz-Werten abgeleitet wird, indem die Summe der Mittelwerte der gefilterten Keyword-Relevanz- Werte der übereinstimmenden Keywords bestimmt wird.

13. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Texte des Bestands (D2, D6, D7) in einer Datenbank (S1) hinterlegt sind, wobei zu jedem Text hinterlegt sind: der Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem

Erfassungssystem erfasst wurde, ein Profil (E4, A, B) des Textes (D2, D6, D7), das entstanden ist durch: o Erfassen von Keywords des jeweiligen Textes (D2, D6, D7), o Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem jeweils betrachteten Text angibt.

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass als Keyword-Relevanz- Werte normierte Keyword-Relevanz-Werte und/oder gefilterte Keyword-Relevanz- Werte in der Datenbank gespeichert sind.

15. Verfahren nach Anspruch 13 oder 14, dadurch gekennzeichnet, dass zur Bestimmung der Ähnlichkeit zweier Texte das Profil (A, B) abgerufen und ein Ähnlichkeitswert (S) aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten Keyword-Relevanz-Werten gebildet wird.

16. Verfahren nach einem der Ansprüche 13 bis 15, dadurch gekennzeichnet, dass der Text, dessen Relevanz zu bestimmen ist, nicht Teil des Bestands von Texten ist, wobei für diesen Fall ein Profil dieses Textes erzeugt und zusammen mit dem Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, in der Datenbank hinterlegt wird.

17. Verfahren nach einem der Ansprüche 13 bis 16, dadurch gekennzeichnet, dass zusätzlich der Relevanzwert (SRank) des Textes in der Datenbank gespeichert wird.

18. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren auf sämtliche Texte des Bestands angewendet wird, wobei für jeden Text des Bestands ein Relevanzwert (SRank) ermittelt wird.

19. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren für eine Mehrzahl von Texten eines Dokuments konsekutiv durchgeführt wird, wobei aus den Relevanzwerten, die sich für die einzelnen Texte ergeben, ein Gesamt-Relevanzwert berechnet wird.

20. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der Zeitpunkt, zu dem ein Text erstmalig veröffentlicht wurde, durch einen Zeitstempel des Textes definiert ist, und/oder der Zeitpunkt, zu dem ein Text erstmalig von einem Erfassungssystem erfasst wurde, durch den Zeitpunkt definiert ist, zu dem der Text von einem Web-Crawler erstmals erfasst wurde.

21. Computerprogramm mit Programmcode zur Durchführung der Verfahrensschritte nach Anspruch 1, wenn das Computerprogramm in einem Computer ausgeführt wird.

22. Verfahren zur Bestimmung der Relevanz eines Textes, das die Schritte aufweist:

Senden eines Textes (D1) oder von Daten, die den Text (D1) identifizieren, von einem Kommunikations-Endsystem (Ni, Nj) an ein Computersystem (Z1), das einen Bestand von Texten (Di) verwaltet, die in einer Datenbank (S1) des Computersystems (Z1) gespeichert sind, wobei in der Datenbank (S1) zu jedem Text der Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, und ein Profil (E4, A, B) hinterlegt sind, wobei das Profil (E4, A, B) auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden ist, Veranlassen des Computersystems (Z1) zu prüfen, ob der erhaltene Text (D1) in dem Bestand enthalten ist, sofern dies nicht der Fall ist, Anlegen durch das Computersystem (Z1) eines Profils (E4, A, B) des Textes sowie Speichern des Profils und des Zeitpunkts, zu dem der Text zuerst veröffentlicht oder erstmalig erfasst wurde, in der Datenbank (S1), Veranlassen des Computersystems (Z1), die Ähnlichkeit des Textes (D1) mit Texten des Bestands zu bestimmen, wobei der Text (D1) mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts (S), der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird,

- wobei zur Ermittlung des Ähnlichkeitswerts (S) zweier Texte das in der Datenbank gespeicherte Profil (E4, A, B) abgerufen und ein Ähnlichkeitswert (S) aus der Anzahl der übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword-Relevanz-Werten gebildet wird,

- wobei der ermittelte Ähnlichkeitswert (S) zumindest demjenigen der beiden Texten des jeweils durchgeführten Einzelvergleichs zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, wobei o der Ähnlichkeitswert (S) eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, oder o der Ähnlichkeitswert (S) eines Einzelvergleichs beiden Texten des jeweiligen Einzelvergleichs zugeordnet wird, wobei der Ähnlichkeitswert dem Text des Einzelvergleichs, der zu einem späteren Zeitpunkt veröffentlicht oder erfasst wurde, mit einer geringeren Gewichtung zugeordnet wird,

Berechnen eines Relevanzwerts (SRank) aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten (S), die dem Text (D1, D2) zugeordnet wurden, Speichern und/oder Senden des ermittelten Relevanzwertes (SRank) vom Computersystem (Z1) an das oder ein anderes Kommunikations-Endsystem (Ni, Nj).

23. Computersystem (Z1) zur Bestimmung der Relevanz eines Textes, das aufweist:

Mittel zur Bestimmung der Ähnlichkeit des Textes (D1, D2) mit Texten (Di) eines Bestands, wobei der Text (D1, D2) mit jedem der Texte des Bestands (Di) im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts (S), der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird,

Mittel zum Zuordnen des Ähnlichkeitswerts (S) zu zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde, wobei die Mittel dazu ausgebildet sind, dass o der Ähnlichkeitswert (S) eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, oder o der Ähnlichkeitswert (S) eines Einzelvergleichs beiden Texten des jeweiligen Einzelvergleichs zugeordnet wird, wobei der Ähnlichkeitswert dem Text des Einzelvergleichs, der zu einem späteren Zeitpunkt veröffentlicht oder erfasst wurde, mit einer geringeren Gewichtung zugeordnet wird, und Mittel zum Berechnen eines Relevanzwerts (SRank) aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten (S), die dem Text (D1, D2) zugeordnet wurden.

24. Computersystem nach Anspruch 23, dadurch gekennzeichnet, dass das Computersystem (Z1) mit einer Datenbank (S1) zusammenwirkt, die einen Bestand von Texten aufweist, zu denen jeweils ein Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, und ein Profil hinterlegt sind, wobei das Profil auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden ist,

- wobei die Mittel zur Bestimmung der Ähnlichkeit des Textes mit Texten des Bestands die Ähnlichkeit auf der Grundlage der in der Datenbank (S1) hinterlegten Profile bestimmen.

Description:
Verfahren und Computersystem zur Bestimmung der Relevanz eines Textes

Beschreibung

Die Erfindung betrifft ein Verfahren und ein Computersystem zur Bestimmung der Relevanz eines Textes.

Es ist bekannt, die Beurteilung der Relevanz eines Textes daran zu bemessen, in welchem Umfang der Text in anderen Texten bzw. Dokumenten zitiert wird. Insbesondere bei Online-Publikationen und anderen Informationen im Internet verhält es sich jedoch häufig so, dass von einem expliziten Referenzieren eines früheren Textes durch Zitieren oder Setzen eines Links abgesehen und dieser vielmehr ohne Zitat teilweise oder vollständig in einen neuen Text integriert wird. Dies gilt in besonderem Maße für Nachrichten (einschließlich Falsch-Nachrichten) über bestimmte Ereignisse oder Themen. Damit fehlt es insofern an einem Kriterium dafür, welche Relevanz ein betrachteter Text hat, als nicht erkennbar ist, ob es sich um einen originären Text oder einen nur abgeleiteten Text handelt. Auch ist es schwierig, Plagiate zu erkennen.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren und ein Computersystem anzugeben, die es ermöglichen, in effizienter Weise die Relevanz eines Textes durch Vergleich mit anderen Texten zu bestimmen. Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 und ein Computersystem mit den Merkmalen des Patentanspruchs 23 gelöst. Ausgestaltungen der Erfindung sind in den abhängigen Ansprüchen angegeben.

Danach betrachtet die vorliegende Erfindung in einem ersten Erfindungsaspekt ein Verfahren zur Bestimmung der Relevanz eines Textes. Das Verfahren sieht vor, dass zunächst die Ähnlichkeit des betrachteten Textes mit Texten eines Bestands bestimmt wird. Dazu wird der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts verglichen, wobei der Ähnlichkeitswert die Ähnlichkeit zwischen jeweils zwei Texten angibt. In einem weiteren Schritt wird der Ähnlichkeitswert des jeweils durchgeführten Einzelvergleichs zumindest demjenigen der beiden Texten zugeordnet, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Die auf diese Weise dem betrachteten Text bei den Einzelvergleichen zugeordneten Ähnlichkeitswerte bilden die Grundlage für eine Berechnung eines Relevanzwertes. Beispielsweise werden die Ähnlichkeitswerte zu einem Relevanzwert addiert oder multipliziert, wobei die Größe des Relevanzwertes die Relevanz des Textes angibt.

Der berechnete Relevanzwert wird gespeichert und/oder über ein Computernetzwerk an ein Kommunikations-Endsystem übertragen. Beispielsweise wird der Relevanzwert zusammen mit dem zugehörigen Text und/oder in einem Profil des Textes gespeichert.

Die Relevanz eines Textes bzw. Dokuments wird somit berechnet auf der Grundlage von Ähnlichkeitswerten, die bei Einzelvergleichen zwischen dem betrachteten Text und den Texten eines Bestands ermittelt werden, wobei der Veröffentlichungszeitpunkt bzw. erstmalige Erfassungszeitpunkt der jeweiligen Texte bei der Bestimmung des Ähnlichkeitswerte berücksichtigt wird.

Die erfindungsgemäße Lösung ermöglicht es, die Texte eines Bestands mit einer Rangordnung (Ranking) zu versehen, wobei der Text mit dem höchsten Relevanzwert innerhalb des betrachteten Bestands in der Rangordnung oben steht. Hierdurch können ähnliche Texte transparent im Hinblick auf ihre Relevanz gewichtet werden. Auch erlaubt es die erfindungsgemäße Lösung, Ähnlichkeitsverhältnisse innerhalb eines Bestands von Texten zu erkennen. Es wird darauf hingewiesen, dass das Merkmal, dass der Relevanzwert aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten ermittelt wird, eine Vielzahl mathematischer Operationen umfassen kann. Im einfachsten Fall werden die Ähnlichkeitswerte zu einem Relevanzwert addiert. Es können jedoch auch andere Arten der Ableitung des Relevanzwertes aus den Ähnlichkeitswerten vorgesehen sein. Beispielsweise kann der Relevanzwert alternativ aus einer Multiplikation der Ähnlichkeitswerte gebildet werden, oder aus einer Kombination von Addition und Multiplikation, oder aus einer beliebigen Formel, die die Ähnlichkeitswerte als Parameter aufweist.

Eine Variante der Erfindung sieht vor, dass der Ähnlichkeitswert eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde. Hierdurch berücksichtigt der Ähnlichkeitswert die zeitliche Entwicklung in der Verwendung eines Textes und ähnlicher Texte und erhöht damit die Relevanz solcher Texte, die zeitlich vor anderen ähnlichen oder identischen Texten liegen.

Alternativ kann vorgesehen sein, dass der Ähnlichkeitswert eines Einzelvergleichs zwar beiden Texten des jeweiligen Einzelvergleichs zugeordnet wird, dabei der Ähnlichkeitswert dem Text des Einzelvergleichs, der zu einem späteren Zeitpunkt veröffentlicht oder erfasst wurde, jedoch mit einer geringeren Gewichtung zugeordnet wird. Auch bei dieser Variante wird, wenn auch etwas abgeschwächt, die Relevanz solcher Texte erhöht, die zeitlich vor anderen ähnlichen oder identischen Texten liegen.

Zu dem betrachteten Bestand an Texten wird folgendes angemerkt. Die Texte eines Bestandes können, müssen aber keine übereinstimmenden Keywords aufweisen. Im Extremfall kann der Relevanzwert jeden Dokumentes gleich Null sein. Ausgestaltungen sehen vor, dass die Texte eines Bestandes über mindestens ein übereinstimmendes Keyword oder die Erfüllung eines anderen vordefinierten Ähnlichkeitsmaßes miteinander verbunden sind. Dies kann beispielsweise der Fall sein, wenn der Bestand aus einem größeren Bestand gefiltert wird (zum Beispiel mittels einer Suchmaschine), um die Relevanzprüfung an einer kleineren Anzahl von Texten durchzuführen.

Allgemein kann der Bestand jedoch beliebige Dokumente enthalten. Ist zwischen zwei Dokumenten keine Ähnlichkeit gegeben, teilen sie sich beispielsweise keine zwei Keywords, so ist die Ähnlichkeit gleich Null. Der Ähnlichkeitswert zweier Dokumente ist symmetrisch, d. h. der bei einem Einzelvergleichs ermittelte Ähnlichkeitswert zwischen zwei Texten ist für beide Texte gleich. Erfindungsgemäß wird der Ähnlichkeitswert dann aber nur einem der Texte bei der Berechnung des Relevanzwertes zugeordnet oder einem der Texte stärker zugeordnet.

Als Text im Sinne der vorliegenden Erfindung wird jede Abfolge von Wörtern verstanden, die durch ein oder mehrere Trennzeichen (Blank, Punkt, Komma, etc.) getrennt sind oder deren Separation (z.B. Chinesisch) sich aus dem Text-Sinn ergibt. Ein Beispiel lautet: „Alles wird gut“. Ein Text im Sinne der vorliegenden Erfindung kann ein Dokument oder ein Teil eines Dokuments sein.

Der Zeitpunkt, zu dem ein Text zuerst veröffentlicht oder erfasst wurde, ergibt sich beispielsweise aus mit dem Text abgespeicherten oder diesem zugeordneten entsprechenden Metadaten. Beispielsweise enthalten die im Rahmen eines RSS-Feed dargestellten Texte als Zeitstempel jeweils Datum und Uhrzeit. Datum und Uhrzeit können im Übrigen, wenn sie im Text oder dessen Metadaten nicht enthalten sind, z.B. darüber bestimmt werden, wann ein Text erstmalig über ein bevorzugt periodisch erfassendes System erfasst wurde. Insbesondere verhält es sich so, dass ein Dokument etwa auf einem Computer oder im Internet ein Erstellungsdatum bzw. im Falle einer Änderung ein Änderungsdatum aufweist. Beispielsweise wird das Erstellungsdatum eines Dokumentes bzw. Textes als zugeordneter Zeitstempel verwendet, der dann in die erfindungsgemäße Berechnung des Relevanzwertes eingeht. Besitzt ein Dokument keinen generischen Zeitstempel, so kann der Zeitpunkt, wann das Dokument das erste Mal etwa von einem periodisch crawlenden Web-Crawler erfasst wurde, als relevanter Zeitpunkt bzw. als Zeitstempel werden. Werden Dokumente zum Beispiel über RSS-Feed erfasst, so ist wie erwähnt einem Text ein Zeitstempel zugeordnet. Alternativ kann wiederum das früheste Erfassungsdatum als Zeitstempel verwendet werden.

Das erfindungsgemäße Verfahren wird in einer Ausführungsvariante verwendet, um Suchergebnisse einer Suchmaschine besser zu ranken bzw. zum Ranking der Ergebnisse einer Suchanfrage. In der Regel werden Suchergebnisse entsprechend der Relevanz zu einem Suchtext gerankt. Die erfindungsgemäße Lösung erlaubt es, zusätzlich nach der Originalität eines Textes, der durch den erfindungsgemäß bestimmten Relevanzwert angegeben wird, zu ranken. Dabei werden die kumulierten Ähnlichkeitswerte bzw. die Summierung aller festgestellten Ähnlichkeiten eines Dokumentes bzw. Textes zu allen anderen Dokumenten bzw. Text eines Bestandes als Relevanzwert betrachtet. Dieser dem Dokument zu einem Zeitpunkt zugeordnete Relevanzwert (SRank- „Similarity Rank“) wird in dem Dokument abgespeichert und beim Ranking einer Treffermenge eines Suchvorgangs verwendet. Je höher der SRank eines Dokumentes ist, desto weiter oben wird es in der Trefferliste platziert.

Beispielsweise wird eine Rangliste bzw. ein Ranking von einer Suchmaschine in Antwort auf eine Suchabfrage bereitgestellt, die als Suchbegriff mindestens ein Keyword enthält, das in dem Text enthalten ist. Dabei kann vorgesehen sein, dass der Relevanzwert nur einer der Kriterien der Suchmaschine für die Reihenfolge in der Trefferliste ist, in die Festlegung der Reihenfolge der Trefferliste somit neben dem Relevanzwert weitere Parameter bzw. Einzelkriterien eingehen.

Weitere Anwendungen betreffen ein Ranking bei der Einordnung von Nachrichten, die einem Leser präsentiert werden, wobei dies gegebenenfalls im Rahmen einer Suchabfrage erfolgen kann, also einen Anwendungsfall eines Rankings mit einer Suchmaschine darstellt. Dabei ist die erste Nachricht einer Nachrichtenkette relevant, da sie den ältesten Text bzw. den Text mit der größten Originalität präsentiert. Typischerweise werden Nachrichten-Artikel entsprechend ihrer Neuigkeit gerankt. Das erfindungsgemäße Verfahren erlaubt es, über den Relevanzwert beeinflussende Artikel zu identifizieren, die den Ursprung einer Nachrichtenkette bilden.

Ein weiteres Anwendungsbeispiel betrifft das Ranking von Arbeitspapieren innerhalb einer Organisation.

Eine Ausgestaltung der Erfindung sieht vor, dass, sofern die Ähnlichkeit des Textes mit einem Text des Bestands, die im Rahmen eines Einzelvergleichs bestimmt wird, einen Schwellwert übersteigt, der Ähnlichkeitswert um einen Zusatzwert inkrementiert wird. Dabei wird der um den Zusatzwert inkrementierte Ähnlichkeitswert zumindest demjenigen der beiden Texte des durchgeführten Einzelvergleichs zugeordnet, der zu einem früheren Zeitpunkt veröffentlicht wurde. Dabei sind Ausführungsvarianten vorgesehen, dass nur der Ähnlichkeitswert des zeitlich früher veröffentlichten Dokuments inkrementiert wird oder dass der Ähnlichkeitswert des zeitlich früher veröffentlichten Dokuments stärker inkrementiert wird als der andere Ähnlichkeitswert. Weiter kann vorgesehen sein, dass eine höhere Ähnlichkeit ein höheres Inkrement ergibt.

Diese Ausgestaltung erhöht den Relevanzwert von Texten, die eine starke Ähnlichkeit mit anderen Texten aufweisen, während Texte mit einer geringen Ähnlichkeit weniger stark ins Gewicht fallen. Hierdurch wird ein Cluster relevanter Texte gebildet und es ist leichter möglich, bei einer großen Anzahl von Texten die relevanten Texte zu ermitteln und diese untereinander zu ranken.

Ein ähnliches Ergebnis kann erzielt werden, wenn, sofern die Ähnlichkeit des Textes mit einem Text des Bestands, die im Rahmen eines Einzelvergleichs bestimmt wird, einen Schwellwert unterschreitet, der Ähnlichkeitswert auf Null gesetzt wird, d. h. das Ergebnis dieses Einzelvergleichs in die Bestimmung des Relevanzwertes nicht mit einfließt. Dies sieht eine weitere Ausgestaltung der Erfindung vor.

Eine mögliche Anwendung besteht beispielsweise in der Rückverfolgung von Nachrichten, insbesondere sogenannter „Fake-News“ im Internet. Eine detektierte Clusterbildung kann dabei verdeutlichen, dass eine „Fake-News“ gegebenenfalls durch eine Gruppe von Nutzern in kurzer Zeit in verwandten Texten verbreitet wurde.

Ein weiteres Ausführungsbeispiel sieht vor, dass der ermittelte Relevanzwert eines Textes durch die Anzahl der Texte des Bestandes oder durch die Anzahl der Texte des Bestandes, bei denen der jeweilige Einzelvergleich zu einem Ähnlichkeitswert ungleich Null geführt hat, geteilt wird, oder das der Relevanzwert in anderer Weise durch diese Anzahl modifiziert wird. Ein auf diese Weise modifizierter Relevanzwert ist im Wesentlichen unabhängig von der Anzahl der Texte des Bestands.

Das erfindungsgemäße Verfahren ist grundsätzlich transparent im Hinblick auf das Verfahren, mit dem die Ähnlichkeit zweier Texte bestimmt wird. Hierzu können grundsätzlich beliebige Verfahren eingesetzt werden.

Eine Ausgestaltung der Erfindung sieht vor, dass die Bestimmung der Ähnlichkeit des Textes mit einem Text des Bestands folgende Schritte umfasst:

Ermitteln von Keywords des jeweiligen Textes,

Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem jeweils betrachteten Text angibt, und Ableiten eines Ähnlichkeitswerts aus der Anzahl der in den beiden Texten übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword- Relevanz-Werte.

Es werden somit in den beiden Texten Keywords ermittelt, diese unter Bildung eines Keyword-Relevanz-Wertes gewichtet und ein Ähnlichkeitswert aus den übereinstimmenden Keywords und deren Gewichtungen abgeleitet. Ein Keyword im Sinne der vorliegenden Erfindung kann dabei eine Vielzahl von Entitäten sein. Gemäß einer Ausgestaltung sind Keywords eines Textes die Namen und/oder die Substantive, die in dem Text enthalten sind. Es werden somit als Keywords beispielsweise die Namen und Substantive eines Textes ermittelt. Statt Namen und/oder Substantive können jedoch auch andere charakterisierende Worte eines Textes verwendet werden. Dabei kann vorgesehen sein, dass als Keywords die Wortstämme der jeweiligen Namen und Substantive oder anderer Keywords betrachtet werden, die nachfolgend auch als „Lemmas“ bezeichnet werden. Beispiele sind:

Beispiel Lemmal: Lemma(ging) = gehen Beispiel Lemma2: Lemma(Häuser) = Haus Beispiel Lemma3: Lemma(went) = go

Es werden gemäß dieser Ausführungsvariante somit die Lemmas als Keywords verwendet.

Gemäß einem weiteren Ausführungsbeispiel sind Keywords eines Textes n-Gramme des jeweiligen Textes. Ein n-Gramm ist eine Teil-Abfolge von Buchstaben eines Wortes oder mehrerer aufeinander folgender Wörter. Ein Beispiel ist: Das Wort .Schach' enthält die 3er- n-Grams: ,sch‘, ,cha’, ,hac‘ und ,ach‘. N-Gramme können dabei auch über Wortgrenzen hinweg laufen.

Weiter wird darauf hingewiesen, dass Keywords nicht notwendigerweise in dem betrachteten Text selbst Vorkommen müssen. Wenn dies nicht der Fall ist, ist ein Keyword ein charakterisierende Merkmal des Textes, das aus diesem ableitbar bzw. diesem zuordenbar ist. Ein Beispiel für ein charakterisierendes Merkmal in diesem Sinne lautet wie folgt:

Beispiel Merkmal 1: Ein Text über die Firma Apple kann mit dem Merkmal .Personal Computer' charakterisiert werden, obwohl dieser Begriff nicht in dem Text vorkommt.

Mit dieser Definition sind auch n-Gramme Merkmale in dem genannten Sinn.

Charakterisierende Merkmale sind beispielsweise zusammen mit Keywords oder Textteilen oder vollständigen Texten in einer Datenbank gespeichert, so dass sie einem Text eindeutig zugeordnet werden können. Eine Ausgestaltung der Erfindung sieht vor, dass als Keyword-Relevanz die Häufigkeit der Keywords in dem jeweiligen Text bestimmt wird, wobei jedem Keyword als Keyword- Relevanz-Wert ein Häufigkeitswert zugeordnet wird. Dementsprechend wird für diesen Fall der Ähnlichkeitswert aus der Anzahl der in den beiden Texten übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten Häufigkeitswerten bestimmt.

Eine weitere Ausgestaltung sieht vor, dass als Keyword-Relevanz-Wert das tf-idf-Maß verwendet wird, wobei der Keyword-Relevanz-Wert gleich dem Produkt aus einem dem jeweiligen Keyword zugeordneten Häufigkeitswert mit der inversen Texthäufigkeit in den Texten des Bestandes ist. Das tf-idf-Maß ist grundsätzlich bekannt. Der Bestandteil „tf“ gibt die Suchwortdichte bzw. Vorkommenshäufigkeit in dem betrachteten Text an. Der Bestandteil „idf“ bezeichnet die inverse Dokumenthäufigkeit, die die Spezifität eines Keywords für die Gesamtmenge der betrachteten Texte des Bestands angibt. Dem liegt die Überlegung zugrunde, dass ein übereinstimmendes Vorkommen von seltenen Begriffen für die Relevanz aussagekräftiger ist und dementsprechend den Ähnlichkeitswert und damit den Relevanzwert stärker erhöht.

Eine weitere Ausgestaltung sieht vor, dass ein normiertes Profil des jeweiligen Textes gebildet wird, indem als Keyword-Relevanz-Werte normierte Keyword-Relevanz-Werte verwendet werden, die aus den Keyword-Relevanz-Werten durch Dividieren mit einem Normierungsfaktor erzeugt werden. Dabei ist beispielsweise vorgesehen, dass der Normierungsfaktor gleich dem in einem betrachteten Text maximal auftretenden Keyword- Relevanz-Wert (z.B. gleich dem größten Häufigkeitswert des Textes) ist. Es existieren zahlreiche Verfahren zur Normierung, die eingesetzt werden können.

Bei der Verwendung normierter Profile sieht eine Ausgestaltung vor, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten normierten Keyword-Relevanz-Werten abgeleitet wird, indem die Summe der Mittelwerte der normierten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird. Sofern die Keyword-Relevanz-Werte zum Beispiel Häufigkeitswerte sind, wird der Ähnlichkeitswert aus der Summe der Mittelwerte der normierten Häufigkeitswerte der übereinstimmenden Keywords bestimmt.

Eine weitere Ausführungsvariante sieht vor, dass aus dem normierten Profil des jeweiligen Textes ein gefiltertes Profil des jeweiligen Textes gebildet wird, indem als Keyword- Relevanz-Werte gefilterte Keyword-Relevanz-Werte verwendet werden, die aus den normierten Keyword-Relevanz-Werten gebildet werden, indem der normierte Keyword- Relevanz-Wert mit einem Schwellwert gefiltert wird. Dabei wird der normierte Keyword- Relevanz-Wert nur beibehalten, wenn er über dem Schwellwert liegt und anderenfalls auf Null gesetzt wird.

Bei der Verwendung normierter Profile sieht eine Ausgestaltung vor, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten gefilterten Keyword-Relevanz-Werten abgeleitet wird, indem die Summe der Mittelwerte der gefilterten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird. Da die gefilterten Keyword-Relevanz-Werte, sofern sie unter dem Schwellwert liegen, auf Null gesetzt sind, gehen dabei in den Ähnlichkeitswert nur solche Keywords ein, die in beiden Texten mit hoher Relevanz vorhanden sind.

Sofern ein Keyword ein charakterisierendes Merkmal eines Textes ist, das aus diesem ableitbar bzw. diesem zuordenbar ist, ohne in dem Text selbst vorzukommen, kann vorgesehen sein, dass die Relevanz dieses Keywords, d. h. sein Keyword-Relevanz-Wert extern bestimmt wird bzw. bestimmt worden ist. Die Relevanz kann sich beispielsweise nach der Wichtigkeit des Keywords richten. Wenn beispielsweise als charakterisierendes Merkmal eines Texts der Name dessen Autors als Keyword zugeordnet wird, so kann vorgesehen sein, dass dieses Keyword nach einer Normierung immer einen hohen Keyword-Relevanz-Wert von beispielsweise 1,0 oder 0,75 aufweist.

Eine weitere Ausgestaltung der Erfindung sieht vor, dass die Texte des Bestands in einer Datenbank hinterlegt sind, wobei zu jedem Text zumindest hinterlegt sind: Der Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, und ein Profil des Textes. Das Profil des Textes ist dabei entstanden durch Erfassen von Keywords des jeweiligen Textes und durch Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem Text angibt. Dies kann in der beschriebenen Weise erfolgen. Dementsprechend können als Keyword-Relevanz-Werte normierte Keyword- Relevanz-Werte und/oder gefilterte Keyword-Relevanz-Werte in der Datenbank gespeichert sein.

Zur Bestimmung der Ähnlichkeit zweier Texte wird das Profil aus dem Bestand abgerufen und ein Ähnlichkeitswert aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten Keyword-Relevanz-Werten gebildet. Dabei umfasst die vorliegende Erfindung sowohl Ausgestaltungen, bei denen der Text, dessen Relevanz zu bestimmen ist, Teil des Bestands von Texten ist, als auch Ausgestaltungen, bei denen der Text, dessen Relevanz zu bestimmen ist, nicht Teil des Bestands von Texten ist. In erstem Fall ist zu dem Text, dessen Relevanz zu bestimmen ist, dessen Profil bereits in der Datenbank hinterlegt, so dass es ebenso wie die Profile der anderen Texte des Bestands aus der Datenbank abgerufen werden kann. In zweitem Fall wird beispielsweise ein Profil dieses Textes erzeugt und zusammen mit dem Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, in der Datenbank hinterlegt.

Eine weitere Ausgestaltung sieht vor, dass das Verfahren auf sämtliche Texte des Bestands angewendet wird, wobei für jeden Text des Bestands ein Relevanzwert ermittelt wird. Die Relevanzwerte können zusammen mit den Texten in der Datenbank gespeichert werden, so dass sie unmittelbar abrufbar sind.

Wie erläutert wird als Text im Sinne der vorliegenden Erfindung jede Abfolge von Wörtern verstanden, die durch ein oder mehrere Trennzeichen (Blank, Punkt, Komma, etc.) getrennt sind oder deren Separation sich aus dem Text-Sinn ergibt. Damit kann ein Text im Sinne der vorliegenden Erfindung auch ein Textteil (ein Absatz oder ein Kapitel) eines umfangreicheren Dokuments, beispielsweise eines Aufsatzes oder eines Buches sein. Auch ein solcher Textteil ist ein Text im Sinne der vorliegenden Erfindung. Es ist dann möglich, dass zu mehreren Texten ein Relevanzwert ermittelt wird, die aus dem gleichen Dokument stammen. In einem solchen Fall kann vorgesehen sein, dass aus den einzelnen Relevanzwerten der Texte bzw. Textteile ein Gesamt-Relevanzwert des Dokuments berechnet wird, beispielsweise durch Addition der einzelnen Relevanzwerte. Ein solcher Gesamt-Relevanzwert gibt deutlicher an, falls mehrere Absätze oder Kapitel eines Dokumentes in jüngeren Texten verwendet werden, wie es beispielsweis bei einem Plagiatsfall der Fall ist.

Alternativ kann ein Relevanzwert von vornherein auf der Grundlage des gesamten Dokuments bestimmt werden, das mehrere Textteile umfasst. Dann ist das Gesamtdokument der Text in Sinne der Erfindung.

Gemäß einem Ausführungsbeispiel ist der Zeitpunkt, zu dem ein Text erstmalig veröffentlicht wurde, durch einen Zeitstempel des Textes definiert. Hierbei handelt es sich beispielsweise um das Erstellungsdatum des Textes. Der Zeitpunkt, zu dem ein Text erstmalig von einem Erfassungssystem erfasst wurde, ist beispielsweise durch den Zeitpunkt definiert, zu dem der Text von einem Web-Crawler erstmals erfasst wurde. Gemäß einem weiteren Erfindungsaspekt betrifft die Erfindung ein Computerprogramm mit Programmcode zur Durchführung der Verfahrensschritte nach Anspruch 1 , wenn das Computerprogramm in einem Computer ausgeführt wird. Die Computersoftware kann dahingehend weitergebildet sein, dass sie in Verbindung mit einem Prozessor bzw. Computer sämtliche Ausführungsvarianten der Erfindung gemäß den Ansprüchen 1 bis 22 realisiert.

Gemäß einem weiteren Erfindungsaspekt betrifft die Erfindung ein Verfahren zur Bestimmung der Relevanz eines Textes, das die Schritte aufweist:

Senden eines Textes oder von Daten, die den Text identifizieren, von einem Kommunikations-Endsystem an ein Computersystem, das einen Bestand von Texten verwaltet, die in einer Datenbank des Computersystems gespeichert sind, wobei in der Datenbank zu jedem Text der Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, und ein Profil hinterlegt sind, wobei das Profil auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden ist,

Veranlassen des Computersystems zu prüfen, ob der erhaltene Text in dem Bestand enthalten ist, sofern dies nicht der Fall ist, Anlegen durch das Computersystem eines Profils des Textes sowie Speichern des Profils und des Zeitpunkts, zu dem der Text zuerst veröffentlicht wurde, in der Datenbank,

Veranlassen des Computersystems, die Ähnlichkeit des Textes mit Texten des Bestands zu bestimmen, wobei der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird, wobei zur Ermittlung des Ähnlichkeitswerts zweier Texte das in der Datenbank gespeicherte Profil abgerufen und ein Ähnlichkeitswert aus der Anzahl der übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword- Relevanz-Werten gebildet wird, wobei der ermittelte Ähnlichkeitswert zumindest demjenigen der beiden Texten des jeweils durchgeführten Einzelvergleichs zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde,

Berechnen eines Relevanzwerts aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten, die dem Text zugeordnet wurden,

Speichern und/oder Senden des ermittelten Relevanzwertes vom Computersystem an das oder ein anderes Kommunikations-Endsystem. Ein weiterer Erfindungsaspekt betrifft ein Computersystem zur Bestimmung der Relevanz eines Textes, das aufweist:

Mittel zur Bestimmung der Ähnlichkeit des Textes mit Texten eines Bestands, wobei der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird,

Mittel zum Zuordnen des Ähnlichkeitswerts zu zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs, der zu einem früheren Zeitpunkt veröffentlicht wurde, wobei die Mittel dazu ausgebildet sind, dass der Ähnlichkeitswert eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, oder der Ähnlichkeitswert eines Einzelvergleichs beiden Texten des jeweiligen Einzelvergleichs zugeordnet wird, wobei der Ähnlichkeitswert dem Text des Einzelvergleichs, der zu einem späteren Zeitpunkt veröffentlicht oder erfasst wurde, mit einer geringeren Gewichtung zugeordnet wird, und

Mittel zum Berechnen eines Relevanzwerts aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten, die dem Text zugeordnet wurden.

Die Mittel umfassen beispielsweise ein nichtflüchtiges computerlesbares Speichermedium, das Anweisungen zum Betrieb des Computersystems speichert, wobei die Anweisungen, wenn sie von einem oder mehreren Prozessoren des Computersystems ausgeführt werden, die einen oder mehreren Prozessoren dazu veranlassen, in dem Computersystem Operationen durchzuführen, die die von den genannten Mitteln bereitgestellten Funktionen erfüllen.

Dabei kann vorgesehen sein, dass das Computersystem mit einer Datenbank zusammenwirkt, die einen Bestand von Texten aufweist, zu denen jeweils mindestens ein Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, und ein Profil hinterlegt sind. Dabei ist das Profil auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden. Die Mittel zur Bestimmung der Ähnlichkeit des Textes mit Texten des Bestands bestimmen die Ähnlichkeit auf der Grundlage der in der Datenbank hinterlegten Profile.

Die Erfindung wird nachfolgend unter Bezugnahme auf die Figuren der Zeichnung anhand mehrerer Ausführungsbeispiele näher erläutert. Es zeigen: Figur 1 eine Kommunikations-Infrastruktur, die zur Durchführung eines Verfahrens zur Bestimmung der Relevanz eines Textes geeignet ist;

Figur 2 ein Flussdiagramm eines Verfahrens zur Bestimmung der Relevanz eines Textes;

Figur 3 ein Ausführungsbeispiel eines Verfahrens zur Erstellung eines normiertes Profil eines Textes, indem wobei Keywords des Textes erfasst und jedem Keyword ein normierter und gefilterter Keyword-Relevanz-Wert zugeordnet wird;

Figur 4 ein Ausführungsbeispiel eines Verfahrens zur Bestimmung der Ähnlichkeit zweier Texte, denen jeweils ein Profil gemäß Figur 3 zugeordnet wurde, wobei ein Ähnlichkeitswert der beiden Texte bestimmt wird, indem die Summe der Mittelwerte der normierten und gefilterten Keyword-Relevanz- Werte der in beiden Texten übereinstimmenden Keywords bestimmt wird;

Figur 5 ein Flussdiagramm eines Ausführungsbeispiels einer Suche mit einem Profil und eines Rankings der Trefferliste unter Verwendung eines erfindungsgemäß bestimmten Relevanzwert;

Figur 6 ein Flussdiagramm eines Ausführungsbeispiels der initialen Erzeugung der Relevanzwerte für alle Dokumente eines bestehenden Bestandes von Dokumenten; und

Figur 7 ein Flussdiagramm eines Ausführungsbeispiels der Einführung eines neuen Dokumentes in einen bestehenden Bestand von Dokumenten einschließlich einer Aktualisierung der Relevanzwerte aller Dokumente.

Die Figur 1 zeigt eine Kommunikations-Infrastruktur, die eine Mehrzahl von Kommunikations-Endsystemen Ni, Nj und eine Recheneinheit Z1 aufweisen. Die Kommunikations-Endsystemen Ni, Nj sind durch nicht dargestellte Nutzer bedienbar und/oder agieren autonom. Sie sind über mindestens eine Kommunikationsverbindung, wie z.B. eine Telekommunikationsverbindung und/oder eine Computerverbindung, beispielsweise über das Internet oder ein Intranet mit der Recheneinheit Z1 verbindbar. Die Kommunikations-Endsysteme Ni, Nj sind beispielsweise als PC, Laptop, Tabletcomputer oder Smartphone ausgebildet. Die Recheneinheit Z1 kann mit einer Vielzahl von Nutzern bzw. Kommunikations- Endsystemen Ni, Nj kommunizieren. Sie wird beispielsweise durch einen Server im Internet gebildet. Der Recheneinheit Z1 ist eine Speichereinheit S1 zugeordnet, die einen nicht flüchtigen Speicher umfasst.

Die Nutzer bzw. von diesen eingesetzte Kommunikationsendgeräte Ni, Nj erstellen oder identifizieren Texte bzw. Dokumente D1 und senden diese an die Recheneinheit Z1. Die Begriffe „Text“ und „Dokument“ werden im Folgenden als Synonyme verwendet (obgleich auch Situationen denkbar sind, in denen ein Text lediglich ein Teil eines Dokuments ist). Die Recheneinheit Z1 erstellt zu den empfangenen Texten D1 jeweils ein Profil und speichert dieses zusammen mit den Texten D1 in der Speichereinheit S1. Alternativ werden nur die Profile gespeichert. Alternativ oder ergänzend agiert die Recheneinheit Z1 als Webcrawler und durchsucht bzw. crawlt automatisch das Internet oder ein Intranet zur Suche und Identifikation von Texten. Dabei kann die Suche je nach Anwendung auf eine bestimmte Art von Texten beschränkt sein, z.B. Nachrichtentexte oder Texte zu einem bestimmten technischen oder wissenschaftlichen oder politischen Thema.

Die zu einem Text in der Speichereinheit S1 gespeicherten Informationen umfassen zumindest die folgenden Informationen: den Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, sowie ein Profil des Textes. Im Hinblick auf den Zeitpunkt der ersten Veröffentlichung oder Erfassung kann vorgesehen sein, dass die Dokumente D1 jeweils einen Zeitstempel aufweisen, der angibt, wann das Dokumente erstmals veröffentlicht oder von einem Erfassungssystem erfasst wurden. Derzeitstempel kann den Dokumenten unmittelbar zugeordnet sein, etwa in Form von Metadaten des Dokuments, so dass diese Information für diesen Fall leicht erfassbar ist und in der Speichereinheit S1 eingetragen wird. Alternativ kann vorgesehen sein, dass zur Bestimmung des Zeitpunkts der ersten Veröffentlichung oder Erfassung die Recheneinheit Z1 automatisiert eine Recherche im Internet durchführt und Daten auswertet, aus denen sich der fragliche Zeitpunkt ergibt. Auch kann als Alternative vorgesehen sein, dass der Zeitpunkt über eine Kommunikationsschnittstelle durch einen Nutzer über ein Kommunikations-Endsystem Ni, Nj eingegeben wird.

Der Zeitpunkt kann das Datum und die Tageszeit an dem Datum umfassen, an dem der Text zuerst veröffentlicht oder erfasst wurde. Sofern die Tageszeit nicht ermittelbar ist, enthält der Zeitpunkt zumindest das Datum. Das Profil des Textes umfasst Keywords des jeweiligen Textes, sowie Keyword-Relevanz- Werte zu den Keywords des Textes, wobei der Keyword-Relevanz-Wert die Relevanz des jeweiligen Keywords in dem jeweils betrachteten Text angibt, wie noch weitergehend erläutert wird. Das Profil kann darüber hinaus weitere Informationen zu dem jeweiligen Text umfassen, beispielsweise Autor, Herausgeber, etc.

Des Verfahren zur Bestimmung der Relevanz eines Textes D1 verläuft so, dass ein bestimmter Text D1 mit weiteren Texten Di verglichen wird, die bzw. deren Profile in der Speichereinheit S1 gespeichert sind. Der Text D1 kann dabei beispielsweise von einem Nutzer über ein Kommunikations-Endsystem Ni, Nj und ein Datenübertragungsverfahren an die Recheneinheit Z1 übertragen worden sein. Alternativ wird der Text durch den Nutzer nur identifiziert, ohne übersandt zu werden, wobei der Text einschließlich seines Profils bereits in der Speichereinheit S1 enthalten ist. Ebenso ist es denkbar, dass das Verfahren automatisiert für jeden Text durch die Recheneinheit Z1 durchgeführt wird, den die Recheneinheit Z1 erfasst oder crawlt.

Die Recheneinheit Z1 bestimmt durch Einzelvergleiche mit Texten Di eines Bestands, der in der Speichereinheit S1 gespeichert ist, einen Relevanzwert des Textes D1 , der nachfolgend auch als SRank-Wert oder einfach als SRank bezeichnet wird. Das hierzu eingesetzte Verfahren wird nachfolgend schematisch unter Bezugnahme auf die Figur 2 erläutert.

In einem ersten Schritt 201 wird die Ähnlichkeit des Textes mit Texten eines Bestands bestimmt. Hierzu wird der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird. Die Texte des Bestands sind in der Speichereinheit S1 gespeichert. Das Verfahren zur Ermittlung eines Ähnlichkeitswerts kann grundsätzlich in beliebiger Weise erfolgen. Ein Beispiel für ein solches Verfahren wird anhand der Figur 4 erläutert.

In einem weiteren Schritt 202 wird der ermittelte Ähnlichkeitswert zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs zugeordnet, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Hierzu können gemäß Schritt 203 Ausführungsvarianten vorsehen, dass der Ähnlichkeitswert eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde. Dies kann bedeuten, dass, wenn der betrachtete Text später als ein Vergleichstext veröffentlicht oder erstmalig erfasst wurde, ihm kein Ähnlichkeitswert bzw. der Ähnlichkeitswert Null zugeordnet wird.

Eine Alternative sieht im Schritt 203 vor, dass der Ähnlichkeitswert eines Einzelvergleichs demjenigen Text, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, mit einem größeren Gewicht zugeordnet wird.

Gemäß Schritt 204 werden die bei den Einzelvergleichen ermittelten Ähnlichkeitswerte, die dem betrachteten Text zugeordnet wurden, zu einem Relevanzwert bzw. SRank addiert. Die Größe des Relevanzwertes gibt die Relevanz des Textes an. Eine Addition der Ähnlichkeitswerte zu einem Relevanzwert SRank ist dabei nur als Beispiel für eine Ableitung des Relevanzwertes aus den Ähnlichkeitswerten zu verstehen.

Erneut Bezug nehmend auf die Figur 1 wird der ermittelte SRank des geprüften Textes D1 zusammen mit bzw. als Bestandteil des ermittelten Profils des Textes D1 in der Speichereinheit S1 gespeichert. Sofern das Profil des Textes D1 bereits in der Speichereinheit S1 enthalten war, wird lediglich zusätzlich der SRank als Teil des Profils gespeichert. Des Weiteren kann der SRank des betrachteten Dokuments D1 bei Bedarf an ein Kommunikations-Endsystem Ni, Ni übertragen werden, wie in der Figur 1 dargestellt. Dies kann mit oder ohne das Dokument D1 erfolgen.

Dementsprechend sieht eine Ausführungsvariante vor, dass zunächst ein Text D1 von einem Kommunikations-Endsystem Ni, Nj an die Recheneinheit Z1 übersandt wird, wobei die Recheneinheit Z1 einen Bestand von profilierten Texten verwaltet, die in der Speichereinheit S1 gespeichert sind. Durch die ausgelöste Anfrage wird die Recheneinheit Z1 veranlasst zu prüfen, ob der erhaltene Text D1 in dem Bestand enthalten ist. Sofern dies nicht der Fall ist, wird zu dem Text D1 ein Profil angelegt und zusammen mit dem Zeitpunkt, zu dem der Text zuerst veröffentlicht oder zugänglich gemacht wurde, in der Speichereinheit S1 gespeichert. Anderenfalls kann auf die bereits hinterlegten Informationen zurückgegriffen werden. Die Recheneinheit Z1 wird nun (aufgrund der erfolgten Anfrage) veranlasst, die Ähnlichkeit des Textes mit Texten des Bestands zu bestimmen, wobei der Text D1 mit jedem der Texte Di des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, mit dem in Bezug auf die Figur 2 erläuterten Verfahren verglichen wird. Somit wird zu jeweils zwei Texten das ermittelte bzw. gespeicherte Profil abgerufen und ein Ähnlichkeitswert aus der Anzahl der übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword-Relevanz-Werten gebildet. Die bei den Einzelvergleichen ermittelten Ähnlichkeitswerte, die dem Text D1 zugeordnet wurden, werden zu einem Relevanzwert (dem SRank) addiert, dessen Größe die Relevanz des Textes D1 angibt. Der ermittelte Relevanzwert kann dem anfragenden odereinem anderen Kommunikations-Endsystem Ni, Nj bereitgestellt und/oder gespeichert werden.

Dabei sind zahlreiche Modifikationen des Verfahrens möglich. Eine erste Modifikation sieht vor, dass nicht der Text D1, sondern Informationen, die diesen Text eindeutig identifizieren, an die Recheneinheit Z1 übertragen werden. Eine weitere Modifikation sieht vor, dass in der Speichereinheit S1 bereits zu sämtlichen Dokumenten die Relevanzwerte (SRanks) vorliegen bzw. bereits durch die Recheneinheit Z1 berechnet wurden, so dass auf eine Anfrage zur Relevanz eines Dokumentes lediglich der in der Speichereinheit S1 gespeicherte SRank mitgeteilt werden muss.

Die Figur 3 zeigt beispielhaft auf, wie zu einem gegebenen Text ein Profil erstellt wird, das die Grundlage für die Bestimmung eines Ähnlichkeitswerts bei einem Vergleich des Textes mit einem anderen Text dient.

Dabei wird als Text/Dokument folgender Beispieltext D2 betrachtet:

„Apple hat den Tablett Computer iPad herausgebracht. Apple hat lange an dem iPad entwickelt. Das iPad ist ein vollwertiger Computer.“

Der Beispieltext D2 hat als relevanten Zeitpunkt das Datum des 10.04.2019.

In einem ersten Schritt 301 werden Keywords des Textes D2 identifiziert und extrahiert. Vorliegend werden als Keywords des Textes sämtliche Namen und Substantive betrachtet: Hierdurch entsteht ein Rohprofil E1. Dies besteht im betrachteten Beispiel aus den Wörtern „Apple, Tablett, Computer, iPad“.

In einem zweiten Schritt 302 werden die Häufigkeiten der im Text D2 enthaltenen Keywords ermittelt und dem Text als Relevanz zugeordnet. Hierdurch entsteht ein Rohprofil E2 mit Häufigkeiten, die Keyword-Relevanz-Werte darstellen:

Profil mit Häufigkeiten: iPad - 3,0; Apple - 2,0; Computer - 2,0: Tablett - 1 ,0. In einem dritten Schritt 303 werden die Keyword-Relevanz- Werte normiert. Es entsteht ein genormtes Profil E3 mit normierten Häufigkeiten, die normierte Keyword-Relevanz-Werte darstellen.

Normiertes Profil: iPad - 1 : Apple - 0,67; Computer - 0,67; Tablett - 0,33.

In einem vierten Schritt 304 werden die normierten Keyword-Relevanz-Werte gefiltert. Es entsteht ein gefiltertes Profil E4. Die Filterung erfolgt durch einen Vergleich mit einem Schwellwert, der im betrachteten Beispiel bei 0,6 liegt. Normierte Keyword-Relevanz- Werte, die oberhalb des Schwellwertes liegen, fallen heraus.

Gefiltertes Profil: iPad - 1; Apple - 0,67; Computer - 0,67.

Es ist somit vorgesehen, dass Keywords des Textes die Häufigkeit, mit der sie in dem Text vorkommt, als Relevanz zugeordnet wird. Die entsprechenden Keyword-Relevanz-Werte werden normiert und mit einem Schwellwert gefiltert. Der in dem obigen Beispiel angegebene Schwellwert von 0,6 ist dabei nur beispielhaft zu verstehen. Grundsätzlich kann der Schwellwert an beliebiger Stelle in dem Bereich oberhalb 0 und unterhalb 1 liegen.

Nach Bestimmung des Profils ist nun ausgehend von dem Profil die Ähnlichkeit zwischen jeweils zwei Texten zu ermitteln. Ein Beispiel hierzu zeigt die Figur 4. Danach ist ein erster Text D6 vorgesehen, aus dem in der in der Figur 3 beschriebenen Weise ein normiertes und gefiltertes Profil A gebildet wurde, das folgende Keywords und Keyword-Relevanz- Werte aufweist: Keywords: iPad, Apple, Haus, Tisch. Zugeordnete Keyword-Relevanz- Werte: 1 ,0, 0,8, 0,8, 0,6. Des Weiteren ist ein zweiter Text D7 vorgesehen, aus dem in der in der Figur 3 beschriebenen Weise ein genormtes und gefiltertes Profil B gebildet wurde, das folgende Keywords und Keyword-Relevanz-Werte aufweist: Keywords: Haus, Bett, Tür, iPad. Zugeordnete Keyword-Relevanz-Werte: 1 ,0, 0,8, 0,6, 0,4.

Die Ähnlichkeit bzw. der Ähnlichkeitswert wird aus den beiden Profilen A, B aus den übereinstimmenden Keywords und den den jeweiligen Keywords zugeordneten gefilterten Keyword-Relevanz-Werten ermittelt, indem die Summe der Mittelwerte der gefilterten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird.

Entsprechend werden in einem ersten Schritt 401 die in den beiden Profilen A, B enthaltenen gleichen Keywords bestimmt. Es sind dies in dem betrachteten Beispiel das Keyword „iPad“, dass im Text D6 mit einem gefilterten Keyword-Relevanz-Wert von 1,0 und im Text D7 mit einem Keyword-Relevanz-Wert von 0,4 enthalten ist, und das Keyword „Haus“, das im Text D6 mit einem gefilterten Keyword-Relevanz-Wert von 0,8 und im Text D7 mit einem gefilterten Keyword-Relevanz-Wert von 1,0 enthalten ist, siehe Zwischenergebnis M1 in Figur 4, das die Profil-Matches angibt.

In Schritt 402 wird der Ähnlichkeitswert S bestimmt, indem zu diesen Keywords und Keyword-Relevanz-Werten die Summe der Mittelwerte der übereinstimmenden Keywords bestimmt wird, siehe Berechnung M2 in Figur 4. Damit gibt sich im betrachteten Beispiel als Ähnlichkeitswert S der Wert 1.6.

Dabei kann vorgesehen sein, dass bei einem Vergleich ein Ähnlichkeitswert nur dem Dokument zugeordnet wird, das zu einem früheren Zeitpunkt veröffentlicht wurde oder zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Wenn beispielsweise das Dokument D7 in diesem Sinne jünger ist als das Dokument D6, so wird nur dem Dokument D6 ein Ähnlichkeitswert zugeordnet, der in die anschließend erfolgende Berechnung eines Relevanzwertes eingeht. Wenn dagegen das Dokument D6 jünger ist als das Dokument D7, so wird ihm lediglich der Ähnlichkeitswert Null zugeordnet.

Eine Alternative hierzu sieht vor, dass bei einem Vergleich ein Ähnlichkeitswert demjenigen Text des Einzelvergleichs mit einer stärkeren Gewichtung zugeordnet wird, das zu einem früheren Zeitpunkt veröffentlicht wurde oder zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Beispielweise wird der ermittelte Ähnlichkeitswert des Einzelvergleichs bei dem älteren Dokument mit dem Faktor 2 und bei dem jüngeren Dokument mit einem Faktor 0,5 gewichtet. Damit ergibt sich in dem oben betrachteten Beispiel für den Fall, dass das Dokument D6 früher veröffentlicht bzw. zugänglich gemacht wurde und somit das ältere Dokument darstellt, für das Dokument D6 ein Ähnlichkeitswert von 2*1 ,6 = 3.2 und für das jüngere Dokument D7 ein Ähnlichkeitswert von 0,5*1 ,6 = 0,8.

Eine weitere Ausführungsvariante hierzu sieht vor, dass der bei einem Einzelvergleichs ermittelte Ähnlichkeitswert mit einem Schwellwert verglichen und für den Fall, dass der Ähnlichkeitswert über dem Schwellwert liegt, der Ähnlichkeitswert um einen Zusatzwert inkrementiert wird. Dieser implementierte Ähnlichkeitswert wird dann zumindest dem älteren der beiden Texte zugeordnet. Die Inkrementierung kann um einen Faktor oder um einen Summanden erfolgen. Hierzu zwei Beispiele. In einem ersten Beispiel erfolgt eine Inkrementierung um den Faktor 3. Damit ergibt sich bei dem oben betrachteten Beispiel für den Fall, dass das Dokument D6 früher veröffentlicht bzw. zugänglich gemacht wurde, für das Dokument D6 ein Ähnlichkeitswert von 3*1 ,6 = 4,8. In einem zweiten Beispiel erfolgt eine Inkrementierung um einen festen Wert, beispielsweise den Wert 1.5. In diesem Fall ergibt sich in dem oben betrachteten Beispiel für den Fall, dass das Dokument D6 früher veröffentlicht bzw. zugänglich gemacht wurde, für das Dokument D6 ein Ähnlichkeitswert von 1,6 + 1,5 = 3,1.

Eine weitere Ausführungsvariante hierzu sieht vor, dass der bei einem Einzelvergleich ermittelte Ähnlichkeitswert mit einem Schwellwert verglichen und für den Fall, dass der Ähnlichkeitswert unter dem Schwellwert liegt, der Ähnlichkeitswert auf Null gesetzt wird. Hierdurch werden nochmals Dokumente herausgefiltert, bei denen der ermittelte Ähnlichkeitswert unter einer vordefinierten Schwelle von beispielsweise bei 0,5 liegt.

Zur Bestimmung des SRank eines Dokuments erfolgt wie in Bezug auf die Figur 2 erläutert ein Einzelvergleich des betrachteten Textes, dessen SRank bestimmt werden soll, mit sämtlichen Texten des betrachteten Bestands. Die einem betrachteten Dokument dabei im Rahmen der jeweiligen Einzelvergleiche jeweils zugeordneten Ähnlichkeitswerte werden zum Relevanzwert bzw. SRank des Dokuments addiert.

Dies wird auf der Grundlage des Ausführungsbeispiels der Figur 3 an einem Beispiel erläutert.

Es sei angenommen, dass neben dem Text D2 der Figur 3 (veröffentlicht am 10.04.2019) noch drei weitere Texte D3, D4, D5 existieren, die zusammen die Texte eines betrachteten Bestands darstellen.

Für die weiteren Texte D3, D4, D5 wird jeweils ein Profil erstellt, das die Keywords und die normierten und gefilterten Keyword-Relevanz-Werte enthält.

Der Text D3, zuerst veröffentlicht am 12.4.2019, lautet: „Apple Computer hat das iPad herausgebracht. Das iPad ist ein Tablett Computer.“ Damit ergibt sich als Profil mit Häufigkeiten: iPad - 2; Computer - 2; Apple - 1 ; Tablett -1. Als normiertes Profil ergibt sich: iPad - 1; Computer - 1 ; Apple - 0,5; Tablett 0,5. Als gefiltertes Profil mit dem Schwellwert 0,6 ergibt sich: iPad - 1 ; Computer - 1.

Der Text D4, zuerst veröffentlicht am 13.4.2019, lautet: „Das iPad von Apple ist da. Das iPad ist ein innovatives Produkt.“ Damit ergibt sich als Profil mit Häufigkeiten: Apple - 1; iPad - 2; Apple - 1; Produkt - 1. Als normiertes Profil ergibt sich: iPad- 1; Apple - 0,5; Produkt - 0,5. Als gefiltertes Profil mit dem Schwellwert 0,6 ergibt sich: iPad - 1. Der Text D5, zuerst veröffentlicht am 1.4.2019. lautet: „Microsoft ist eine Firma. Microsoft sitzt in Seattle.“ Damit ergibt sich als Profil mit Häufigkeiten: Microsoft - 2; Seattle - 1 ; Firma - 1. Das normierte Profil lautet: Microsoft - 1 ; Firma - 0,5; Seattle - 0,5. Das gefilterte Profil lautet: Microsoft - 1.

Es werden nun die Ähnlichkeitswerte zwischen den Dokumenten D2, D3, D4, D5 ermittelt, entsprechend der in der Figur 4 erläuterten Vorgehensweise. Dabei ergibt sich:

(A) Ähnlichkeitswert Dokumente D2, D3: (iPad: (1 + 1) / 2) + (Computer: (1 + 0,67) / 2) -> 1 ,83

(B) Ähnlichkeitswert Dokumente D2, D4: (iPad: (1 + 1) / 2) -> 1

(C) Ähnlichkeitswert Dokumente D2, D5: (-) -> 0

(D) Ähnlichkeitswert Dokumente D3, D4: (iPad: (1 + 1) / 2) -> 1

(E) Ähnlichkeitswert Dokumente D3, D5: (-) -> 0

(F) Ähnlichkeitswert Dokumente D4, D5: (-) -> 0

Aus diesen Ähnlichkeitswerte wird nun der Relevanzwert bzw. SRank bestimmt, wobei er für sämtliche dieser Dokumente bestimmt werden kann. Es ergeben sich folgende SRanks.

Das Dokument D2 erhält den S-Rank aus der Summe von (A) und (B) -> 1 ,83 + 1 = 2,83. SRank (D2) = 2,83

Dokumente D3 und D4 erhalten aus der Ähnlichkeit zu Dokument D2 keinen Ähnlichkeitswert, da sie später veröffentlicht wurden.

Dokument D3 erhält einen S-Rank aus (D) -> 1. SRank (D3) = 1.

Dokument D4 erhält aus der Ähnlichkeit zu Dokument D3 keinen Wert, da es später veröffentlicht wurde: SRank (D4) = 0.

Das Dokument D5 hält keinerlei Ähnlichkeitswert, da es zu keinem der anderen Dokumente ähnlich ist. SRank (D5) = 0.

Die Bestimmungen der Ähnlichkeitswerte kann dabei wie in Bezug auf die Figur 3 erläutert variiert werden, beispielsweise durch andere Schwellwerte bei der Filterung der Keyword- Relevanz-Werte, durch Vornahme einer bestimmten Gewichtung des älteren Dokuments, und/oder durch Inkrementierung eines Ähnlichkeitswerts, wenn er einen Schwellwert übersteigt.

Im Ergebnis weist das Dokument D2 einen deutlich höheren Relevanzwert als die Dokumente D3, D4 und D5 auf. Das Dokument D3 ist immer noch etwas relevanter als die Dokumente D4 und D5. Das Dokument D4 besitzt keine Relevanzwert, da es später als die anderen ähnlichen Dokumente erschien. Das Dokument D5 besitzt keinen Relevanzwert, da es zu keinem anderen Dokument ähnlich ist.

Bei der Bestimmung der Keywords können statt der Namen und Substantive auch die Wortstämme bzw. Lemmas der Namen und Substantive extrahiert werden. Auch können die Keywords grundsätzlich in anderer Weise als durch Namen und Substantive ermittelt werden, beispielsweise n-Gramme des Textes sein.

Abschließend wird auf eine weitere Verfahrensvariante eingegangen. Die Verfahrensvariante betrachtet die Einordnung eines neuen Dokuments in einen vorgegebenen Bestand mit sukzessiver SRank Bestimmung. Zu den Dokumenten des Bestandes existieren ein Index und ein inverser Index, wobei der Index einem Dokument bestimmte Keywords zuordnet und der inverse Index es erlaubt, die Dokumente zu identifizieren, die ein bestimmtes Keyword enthalten. Beispielsweise weist die Speichereinheit S1 der Figur 1 einen Index und einen inversen Index der enthaltenen Dokumente auf. Weiter wird davon ausgegangen, dass jedes Dokument des Bestandes bereits einen SRank besitzt. Das neu einzuordnende Dokument besitzt dagegen noch keinen SRank.

Es werden folgende Schritte durchgeführt:

(1) Ermittle zu dem neu einzuordnenden Dokument N ein Profil mit Keywords und mit normierten und gefilterten Keyword-Relevanz-Werten;

(2) Führe auf der Grundlage der Keywords des neu einzuordnenden Dokument N und des inversen Index eine Suche auf den Bestand aus und erzeuge eine Treffermenge, wobei die Treffermenge die Dokumente des Bestands angibt, die mindestens ein Keyword aufweisen, das mit mindestens einem der Keywords des neu einzuordnenden Dokuments N übereinstimmt (hierzu kann eine Suche über den inversen Index zunächst für nur ein Keyword des neu einzuordnenden Dokuments und im weiteren für jeweils ein weiteres Keyword des neu einzuordnenden Dokuments erfolgen); (3) Bestimme zu jedem Paar, welches sich aus jedem Dokument der Treffermenge und jeweils dem neu einzuordnende Dokument N ergibt, den Ähnlichkeitswert;

(4) Bestimme zu dem neu einzuordnenden Dokument N aus den Ähnlichkeitswerten den Relevanzwert SRank;

(5) Füge das Dokument N in den Bestand, den Index und den inversen Index ein;

(6) Sofern sich aufgrund des Einzelvergleichs mit dem neu einzuordnenden Dokument N der SRank der Dokumente des Bestands geändert hat, aktualisiere die SRanks der Dokumente des Bestands.

Dabei wird darauf hingewiesen, dass bei der Bestimmung des Relevanzwerts SRank des neu einzuordnenden Dokuments N in Ausführungsvarianten vorgesehen sein kann, dass nur solche bei den Einzelvergleichen ermittelten Ähnlichkeitswerte addiert werden bzw. zur Bestimmung des Ähnlichkeitswerts beitragen, bei denen der Ähnlichkeitswerte zwischen dem neu einzuordnenden Dokument N und dem Dokument des Bestands einen festgelegten Schwellwert übersteigt, beispielsweise einen Schwellwert von 0,5. Es liegt dann somit eine Treffermenge vor, auf deren Grundlage der SRank bestimmt wird. Der genannte Schwellwert kann einen zusätzlichen Schwellwert darstellen, der zusätzlich zu dem Schwellwert Verwendung findet, mit dem bei der Ermittlung des Ähnlichkeitswerts die normierten Keyword-Relevanz-Werte gefiltert werden.

Das anhand von Ausführungsbeispielen erläuterte Verfahren ermöglicht in effektiver Weise die Verarbeitung und den Vergleich normalsprachlicher Texte, wobei auch paraphrasierte Texte auf Ähnlichkeit miteinander verglichen werden können. Eine Ähnlichkeitsbestimmung zwischen zwei Texten kann dabei auch in unterschiedlich langen Texten durchgeführt werden. Beispielsweise können kurze Suchphrasen mit umfangreichen Texten verglichen werden. Da viele Texte Namen und Fachbezeichnungen beinhalten, kann die beschriebene Bestimmung von Ähnlichkeitswerten und eines Relevanzwertes auch sprachübergreifend erfolgen. Alternativ wird ein fremdsprachiger Text mittels einer Computerübersetzung zunächst in die Sprache des Textes, zu dem eine Ähnlichkeit bestimmt werden soll, übersetzt.

Eine beispielhafte Anwendung des beschriebenen Verfahrens betrifft die Ermittlung von Plagiaten. Eine weitere beispielhafte Anwendung betrifft das Ranken von Zeitungsartikeln im Hinblick auf ihre Relevanz, wobei hiermit implizit auch ein Ranking der dahinter stehenden Autoren und Herausgeber erfolgt. Die Erfindung wird im Folgenden anhand weitere Ausführungsbeispiele weitergehend erläutert. Die Figur 6 zeigt ein Flussdiagramm einer Suche mit einem Profil und eines Rankings der Trefferliste unter Verwendung eines erfindungsgemäß bestimmten Relevanzwert. Das Verfahren umfasst die Schritte:

Schritt 501 : Ein Suchdokument/Text D1 ist gegeben.

Schritt 502: Das Profil von D1 wird erzeugt, beispielsweise entsprechend dem Verfahren der Figur 3.

Schritt 503: Mit D1_Profil wird im Bestand mit den Dokumenten Di gesucht. Dies erfolgt beispielsweise entsprechend den Verfahren der Figuren 2 und 4. Gemäß dem Verfahren nach Figur 4 wird zu jeweils zwei Dokumenten ein Ähnlichkeitswert S bestimmt. Auf der Basis der Ähnlichkeitswerte und Zeitstempel der Dokumente wird gemäß Figur 2 der Relevanzwert SRank zum Dokument D1 berechnet. Dabei kann vorgesehen sein, dass im der Bestand mit den Dokumenten Di solche Dokumente gesucht werden, die mindestens ein mit dem Profil von D1 übereinstimmendes Keyword aufweisen. Hierzu werden beispielsweise in einem inversen Dokumentenindex zu jedem Keyword des Profils von D1 die matchenden Dokumente identifiziert. Sofern kein übereinstimmendes Keyword vorliegt, ist der Ähnlichkeitswert zwischen dem Dokument D1 und dem jeweils weiteren Dokument gleich Null, so dass diese Dokumente nicht beachtet werden brauchen.

Alle matchenden Dokumente (die also mindestens ein übereinstimmendes Keyword mit dem Profil von D1 aufweisen) ergeben eine Treffer-Liste T_Liste. Der Relevanzwert SRank wird auf die genannte Weise für alle Dokumente der Treffer-Liste Bestands berechnet

Schritt 504: Die Dokumente der Trefferliste werden nach dem SRank sortiert. Alternativ erfolgt eine Sortierung unter Berücksichtigung weiterer Kriterien. So kann ein Dokument beispielsweise in der Trefferliste zuerst einmal umso höher gerankt werden, desto ähnlicher es zu dem Suchdokument ist. Zusätzlich kann in diesem Ranking dann der SRank als weiteres Kriterium für die Rangliste berücksichtigt werden, beispielsweise durch eine zusätzliche Gewichtung der Suchergebnisse mit dem SRank.

Die Figur 6 zeigt ein Flussdiagramm der initialen Erzeugung der Relevanzwerte für alle Dokumente eines bestehenden Bestandes von Dokumenten. Das Verfahren umfasst Schritte: Schritte 601 - 602: Initialisierung des Verfahrens.

Schritte 603 - 608: Diese Schritte zeigen die eigentliche (inkrementeile) Bestimmung des SRanks von zwei Dokumenten. In Schritt 603 wird dabei der Ähnlichkeitswert S beispielsweise gemäß dem Ausführungsbeispiel der Figur 4 bestimmt. Der Ähnlichkeitswert S kann aber auch in anderer Weise bestimmt werden. Gemäß den Schritten 606-607 wird der Ähnlichkeitswerte dabei nur dem jeweils älteren Dokument zugeordnet, das einen früheren Zeitstempel aufweist bzw. zu einem früheren Zeitpunkt erfasst wurde. Der Schritt 608 gilt dabei ausschließlich für den in der Praxis nicht oder nur äußerst selten auftretenden Sonderfall, dass beide betrachteten Dokumente exakt gleich alt sind.

Es wird darauf hingewiesen, dass in den Schritten 506-508 vereinfachend von „SRank (Di)“ bzw. „SRank (Dj)“ gesprochen wird. Der Relevanzwert SRank ergibt sich aus der Summe der zugeordneten Ähnlichkeitswerte der Einzelvergleiche. In den Schritten 506-508 ist somit lediglich ein Zwischenwert des Relevanzwerts SRank angegeben, und zwar ein Zwischenwert, der die Ähnlichkeitswerte der Einzelvergleiche bis zum Dokument Dj berücksichtigt.

Schritte 609 - 611 : Diese Schritte betreffen die Organisation der Schleife. Wenn ein Dokument Di mit sämtlichen anderen Dokumenten verglichen worden ist, werden in Schritt 611 i und j um den Wert „1“ inkrementiert.

Schritte 602 und 609 - 611 können alternativ durch folgendes Konstrukt ersetzt werden: Führe für alle i und j aus {1 , ... n}, mit der Bedingung i< j die Schritte 603 - 608 durch.

Figur 7 zeigt ein Flussdiagramm der Einführung eines neuen Dokumentes in einen bestehenden Bestand von Dokumenten einschließlich einer Aktualisierung der Relevanzwerte aller Dokumente.

Dabei werden initial alle vorhandenen S-Ranks der Bestand vorhandenen Dokumente als gegeben genommen werden und initial der SRank des neuen Dokumentes Dn1 auf Null gesetzt. Die Verfahrensschritte 704-709 entsprechen dabei den Verfahrensschritten 603- 608 der Figur 6, wobei alle bisherigen Dokumente D1 bis Dn des Bestandes durchlaufen werden und der SRank bezüglich des neuen Dokuments Dn1 für das jeweilige ältere Dokument neu berechnet wird. Es versteht sich, dass die Erfindung nicht auf die oben beschriebenen Ausführungsformen beschränkt ist und verschiedene Modifikationen und Verbesserungen vorgenommen werden können, ohne von den hier beschriebenen Konzepten abzuweichen. Weiter wird darauf hingewiesen, dass beliebige der beschriebenen Merkmale separat oder in Kombination mit beliebigen anderen Merkmalen eingesetzt werden können, sofern sie sich nicht gegenseitig ausschließen. Die Offenbarung dehnt sich auf alle Kombinationen und Unterkombinationen eines oder mehrerer Merkmale aus, die hier beschrieben werden und umfasst diese. Sofern Bereiche definiert sind, so umfassen diese sämtliche Werte innerhalb dieser Bereiche sowie sämtliche Teilbereiche, die in einen Bereich fallen.