Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND SYSTEM FOR PRODUCING A SUMMARY FOR AN OBJECT
Document Type and Number:
WIPO Patent Application WO/2011/047644
Kind Code:
A1
Abstract:
The invention relates to a method and to a system for producing summaries for objects, such as documents, wherein a tree data structure that references the object is analyzed, or bookmarks and/or markings within a document. Thus, summaries can also be produced for objects that are not text documents. Produced summaries and the associated objects can be stored in a memory device and provided to search engines in order to display the summaries together with the objects in a list of search results.

Inventors:
BEEL JOERAN (DE)
GIPP BELA (DE)
STILLER JAN-OLAF (DE)
Application Number:
PCT/DE2009/001453
Publication Date:
April 28, 2011
Filing Date:
October 19, 2009
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BEEL JOERAN (DE)
GIPP BELA (DE)
STILLER JAN-OLAF (DE)
International Classes:
G06F17/30
Other References:
DELORT J-Y ET AL: "Enhanced Web Document Summarization Using Hyperlinks", HYPERTEXT'03.THE 14TH. ACM CONFERENCE ON HYPERTEXT AND HYPERMEDIA. NOTTINGHAM, UK, AUG. 26 - 30, 2003; [ACM CONFERENCE ON HYPERTEXT AND HYPERMEDIA], NEW YORK, NY : ACM, US LNKD- DOI:10.1145/900051.900097, vol. CONF. 14, 26 August 2003 (2003-08-26), pages 208 - 215, XP002308306, ISBN: 978-1-58113-704-0
Download PDF:
Claims:
Patentansprüche

1. Computer-implementiertes Verfahren zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung, wobei das zumindest eine Objekt von zumindest einer Baumdatenstruktur referenziert wird, wobei die zumindest eine Baumdatenstruktur eine Anzahl von Knoten aufweist, von denen zumindest ein Knoten das zumindest eine Objekt referenziert, wobei den Knoten der zumindest einen Baumdatenstruktur ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist, und wobei die zumindest eine Baumdatenstruktur in einer Speichereinrichtung speicherbar ist, umfassend:

- Identifizieren der Knoten in der zumindest einen Baumdatenstruktur, welche das zumindest eine Objekt referenzieren;

- Eraiitteln der den identifizierten Knoten zugeordneten Texte; und

- Speichern der ermittelten Texte in einer Speichereinrichtung und Zuordnen der gespeicherten Texte zu dem jeweiligen Objekt, welches von dem jeweiligen Knoten referenziert wird, wobei die gespeicherten Texte eine Zusammenfassung des jeweiligen Objektes repräsentieren.

2. Verfahren nach Anspruch 1 , wobei das Identifizieren der Knoten weiter umfasst:

Identifizieren der Knoten, die sich in der Baumdatenstruktur auf dem Pfad zwischen einem Wurzelknoten der Baumdatenstruktur und dem das Objekt referenzierenden Knoten der Baumdatenstruktur befinden.

3. Verfahren nach Anspruch 1 oder 2, wobei für jeden gespeicherten Text zumindest ein Distanzwert gespeichert wird, welcher den Abstand des Textes zu dem das Objekt referenzierenden Knoten repräsentiert.

4. Verfahren nach Anspruch 3, wobei der Distanzwert die Anzahl der Kanten zwischen dem das Objekt referenzierenden Knoten und dem Knoten, dem der Text zugeordnet ist, umfasst.

5. Verfahren nach einem der Ansprüche 1 bis 4, wobei mehrere Baumdatenstrukturen zu einer einzigen Baumdatenstruktur zusammengefasst werden.

6. Verfahren nach einem der vorhergehenden Ansprüche, wobei vor dem Identifizieren der Knoten der mindestens einen Baumdatenstruktur ein Schritt zum Reduzieren der Baumdatenstruktur ausgeführt wird.

7. Verfahren nach Anspruch 6, wobei das Reduzieren umfasst:

- Löschen von Endknoten, welche keine Referenz zu einem Objekt repräsentieren, und/oder

- Reduzieren von Knoten, welche eine Referenz zu einem Objekt repräsentieren, auf die nächst höhere Ebene der Baumdatenstruktur, sodass jede Ebene der Baumdatenstruktur zumindest zwei Knoten aufweist, und/oder

- Filtern der Baumdatenstruktur nach vorherbestimmten Filterkriterien.

8. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Baumdatenstruktur über ein Kommunikationsnetzwerk von einer Clienteinrichtung an eine Servereinrichtung übertragen wird, wobei das Übertragen vor dem Identifizieren der Knoten der Baumdatenstruktur ausgeführt wird.

9. Verfahren nach Anspruch 8, wobei vor dem Übertragen die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert wird.

10. Verfahren nach Anspruch 8, wobei nach dem Übertragen die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert wird.

11. Verfahren nach einem der Ansprüche 9 oder 10, wobei das normierte Baumdatenstruktur-Format die Baumdatenstruktur im XML-Format beschreibt.

12. Computer-implementiertes Verfahren zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung, wobei das Objekt einer Analyse unterzogen wird und wobei die Analyse umfasst:

- Identifizieren der in dem Objekt enthaltenen Lesezeichen, wobei zumindest einem Lesezeichen ein Text zugeordnet ist;

- Ermitteln der den identifizierten Lesezeichen zugeordneten Texte; und

- Speichern der ermittelten Texte in einer Speichereinrichtung und Zuordnen der gespeicherten Texte zu dem jeweiligen Objekt, wobei die gespeicherten Texte eine Zusammenfassung des jeweiligen Objektes repräsentieren.

13. Verfahren nach Anspruch 12, wobei die Lesezeichen in einer hierarchischen Struktur angeordnet sind.

14. Verfahren nach Anspruch 13, wobei für jedes Lesezeichen in der hierarchischen Struktur zumindest ein Distanzwert ermittelt wird, wobei ein Distanzwert den Abstand des Lesezeichens zu einem Blattknoten, welcher ein Lesezeichen repräsentiert, repräsentiert.

15. Verfahren nach Anspruch 14, wobei der Distanzwert die Anzahl der Kanten zwischen einem Lesezeichen und einem Blattknoten, welcher ein Lesezeichen repräsentiert, umfasst.

16. Verfahren nach einem der Ansprüche 12 bis 15, wobei ein Lesezeichen ein vorbestimmter Ausschnitt des Objektes, vorzugsweise ein markierter Abschnitt eines einen Text aufweisendes Objektes ist.

17. Verfahren nach einem der Ansprüche 12 bis 16, wobei beim Identifizieren der Lesezeichen jene Lesezeichen ignoriert werden, welche eine vorbestimmte Ähnlichkeit zu einer in dem Objekt enthaltenen Überschrift aufweisen.

18. Verfahren nach Anspruch 16, wobei jene vorbestimmten Ausschnitte des Objektes ignoriert werden, welche sich über eine vorbestimmte Anzahl Zeilen des Textes erstrecken.

19. Computer-implementiertes Verfahren zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung, umfassend:

- Erzeugen einer ersten Zusammenfassung für das zumindest eine Objekt gemäß dem Verfahren nach einem der Ansprüche 1 bis 11 ;

- Erzeugen einer zweiten Zusammenfassung für das zumindest eine Objekt gemäß dem Verfahren nach einem der Ansprüche 12 bis 18; und

- Kombinieren der ersten Zusammenfassung und der zweiten Zusammenfassung, wobei die Kombination der ersten Zusammenfassung mit der zweiten Zusammenfassung die Zusammenfassung für das Objekt repräsentiert.

20. Verfahren nach einem der vorhergehenden Ansprüche, wobei mehrere ähnliche und/oder mehrere identische Zusammenfassungen für ein Objekt zu einer einzelnen Zusammenfassung zusammengefasst werden.

21. Verfahren nach Anspruch 20, wobei das Zusammenfassen der Zusammenfassungen ein Verwerfen der ähnlichen und/oder identischen Zusammenfassungen bis auf eine Zusammenfassung und/oder ein Speichern ein Ähnlichkeitswertes zu den ähnlichen und/oder identischen Zusammenfassungen umfasst, wobei der Ähnlichkeitswert im Relation zu einer gespeicherten Zusammenfassung gespeichert wird.

22. Verfahren nach einem der vorhergehenden Ansprüche, wobei eine für ein erstes Objekt erzeugte Zusammenfassung einem zweiten Objekt zugeordnet wird.

23. Verfahren nach Anspruch 22, wobei die Zuordnung dann erfolgt, wenn das zweite Objekt eine vorbestimmte Ähnlichkeit zum ersten Objekt aufweist.

24. Verfahren nach Anspruch 23, wobei das Bestimmen einer Ähnlichkeit zwischen dem ersten Objekt und dem zweiten Objekt umfasst:

- Identifizieren erster Referenzen in dem ersten Objekten und Identifizieren zweiter Referenzen in dem zweiten Objekt;

- Ermitteln, wie viele von den ersten Referenzen identisch mit Referenzen der zweiten Referenzen sind.

- Einstufen des zweiten Objektes als ähnlich zum ersten Objekt, wenn die Anzahl der identischen Referenzen einen vorbestimmten Wert bezogen auf die Anzahl der ersten Referenzen und/oder bezogen auf die Gesamtanzahl der ersten und zweiten Referenzen übersteigt.

25. Verfahren nach Anspruch 24, wobei beim Einstufen des zweiten Objektes als ähnlich zum ersten Objekt die Reihenfolge der ersten Referenzen in dem ersten Objekt und die Reihenfolge der zweiten Referenzen in dem zweiten Objekt berücksichtigt werden und wobei die beiden Objekte dann als ähnlich eingestuft werden, wenn die Reihenfolge einer vorbestimmten Anzahl von Referenzen übereinstimmt.

26. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Texte einer Texttransformation unterzogen werden, um aus den Texten jeweils einen transformierten Text zu erzeugen.

27. Verfahren nach Anspruch 26, wobei die Texttransformation zumindest eines aus Wortstammbildung (Stemming) und Stoppwort-Filterung umfasst.

28. Verfahren nach einem der vorhergehenden Ansprüche, wobei die Objekte in einer Speichereinrichtung gespeichert werden.

29. Verfahren nach einem der vorhergehenden Ansprüche, wobei ein Objekt zumindest eines aus Dokument, Bild, Musik, Film, Internetseite ist.

30. System zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung, umfassend eine Speichereinrichtung zum Speichern der Zusammenfassung, und eine Verarbeitungseinrichtung, welche mit der Speichereinrichtung gekoppelt ist und welche ausgestaltet ist ein Verfahren nach einem der vorhergehende Ansprüche auszuführen.

31. Datenträgerprodukt mit einem darauf gespeicherten Programmcode, welcher in einen Computer und / oder in ein Computernetzwerk ladbar ist und welcher ausgestaltet ist, ein Verfahren nach einem der Ansprüche 1 bis 29 auszuführen.

Description:
Verfahren und System zum Erzeugen einer Zusammenfassung für ein Objekt

Gebiet der Erfindung

Die Erfindung betrifft ein Verfahren und ein System zum Erzeugen einer Zusammenfassung für ein Objekt, etwa ein elektronisches Dokument.

Stand der Technik

Im Stand der Technik sind Suchmaschinen bekannt, welche als Ergebnis einer Suche zu jedem Suchergebnis einen kurzen Überblick für jedes Suchergebnis anzeigen. Bei Doku- mentensuchmaschinen, welche eine spezielle Art von Suchmaschinen darstellen, sind dies üblicherweise Auszüge aus den Textpassagen in denen das gesuchte Stichwort vorkommt. In Fig. 1 ist eine Ergebnisliste für eine aus dem Stand der Technik bekannte Dokumen- tensuchmaschine gezeigt. Es fällt auf, dass die angezeigten Textauszüge mit dem Dokumententitel übereinstimmen der ohnehin immer oberhalb des Überblicks angezeigt wird. Letztlich ist also die Anzeige der Textpassagen, in denen das Suchwort vorkommt, wenig hilfreich, um eine aussagekräftige Übersicht zu bekommen.

Auch sind zahlreiche Versuche bekannt geworden automatisch Zusammenfassungen von Texten zu erstellen, um diese etwa in einer Suchergebnisliste anzuzeigen. Allerdings scheitert ein maschinelles Erzeugen von Zusammenfassungen von Texten an der schlechten Intelligenz der Maschinen, die den Sinn eines Textes nicht erfassen können.

Keines der bekannt gewordenen Verfahren konnte eine zufrieden stellende Zusammenfassung, insbesondere für die Anzeige in einer Ergebnisliste erzeugen. Aufgabe der Erfindung

Aufgabe der vorliegenden Erfindung ist es, ein Verfahren und ein System bereitzustellen, mit welchen für Objekte zuverlässig und qualitativ hochwertige Zusammenfassungen erzeugt werden, ohne die aus dem Stand der Technik bekannten Nachteile aufzuweisen.

Erfmdungsgemäße Lösung

Diese Aufgabe wird durch die Verfahren mit den Merkmalen des Ansprüche 1, 12 und 19 und ein System mit den Merkmalen des Anspruches 30 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in der nachfolgenden Beschreibung sowie den weiteren Ansprüchen angegeben.

Demnach wird ein Verfahren zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung bereit gestellt, wobei das zumindest eine Objekt von zumindest einer Baumdatenstruktur referenziert wird, wobei die zumindest eine Baumdatenstruktur eine Anzahl von Knoten aufweist, von denen zumindest ein Knoten das zumindest eine Objekt referenziert, wobei den Knoten der zumindest einen Baumdatenstruktur ein Text, umfassend eine Anzahl von Wörter, zugeordnet ist, und wobei die zumindest eine Baumdatenstruktur in einer Speichereinrichtung speicherbar ist, und wobei das Verfahren folgende Schritte umfasst:

- Identifizieren der Knoten in der zumindest einen Baumdatenstruktur, welche das zumindest eine Objekt referenzieren;

- Ermitteln der den identifizierten Knoten zugeordneten Texte; und

- Speichern der ermittelten Texte in einer Speichereinrichtung und Zuordnen der gespeicherten Texte zu dem jeweiligen Objekt, welches von dem jeweiligen Knoten referenziert wird, wobei die gespeicherten Texte eine Zusammenfassung des jeweiligen Objektes repräsentieren. Als Datenquelle für das Erzeugen Zusammenfassungen von Objekten wird eine Baumdatenstruktur verwendet, in welcher die Objekte referenziert werden oder mit welcher ein Objekt in Beziehung steht. Im Folgenden wird der Begriff Baumdatenstruktur bzw. Baumdatenstrukturen verkürzt mit BDS bezeichnet. Die Begriffe "Referenzieren" und "Verlinken" bzw. die Begriffe "Referenz" und "Link" werden nachfolgend jeweils synonym verwendet. Aus Baumstrukturen können so Informationen extrahiert werden, mit denen Effizient und qualitativ hochwertige Zusammenfassungen für Objekte erzeugt werden können.

Gemäß der Erfindung können Baumdatenstrukturen sein: Verzeichnisstrukturen (z.B. Dateisysteme), Mind Maps oder sonstige hierarchische Strukturen, welche geeignet sind Referenzen zu Objekten zu speichern. Eine Baumdatenstruktur kann auch ein Computernetzwerk sein, wobei die Objekte auf unterschiedlichen Computern gespeichert sind und wobei die Objekte in einer hierarchischen Beziehung zueinander stehen (z.B. LDAP). Als Objekt wird beispielsweise eine elektronische Datei in einem Verzeichnis einer Verzeichnisstruktur bezeichnet oder ein Dokument welches aus einer Mind Map heraus referenziert oder verlinkt wird.

Ein Wesentlicher Vorteil von BDS ist, dass sie direkt und schnell analysiert werden können, ohne auf den Inhalt der Objekte zugreifen zu müssen. In dem Moment, wo eine BDS bei einem Anwender erstellt wird, kann sie sofort analysiert werden. Ein weiterer Vorteil ist, dass das Erzeugen einer Zusammenfassung für ein Objekt nahezu in Echtzeit erfolgen kann, was besonders dann vorteilhaft ist, wenn ein Benutzer beispielsweise ein Dokument aus einem Verzeichnis in ein anderes Verzeichnis verschiebt, was ein Neuerstellen einer Zusammenfassung für das verschobenen Objektes zur Folge haben kann.

Vorteilhaft ist insbesondere, dass auch Zusammenfassungen für Objekte erzeugt werden können, welche keinen Text oder keinerlei sonstige Textinformationen enthalten, wie etwa ein Bild, eine elektronische Grafik oder eine Musikdatei. Das Identifizieren der Knoten kann ein Identifizieren der Knoten, die sich in der Baumdatenstruktur auf dem Pfad zwischen einem Wurzelknoten der Baumdatenstruktur und dem das Objekt referenzierenden Knoten der Baumdatenstruktur befinden, umfassen.

Für jeden gespeicherten Text kann zumindest ein Distanzwert gespeichert werden, welcher den Abstand des Textes zu dem das Objekt referenzierenden Knoten repräsentiert. Der Distanzwert kann die Anzahl der Kanten zwischen dem das Objekt referenzierenden Knoten und dem Knoten, dem der Text zugeordnet ist, umfassen.

Mehrere Baumdatenstrukturen können auch zu einer einzigen Baumdatenstruktur zu- sammengefasst werden.

Vor dem Identifizieren der Knoten der mindestens einen Baumdatenstruktur kann ein Schritt zum Reduzieren der Baumdatenstruktur ausgeführt wird. Dadurch kann das Erzeugen von Zusammenfassungen weiter beschleunigt werden, was insbesondere dann vorteilhaft ist, wenn eine sehr große Anzahl von BDS analysiert werden muss.

Das Reduzieren kann umfassen:

- Löschen von Endknoten, welche keine Referenz zu einem Objekt repräsentieren, und/oder

- Reduzieren von Knoten, welche eine Referenz zu einem Objekt repräsentieren, auf die nächst höhere Ebene der Baumdatenstruktur, sodass jede Ebene der Baumdatenstruktur zumindest zwei Knoten aufweist, und/oder

- Filtern der Baumdatenstruktur nach vorherbestimmten Filterkriterien.

Die Baumdatenstruktur kann über ein Kommunikationsnetzwerk von einer Clienteinrichtung an eine Servereinrichtung übertragen wird, wobei das Übertragen vor dem Auslesen der Knoten der Baumdatenstruktur ausgeführt werden kann. Vor dem Übertragen oder nach dem Übertragen kann die Baumdatenstruktur in ein normiertes Baumdatenstruktur-Format konvertiert werden. Damit kann auf sämtliche BDS auf die gleiche Weise zugegriffen werden. Das normierte Baumdatenstruktur-Format kann dabei eine Baumdatenstruktur im XML-Format sein.

Bereit gestellt wird auch ein Verfahren zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung, wobei das Objekt einer Analyse unterzogen wird und wobei die Analyse zumindest folgende Schritte umfasst:

- Identifizieren der in dem Objekt enthaltenen Lesezeichen, wobei zumindest einem Lesezeichen ein Text zugeordnet ist;

- Ermitteln der den identifizierten Lesezeichen zugeordneten Texte; und

- Speichern der ermittelten Texte in einer Speichereinrichtung und Zuordnen der gespeicherten Texte zu dem jeweiligen Objekt, wobei die gespeicherten Texte eine Zusammenfassung des jeweiligen Objektes repräsentieren.

Die Lesezeichen können in einer hierarchischen Struktur angeordnet sein.

Für jedes Lesezeichen kann in der hierarchischen Struktur zumindest ein Distanzwert ermittelt werden, wobei ein Distanzwert den Abstand des Lesezeichens zu einem Blattknoten, welcher ein Lesezeichen repräsentiert, repräsentiert.

Der Distanzwert kann die Anzahl der Kanten zwischen einem Lesezeichen und einem Blattknoten, welcher ein Lesezeichen repräsentiert, umfassen.

Ein Lesezeichen kann ein vorbestimmter Ausschnitt des Objektes, vorzugsweise ein markierter Abschnitt eines einen Text aufweisendes Objektes sein.

Beim Identifizieren der Lesezeichen können jene Lesezeichen ignoriert werden, welche eine vorbestimmte Ähnlichkeit zu einer in dem Objekt enthaltenen Überschrift aufweisen. Es können jene vorbestimmten Ausschnitte des Objektes ignoriert werden, welche sich über eine vorbestimmte Anzahl Zeilen des Textes erstrecken.

Die vorgenannten Verfahren

- Verfahren zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung, wobei das zumindest eine Objekt von zumindest einer Baumdatenstruktur refe- renziert wird, und

- Verfahren zum Erzeugen einer zumindest ein Objekt beschreibenden Zusammenfassung, wobei das Objekt einer Analyse unterzogen wird,

können kombiniert werden, um eine noch bessere Zusammenfassung für ein Objekt zu erzeugen. Die Reihenfolge, in welcher die vorgenannten Verfahren zum Erzeugen einer Zusammenfassung angewandt werden, ist dabei unerheblich.

Mehrere ähnliche und/oder mehrere identische Zusammenfassungen für ein Objekt können zu einer einzelnen Zusammenfassung zusammengefasst werden.

Das Zusammenfassen der Zusammenfassungen kann ein Verwerfen der ähnlichen und/oder identischen Zusammenfassungen bis auf eine Zusammenfassung und/oder ein Speichern eines Ähnlichkeits wertes zu den ähnlichen und/oder identischen Zusammenfassungen umfassen, wobei der Ähnlichkeitswert in Relation zu einer gespeicherten Zusammenfassung gespeichert wird.

Eine für ein erstes Objekt erzeugte Zusammenfassung kann einem zweiten Objekt zugeordnet werden. Das ist insbesondere für solche Objekte vorteilhaft, bei denen es sich um wissenschaftliche Publikationen handelt. Die Zuordnung kann dann erfolgen, wenn das zweite Objekt eine vorbestimmte Ähnlichkeit zum ersten Objekt aufweist.

Das Bestimmen einer Ähnlichkeit zwischen dem ersten Objekt und dem zweiten Objekt kann umfassen: - Identifizieren erster Referenzen in dem ersten Objekten und Identifizieren zweiter Referenzen in dem zweiten Objekt;

- Ermitteln, wie viele von den ersten Referenzen identisch mit Referenzen der zweiten Referenzen sind.

- Einstufen des zweiten Objektes als ähnlich zum ersten Objekt, wenn die Anzahl der identischen Referenzen einen vorbestimmten Wert bezogen auf die Anzahl der ersten Referenzen und/oder bezogen auf die Gesamtanzahl der ersten und zweiten Referenzen übersteigt.

Beim Einstufen des zweiten Objektes als ähnlich zum ersten Objekt kann die Reihenfolge der ersten Referenzen in dem ersten Objekt und die Reihenfolge der zweiten Referenzen in dem zweiten Objekt berücksichtigt werden, wobei die beiden Objekte dann als ähnlich eingestuft werden, wenn die Reihenfolge einer vorbestimmten Anzahl von Referenzen übereinstimmt.

Die Texte können einer Texttransformation unterzogen werden, um aus den Texten jeweils einen transformierten Text zu erzeugen.

Die Texttransformation kann zumindest eines aus Wortstammbildung (Stemming) und Stoppwort-Filterung umfassen.

Die Objekte können in einer Speichereinrichtung gespeichert werden.

Ein Objekt kann zumindest eines aus Dokument, Bild, Musik, Film, Intemetseite, und elektronisch speicherbare Datei sein. Ein Objekt kann aber auch ein physisches Objekt, z.B. ein Buch sein, welches von einer BDS anhand z.B. des Titels referenziert wird.

Bereitgestellt durch die Erfindung und zur Lösung der technischen Aufgabe wird auch ein System zum Erzeugen einer Zusammenfassung für zumindest ein Objekte, wobei das System ausgestaltet ist, das erfindungsgemäße Verfahren auszuführen. Kurzbeschreibung der Figuren

Die weitere Erläuterung der Erfindung erfolgt anhand der Zeichnung. In der Zeichnung zeigt:

Fig. 1 eine Ergebnisliste einer aus dem Stand der Technik bekannten Suchmaschine;

Fig. 2 bis 4 Beispiele von Baumdatenstrukturen in nicht-reduzierter Form und reduzierter Form;

Fig. 5 ein Beispiel von Lesezeichen in hierarchische Struktur; und

Fig. 6 ein Beispiel von zwei Dokumenten zur Ähnlichkeitsbestimmung der beiden Dokumente.

Beschreibung einer bevorzugten Ausführungsform

Gemäß der Erfindung werden Zusammenfassungen für Objekte (z.B. Webseiten, Personen, Dokumente, Bilder, Musik, Filme, Wörter, etc.) erzeugt, um die Zusammenfassung etwa in einer Suchergebnislist zusammen mit den gefundenen Objekten anzuzeigen. Die Klassifizierung der Objekte basiert auf Daten, welche aus Baumdatenstrukturen, wie etwa Mind Maps oder Dateisystemen gewonnen werden, wobei die Objekte aus den BDS verlinkt bzw. referenziert werden, und auf den Objekten selbst. Erfindungsgemäß werden Zusammenfassungen für Objekte, die aus einer BDS verlinkt sind, mit den Worten erzeugt, welche sich in der Nähe des Links bzw. der Referenz befinden. Objekte, welche nicht aus einer BDS verlinkt sind, werden analysiert (z.B. indem Lesezeichen und Markierungen des Objektes bzw. des Dokumentes identifiziert und ausgewertet werden) und aus dem Analyseergebnis wird eine Zusammenfassung erzeugt.

Beide Verfaliren können auch kombiniert werden. Damit können für das Erzeugen einer Zusammenfassung für ein Objekt sowohl Wörter herangezogen werden, welche sich in einer BDS in der Nähe der Referenz zu dem referenzierten Objekt befinden, als auch Wörter, welche sich aus dem Analyseergebnis einer Dokumentenanalyse ergeben.

Eine bevorzugte Ausführungsform der Erfindung wird nachfolgend anhand von Dokumenten beschrieben, wobei das Verfahren erfindungsgemäß auch für andere Arten von Objekten, etwa Bilder und Musik anwendbar ist, um Zusammenfassungen zu erzeugen.

Das Verfahren zum Erzeugen von Zusammenfassungen für Objekte kann durch eine Software implementiert werden, welche z.B. eine Client-Software und/oder eine Server- Software umfassen kann.

1. Softwareinstallation und Datenübertragung an Server

Ein Benutzer kann eine Client-Software installieren, um das erfindungsgemäße Verfahren auszuführen. Die Software identifiziert alle relevanten BDS bzw. vom Benutzer generierten Daten auf dem Computer des Anwenders, welche sich zum Erzeugen von Zusammenfassungen eignen. Eine BDS wird z.B. über die Dateiendung identifiziert oder über den Header von Dateien oder indem sie explizit durch den Anwender ausgewählt wird. Die Software startet entweder automatisch im Hintergrund beim Hochfahren des Computers, durch explizites Starten durch den Anwender oder durch den Aufruf einer dritten Applikation. Dokumente, z.B. Dokumente im PDF-Format, werden vorzugsweise automatisch identifiziert, entweder anhand der Dateiendung oder dem Dateiheader. Die Software kann alle Speichermedien (Festplatte, DVDs, Netzwerk, etc.) durchsuchen oder nur den Arbeitsspeicher betrachten, d.h. nur die BDS bzw. Dokumente analysieren, welche gerade geöffnet sind oder anderweitig verarbeitet werden.

Die BDS bzw. die Dokumente werden bei Bedarf gefiltert nach Faktoren, z.B.

- Größe (Dateigröße, Anzahl der Knoten bzw. referenzierten Objekte in der BDS, Anzahl der Lesezeichen in einer Datei, Anzahl der Markierungen in einer Datei)

- Letztes Änderungsdatum und/oder Erstelldatum

- Änderungsfrequenz (Anzahl Änderungen innerhalb eines Zeitraum) - Anzahl der Links auf Objekte in einer BDS (z.B. dass eine Mind Map mindestens 20 Links zu Objekten beinhalten muss, bevor sie berücksichtigt wird)

- Anzahl der Lesezeichen in einer Datei

- Speicherort (nur die BDS aus bestimmten Verzeichnissen)

- Ob die Daten als "öffentlich" markiert sind

- BDS-Typ (nur Mind Maps einer bestimmten Software, nur das Dateisystem, nur Dokumente im PDF-Format, etc.).

Die Faktoren können beliebig eingestellt oder miteinander kombiniert werden. So könnten beispielsweise nur BDS bzw. Objekte berücksichtigt werden, welche in den letzten 2 Monaten erstellt wurden, mindestens 10 Links zu Objekten enthalten aber in den letzten 3 Tagen nicht mehr geändert wurden und vom Benutzer explizit dafür gekennzeichnet wurden, an den Server übertragen zu werden. Bei Bedarf werden die BDS bzw. die Objekte in ein anderes Format konvertiert. Zum Beispiel könnten proprietäre Mind Map Dateien oder Dokumente im PDF-Format ins XML-Format konvertiert werden. Die BDS bzw. die Objekte werden dann an einen Server übermittelt, wobei die Server-Software ggf. auf dem Computer des Anwenders laufen kann auf dem sich auch die BDS bzw. die Objekte befinden. Das Übertragen ist ein optionaler Schritt, d.h. das Verfahren zum Erzeugen der Zusammenfassungen kann auch mittels der Clientsoftware realisiert sein. Die vom Server empfangenen Daten können an eine Zusammenfassungseinrichtung übergeben werden, welche für die übergebenen Daten Zusammenfassungen erstellt und diese wiederum dem Server übergibt. Die Zusammenfassungseinrichtung kann ein speziell zum Erzeugen von Zusammenfassungen ausgestaltetet Computer sein.

2. Speichern der Daten auf Server

Bei Bedarf werden die BDS in ein anderes Format konvertiert (zum Beispiel von einem proprietären Format in XML). Der Server speichert die Daten auf der Festplatte, im Arbeitsspeicher, in einer Datenbank oder einem anderen geeigneten Medium. Ggf. werden die BDS bzw. die Objekte wieder gefiltert nach den bereits genannten Faktoren. 3. Reduzieren der Baumdatenstruktur

In manchen Fällen ist es vorteilhaft, die BDS zu vereinfachen, bevor Zusammenfassungen für die in der BDS referenzierten Objekte erzeugt werden. Das Vereinfachen der BDS kann durch Reduzieren der BDS erfolgen. Das Reduzieren der BDS kann wie folgt erfolgen:

- Löschen aller Endknoten die keine Links auf Objekte haben. Fig. 2 zeigt links eine BDS in Nicht-reduzierter Form und rechts eine BDS in reduzierter Form, bei der alle Endknoten, die keine Links auf Objekte enthalten, gelöscht worden sind.

- Reduzieren der Linkknoten, die keine Geschwisterknoten haben auf die nächstmögliche höhere Ebene in der BDS, sodass Geschwister entstehen. Ein Beispiel hierfür ist in Fig. 3 angegeben.

- Zusammenfassen von Knoten, die ein Objekt ohne aussagekräftige Beschreibung verlinken. In diesem Fall wird der Linkknoten mit dem Elternknoten zusammengefasst. Eine nicht aussagekräftige Beschreibung ist beispielsweise, wenn der Knotenname gleich dem Dateinamen des verlinkten Objektes oder eine Zahl ist. Ein Beispiel hierfür ist in Fig. 4 angegeben.

- Filtern nach Benutzerangaben oder bestimmten Texten, etwa Knoten die in der BDS als„privat" oder ähnlichem gekennzeichnet sind, werden ignoriert und/oder Knoten (und Unterknoten), deren Elternknoten„temp",„todo",„noch einsortieren",„xxx" etc. heißen werden ignoriert. Die Wörter können vom Nutzer oder dem Programmierer vorgegeben werden.

- Es können bestimmte Zweige in der BDS ausgewählt werden, die (nicht) analysiert werden sollen. Dies ist insbesondere bei Dateisystemen wichtig, sodass der Anwender z.B. auswählen kann, dass nur Verzeichnisse und Dateien in c:\meine dateien\ untersucht werden und nicht aus c:\windows\.

- Kombination der vorstehenden Verfahren zum Reduzieren von BDS.

Lesezeichen in Dokumenten können ebenfalls hierarchisch aufgebaut sein (vgl. Fig. 5). Auch diese hierarchische Struktur kann ggf. mit den vorgenannten Verfahren reduziert werden, um eine vereinfachte Form der hierarchischen Struktur von Lesezeichen zu erhalten.

5. Vorverarbeiten der Objekte

Objekte, welche aus BDS referenziert werden oder für welche direkt eine Zusammenfassung erzeugt werden soll, können vorverarbeitet werden, bevor die Zusammenfassung erzeugt wird. Das Vorverarbeiten kann einerseits die Geschwindigkeit des Erzeugens von Zusammenfassungen deutlich erhöhen, andererseits kann auch die Qualität von Zusammenfassungen verbessert werden. Das Vorverarbeiten kann umfassen:

- alle Lesezeichen werden entfernt, die genauso lauten wir eine Überschrift im Objekt; und/oder

- alle markierten Textpassagen werden ignoriert, bei denen die Markierung über mehr als n Zeilen geht.

Weitere Vorverarbeitungsschritte können ergänzend hierzu oder alternativ hierzu vorgesehen sein.

4. Erzeugen von Zusammenfassungen

Zunächst werden alle Objekte identifiziert, zu denen eine Zusammenfassung erzeugt werden soll.

Das Identifizieren der Objekte, welche in einer BDS referenziert sind, kann wie folgt ablaufen: in der BDS werden jene Knoten gesucht, die auf ein Objekt verlinken bzw. die ein Objekt referenzieren. Zum Beispiel wird nach Hyperlinks, Dateinamen und/oder Pfade, Verknüpfungen und/oder nach indirekten Verweisen auf Objekte, wie etwa BibTeX Keys, Aktenzeichen, und ähnliche eindeutige Schlüssel oder Dokumentennamen (oder Titel) gesucht. Nachdem alle Knoten gefunden wurden, die auf Objekte verlinken bzw. referenzieren, müssen diese Objekte identifiziert werden, damit klar ist, worum es sich handelt. Dies kann in einer Ausführungsform wie folgt erfolgen: a. Wurde ein Hyperlink gefunden kann i. der Hyperlink selbst als Identifikator dienen

ii. im Falle einer Webseite (z.B. im HTML bzw. xHTML Format) der Titel aus der verlinkten Webseite ausgelesen werden (Den Text zwischen den Tags <title> und </title> )

iii. im Falle, dass eine Datei verlinkt wurde (PDF, AVI, BMP, ...) wie im nächsten Schritt verfahren werden

b. Wurde eine Datei verlinkt wird der Objekttyp über die Dateiendung (z.B. ".pdf) oder den Header der Datei identifiziert. Je nach Dateityp können dann weitere Verfahren angewandt werden. Zum Beispiel

i. Auslesen der Dateimetadaten (Titel oder Autor, sofern vorhanden), abhängig vom Betriebssystem und Dateityp.

ii. im Falle eines formatierten Textdokumentes (z.B. Word Dokument oder PDF):

Auslesen des Titels indem der Text mit der größten Schrift auf der ersten Seite im oberen Drittel bestimmt wird und der über weniger als vier Zeilen geht. Dieser Text wird dann als Titel angenommen (die hier genannten Zahlenwerte können natürlich beliebig ausgetauscht werden, sodass z.B. nicht im oberen Drittel sondern im oberen Viertel gesucht wird).

iii. im Falle eines JPEG: Auslesen der EXIF oder IPTC Metadaten.

iv. sonst: Hashwert erzeugen (z.B. MD5) oder Dateiname und Pfad der Datei.

c. Wurde ein indirekter Verweis auf ein Objekt gefunden, zum Beispiel ein BibTeX key, wird auf allen zugänglichen Speichermedien nach der entsprechenden BibTeX Datei gesucht und dort die Metadaten des Objektes ausgelesen.

d. Die Daten (z.B. Titel, Hashwert,...) die bestimmt wurden, können mit vorhandenen Daten in einer Datenbank (Wissensbasis) abgeglichen werden. Wurde Beispielsweise aus einem Objekt als Dokumententitel„Der Tree Proximity Index - wofür ist er gut?" extrahiert und in der Datenbank ist bereits ein Objekt mit dem Titel„Der Tree Proximity Index: wofür ist er gut?" vorhanden, ist es vermutlich das gleiche Objekt trotz des kleinen Unterschiedes. Der Schritt b. wird auch für Objekte angewandt, welche nicht von einer BDS referenziert werden, für welche aber eine Zusammenfassung erstellt werden soll.

Im nächsten Schritt wird für die identifizierten Objekte jeweils eine Zusammenfassung erzeugt, und zwar vorzugsweise, wie anhand von Fig. 4 beschrieben wird, wie folgt:

Im Falle einer BDS wird

a. der Text des Knoten A (z.B. Aussage 1), der ein Objekt verlinkt wird ausgelesen; b. dieser Text wird z.B. in einer Datenbank gespeichert und dem Objekt z.B. über eine eindeutige Kennung zugeordnet. Zudem wird gespeichert, von welchem Datentyp die Information extrahiert wurde. Beispielsweise 1 für PDF, 2 für BDS, etc.

c. Zusätzlich kann der Text des Elternknotens (z.B. Zweig 1) von Knoten A ausgelesen werden und mit Schritt b. fortgefahren werden bis die Wurzel der BDS erreicht wird. D.h., die Texte jener Knoten werden ermittelt, welche sich auf dem Pfad zwischen der Wurzel und dem das Objekt referenzierenden Knoten befinden. Zusätzlich wird für jeden Knoten gespeichert, wie weit er von dem das Objekt referenzierenden Knoten entfernt ist, d.h. es wird ein Distanzwert ermittelt. Der Distanzwert kann etwa die Anzahl der Kanten zwischen dem das Objekt referenzierenden Knoten und dem den Text enthaltenden Knoten sein. So würde beispielsweise mit Bezug auf Fig. 4 für das Dokument welches hinter„Aussage 3" verlinkt ist (und welches zum Beispiel in der Datenbank mit der eindeutigen Kennung "1234" gespeichert ist), nach Ende aller Durchläufe folgendes gespeichert:

ObjectJD Distance Text Type

1234 0 Aussage 3 2

1234 1 Zweig 1 2

1234 2 Original 2

Abweichende Varianten hiervon, z.B. beim Bestimmen des Distanzwertes oder beim Ermitteln der Knoten, aus denen die Texte für die Zusammenfassung ausgelesen werden, sind ebenfalls von dem erfindungsgemäßen Verfahren umfasst. Im Falle einer Dokumentes (z.B. PDF-Datei) wird in einer Ausführungsform wir folgt verfahren:

a. Auslesen aller Lesezeichen

b. Speichern der Lesezeichen in einer Datenbank. Hierbei ist zu berücksichtigen, dass Lesezeichen ebenfalls in einer hierarchisch in Baumstruktur gespeichert sein können (vgl. Fig. 5). Die hierarchische Baumstruktur von Lesezeichen kann vorverarbeitet werden, wie es oben für BDS beschrieben wird ist.

c. Anschließend werden alle markierten Textpassagen in dem Dokument extrahiert und in der Datenbank gespeichert.

Beim Speichern im Schritt b. und c. wird auch gespeichert, auf welches Objekt sich der Text bezieht.

5. Zusammenfassen von Zusammenfassungen

Wurden für mehrere Anwender unabhängig voneinander gleiche oder nahezu gleiche Zusammenfassungen erzeugt (oder wurden aus mehreren Dateien eines Anwenders gleiche oder ähnliche Zusammenfassungen erzeugt), können diese wiederum zusammengefasst werden. Das bedeutet, wenn eine neue Zusammenfassung extrahiert wird und eine sehr ähnliche Zusammenfassung bereits in der Datenbank vorhanden ist, wird die neue Zusammenfassung verworfen oder die neue Zusammenfassung wird in der Datenbank gespeichert und die Ähnlichkeit der neuen Zusammenfassung mit der bereits vorhandenen Zusammenfassung wird ebenfalls in der Datenbank gespeichert.

6. Ähnlichkeitsberechnung von Objekten

Wenn nicht für alle Objekte, für welche jeweils eine Zusammenfassung erzeugt werden soll, mit dem erfindungsgemäßen Verfahren eine Zusammenfassung erzeugbar ist (weil etwa ein Objekt weder in einer BDS verlinkt wird noch Lesezeichen oder markierte Abschnitte im Dokument hat) kann für diese Objekte jeweils eine Zusammenfassung eines jeweils ähnlichen Objektes übernommen werden. D.h. eine Zusammenfassung von Objekt A kann für Objekt B übernommen werden, wenn Objekt A und Objekt B sich sehr ähnlich bzw. nahezu identisch sind. Die Ähnlichkeit von Objekt A zu Objekt B kann wie folgt ermittelt werden: a. In den zu vergleichenden Dokumenten werden alle Referenzen im Text identifiziert; b. Je mehr gleiche Referenzen in den beiden Dokumenten vorhanden sind und je mehr Referenzen in der gleichen Reihenfolge vorhanden sind, desto ähnlicher sind sich die Dokumente. Fig. 6 veranschaulicht das. Dokument A und Dokument B haben jeweils drei Referenzen. Die jeweiligen Referenzen befinden sich zwar nicht an den genau gleichen Stellen aber in der gleichen Reihenfolge. Wenn zwei Dokumente jeweils die gleichen Referenzen in der gleichen Reihenfolge enthalten, werden diese beiden Dokumente gemäß der Erfindung als identisch oder als nahezu identisch betrachtet. In einem solchen Fall kann z.B. angenommen werden, dass es sich bei einem der beiden Dokumente um eine Übersetzung handelt oder um eine frühere Version eines Dokumentes, sich die Dokumente aber inhaltlich sehr ähnlich sind. In einem solchen Fall kann die Zusammenfassung eines ersten Dokumentes auch für das zweite Dokument übernommen werden, wenn für das zweite Dokument keine Zusammenfassung erzeugbar ist. Dokumente können auch als (sehr) ähnlich betrachten werden, wenn nur ein Teil der Referenzen übereinstimmt und/oder in der gleichen Reihenfolge vorkommen. Andere Verfahren zum Bestimmen der Ähnlichkeit von Dokumenten könne e- benfalls herangezogen werden.

Gewerbliche Anwendbarkeit der Erfindung

Das erfindungsgemäße Verfahren kann dazu genutzt werden, um bei Suchmaschinen Zusammenfassung von Objekten anzuzeigen (alternativ oder zusätzlich zu den gängigen Informationen, wie etwa Textextrakte, Autorinformationen, etc.). Hierbei können entweder alle zu einem Objekt vorhandenen Daten angezeigt werden oder nur einige dies Daten, zum Beispiel nur Zusammenfassungen, die von Daten mehrerer Anwendern zu einem Objekt stammen (also, wenn aus Daten mehrerer Anwender sehr ähnliche Zusammenfassungen erstellt wurden). Zusätzlich können Zusammenfassungen angezeigt werden von Objekten die zwar nicht in der Such-Trefferliste sind aber sehr ähnlich zu den angezeigten Objekten sind.