Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR ANALYZING ELEMENTS OF A TEXT COLLECTION, AND METHOD AND DEVICE FOR SEARCHING FOR INFORMATION IN DIGITAL DATA
Document Type and Number:
WIPO Patent Application WO/2020/193591
Kind Code:
A1
Abstract:
The invention relates to methods for analyzing elements of a first text collection and to devices and to methods for searching for information in a set of digital data, in particular in a computer network.

Inventors:
HAETTY ANNA CONSTANZE (DE)
Application Number:
PCT/EP2020/058253
Publication Date:
October 01, 2020
Filing Date:
March 25, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G06F16/332; G06F16/951; G06F16/953
Other References:
ELIZABETH LIDDY: "How a Search Engine Works", 5 August 2008 (2008-08-05), pages 1 - 5, XP055317216, Retrieved from the Internet [retrieved on 20161108]
ANONYMOUS: "Web crawler - Wikipedia, the free encyclopedia", 4 July 2011 (2011-07-04), XP055166414, Retrieved from the Internet [retrieved on 20150202]
TOMAS MIKOLOV: "Distributed representations of words and phrases and their compositionality", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 2013, pages 3111 - 3119
P. BOJANOWSKIE. GRAVEA. JOULINT. MIKOLOV, ENRICHING WORD VECTORS WITH SUBWORD INFORMATION, 2012
TOMAS MIKOLOV: "Advances in Neural Information Processing Systems", 2013, CURRAN ASSOCIATES, INC., article "Distributed representations of words and phrases and their compositionality", pages: 3111 - 3119
Download PDF:
Claims:
Ansprüche

1. Verfahren zur Analyse von Elementen (E) einer ersten Textsammlung (K1), aufweisend die folgenden Schritte: Bereitstellen (102) der ersten

Textsammlung (K1), Bereitstellen (104) einer zweiten Textsammlung (K2), die von der ersten Textsammlung (K1) verschieden ist, Ermitteln (106) eines ersten Vektorraummodells (M1), das einen mit der ersten Textsammlung (K1) assoziierten ersten Vektorraum charakterisiert, Ermitteln (108) eines zweiten Vektorraummodells (M2), das einen mit der zweiten Textsammlung (K2) assoziierten zweiten Vektorraum charakterisiert, Ermitteln (110) eines modifizierten zweiten Vektorraummodells (M2‘) in Abhängigkeit einer Abbildung (T) des zweiten Vektorraums auf den ersten Vektorraum,

Analysieren (120) wenigstens eines Elements (E) der ersten Textsammlung (K1) in Abhängigkeit eines mit dem wenigstens einen Element (E) korrespondierenden ersten Wortvektors (WV1) des ersten

Vektorraummodells (M1) und eines mit dem wenigstens einen Element (E) korrespondierenden zweiten Wortvektors (WV2) des modifizierten zweiten Vektorraummodells (M2‘).

2. Verfahren nach Anspruch 1 , wobei das Analysieren (120) die Ermittlung einer ersten Größe (G1) aufweist, die eine Vektordistanz zwischen dem ersten Wortvektor (WV1) und dem zweiten Wortvektor (WV2) charakterisiert, wobei insbesondere die erste Größe (G1) eine Bedeutungsverschiebung (BV) des wenigstens einen Elements (E) von der zweiten Textsammlung (K2), die beispielsweise eine Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung (K1) assoziierten Domäne, beispielsweise einer Fachsprache, charakterisiert.

3. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das Analysieren (120) die Bildung einer Kosinus-Distanz oder einer euklidischen Distanz zwischen dem ersten Wortvektor (WV1) und dem zweiten

Wortvektor (WV2) aufweist. 4. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei die erste Textsammlung (K1) eine themenspezifische und/oder fachspezifische Textsammlung ist, und/oder wobei die zweite Textsammlung (K2) eine nicht themenspezifische und/oder nicht fachspezifische Textsammlung, insbesondere eine allgemeinsprachliche Textsammlung, ist.

5. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das Bereitstellen (102) der ersten Textsammlung (K1) und/oder das Bereitstellen (104) der zweiten Textsammlung (K2) aufweist: a) Sammeln von Texten und/oder Wörtern in einem Computer und/oder Computernetzwerk, insbesondere mittels Crawling von Websites, und/oder b) Sammeln von Texten und/oder Wörtern aus digitalen bzw. digitalisierten Büchern.

6. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei Wortvektoren solcher Elemente der Textsammlungen (K1 , K2) verworfen werden, die nur in einer der beiden Textsammlungen (K1 , K2) Vorkommen.

7. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das wenigstens eine Element (E) der ersten Textsammlung (K1) mittels eines Termextraktionsverfahrens (TE) ermittelt wird.

8. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Einbringen (104a) eines Teils der ersten Textsammlung (K1) in die zweite Textsammlung (K2) und/oder umgekehrt.

9. Verwendung des Verfahrens nach wenigstens einem der vorstehenden

Ansprüche zur Ermittlung einer Bedeutungsverschiebung (BV) wenigstens eines Elements (E) der ersten Textsammlung (K1) von der zweiten

Textsammlung (K2), die beispielsweise eine Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung (K1) assoziierten Domäne, beispielsweise einer Fachsprache, insbesondere zur Ermittlung einer Stärke der Bedeutungsverschiebung (BV) des wenigstens einen Elements (E) der ersten Textsammlung (K1) von der zweiten Textsammlung (K2) zu der mit der ersten Textsammlung (K1) assoziierten Domäne, wobei insbesondere das Verfahren weiter aufweist wenigstens eines der folgenden Elemente: a) ermitteln eines Bias-Vektors, insbesondere für Termextraktionsverfahren, in Abhängigkeit der Bedeutungsverschiebung (BV), b) Ermitteln eines aktuellen page rank-Werts in Abhängigkeit der Bedeutungsverschiebung (BV), insbesondere in Abhängigkeit des Bias-Vektors. 10. Vorrichtung (200) zur Analyse von Elementen (E) einer ersten

Textsammlung (K1), wobei die Vorrichtung zur Ausführung der folgenden Schritte ausgebildet ist: Bereitstellen (102) der ersten Textsammlung (K1), Bereitstellen (104) einer zweiten Textsammlung (K2), die von der ersten Textsammlung (K1) verschieden ist, Ermitteln (106) eines ersten

Vektorraummodells (M1), das einen mit der ersten Textsammlung (K1) assoziierten ersten Vektorraum charakterisiert, Ermitteln (108) eines zweiten Vektorraummodells (M2), das einen mit der zweiten Textsammlung (K2) assoziierten zweiten Vektorraum charakterisiert, Ermitteln (110) eines modifizierten zweiten Vektorraummodells (M2‘) in Abhängigkeit einer Abbildung (T) des zweiten Vektorraums auf den ersten Vektorraum, Analysieren (120) wenigstens eines Elements (E) der ersten Textsammlung (K1) in Abhängigkeit eines mit dem wenigstens einen Element (E) korrespondierenden ersten Wortvektors (WV1) des ersten

Vektorraummodells (M1) und eines mit dem wenigstens einen Element (E) korrespondierenden zweiten Wortvektors (WV2) des modifizierten zweiten Vektorraummodells (M2‘).

11. Vorrichtung (200) nach Anspruch 10, wobei die Vorrichtung zur Ausführung des Verfahrens nach wenigstens einem der Ansprüche 2 bis 8 ausgebildet ist.

12. Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk, aufweisend die folgenden Schritte: Bereitstellen (10) von Seed-Informationen (Sl), die ein oder mehrere Startpunkte in der Menge digitaler Daten, insbesondere in dem Computernetzwerk, für die Suche der Informationen charakterisieren, Suchen (12) von Informationen in dem Computernetzwerk in Abhängigkeit der Seed-Informationen (Sl), wobei für das Bereitstellen (10) der Seed- Informationen (Sl) ein Verfahren gemäß wenigstens einem der vorstehenden Ansprüche verwendet wird.

13. Verfahren nach Anspruch 12, wobei das Bereitstellen (10) der Seed- Informationen (Sl) aufweist: Vorgeben (10a) einer ersten Anzahl von Begriffen für die Suche, Ermitteln (10b) einer Bedeutungsverschiebung (BV) der ersten Anzahl von Begriffen für die Suche in Abhängigkeit der ersten Größe (G1), Verwenden (10c) derjenigen Begriffe der ersten Anzahl von Begriffen als Seed-Informationen (Sl) für das Suchen (12), deren

Bedeutungsverschiebung (BV) einen vorgebbaren ersten Schwellwert unterschreitet. 14. Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk oder einer Datenbank, aufweisend die folgenden Schritte: Empfangen (20) eines Suchbegriffs (Q), Bewerten (22) des Suchbegriffs in Abhängigkeit einer mittels des Verfahrens gemäß wenigstens einem der Ansprüche 1 bis 8 ermittelten Bedeutungsverschiebung (BV) des Suchbegriffs (Q) bezüglich der zweiten Textsammlung (K2), und, in Abhängigkeit der Bewertung (22), Ausführen (24) der Suche unter Verwendung des Suchbegriffs (Q) oder Ablehnen (26) des Suchbegriffs (Q).

Description:
Beschreibung

Titel

Verfahren und Vorrichtung zur Analyse von Elementen einer

Textsammlung, Verfahren und Vorrichtung zum Suchen von Informationen in digitalen Daten

Stand der Technik

Die Offenbarung betrifft ein Verfahren zur Analyse von Elementen einer ersten Textsammlung.

Die Offenbarung betrifft eine Vorrichtung zur Analyse von Elementen einer ersten Textsammlung.

Die Offenbarung betrifft weiter Verfahren und Vorrichtungen zum Suchen von Informationen in digitalen Daten.

Maschinenbasierte, insbesondere computerimplementierte, Systeme für Textanalyse verwenden regelbasierte und/oder statistische Verfahren für Terminologieextraktion und Verschlagwortung. Hybride Verfahren und Machine- Learning Verfahren werden ebenfalls für Textanalyse eingesetzt.

Terminologieextraktion findet ihre Anwendung unter anderem im Lexikon-, Thesaurus- und Ontologieaufbau, der Informationssuche in Datenbanken, in der Textklassifikation und im Text-Clustering. Ein klassisches Problem der

Termextraktion ist die Einordnung von mehrdeutigen Begriffen, sogenannten sub-technical terms. Sie liegen zwischen der Fachsprache und der

Allgemeinsprache. Z.B. hat der Begriff„Absperren“ eine alltagssprachliche Bedeutung im Sinne von„etwas verriegeln“ und eine spezielle Bedeutung im Handwerken, nämlich„Versiegeln von Oberflächen“. Die Art der

Bedeutungsänderung kann unterschiedlich sein, von Homonymie (komplett getrennte Bedeutungen), zu Polysemie (Bedeutungen haben noch Ähnlichkeit) zu einer Bedeutungsverengung in der Fachsprache. Offenbarung der Erfindung

Bevorzugte Ausführungsformen beziehen sich auf ein Verfahren zur Analyse von Elementen einer ersten Textsammlung („Korpus“), aufweisend die folgenden Schritte: Bereitstellen der ersten Textsammlung, Bereitstellen einer zweiten Textsammlung, die von der ersten Textsammlung verschieden ist, Ermitteln eines ersten Vektorraummodells, das einen mit der ersten Textsammlung assoziierten ersten Vektorraum charakterisiert, Ermitteln eines zweiten

Vektorraummodells, das einen mit der zweiten Textsammlung assoziierten zweiten Vektorraum charakterisiert, Ermitteln eines modifizierten zweiten Vektorraummodells in Abhängigkeit einer Abbildung des zweiten Vektorraums auf den ersten Vektorraum, Analysieren wenigstens eines Elements der ersten Textsammlung in Abhängigkeit eines mit dem wenigstens einen Element korrespondierenden ersten Wortvektors des ersten Vektorraummodells und eines mit dem wenigstens einen Element korrespondierenden zweiten Wortvektors des modifizierten zweiten Vektorraummodells. Dadurch lassen sich vorteilhaft effizient Informationen über eine Bedeutung bzw. eine Verschiebung der Bedeutung („Bedeutungsverschiebung“) des wenigstens einen Elements, z.B. eines Begriffs bzw. Wortes, der ersten Textsammlung ermitteln.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells ein Word2Vec CBOW (continuous bag of words) Modell nach Tornas Mikolov et. al, 2013, Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, pages 3111-3119, Curran Associates, Inc., verwendet wird. Beispielhaft können die hierbei erhaltenen Wortvektoren etwa 200 Dimensionen aufweisen. Das Vektorraummodell ermöglicht somit, Worte einer Textsammlung durch entsprechende Vektoren des genannten Vektorraums darzustellen. Die Ähnlichkeit der Vektoren repräsentiert dabei die Bedeutungsähnlichkeit. Besonders bevorzugt weisen der erste und zweite Vektorraum die gleiche Anzahl von Dimensionen auf.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells ein fasttext-Modell nach Bojanowski et al. verwendet wird, vgl. z.B. P. Bojanowski*, E. Grave*, A. Joulin,

T. Mikolov. 2012. "Enriching Word Vectors with Subword Information.". Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Ermitteln des modifizierten zweiten Vektorraummodells in Abhängigkeit einer Abbildung des zweiten Vektorraums auf den ersten Vektorraum durch Lösung des

Orthogonal Procrustes Problems (gemäß Schönemann, 1964) ausgeführt wird. Hierbei kann eine optimale Matrix W* für die Matrizen A, B berechnet werden, wobei die Matrizen A, B z.B. dem ersten Vektorraum und dem zweiten

Vektorraum entsprechen. Die optimale Matrix W* minimiert die Summe der quadratischen euklidischen Distanzen zwischen Bs Abbildung auf Bi*W und Aj* für die Wörterbucheinträge D minimiert W * = arg min , wobei D eine Repräsentation des Wörterbuches als binäre Matrix ist, sodass Di j =1 wenn e V b . Bei weiteren bevorzugten Ausführungsformen kann dies durch eine Anwendung der Singulärwertzerlegung gelöst werden: W * = UV T , mit B T DA = u S n t , und B kann dann folgendermaßen auf A gemappt/aligniert werden: B = AW*. Dadurch werden vorteilhaft die Wortvektoren der beiden Vektorräume vergleichbar.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Analysieren die Ermittlung einer ersten Größe aufweist, die eine Vektordistanz zwischen dem ersten Wortvektor und dem zweiten Wortvektor charakterisiert, wobei insbesondere die erste Größe eine Bedeutungsverschiebung des wenigstens einen Elements von einer zweiten Textsammlung, die die

Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung assoziierten Domäne, beispielsweise einer Fachsprache, charakterisiert. Die genannte Vektordistanz bzw. die erste Größe charakterisiert vorteilhaft die Bedeutungsverschiebung, wobei insbesondere auch ein Maß der

Bedeutungsverschiebung, also eine quantitative Aussage über den Grad der Bedeutungsverschiebung, möglich ist. Dadurch kann eine noch genauere Analyse von Elementen z.B. der ersten Textsammlung erfolgen.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Analysieren die Bildung einer Kosinus-Distanz oder einer euklidischen Distanz zwischen dem ersten Wortvektor und dem zweiten Wortvektor aufweist.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die erste Textsammlung bzw. der erste Korpus eine themenspezifische und/oder fachspezifische Textsammlung ist, wobei die zweite Textsammlung bzw. Korpus eine nicht themenspezifische und/oder nicht fachspezifische Textsammlung, insbesondere eine allgemeinsprachliche Textsammlung, ist.

Ein fachspezifischer Korpus enthält z.B. nur Text, der für eine Domäne spezifisch ist. Ein allgemeinsprachlicher Korpus bezeichnet Text oder eine Kollektion von Texten, ohne spezifische Zuordnung zu einer Domain. Alle Texte eines

Kochforums im Internet stellen beispielsweise einen fachspezifischen Korpus dar. Alle Einträge der Wikipedia stellen beispielsweise einen

allgemeinsprachlichen Korpus dar.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Bereitstellen der ersten Textsammlung und/oder das Bereitstellen der zweiten Textsammlung aufweist: a) Sammeln von Texten und/oder Wörtern in einem Computer bzw. Computernetzwerk und/oder einer Datenbank, insbesondere mittels Crawling von Websites, z.B. focused Crawling, und/oder b) Sammeln von Texten und/oder Wörtern aus digitalen bzw. digitalisierten Büchern.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass Wortvektoren solcher Elemente der Textsammlungen verworfen werden, die nur in einer der beiden Textsammlungen Vorkommen. Dadurch kann der Speicherbedarf verringert werden.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das wenigstens eine Element der ersten Textsammlung mittels eines

Termextraktionsverfahrens ermittelt wird. Bei weiteren bevorzugten

Ausführungsformen können, z.B. mittels des genannten

Termextraktionsverfahrens, auch mehrere Elemente der ersten Textsammlung ermittelt werden, die z.B. gemäß weiteren bevorzugten Ausführungsformen, z.B. hinsichtlich einer möglichen Bedeutungsverschiebung, analysiert werden.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Verfahren weiter aufweist: Einbringen eines Teils der ersten Textsammlung in die zweite Textsammlung und/oder umgekehrt. Das Einbringen des Teils der ersten Textsammlung in die zweite Textsammlung und/oder umgekehrt kann z.B. nach oder während dem Bereitstellen der zweiten Textsammlung erfolgen. Bei weiteren bevorzugten Ausführungsformen ist das Einbringen gleichbedeutend mit einem Mischen eines Teils der ersten Textsammlung unter die zweite

Textsammlung. Bei weiteren bevorzugten Ausführungsformen kann das

Einbringen bzw. Mischen folgende Auswirkung haben: je domänenspezifischer Fachbegriffe/Terme sind, in desto eingeschränkterem Kontext kommen sie vor (z.B. kommt das Wort "blanchieren" als Kochmethode meistens zusammen mit "Salzwasser" vor, während "Plätzchen" sowohl in Backrezepten als auch in anderen Kontexten, z.B. in Bezug zu Weihnachten auftaucht.). Wenn man nun also gemäß weiteren bevorzugten Ausführungsformen Wortvektoren auf jeder Textsammlung (z.B. allgemeinsprachlich und domänenspezifisch) bildet, dann können sich die Wortvektoren von sehr domänen-spezifischen Termen vergleichsweise ähnlich sein, weil im allgemeinsprachlichen Korpus

(Textsammlung) nur die Texte aus dem domänenspezifischen Korpus

Vorkommen, die sich noch dazu untereinander sehr ähneln. Bei den

allgemeinsprachlicheren Begriffen oder mehrdeutigen Begriffen sind die Kontexte diverser, dadurch gehen die Vektoren gemäß weiteren bevorzugten

Ausführungsformen stärker auseinander.

Weitere bevorzugte Ausführungsformen beziehen sich auf eine Verwendung des Verfahrens gemäß den Ausführungsformen zur Ermittlung einer

Bedeutungsverschiebung wenigstens eines Elements der ersten Textsammlung von einer zweiten Textsammlung, die die Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung assoziierten Domäne, beispielsweise einer Fachsprache, insbesondere zur Ermittlung einer Stärke der

Bedeutungsverschiebung des wenigstens einen Elements der ersten

Textsammlung von der zweiten Textsammlung zu der mit der ersten

Textsammlung assoziierten Domäne.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Verfahren weiter aufweist: Ermitteln eines Bias-Vektors, insbesondere für Termextraktionsverfahren, in Abhängigkeit der Bedeutungsverschiebung. Dies ermöglicht vorteilhaft eine präzise Initialisierung des Bias-Vektors, wobei die Konvergenz des Algorithmus beschleunigt werden kann. Der Bias-Vektor kann gemäß weiteren Ausführungsformen auch als "Teleportation Vector" oder "Personalization Vector" bezeichnet werden.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Verfahren weiter aufweist: Ermitteln eines aktuellen page rank-Werts in

Abhängigkeit der Bedeutungsverschiebung, insbesondere in Abhängigkeit des Bias-Vektors. Eine Möglichkeit, Terminologie zu einem bestimmten Fachgebiet auch in einer heterogenen Textdatensammlung zu finden, ist mittels des Personalized PageRank Algorithmus. Die Knoten im Graph werden durch die Wörter im Text repräsentiert, und die Kanten durch ihr gemeinsames Auftreten innerhalb eines Fensters oder ihrer Wortvektorähnlichkeit etc. (Milhacea and Tarau, 2004; De Groc et al, 2011 ; Khan et al, 2016, Zhang et al., 2017 i.a.). Der PageRank Algorithmus kann folgendermaßen formalisiert werden:

PR‘ = d*A*PR + (1-d)*v, wobei PR ein Vektor der Größe |V| ist, bei dem jeder Wert zugehörig zu einem Wort ist; PR‘ ist der aktuelle Page Rank und PR der Page Rank aus dem vorherigen Schritt, d ein Dämpfungsfaktor, A die Übergangsmatrix, und v der vorstehend bereits erwähnte Bias-Vektor, der für jeden Knoten (jedes Wort) einen Wert enthält, der bestimmt, wie stark die Berechnung in Richtung eines Knoten beeinflusst werden soll.

Bei der Termextraktion kann es gemäß weiteren bevorzugten

Ausführungsformen zufolge nützlich sein, die Berechnung in Richtung einiger Seed-Terme zu beeinflussen: vi =1 , wenn das betreffende Wort wi in der Menge der Seed-Worte enthalten ist, sonst vi =0.

Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi in Abhängigkeit der gemäß bevorzugten Ausführungsformen ermittelten

Bedeutungsverschiebung ermittelt werden, was eine akkurate Berechnung der Bias-Werte ermöglicht und die Konvergenz des Algorithmus beschleunigt.

Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi z.B. wie folgt ermittelt werden: vi = 1-xi, wenn xi die zu einem Wort wi zugehörige Bedeutungsverschiebung ("meaning shift Wert") ist, ansonsten vi = 0.

Weitere bevorzugte Ausführungsformen beziehen sich auf eine Vorrichtung zur Analyse von Elementen einer ersten Textsammlung, wobei die Vorrichtung zur Ausführung der folgenden Schritte ausgebildet ist: Bereitstellen der ersten Textsammlung, Bereitstellen einer zweiten Textsammlung, die von der ersten Textsammlung verschieden ist, Ermitteln eines ersten Vektorraummodells, das einen mit der ersten Textsammlung assoziierten ersten Vektorraum

charakterisiert, Ermitteln eines zweiten Vektorraummodells, das einen mit der zweiten Textsammlung assoziierten zweiten Vektorraum charakterisiert, Ermitteln eines modifizierten zweiten Vektorraummodells in Abhängigkeit einer Abbildung des zweiten Vektorraums auf den ersten Vektorraum, Analysieren wenigstens eines Elements der ersten Textsammlung in Abhängigkeit eines mit dem wenigstens einen Element korrespondierenden ersten Wortvektors des ersten Vektorraummodells und eines mit dem wenigstens einen Element

korrespondierenden zweiten Wortvektors des modifizierten zweiten

Vektorraummodells.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die

Vorrichtung zur Ausführung des Verfahrens gemäß den Ausführungsformen ausgebildet ist.

Bei weiteren bevorzugten Ausführungsformen weist die Vorrichtung wenigstens eine Recheneinrichtung auf, wenigstens eine der Recheneinrichtung

zugeordnete Speichereinrichtung zur zumindest zeitweisen Speicherung eines Computerprogramms, wobei das Computerprogramm insbesondere zur

Steuerung eines Betriebs der Vorrichtung, insbesondere zur Ausführung des Verfahrens gemäß bevorzugten Ausführungsformen, ausgebildet ist. Bei weiteren bevorzugten Ausführungsformen weist die Recheneinrichtung wenigstens eines der folgenden Elemente auf: einen Mikroprozessor, einen Mikrocontroller, einen digitalen Signalprozessor (DSP), einen programmierbaren Logikbaustein (z.B. FPGA, field programmable gate array), einen ASIC

(anwendungsspezifischen integrierten Schaltkreis), eine Hardwareschaltung. Kombinationen hieraus sind bei weiteren bevorzugten Ausführungsformen auch denkbar, ebenso wie eine verteilte Anordnung zumindest mancher

Komponenten, z.B. auf verschiedene Elemente eines Computernetzwerks.

Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung wenigstens eines der folgenden Elemente auf: einen flüchtigen Speicher, insbesondere Arbeitsspeicher (RAM), einen nichtflüchtigen Speicher, insbesondere Flash-EEPROM. Bevorzugt ist das Computerprogramm in dem nichtflüchtigen Speicher abgelegt. Bei weiteren bevorzugten Ausführungsformen sind in der Speichereinrichtung auch Daten zumindest zeitweise speicherbar, die für die Ausführung des Verfahrens gemäß den Ausführungsformen verwendbar sind. Die Daten können beispielsweise wenigstens eines der folgenden Elemente aufweisen: die erste Textsammlung oder Teile der ersten Textsammlung, die zweite Textsammlung oder Teile der zweiten Textsammlung, das erste

Vektorraummodell und/oder das zweite Vektorraummodell und/oder das modifizierte zweite Vektorraummodell charakterisierende Daten, die Abbildung des zweiten Vektorraums auf den ersten Vektorraum charakterisierende Daten, insbesondere in Form einer Transformationsmatrix, ein oder mehrere

Wortvektoren des ersten Vektorraums und/oder des zweiten Vektorraums charakterisierende Daten, die erste Größe und/oder gemäß weiteren

bevorzugten Ausführungsformen ermittelte Bedeutungsverschiebungen, insbesondere in Form numerischer Größen.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk, aufweisend die folgenden Schritte:

Bereitstellen von Seed-Informationen, die ein oder mehrere Startpunkte in der Menge digitaler Daten, insbesondere in dem Computernetzwerk, für die Suche der Informationen charakterisieren, Suchen von Informationen in dem

Computernetzwerk in Abhängigkeit der Seed-Informationen, wobei für das Bereitstellen der Seed-Informationen ein Verfahren gemäß den

Ausführungsformen verwendet wird. Dadurch können besonders sinnvolle, z.B. für eine bestimmte Domäne spezifische bzw. eindeutige, Seed-Informationen vorgebeben werden, die die Effizienz der Suche steigern. Auf diese Weise kann unter Einsatz derselben Rechenressourcen eine größere Menge digitaler Daten gesucht bzw. ausgewertet werden, und es können mit geringerem

Rechenaufwand als bei konventionellen Ansätzen themenrelevante Daten, insbesondere Textdaten, gecrawlt werden. Insbesondere kann das vorstehend beschriebene Suchverfahren bei weiteren bevorzugten Ausführungsformen zur Implementierung effizienter focus Crawler verwendet werden.

Bei weiteren bevorzugten Ausführungsformen kann es sich bei den Seed- Informationen z.B. um Internetadressen (URLs) handeln, und/oder um Suchworte zur Verwendung mit wenigstens einer Suchmaschine und/oder Datenbank.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Bereitstellen der Seed-Informationen aufweist: Vorgeben einer ersten Anzahl von Begriffen für die Suche (Beispielsweise durch einen Benutzer über eine

Benutzerschnittstelle und/oder automatisiert, z.B. in Abhängigkeit von

Konfigurationsdaten), Ermitteln einer Bedeutungsverschiebung der ersten Anzahl von Begriffen für die Suche in Abhängigkeit der ersten Größe, Verwenden derjenigen Begriffe der ersten Anzahl von Begriffen als Seed-Informationen für das Suchen, deren Bedeutungsverschiebung einen vorgebbaren ersten Schwellwert unterschreitet. Dadurch wird vorteilhaft sichergestellt, dass besonders spezifische Begriffe für die Seed-Informationen verwendet werden.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk oder einer Datenbank, aufweisend die folgenden Schritte: Empfangen eines Suchbegriffs, Bewerten des Suchbegriffs in Abhängigkeit einer mittels des Verfahrens gemäß den Ausführungsformen ermittelten Bedeutungsverschiebung des Suchbegriffs, insbesondere bezüglich der zweiten Textsammlung, und, in Abhängigkeit der Bewertung, Ausführen der Suche unter Verwendung des Suchbegriffs oder Ablehnen des Suchbegriffs. Dadurch ist es vorteilhaft möglich, Suchen gezielt dann auszuführen, wenn hinreichend genaue bzw. spezifische Suchbegriffe, insbesondere bezüglich einer bestimmten Domäne, verwendet werden, wohingegen Suchvorgänge für weniger spezifische Suchbegriffe vermieden werden können, was Rechenressourcen und Energie spart.

Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung, unabhängig von ihrer

Zusammenfassung in den Patentansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung.

In der Zeichnung zeigt:

Figur 1 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß bevorzugten Ausführungsformen,

Figur 2 schematisch ein vereinfachtes Blockdiagramm gemäß weiteren

bevorzugten Ausführungsformen,

Figur 3 schematisch ein vereinfachtes Blockdiagramm einer Vorrichtung gemäß weiteren bevorzugten Ausführungsformen, Figur 4 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen,

Figur 5 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen,

Figur 6 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen, und

Figur 7 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen.

Figur 1 zeigt schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß bevorzugten Ausführungsformen. Das Verfahren ist zur Analyse von Elementen E einer ersten Textsammlung („Korpus“) K1 , vgl. auch das

Blockdiagramm aus Fig. 2, verwendbar, und weist die folgenden Schritte auf: Bereitstellen 102 (Fig. 1) der ersten Textsammlung K1 (Fig. 2), Bereitstellen 104 (Fig. 1) einer zweiten Textsammlung K2, die von der ersten Textsammlung K1 verschieden ist, Ermitteln 106 eines ersten Vektorraummodells M1 , das einen mit der ersten Textsammlung K1 assoziierten ersten Vektorraum charakterisiert, Ermitteln 108 eines zweiten Vektorraummodells M2, das einen mit der zweiten Textsammlung K2 assoziierten zweiten Vektorraum charakterisiert, Ermitteln 110 eines modifizierten zweiten Vektorraummodells M2‘ in Abhängigkeit einer Abbildung, z.B. mittels einer Transformationsmatrix T, des zweiten Vektorraums auf den ersten Vektorraum, Analysieren 120 wenigstens eines Elements E der ersten Textsammlung K1 in Abhängigkeit eines mit dem wenigstens einen Element E korrespondierenden ersten Wortvektors WV1 des ersten

Vektorraummodells M1 und eines mit dem wenigstens einen Element E korrespondierenden zweiten Wortvektors WV2 des modifizierten zweiten

Vektorraummodells M2‘. Die Analyse 120 ist in Fig. 2 auch durch den Blockpfeil A2 angedeutet. Dadurch lassen sich vorteilhaft effizient Informationen über eine Bedeutung bzw. eine Verschiebung BV der Bedeutung

(„Bedeutungsverschiebung“) des wenigstens einen Elements E, z.B. eines Begriffs bzw. Wortes, der ersten Textsammlung K1 ermitteln.

Bei weiteren bevorzugten Ausführungsformen kann auch eine andere

Reihenfolge der Schritte 102, 104, 106, 108 gewählt werden, z.B.: 102, 106, 104, 108, usw. Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells M1 , M2 ein Word2Vec CBOW Modell nach Tornas Mikolov et. al, 2013, Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, pages 3111-3119, Curran Associates, Inc., verwendet wird. Beispielhaft können die hierbei erhaltenen Wortvektoren WV1 , WV2, .. etwa 200 Dimensionen aufweisen. Besonders bevorzugt weisen der erste und zweite Vektorraum die gleiche Anzahl von Dimensionen auf.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells ein fasttext-Modell nach Bojanowski et al. verwendet wird, vgl. z.B. P. Bojanowski*, E. Grave*, A. Joulin,

T. Mikolov. 2012. "Enriching Word Vectors with Subword Information.".

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Analysieren 120 (Fig. 1) die Ermittlung einer ersten Größe G1 (Fig. 2) aufweist, die eine Vektordistanz zwischen dem ersten Wortvektor WV1 und dem zweiten Wortvektor WV2 charakterisiert, wobei insbesondere die erste Größe G1 eine Bedeutungsverschiebung BV des wenigstens einen Elements E von einer zweiten Textsammlung K2, die die Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung K1 assoziierten Domäne, beispielsweise einer Fachsprache, charakterisiert. Die genannte Vektordistanz bzw. die erste Größe G1 charakterisiert vorteilhaft die Bedeutungsverschiebung BV, wobei

insbesondere auch ein Maß der Bedeutungsverschiebung BV, also eine quantitative Aussage über den Grad der Bedeutungsverschiebung BV, möglich ist.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Analysieren 120 die Bildung einer Kosinus-Distanz oder einer euklidischen Distanz oder einer anderen Distanz zwischen dem ersten Wortvektor WV1 und dem zweiten Wortvektor WV2 aufweist.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen: Bilden einer Schnittmenge von benachbarten Wörtern für ein Zielwort in beiden

Textsammlungen. Je kleiner die Bedeutungsverschiebung, desto kleiner ist auch die Schnittmenge. Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die erste Textsammlung K1 eine themenspezifische und/oder fachspezifische

Textsammlung ist, wobei die zweite Textsammlung K2 eine nicht

themenspezifische und/oder nicht fachspezifische Textsammlung, insbesondere eine allgemeinsprachliche Textsammlung, ist.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Bereitstellen 102 (Fig. 1) der ersten Textsammlung K1 und/oder das Bereitstellen 104 der zweiten Textsammlung K2 aufweist: a) Sammeln von Texten und/oder Wörtern in einem Computernetzwerk und/oder einer Datenbank, insbesondere mittels Crawling von Websites, z.B. focused Crawling, und/oder b) Sammeln von Texten und/oder Wörtern aus digitalen bzw. digitalisierten Büchern.

Eine fachsprachliche Textsammlung K1 kann bei weiteren bevorzugten

Ausführungsformen beispielsweise durch gezieltes Sammeln von mehreren Fachtexten aus ein oder mehreren Quellen, z.B. Datenbanken und/oder privaten und/oder öffentlichen Computernetzwerken (z.B. Internet) gebildet werden (z.B. themenspezifische Websites, Fachbücher, Fachpublikationen).

Eine allgemeinsprachliche Textsammlung K2 kann bei weiteren bevorzugten Ausführungsformen beispielsweise durch zufallsbasiertes Sammeln von mehreren Texten aus ein oder mehreren Quellen, z.B. Datenbanken (z.B.

Zeitungstexte) und/oder privaten und/oder öffentlichen Computernetzwerken (z.B. Internet) gebildet werden.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass Wortvektoren solcher Elemente der Textsammlungen K1 , K2 verworfen werden, die nur in einer der beiden Textsammlungen Vorkommen. Dadurch kann der

Speicherbedarf verringert werden. Dies kann bei weiteren bevorzugten

Ausführungsformen beispielsweise bei dem Schritt 120 der Analyse erfolgen oder auch vorher.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das wenigstens eine Element E der ersten Textsammlung K1 mittels eines

Termextraktionsverfahrens TE ermittelt wird. Bei weiteren bevorzugten

Ausführungsformen können, z.B. mittels des genannten

Termextraktionsverfahrens TE, auch mehrere Elemente E der ersten

Textsammlung K1 (z.B. alle Fachausdrücke) ermittelt werden, die z.B. gemäß weiteren bevorzugten Ausführungsformen, z.B. hinsichtlich einer möglichen Bedeutungsverschiebung, analysiert werden.

Bei weiteren bevorzugten Ausführungsformen kann die erste Größe G1 bzw. Bedeutungsverschiebung BV für ein (weiteres) Element der ersten

Textsammlung K1 z.B. mittels der folgenden Schritte ermittelt werden, sofern die Modelle M1 , MT (beispielsweise durch eine vorangehende Ausführung der Schritte 102, 104, 106, 108, 110‘) bereits vorliegen: Auswählen bzw. Vorgeben des weiteren Elements E, Ermitteln der ersten Größe G1 in Abhängigkeit der mit dem weiteren Element E assoziierten Wortvektoren beider Modelle M1 , M2‘.

D.h., die Schritte 102, 104, 106, 108, 110 müssen bei weiteren bevorzugten Ausführungsformen nicht für jede Ermittlung der Größen G1 , BV für ein

(weiteres) Element E wiederholt werden. Vielmehr reicht es bei weiteren bevorzugten Ausführungsformen, die mit dem weiteren Element E assoziierten Wortvektoren zu ermitteln und z.B. deren Distanz auszuwerten.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Verfahren weiter aufweist, vgl. Fig. 1 und 2: Einbringen 104a eines Teils der ersten Textsammlung K1 in die zweite Textsammlung K2 und/oder umgekehrt. Das Einbringen 104a des Teils der ersten Textsammlung K1 in die zweite Textsammlung K2 und/oder umgekehrt kann z.B. nach oder während dem Bereitstellen 104 (Fig. 1) der zweiten Textsammlung K2 erfolgen. In Fig. 2 ist das Einbringen beispielhaft durch den gestrichelten Pfeil 104a symbolisiert. Bei weiteren bevorzugten Ausführungsformen ist das Einbringen 104a

gleichbedeutend mit einem Mischen eines Teils der ersten Textsammlung K1 unter die zweite Textsammlung K2. Bei weiteren bevorzugten

Ausführungsformen kann das Einbringen 104a bzw. Mischen folgende

Auswirkung haben: je domänenspezifischer Fachbegriffe/Terme sind, in desto eingeschränkterem Kontext kommen sie vor (z.B. kommt das Wort "blanchieren" als Kochmethode meistens zusammen mit "Salzwasser" vor, während

"Plätzchen" sowohl in Backrezepten als auch in anderen Kontexten, z.B. in Bezug zu Weihnachten auftaucht.). Wenn man nun also gemäß weiteren bevorzugten Ausführungsformen Wortvektoren auf jeder Textsammlung (z.B. allgemeinsprachlich und domänenspezifisch) bildet, dann können sich die Wortvektoren von sehr domänen-spezifischen Termen vergleichsweise ähnlich sein, weil im allgemeinsprachlichen Korpus (Textsammlung) nur die Texte aus dem domänenspezifischen Korpus Vorkommen, die sich noch dazu

untereinander sehr ähneln. Bei den allgemeinsprachlicheren Begriffen oder mehrdeutigen Begriffen sind die Kontexte diverser, dadurch gehen die Vektoren gemäß weiteren bevorzugten Ausführungsformen stärker auseinander. Das Verfahrens gemäß bevorzugten wird somit empfindlicher.

Bei weiteren bevorzugten Ausführungsformen kann anstelle der Ermittlung 106, 108 (Fig. 1) der beiden Vektorraummodelle M1 , M2 ein Vektorraum über beide Textsammlungen (Korpora) K1 , K2 zusammen ermittelt werden, wobei insbesondere die folgenden Schritte ausführbar sind: ersetze vorher die

Zielwörter, für die die Bedeutungsverschiebung berechnet werden soll, durch zwei unterschiedliche Zeichen in den jeweiligen Korpora, z.B. <Wort>_1 im allgemeinsprachlichen Korpus und <Wort>_2 im spezifischen Korpus.

Bei weiteren bevorzugten Ausführungsformen kann anstelle der Ermittlung 106, 108 (Fig. 1) der beiden Vektorraummodelle M1 , M2 in einer Fensterspanne von X benachbarten Wörtern, folgendes ausgeführt werden: speichere für jeden Satz im jeweiligen Korpus die Nachbarwörter der Zielwörter ab.

Weitere bevorzugte Ausführungsformen beziehen sich auf eine Verwendung des Verfahrens gemäß den Ausführungsformen zur Ermittlung einer

Bedeutungsverschiebung BV wenigstens eines Elements E der ersten

Textsammlung K1 von der zweiten Textsammlung K2, die beispielsweise die Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung K1 assoziierten Domäne, beispielsweise einer Fachsprache, insbesondere zur Ermittlung einer Stärke der Bedeutungsverschiebung des wenigstens einen Elements E der ersten Textsammlung K1 von der zweiten Textsammlung K2 zu der mit der ersten Textsammlung K1 assoziierten Domäne.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Verfahren weiter aufweist: Ermitteln eines Bias-Vektors, insbesondere für Termextraktionsverfahren TE (Fig. 1), in Abhängigkeit der

Bedeutungsverschiebung BV. Dies ermöglicht vorteilhaft eine präzise

Initialisierung des Bias-Vektors, wobei die Konvergenz des Algorithmus beschleunigt werden kann.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Verfahren weiter aufweist: Ermitteln eines aktuellen page rank-Werts in

Abhängigkeit der Bedeutungsverschiebung BV, insbesondere in Abhängigkeit des Bias-Vektors. Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi z.B. wie folgt ermittelt werden: vi = 1-xi, wenn xi die zu einem Wort wi zugehörige Bedeutungsverschiebung ("meaning shift Wert") ist, ansonsten vi = 0.

Eine Möglichkeit, Terminologie zu einem bestimmten Fachgebiet auch in einer heterogenen Textdatensammlung zu finden, ist mittels des Personalized

PageRank Algorithmus. Die Knoten im Graph werden durch die Wörter im Text repräsentiert, und die Kanten durch ihr gemeinsames Auftreten innerhalb eines Fensters oder ihrer Wortvektorähnlichkeit etc. (Milhacea and Tarau, 2004; De Groc et al, 2011 ; Khan et al, 2016, Zhang et al., 2017 i.a.). Der PageRank Algorithmus kann folgendermaßen formalisiert werden:

PR‘ = d*A*PR + (1-d)*v, wobei PR ein Vektor der Größe |V| ist, bei dem jeder Wert zugehörig zu einem Wort ist; PR‘ ist der aktuelle Page Rank und PR der Page Rank aus dem vorherigen Schritt, d ein Dämpfungsfaktor, A die Übergangsmatrix, und v der vorstehend bereits erwähnte Bias-Vektor, der für jeden Knoten (jedes Wort) einen Wert enthält, der bestimmt, wie stark die Berechnung in Richtung eines Knoten beeinflusst werden soll.

Bei der Termextraktion kann es gemäß weiteren bevorzugten

Ausführungsformen zufolge nützlich sein, die Berechnung in Richtung einiger Seed-Terme zu beeinflussen: vi =1 , wenn das betreffende Wort wi in der Menge der Seed-Worte enthalten ist, sonst vi =0.

Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi in Abhängigkeit der gemäß bevorzugten Ausführungsformen ermittelten

Bedeutungsverschiebung BV ermittelt werden, was eine akkurate Berechnung der Bias-Werte ermöglicht und die Konvergenz des Algorithmus beschleunigt. D.h., der bekannte Page Rank Algorithmus kann gemäß bevorzugten

Ausführungsformen verbessert werden. Dies ist schematisch in Fig. 7 abgebildet. Schritt 30 repräsentiert schematisch die Ermittlung der Bedeutungsverschiebung BV, z.B. mittels des vorstehend beispielhaft unter Bezugnahme auf Fig. 1 , 2 beschriebenen Verfahrens gemäß bevorzugten Ausführungsformen. Schritt 32 aus Fig. 7 repräsentiert schematisch die Ermittlung des Bias-Vektors vi in Abhängigkeit der zuvor in Schritt 30 ermittelten Bedeutungsverschiebung BV. Bevorzugte Ausführungsformen sind z.B. für eine automatische Terminologieextraktion (ATE) nutzbar, bei der es um das automatische Auffinden von Worten oder Wortgruppen geht, die ein bestimmtes Fachgebiet

charakterisieren. Die Terminologieextraktion findet ihre Anwendung unter anderem im Lexikon-, Thesaurus- und Ontologieaufbau, der Informationssuche in Datenbanken, in der Textklassifikation und im Text-Clustering.

Mithilfe des gemäß bevorzugten Ausführungsformen ermittelten bzw.

initialisierten Bias-Vektors vi können z.B. Termextraktionsverfahren TE (Fig. 1) beschleunigt werden, was z.B. Rechenkapazität spart. Zudem können Fehler in der Extraktion vermieden werden, z.B. wenn das System einen falschen Pfad einschlägt. Zudem werden folgende Anwendungen verbessert: - Verschlagwortung: eindeutigere Schlagworte können vergeben werden

- Schnellerer automatischer Aufbau von Glossaren und Ontologien.

Das Prinzip gemäß den Ausführungsformen kann den Bereich der

Terminologieextraktion und damit verwandte Bereiche wie z.B. die

Verschlagwortung (.Keyword Extraction') verbessern. Mit bevorzugten

Ausführungsformen können z.B. domänen-spezifische Fachterme schneller, speziell in heterogenen Textmengen, gefunden werden.

Das Prinzip gemäß den Ausführungsformen kann auch andere Algorithmen als dem vorstehend beispielhaft genannten Personalized PageRank Algorithmus verbessern. Nützlich dafür ist, dass das verbesserte Verfahren einen Bias-Vektor gemäß den Ausführungsformen nutzt, z.B. zum Beeinflussen der

Transitionswahrscheinlichkeiten, so dass das verbesserte Verfahren schneller konvergieren kann. Die Anwendung des Prinzips gemäß den Ausführungsformen bewirkt, dass überwiegend, insbesondere nur, eindeutige (nicht mehrdeutige) Termbegriffe gefunden werden und als Seed genutzt werden. Dadurch wird das Verfahren nicht von einem mehrdeutigen Wort in eine falsche Richtung abgelenkt.

Weitere bevorzugte Ausführungsformen beziehen sich auf eine Vorrichtung 200 (vgl. Fig. 3) zur Analyse von Elementen einer ersten Textsammlung, wobei die Vorrichtung 200 zur Ausführung des Verfahrens gemäß den Ausführungsformen, vgl. z.B. das Flussdiagramm aus Fig. 1 , ausgebildet ist. Figur 3 zeigt schematisch ein vereinfachtes Blockdiagramm der Vorrichtung 200 gemäß weiteren bevorzugten Ausführungsformen. Die Vorrichtung 200 weist wenigstens eine Recheneinrichtung 202 auf, wenigstens eine der

Recheneinrichtung 202 zugeordnete Speichereinrichtung 204 zur zumindest zeitweisen Speicherung eines Computerprogramms PRG, wobei das

Computerprogramm PRG insbesondere zur Steuerung eines Betriebs der Vorrichtung 200, insbesondere zur Ausführung des Verfahrens gemäß bevorzugten Ausführungsformen, ausgebildet ist.

Bei weiteren bevorzugten Ausführungsformen weist die Recheneinrichtung 202 wenigstens eines der folgenden Elemente auf: einen Mikroprozessor, einen Mikrocontroller, einen digitalen Signalprozessor (DSP), einen programmierbaren Logikbaustein (z.B. FPGA, field programmable gate array), einen ASIC

(anwendungsspezifischen integrierten Schaltkreis), eine Hardwareschaltung. Kombinationen hieraus sind bei weiteren bevorzugten Ausführungsformen auch denkbar, ebenso wie eine verteilte Anordnung zumindest mancher

Komponenten, z.B. auf verschiedene Elemente eines Computernetzwerks.

Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung 204 wenigstens eines der folgenden Elemente auf: einen flüchtigen Speicher 204a, insbesondere Arbeitsspeicher (RAM), einen nichtflüchtigen Speicher 204b, insbesondere Flash-EEPROM. Bevorzugt ist das Computerprogramm PRG in dem nichtflüchtigen Speicher 204b abgelegt. Bei weiteren bevorzugten

Ausführungsformen sind in der Speichereinrichtung 204 auch Daten DAT zumindest zeitweise speicherbar, die für die Ausführung des Verfahrens gemäß den Ausführungsformen verwendbar sind. Die Daten DAT können beispielsweise wenigstens eines der folgenden Elemente aufweisen: die erste Textsammlung K1 oder Teile der ersten Textsammlung K1 , die zweite Textsammlung K2 oder Teile der zweiten Textsammlung K2, das erste Vektorraummodell M1 und/oder das zweite Vektorraummodell M2 und/oder das modifizierte zweite

Vektorraummodell M2‘ charakterisierende Daten, die Abbildung des zweiten Vektorraums auf den ersten Vektorraum charakterisierende Daten, insbesondere in Form einer Transformationsmatrix T, ein oder mehrere Wortvektoren WV1 des ersten Vektorraums und/oder des zweiten Vektorraums WV2 charakterisierende Daten, die erste Größe G und/oder gemäß weiteren bevorzugten

Ausführungsformen ermittelte Bedeutungsverschiebungen BV, insbesondere in Form numerischer Größen. Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, vgl.

Fig. 4, zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk, aufweisend die folgenden Schritte: Bereitstellen 10 von Seed-Informationen, die ein oder mehrere Startpunkte in der Menge digitaler Daten, insbesondere in dem

Computernetzwerk, für die Suche der Informationen charakterisieren, Suchen 12 von Informationen in dem Computernetzwerk in Abhängigkeit der Seed- Informationen Sl, wobei für das Bereitstellen der Seed-Informationen Sl ein Verfahren gemäß den Ausführungsformen verwendet wird, z.B. der vorstehend beispielhaft beschriebene Ablauf gemäß Fig. 1. Dadurch können besonders sinnvolle, z.B. für eine bestimmte Domäne spezifische bzw. eindeutige, Seed- Informationen Sl vorgebeben werden, die die Effizienz der Suche 12 (Fig. 4) steigern. Auf diese Weise kann unter Einsatz derselben Rechenressourcen eine größere Menge digitaler Daten gesucht bzw. ausgewertet werden, und es können mit geringerem Rechenaufwand als bei konventionellen Ansätzen themenrelevante Daten, insbesondere Textdaten, gecrawlt werden.

Insbesondere kann das vorstehend beschriebene Suchverfahren bei weiteren bevorzugten Ausführungsformen zur Implementierung effizienter focus Crawler verwendet werden.

Bei weiteren bevorzugten Ausführungsformen kann es sich bei den Seed- Informationen Sl z.B. um Internetadressen (URLs) handeln, und/oder um

Suchworte zur Verwendung mit wenigstens einer Suchmaschine und/oder Datenbank.

Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das

Bereitstellen 10 der Seed-Informationen Sl aufweist, vgl. Fig. 5: Vorgeben 10a einer ersten Anzahl von Begriffen für die Suche (Beispielsweise durch einen Benutzer über eine optionale Benutzerschnittstelle 206 (Fig. 3) und/oder automatisiert, z.B. in Abhängigkeit von Konfigurationsdaten, die z.B. ebenfalls zumindest zeitweise in der Speichereinrichtung 204 speicherbar sind), Ermitteln 10b (Fig. 5) einer Bedeutungsverschiebung BV der ersten Anzahl von Begriffen für die Suche in Abhängigkeit der ersten Größe G1 (Fig. 2), Verwenden 10c (Fig. 5) derjenigen Begriffe der ersten Anzahl von Begriffen als Seed-Informationen Sl für das Suchen 12 (Fig. 4), deren Bedeutungsverschiebung BV einen

vorgebbaren ersten Schwellwert unterschreitet. Dadurch wird vorteilhaft sichergestellt, dass besonders spezifische Begriffe für die Seed-Informationen Sl verwendet werden. Beispielsweise kann bei weiteren bevorzugten Ausführungsformen für jeden Begriff der ersten Anzahl von Begriffen ein Ablauf gemäß Fig. 1 ausgeführt werden, um eine jeweilige Bedeutungsverschiebung BV dieses Begriffs E zu ermitteln. Solche Begriffe, deren Bedeutungsverschiebung BV den vorgebbaren Schwellwert unterschreitet, können z.B. als hinreichend spezifisch für eine geplante Suche 12 angesehen werden, wobei die Suche unter Verwendung dieser hinreichend spezifischen Begriffe ausführbar ist. Für die weiteren Begriffe der ersten Anzahl von Begriffen wird z.B. keine Suche ausgeführt, da sie als nicht hinreichend spezifisch angesehen werden.

Bei weiteren bevorzugten Ausführungsformen ist die Vorrichtung 200 gemäß Figur 3, insbesondere unter Steuerung durch das Computerprogramm PRG, (auch) zur Ausführung des Verfahrens gemäß Fig. 4, 5 ausgebildet.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, vgl.

Fig. 6, zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computernetzwerk oder einer Datenbank, aufweisend die folgenden Schritte: Empfangen 20 eines Suchbegriffs Q (z.B. über eine

Benutzerschnittstelle 206, Fig. 3), Bewerten 22 des Suchbegriffs Q in

Abhängigkeit einer mittels des Verfahrens gemäß den Ausführungsformen (z.B. durch den Ablauf gemäß Fig. 1 oder Teilen hiervon) ermittelten

Bedeutungsverschiebung des Suchbegriffs bezüglich der zweiten Textsammlung K2, und, in Abhängigkeit der Bewertung 22, Ausführen 24 der Suche unter Verwendung des Suchbegriffs oder Ablehnen 26 des Suchbegriffs. Dadurch ist es vorteilhaft möglich, Suchen gezielt dann auszuführen, wenn hinreichend genaue bzw. spezifische Suchbegriffe, insbesondere bezüglich einer bestimmten Domäne, verwendet werden, wohingegen Suchvorgänge für weniger spezifische Suchbegriffe vermieden werden können, was Rechenressourcen und Energie spart.

Bei weiteren bevorzugten Ausführungsformen ist die Vorrichtung 200 gemäß Figur 3, insbesondere unter Steuerung durch das Computerprogramm PRG, (auch) zur Ausführung des Verfahrens gemäß Fig. 6 ausgebildet.

Nachfolgend sind weitere vorteilhafte Aspekte und Ausführungsformen beschrieben, die einzeln für sich oder in Kombination miteinander mit den vorstehend beispielhaft beschriebenen Ausführungsformen kombinierbar sind. Bei weiteren bevorzugten Ausführungsformen kann mithilfe einer numerischen Bewertung des Grades der Bedeutungsänderung, z.B. unter Verwendung der ersten Größe G1 (Fig. 2), für einen potentiellen Term hinsichtlich einer

Fachsprache neue Anwendungen adressiert sowie alte Anwendungen verbessert werden, z.B.: - Verschlagwortung: eindeutigere Schlagworte vergeben, - Automatischer Aufbau von Glossaren, - Lernsystem das Hilfestellung gibt beim Erlernen des Gebrauchs einer Fachsprache (z.B. durch Laien), - Bessere Einordnung von Begriffen in eine Terminologie (über Stärke der Zugehörigkeit zu einer Fachsprache, Zentralität), - Bessere Einordnung des Schwierigkeitsgrades von Begriffen einer Terminologie (Spezifizität), - Focus Crawling: man kann bessere Seedwörter auswählen (Seedwörter ohne Bedeutungsveränderung hinsichtlich der Allgemeinsprache), die eindeutiger das Fachgebiet definieren.

Bei weiteren bevorzugten Ausführungsformen kann das Problem gelöst werden, wie mehrdeutige Begriffe in eine Terminologie einzuordnen sind im Vergleich zu rein allgemeinsprachlichen Begriffen, also Elemente der zweiten Textsammlung K2. Dies ist besonders vorteilhaft, da konventionelle Methoden bisher noch nicht mit Mehrdeutigkeit umgehen können.

Eine bei weiteren bevorzugten Ausführungsformen ermöglichte

Charakterisierung einer Terminologie kann vorteilhaft auch für

Folgeanwendungen nützlich sein, z.B. beim Erlernen einer Fachterminologie durch Laien. Bedeutungsänderungen schon bekannter Begriffe in der

Fachsprache werden von Laien unter Umständen nicht erkannt, weshalb ein Lernsystem diese besonders behandeln sollte.

Weitere bevorzugte Ausführungsformen ermöglichen auch, eine

Terminologieextraktion zu verbessern sowie damit verwandte Bereiche wie z.B. die Verschlagwortung (.Keyword Extraction'). Der bisherige Stand der Technik beinhaltet insbesondere nicht eine Detektion der Stärke der

Bedeutungsverschiebung BV eines Begriffes E von der Allgemeinsprache in die Fachsprache. Dabei wird der Grad der Bedeutungsverschiebung BV gemäß weiteren bevorzugten Ausführungsformen numerisch bestimmt, z.B. ausgehend von einer Anzahl x Bedeutungen in der Allgemeinsprache (Textsammlung K2), hin zu einer Anzahl y an Bedeutungen in der Fachsprache (Textsammlung K1). Weitere bevorzugte Ausführungsformen ermöglichen insbesondere auch, eine Häufigkeitsverteilung der Bedeutungen innerhalb einer Sprache zu

berücksichtigen.

Weitere bevorzugte Ausführungsformen ermöglichen zu erkennen, dass ein Begriff E eine fachspezifische Bedeutung hat. Weitere bevorzugte

Ausführungsformen ermöglichen auch, zu erkennen, ob ggf. über alle

Bedeutungen des Begriffs E und die Häufigkeit der Nutzung hinweg ein Konflikt im Verständnis des Begriffs existiert. Das Maß BV reflektiert gemäß weiteren bevorzugten Ausführungsformen damit auch eine gewisse Erwartungshaltung, die z.B. ein Laie an die Nutzung eines Begriffes E in der Fachsprache hat. Z.B. erwartet er bei einem schon in der Allgemeinsprache K2 mehrdeutigen Begriff E eher, dass eine Bedeutungsverschiebung BV passiert (insbesondere mit einem nichtverschwindenden Wert z.B. der Vektordistanz der betreffenden

Wortvektoren WV1 , WV2), als bei einem vorher eindeutigen Begriff.

Unterscheiden sich die Bedeutungen in der Allgemeinsprache und der

Fachsprache nicht zu stark, ist es wahrscheinlicher dass der Laie die

Bedeutungsverschiebung nicht sofort erkennt.

Weitere bevorzugte Ausführungsformen beziehen sich auf eine Anwendung des Verfahrens gemäß den Ausführungsformen, vgl. z.B. den beispielhaften Ablauf gemäß Figur 1 , in den Bereichen Assistenz, Textklassifikation (Einordnung von Texten in Kollektionen; Domänenzugehörigkeit, Relevanz für Nutzergruppen, z.B. Fachexperten oder Laien), digitale Wörterbücher und Thesauri.