ANONYMOUS: "Web crawler - Wikipedia, the free encyclopedia", 4 July 2011 (2011-07-04), XP055166414, Retrieved from the Internet
TOMAS MIKOLOV: "Distributed representations of words and phrases and their compositionality", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 2013, pages 3111 - 3119
P. BOJANOWSKIE. GRAVEA. JOULINT. MIKOLOV, ENRICHING WORD VECTORS WITH SUBWORD INFORMATION, 2012
TOMAS MIKOLOV: "Advances in Neural Information Processing Systems", 2013, CURRAN ASSOCIATES, INC., article "Distributed representations of words and phrases and their compositionality", pages: 3111 - 3119
Ansprüche 1. Verfahren zur Analyse von Elementen (E) einer ersten Textsammlung (K1), aufweisend die folgenden Schritte: Bereitstellen (102) der ersten Textsammlung (K1), Bereitstellen (104) einer zweiten Textsammlung (K2), die von der ersten Textsammlung (K1) verschieden ist, Ermitteln (106) eines ersten Vektorraummodells (M1), das einen mit der ersten Textsammlung (K1) assoziierten ersten Vektorraum charakterisiert, Ermitteln (108) eines zweiten Vektorraummodells (M2), das einen mit der zweiten Textsammlung (K2) assoziierten zweiten Vektorraum charakterisiert, Ermitteln (110) eines modifizierten zweiten Vektorraummodells (M2‘) in Abhängigkeit einer Abbildung (T) des zweiten Vektorraums auf den ersten Vektorraum, Analysieren (120) wenigstens eines Elements (E) der ersten Textsammlung (K1) in Abhängigkeit eines mit dem wenigstens einen Element (E) korrespondierenden ersten Wortvektors (WV1) des ersten Vektorraummodells (M1) und eines mit dem wenigstens einen Element (E) korrespondierenden zweiten Wortvektors (WV2) des modifizierten zweiten Vektorraummodells (M2‘). 2. Verfahren nach Anspruch 1 , wobei das Analysieren (120) die Ermittlung einer ersten Größe (G1) aufweist, die eine Vektordistanz zwischen dem ersten Wortvektor (WV1) und dem zweiten Wortvektor (WV2) charakterisiert, wobei insbesondere die erste Größe (G1) eine Bedeutungsverschiebung (BV) des wenigstens einen Elements (E) von der zweiten Textsammlung (K2), die beispielsweise eine Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung (K1) assoziierten Domäne, beispielsweise einer Fachsprache, charakterisiert. 3. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das Analysieren (120) die Bildung einer Kosinus-Distanz oder einer euklidischen Distanz zwischen dem ersten Wortvektor (WV1) und dem zweiten Wortvektor (WV2) aufweist. 4. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei die erste Textsammlung (K1) eine themenspezifische und/oder fachspezifische Textsammlung ist, und/oder wobei die zweite Textsammlung (K2) eine nicht themenspezifische und/oder nicht fachspezifische Textsammlung, insbesondere eine allgemeinsprachliche Textsammlung, ist. 5. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das Bereitstellen (102) der ersten Textsammlung (K1) und/oder das Bereitstellen (104) der zweiten Textsammlung (K2) aufweist: a) Sammeln von Texten und/oder Wörtern in einem Computer und/oder Computernetzwerk, insbesondere mittels Crawling von Websites, und/oder b) Sammeln von Texten und/oder Wörtern aus digitalen bzw. digitalisierten Büchern. 6. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei Wortvektoren solcher Elemente der Textsammlungen (K1 , K2) verworfen werden, die nur in einer der beiden Textsammlungen (K1 , K2) Vorkommen. 7. Verfahren nach wenigstens einem der vorstehenden Ansprüche, wobei das wenigstens eine Element (E) der ersten Textsammlung (K1) mittels eines Termextraktionsverfahrens (TE) ermittelt wird. 8. Verfahren nach wenigstens einem der vorstehenden Ansprüche, weiter aufweisend: Einbringen (104a) eines Teils der ersten Textsammlung (K1) in die zweite Textsammlung (K2) und/oder umgekehrt. 9. Verwendung des Verfahrens nach wenigstens einem der vorstehenden Ansprüche zur Ermittlung einer Bedeutungsverschiebung (BV) wenigstens eines Elements (E) der ersten Textsammlung (K1) von der zweiten Textsammlung (K2), die beispielsweise eine Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung (K1) assoziierten Domäne, beispielsweise einer Fachsprache, insbesondere zur Ermittlung einer Stärke der Bedeutungsverschiebung (BV) des wenigstens einen Elements (E) der ersten Textsammlung (K1) von der zweiten Textsammlung (K2) zu der mit der ersten Textsammlung (K1) assoziierten Domäne, wobei insbesondere das Verfahren weiter aufweist wenigstens eines der folgenden Elemente: a) ermitteln eines Bias-Vektors, insbesondere für Termextraktionsverfahren, in Abhängigkeit der Bedeutungsverschiebung (BV), b) Ermitteln eines aktuellen page rank-Werts in Abhängigkeit der Bedeutungsverschiebung (BV), insbesondere in Abhängigkeit des Bias-Vektors. 10. Vorrichtung (200) zur Analyse von Elementen (E) einer ersten Textsammlung (K1), wobei die Vorrichtung zur Ausführung der folgenden Schritte ausgebildet ist: Bereitstellen (102) der ersten Textsammlung (K1), Bereitstellen (104) einer zweiten Textsammlung (K2), die von der ersten Textsammlung (K1) verschieden ist, Ermitteln (106) eines ersten Vektorraummodells (M1), das einen mit der ersten Textsammlung (K1) assoziierten ersten Vektorraum charakterisiert, Ermitteln (108) eines zweiten Vektorraummodells (M2), das einen mit der zweiten Textsammlung (K2) assoziierten zweiten Vektorraum charakterisiert, Ermitteln (110) eines modifizierten zweiten Vektorraummodells (M2‘) in Abhängigkeit einer Abbildung (T) des zweiten Vektorraums auf den ersten Vektorraum, Analysieren (120) wenigstens eines Elements (E) der ersten Textsammlung (K1) in Abhängigkeit eines mit dem wenigstens einen Element (E) korrespondierenden ersten Wortvektors (WV1) des ersten Vektorraummodells (M1) und eines mit dem wenigstens einen Element (E) korrespondierenden zweiten Wortvektors (WV2) des modifizierten zweiten Vektorraummodells (M2‘). 11. Vorrichtung (200) nach Anspruch 10, wobei die Vorrichtung zur Ausführung des Verfahrens nach wenigstens einem der Ansprüche 2 bis 8 ausgebildet ist. 12. Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk, aufweisend die folgenden Schritte: Bereitstellen (10) von Seed-Informationen (Sl), die ein oder mehrere Startpunkte in der Menge digitaler Daten, insbesondere in dem Computernetzwerk, für die Suche der Informationen charakterisieren, Suchen (12) von Informationen in dem Computernetzwerk in Abhängigkeit der Seed-Informationen (Sl), wobei für das Bereitstellen (10) der Seed- Informationen (Sl) ein Verfahren gemäß wenigstens einem der vorstehenden Ansprüche verwendet wird. 13. Verfahren nach Anspruch 12, wobei das Bereitstellen (10) der Seed- Informationen (Sl) aufweist: Vorgeben (10a) einer ersten Anzahl von Begriffen für die Suche, Ermitteln (10b) einer Bedeutungsverschiebung (BV) der ersten Anzahl von Begriffen für die Suche in Abhängigkeit der ersten Größe (G1), Verwenden (10c) derjenigen Begriffe der ersten Anzahl von Begriffen als Seed-Informationen (Sl) für das Suchen (12), deren Bedeutungsverschiebung (BV) einen vorgebbaren ersten Schwellwert unterschreitet. 14. Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk oder einer Datenbank, aufweisend die folgenden Schritte: Empfangen (20) eines Suchbegriffs (Q), Bewerten (22) des Suchbegriffs in Abhängigkeit einer mittels des Verfahrens gemäß wenigstens einem der Ansprüche 1 bis 8 ermittelten Bedeutungsverschiebung (BV) des Suchbegriffs (Q) bezüglich der zweiten Textsammlung (K2), und, in Abhängigkeit der Bewertung (22), Ausführen (24) der Suche unter Verwendung des Suchbegriffs (Q) oder Ablehnen (26) des Suchbegriffs (Q). |
Titel
Verfahren und Vorrichtung zur Analyse von Elementen einer
Textsammlung, Verfahren und Vorrichtung zum Suchen von Informationen in digitalen Daten
Stand der Technik
Die Offenbarung betrifft ein Verfahren zur Analyse von Elementen einer ersten Textsammlung.
Die Offenbarung betrifft eine Vorrichtung zur Analyse von Elementen einer ersten Textsammlung.
Die Offenbarung betrifft weiter Verfahren und Vorrichtungen zum Suchen von Informationen in digitalen Daten.
Maschinenbasierte, insbesondere computerimplementierte, Systeme für Textanalyse verwenden regelbasierte und/oder statistische Verfahren für Terminologieextraktion und Verschlagwortung. Hybride Verfahren und Machine- Learning Verfahren werden ebenfalls für Textanalyse eingesetzt.
Terminologieextraktion findet ihre Anwendung unter anderem im Lexikon-, Thesaurus- und Ontologieaufbau, der Informationssuche in Datenbanken, in der Textklassifikation und im Text-Clustering. Ein klassisches Problem der
Termextraktion ist die Einordnung von mehrdeutigen Begriffen, sogenannten sub-technical terms. Sie liegen zwischen der Fachsprache und der
Allgemeinsprache. Z.B. hat der Begriff„Absperren“ eine alltagssprachliche Bedeutung im Sinne von„etwas verriegeln“ und eine spezielle Bedeutung im Handwerken, nämlich„Versiegeln von Oberflächen“. Die Art der
Bedeutungsänderung kann unterschiedlich sein, von Homonymie (komplett getrennte Bedeutungen), zu Polysemie (Bedeutungen haben noch Ähnlichkeit) zu einer Bedeutungsverengung in der Fachsprache. Offenbarung der Erfindung
Bevorzugte Ausführungsformen beziehen sich auf ein Verfahren zur Analyse von Elementen einer ersten Textsammlung („Korpus“), aufweisend die folgenden Schritte: Bereitstellen der ersten Textsammlung, Bereitstellen einer zweiten Textsammlung, die von der ersten Textsammlung verschieden ist, Ermitteln eines ersten Vektorraummodells, das einen mit der ersten Textsammlung assoziierten ersten Vektorraum charakterisiert, Ermitteln eines zweiten
Vektorraummodells, das einen mit der zweiten Textsammlung assoziierten zweiten Vektorraum charakterisiert, Ermitteln eines modifizierten zweiten Vektorraummodells in Abhängigkeit einer Abbildung des zweiten Vektorraums auf den ersten Vektorraum, Analysieren wenigstens eines Elements der ersten Textsammlung in Abhängigkeit eines mit dem wenigstens einen Element korrespondierenden ersten Wortvektors des ersten Vektorraummodells und eines mit dem wenigstens einen Element korrespondierenden zweiten Wortvektors des modifizierten zweiten Vektorraummodells. Dadurch lassen sich vorteilhaft effizient Informationen über eine Bedeutung bzw. eine Verschiebung der Bedeutung („Bedeutungsverschiebung“) des wenigstens einen Elements, z.B. eines Begriffs bzw. Wortes, der ersten Textsammlung ermitteln.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells ein Word2Vec CBOW (continuous bag of words) Modell nach Tornas Mikolov et. al, 2013, Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, pages 3111-3119, Curran Associates, Inc., verwendet wird. Beispielhaft können die hierbei erhaltenen Wortvektoren etwa 200 Dimensionen aufweisen. Das Vektorraummodell ermöglicht somit, Worte einer Textsammlung durch entsprechende Vektoren des genannten Vektorraums darzustellen. Die Ähnlichkeit der Vektoren repräsentiert dabei die Bedeutungsähnlichkeit. Besonders bevorzugt weisen der erste und zweite Vektorraum die gleiche Anzahl von Dimensionen auf.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells ein fasttext-Modell nach Bojanowski et al. verwendet wird, vgl. z.B. P. Bojanowski*, E. Grave*, A. Joulin,
T. Mikolov. 2012. "Enriching Word Vectors with Subword Information.". Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das Ermitteln des modifizierten zweiten Vektorraummodells in Abhängigkeit einer Abbildung des zweiten Vektorraums auf den ersten Vektorraum durch Lösung des
Orthogonal Procrustes Problems (gemäß Schönemann, 1964) ausgeführt wird. Hierbei kann eine optimale Matrix W* für die Matrizen A, B berechnet werden, wobei die Matrizen A, B z.B. dem ersten Vektorraum und dem zweiten
Vektorraum entsprechen. Die optimale Matrix W* minimiert die Summe der quadratischen euklidischen Distanzen zwischen Bs Abbildung auf Bi*W und Aj* für die Wörterbucheinträge D minimiert W * = arg min , wobei D eine Repräsentation des Wörterbuches als binäre Matrix ist, sodass Di j =1 wenn e V b . Bei weiteren bevorzugten Ausführungsformen kann dies durch eine Anwendung der Singulärwertzerlegung gelöst werden: W * = UV T , mit B T DA = u S n t , und B kann dann folgendermaßen auf A gemappt/aligniert werden: B = AW*. Dadurch werden vorteilhaft die Wortvektoren der beiden Vektorräume vergleichbar.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Analysieren die Ermittlung einer ersten Größe aufweist, die eine Vektordistanz zwischen dem ersten Wortvektor und dem zweiten Wortvektor charakterisiert, wobei insbesondere die erste Größe eine Bedeutungsverschiebung des wenigstens einen Elements von einer zweiten Textsammlung, die die
Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung assoziierten Domäne, beispielsweise einer Fachsprache, charakterisiert. Die genannte Vektordistanz bzw. die erste Größe charakterisiert vorteilhaft die Bedeutungsverschiebung, wobei insbesondere auch ein Maß der
Bedeutungsverschiebung, also eine quantitative Aussage über den Grad der Bedeutungsverschiebung, möglich ist. Dadurch kann eine noch genauere Analyse von Elementen z.B. der ersten Textsammlung erfolgen.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Analysieren die Bildung einer Kosinus-Distanz oder einer euklidischen Distanz zwischen dem ersten Wortvektor und dem zweiten Wortvektor aufweist.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die erste Textsammlung bzw. der erste Korpus eine themenspezifische und/oder fachspezifische Textsammlung ist, wobei die zweite Textsammlung bzw. Korpus eine nicht themenspezifische und/oder nicht fachspezifische Textsammlung, insbesondere eine allgemeinsprachliche Textsammlung, ist.
Ein fachspezifischer Korpus enthält z.B. nur Text, der für eine Domäne spezifisch ist. Ein allgemeinsprachlicher Korpus bezeichnet Text oder eine Kollektion von Texten, ohne spezifische Zuordnung zu einer Domain. Alle Texte eines
Kochforums im Internet stellen beispielsweise einen fachspezifischen Korpus dar. Alle Einträge der Wikipedia stellen beispielsweise einen
allgemeinsprachlichen Korpus dar.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Bereitstellen der ersten Textsammlung und/oder das Bereitstellen der zweiten Textsammlung aufweist: a) Sammeln von Texten und/oder Wörtern in einem Computer bzw. Computernetzwerk und/oder einer Datenbank, insbesondere mittels Crawling von Websites, z.B. focused Crawling, und/oder b) Sammeln von Texten und/oder Wörtern aus digitalen bzw. digitalisierten Büchern.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass Wortvektoren solcher Elemente der Textsammlungen verworfen werden, die nur in einer der beiden Textsammlungen Vorkommen. Dadurch kann der Speicherbedarf verringert werden.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das wenigstens eine Element der ersten Textsammlung mittels eines
Termextraktionsverfahrens ermittelt wird. Bei weiteren bevorzugten
Ausführungsformen können, z.B. mittels des genannten
Termextraktionsverfahrens, auch mehrere Elemente der ersten Textsammlung ermittelt werden, die z.B. gemäß weiteren bevorzugten Ausführungsformen, z.B. hinsichtlich einer möglichen Bedeutungsverschiebung, analysiert werden.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Verfahren weiter aufweist: Einbringen eines Teils der ersten Textsammlung in die zweite Textsammlung und/oder umgekehrt. Das Einbringen des Teils der ersten Textsammlung in die zweite Textsammlung und/oder umgekehrt kann z.B. nach oder während dem Bereitstellen der zweiten Textsammlung erfolgen. Bei weiteren bevorzugten Ausführungsformen ist das Einbringen gleichbedeutend mit einem Mischen eines Teils der ersten Textsammlung unter die zweite
Textsammlung. Bei weiteren bevorzugten Ausführungsformen kann das
Einbringen bzw. Mischen folgende Auswirkung haben: je domänenspezifischer Fachbegriffe/Terme sind, in desto eingeschränkterem Kontext kommen sie vor (z.B. kommt das Wort "blanchieren" als Kochmethode meistens zusammen mit "Salzwasser" vor, während "Plätzchen" sowohl in Backrezepten als auch in anderen Kontexten, z.B. in Bezug zu Weihnachten auftaucht.). Wenn man nun also gemäß weiteren bevorzugten Ausführungsformen Wortvektoren auf jeder Textsammlung (z.B. allgemeinsprachlich und domänenspezifisch) bildet, dann können sich die Wortvektoren von sehr domänen-spezifischen Termen vergleichsweise ähnlich sein, weil im allgemeinsprachlichen Korpus
(Textsammlung) nur die Texte aus dem domänenspezifischen Korpus
Vorkommen, die sich noch dazu untereinander sehr ähneln. Bei den
allgemeinsprachlicheren Begriffen oder mehrdeutigen Begriffen sind die Kontexte diverser, dadurch gehen die Vektoren gemäß weiteren bevorzugten
Ausführungsformen stärker auseinander.
Weitere bevorzugte Ausführungsformen beziehen sich auf eine Verwendung des Verfahrens gemäß den Ausführungsformen zur Ermittlung einer
Bedeutungsverschiebung wenigstens eines Elements der ersten Textsammlung von einer zweiten Textsammlung, die die Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung assoziierten Domäne, beispielsweise einer Fachsprache, insbesondere zur Ermittlung einer Stärke der
Bedeutungsverschiebung des wenigstens einen Elements der ersten
Textsammlung von der zweiten Textsammlung zu der mit der ersten
Textsammlung assoziierten Domäne.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Verfahren weiter aufweist: Ermitteln eines Bias-Vektors, insbesondere für Termextraktionsverfahren, in Abhängigkeit der Bedeutungsverschiebung. Dies ermöglicht vorteilhaft eine präzise Initialisierung des Bias-Vektors, wobei die Konvergenz des Algorithmus beschleunigt werden kann. Der Bias-Vektor kann gemäß weiteren Ausführungsformen auch als "Teleportation Vector" oder "Personalization Vector" bezeichnet werden.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Verfahren weiter aufweist: Ermitteln eines aktuellen page rank-Werts in
Abhängigkeit der Bedeutungsverschiebung, insbesondere in Abhängigkeit des Bias-Vektors. Eine Möglichkeit, Terminologie zu einem bestimmten Fachgebiet auch in einer heterogenen Textdatensammlung zu finden, ist mittels des Personalized PageRank Algorithmus. Die Knoten im Graph werden durch die Wörter im Text repräsentiert, und die Kanten durch ihr gemeinsames Auftreten innerhalb eines Fensters oder ihrer Wortvektorähnlichkeit etc. (Milhacea and Tarau, 2004; De Groc et al, 2011 ; Khan et al, 2016, Zhang et al., 2017 i.a.). Der PageRank Algorithmus kann folgendermaßen formalisiert werden:
PR‘ = d*A*PR + (1-d)*v, wobei PR ein Vektor der Größe |V| ist, bei dem jeder Wert zugehörig zu einem Wort ist; PR‘ ist der aktuelle Page Rank und PR der Page Rank aus dem vorherigen Schritt, d ein Dämpfungsfaktor, A die Übergangsmatrix, und v der vorstehend bereits erwähnte Bias-Vektor, der für jeden Knoten (jedes Wort) einen Wert enthält, der bestimmt, wie stark die Berechnung in Richtung eines Knoten beeinflusst werden soll.
Bei der Termextraktion kann es gemäß weiteren bevorzugten
Ausführungsformen zufolge nützlich sein, die Berechnung in Richtung einiger Seed-Terme zu beeinflussen: vi =1 , wenn das betreffende Wort wi in der Menge der Seed-Worte enthalten ist, sonst vi =0.
Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi in Abhängigkeit der gemäß bevorzugten Ausführungsformen ermittelten
Bedeutungsverschiebung ermittelt werden, was eine akkurate Berechnung der Bias-Werte ermöglicht und die Konvergenz des Algorithmus beschleunigt.
Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi z.B. wie folgt ermittelt werden: vi = 1-xi, wenn xi die zu einem Wort wi zugehörige Bedeutungsverschiebung ("meaning shift Wert") ist, ansonsten vi = 0.
Weitere bevorzugte Ausführungsformen beziehen sich auf eine Vorrichtung zur Analyse von Elementen einer ersten Textsammlung, wobei die Vorrichtung zur Ausführung der folgenden Schritte ausgebildet ist: Bereitstellen der ersten Textsammlung, Bereitstellen einer zweiten Textsammlung, die von der ersten Textsammlung verschieden ist, Ermitteln eines ersten Vektorraummodells, das einen mit der ersten Textsammlung assoziierten ersten Vektorraum
charakterisiert, Ermitteln eines zweiten Vektorraummodells, das einen mit der zweiten Textsammlung assoziierten zweiten Vektorraum charakterisiert, Ermitteln eines modifizierten zweiten Vektorraummodells in Abhängigkeit einer Abbildung des zweiten Vektorraums auf den ersten Vektorraum, Analysieren wenigstens eines Elements der ersten Textsammlung in Abhängigkeit eines mit dem wenigstens einen Element korrespondierenden ersten Wortvektors des ersten Vektorraummodells und eines mit dem wenigstens einen Element
korrespondierenden zweiten Wortvektors des modifizierten zweiten
Vektorraummodells.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die
Vorrichtung zur Ausführung des Verfahrens gemäß den Ausführungsformen ausgebildet ist.
Bei weiteren bevorzugten Ausführungsformen weist die Vorrichtung wenigstens eine Recheneinrichtung auf, wenigstens eine der Recheneinrichtung
zugeordnete Speichereinrichtung zur zumindest zeitweisen Speicherung eines Computerprogramms, wobei das Computerprogramm insbesondere zur
Steuerung eines Betriebs der Vorrichtung, insbesondere zur Ausführung des Verfahrens gemäß bevorzugten Ausführungsformen, ausgebildet ist. Bei weiteren bevorzugten Ausführungsformen weist die Recheneinrichtung wenigstens eines der folgenden Elemente auf: einen Mikroprozessor, einen Mikrocontroller, einen digitalen Signalprozessor (DSP), einen programmierbaren Logikbaustein (z.B. FPGA, field programmable gate array), einen ASIC
(anwendungsspezifischen integrierten Schaltkreis), eine Hardwareschaltung. Kombinationen hieraus sind bei weiteren bevorzugten Ausführungsformen auch denkbar, ebenso wie eine verteilte Anordnung zumindest mancher
Komponenten, z.B. auf verschiedene Elemente eines Computernetzwerks.
Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung wenigstens eines der folgenden Elemente auf: einen flüchtigen Speicher, insbesondere Arbeitsspeicher (RAM), einen nichtflüchtigen Speicher, insbesondere Flash-EEPROM. Bevorzugt ist das Computerprogramm in dem nichtflüchtigen Speicher abgelegt. Bei weiteren bevorzugten Ausführungsformen sind in der Speichereinrichtung auch Daten zumindest zeitweise speicherbar, die für die Ausführung des Verfahrens gemäß den Ausführungsformen verwendbar sind. Die Daten können beispielsweise wenigstens eines der folgenden Elemente aufweisen: die erste Textsammlung oder Teile der ersten Textsammlung, die zweite Textsammlung oder Teile der zweiten Textsammlung, das erste
Vektorraummodell und/oder das zweite Vektorraummodell und/oder das modifizierte zweite Vektorraummodell charakterisierende Daten, die Abbildung des zweiten Vektorraums auf den ersten Vektorraum charakterisierende Daten, insbesondere in Form einer Transformationsmatrix, ein oder mehrere
Wortvektoren des ersten Vektorraums und/oder des zweiten Vektorraums charakterisierende Daten, die erste Größe und/oder gemäß weiteren
bevorzugten Ausführungsformen ermittelte Bedeutungsverschiebungen, insbesondere in Form numerischer Größen.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk, aufweisend die folgenden Schritte:
Bereitstellen von Seed-Informationen, die ein oder mehrere Startpunkte in der Menge digitaler Daten, insbesondere in dem Computernetzwerk, für die Suche der Informationen charakterisieren, Suchen von Informationen in dem
Computernetzwerk in Abhängigkeit der Seed-Informationen, wobei für das Bereitstellen der Seed-Informationen ein Verfahren gemäß den
Ausführungsformen verwendet wird. Dadurch können besonders sinnvolle, z.B. für eine bestimmte Domäne spezifische bzw. eindeutige, Seed-Informationen vorgebeben werden, die die Effizienz der Suche steigern. Auf diese Weise kann unter Einsatz derselben Rechenressourcen eine größere Menge digitaler Daten gesucht bzw. ausgewertet werden, und es können mit geringerem
Rechenaufwand als bei konventionellen Ansätzen themenrelevante Daten, insbesondere Textdaten, gecrawlt werden. Insbesondere kann das vorstehend beschriebene Suchverfahren bei weiteren bevorzugten Ausführungsformen zur Implementierung effizienter focus Crawler verwendet werden.
Bei weiteren bevorzugten Ausführungsformen kann es sich bei den Seed- Informationen z.B. um Internetadressen (URLs) handeln, und/oder um Suchworte zur Verwendung mit wenigstens einer Suchmaschine und/oder Datenbank.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Bereitstellen der Seed-Informationen aufweist: Vorgeben einer ersten Anzahl von Begriffen für die Suche (Beispielsweise durch einen Benutzer über eine
Benutzerschnittstelle und/oder automatisiert, z.B. in Abhängigkeit von
Konfigurationsdaten), Ermitteln einer Bedeutungsverschiebung der ersten Anzahl von Begriffen für die Suche in Abhängigkeit der ersten Größe, Verwenden derjenigen Begriffe der ersten Anzahl von Begriffen als Seed-Informationen für das Suchen, deren Bedeutungsverschiebung einen vorgebbaren ersten Schwellwert unterschreitet. Dadurch wird vorteilhaft sichergestellt, dass besonders spezifische Begriffe für die Seed-Informationen verwendet werden.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk oder einer Datenbank, aufweisend die folgenden Schritte: Empfangen eines Suchbegriffs, Bewerten des Suchbegriffs in Abhängigkeit einer mittels des Verfahrens gemäß den Ausführungsformen ermittelten Bedeutungsverschiebung des Suchbegriffs, insbesondere bezüglich der zweiten Textsammlung, und, in Abhängigkeit der Bewertung, Ausführen der Suche unter Verwendung des Suchbegriffs oder Ablehnen des Suchbegriffs. Dadurch ist es vorteilhaft möglich, Suchen gezielt dann auszuführen, wenn hinreichend genaue bzw. spezifische Suchbegriffe, insbesondere bezüglich einer bestimmten Domäne, verwendet werden, wohingegen Suchvorgänge für weniger spezifische Suchbegriffe vermieden werden können, was Rechenressourcen und Energie spart.
Weitere Merkmale, Anwendungsmöglichkeiten und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung von Ausführungsbeispielen der Erfindung, die in den Figuren der Zeichnung dargestellt sind. Dabei bilden alle beschriebenen oder dargestellten Merkmale für sich oder in beliebiger Kombination den Gegenstand der Erfindung, unabhängig von ihrer
Zusammenfassung in den Patentansprüchen oder deren Rückbeziehung sowie unabhängig von ihrer Formulierung bzw. Darstellung in der Beschreibung bzw. in der Zeichnung.
In der Zeichnung zeigt:
Figur 1 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß bevorzugten Ausführungsformen,
Figur 2 schematisch ein vereinfachtes Blockdiagramm gemäß weiteren
bevorzugten Ausführungsformen,
Figur 3 schematisch ein vereinfachtes Blockdiagramm einer Vorrichtung gemäß weiteren bevorzugten Ausführungsformen, Figur 4 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen,
Figur 5 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen,
Figur 6 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen, und
Figur 7 schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß weiteren bevorzugten Ausführungsformen.
Figur 1 zeigt schematisch ein vereinfachtes Flussdiagramm eines Verfahrens gemäß bevorzugten Ausführungsformen. Das Verfahren ist zur Analyse von Elementen E einer ersten Textsammlung („Korpus“) K1 , vgl. auch das
Blockdiagramm aus Fig. 2, verwendbar, und weist die folgenden Schritte auf: Bereitstellen 102 (Fig. 1) der ersten Textsammlung K1 (Fig. 2), Bereitstellen 104 (Fig. 1) einer zweiten Textsammlung K2, die von der ersten Textsammlung K1 verschieden ist, Ermitteln 106 eines ersten Vektorraummodells M1 , das einen mit der ersten Textsammlung K1 assoziierten ersten Vektorraum charakterisiert, Ermitteln 108 eines zweiten Vektorraummodells M2, das einen mit der zweiten Textsammlung K2 assoziierten zweiten Vektorraum charakterisiert, Ermitteln 110 eines modifizierten zweiten Vektorraummodells M2‘ in Abhängigkeit einer Abbildung, z.B. mittels einer Transformationsmatrix T, des zweiten Vektorraums auf den ersten Vektorraum, Analysieren 120 wenigstens eines Elements E der ersten Textsammlung K1 in Abhängigkeit eines mit dem wenigstens einen Element E korrespondierenden ersten Wortvektors WV1 des ersten
Vektorraummodells M1 und eines mit dem wenigstens einen Element E korrespondierenden zweiten Wortvektors WV2 des modifizierten zweiten
Vektorraummodells M2‘. Die Analyse 120 ist in Fig. 2 auch durch den Blockpfeil A2 angedeutet. Dadurch lassen sich vorteilhaft effizient Informationen über eine Bedeutung bzw. eine Verschiebung BV der Bedeutung
(„Bedeutungsverschiebung“) des wenigstens einen Elements E, z.B. eines Begriffs bzw. Wortes, der ersten Textsammlung K1 ermitteln.
Bei weiteren bevorzugten Ausführungsformen kann auch eine andere
Reihenfolge der Schritte 102, 104, 106, 108 gewählt werden, z.B.: 102, 106, 104, 108, usw. Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells M1 , M2 ein Word2Vec CBOW Modell nach Tornas Mikolov et. al, 2013, Distributed representations of words and phrases and their compositionality, Advances in Neural Information Processing Systems, pages 3111-3119, Curran Associates, Inc., verwendet wird. Beispielhaft können die hierbei erhaltenen Wortvektoren WV1 , WV2, .. etwa 200 Dimensionen aufweisen. Besonders bevorzugt weisen der erste und zweite Vektorraum die gleiche Anzahl von Dimensionen auf.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass für die Bildung des ersten und/oder zweiten Vektorraummodells ein fasttext-Modell nach Bojanowski et al. verwendet wird, vgl. z.B. P. Bojanowski*, E. Grave*, A. Joulin,
T. Mikolov. 2012. "Enriching Word Vectors with Subword Information.".
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Analysieren 120 (Fig. 1) die Ermittlung einer ersten Größe G1 (Fig. 2) aufweist, die eine Vektordistanz zwischen dem ersten Wortvektor WV1 und dem zweiten Wortvektor WV2 charakterisiert, wobei insbesondere die erste Größe G1 eine Bedeutungsverschiebung BV des wenigstens einen Elements E von einer zweiten Textsammlung K2, die die Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung K1 assoziierten Domäne, beispielsweise einer Fachsprache, charakterisiert. Die genannte Vektordistanz bzw. die erste Größe G1 charakterisiert vorteilhaft die Bedeutungsverschiebung BV, wobei
insbesondere auch ein Maß der Bedeutungsverschiebung BV, also eine quantitative Aussage über den Grad der Bedeutungsverschiebung BV, möglich ist.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Analysieren 120 die Bildung einer Kosinus-Distanz oder einer euklidischen Distanz oder einer anderen Distanz zwischen dem ersten Wortvektor WV1 und dem zweiten Wortvektor WV2 aufweist.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen: Bilden einer Schnittmenge von benachbarten Wörtern für ein Zielwort in beiden
Textsammlungen. Je kleiner die Bedeutungsverschiebung, desto kleiner ist auch die Schnittmenge. Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass die erste Textsammlung K1 eine themenspezifische und/oder fachspezifische
Textsammlung ist, wobei die zweite Textsammlung K2 eine nicht
themenspezifische und/oder nicht fachspezifische Textsammlung, insbesondere eine allgemeinsprachliche Textsammlung, ist.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Bereitstellen 102 (Fig. 1) der ersten Textsammlung K1 und/oder das Bereitstellen 104 der zweiten Textsammlung K2 aufweist: a) Sammeln von Texten und/oder Wörtern in einem Computernetzwerk und/oder einer Datenbank, insbesondere mittels Crawling von Websites, z.B. focused Crawling, und/oder b) Sammeln von Texten und/oder Wörtern aus digitalen bzw. digitalisierten Büchern.
Eine fachsprachliche Textsammlung K1 kann bei weiteren bevorzugten
Ausführungsformen beispielsweise durch gezieltes Sammeln von mehreren Fachtexten aus ein oder mehreren Quellen, z.B. Datenbanken und/oder privaten und/oder öffentlichen Computernetzwerken (z.B. Internet) gebildet werden (z.B. themenspezifische Websites, Fachbücher, Fachpublikationen).
Eine allgemeinsprachliche Textsammlung K2 kann bei weiteren bevorzugten Ausführungsformen beispielsweise durch zufallsbasiertes Sammeln von mehreren Texten aus ein oder mehreren Quellen, z.B. Datenbanken (z.B.
Zeitungstexte) und/oder privaten und/oder öffentlichen Computernetzwerken (z.B. Internet) gebildet werden.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass Wortvektoren solcher Elemente der Textsammlungen K1 , K2 verworfen werden, die nur in einer der beiden Textsammlungen Vorkommen. Dadurch kann der
Speicherbedarf verringert werden. Dies kann bei weiteren bevorzugten
Ausführungsformen beispielsweise bei dem Schritt 120 der Analyse erfolgen oder auch vorher.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das wenigstens eine Element E der ersten Textsammlung K1 mittels eines
Termextraktionsverfahrens TE ermittelt wird. Bei weiteren bevorzugten
Ausführungsformen können, z.B. mittels des genannten
Termextraktionsverfahrens TE, auch mehrere Elemente E der ersten
Textsammlung K1 (z.B. alle Fachausdrücke) ermittelt werden, die z.B. gemäß weiteren bevorzugten Ausführungsformen, z.B. hinsichtlich einer möglichen Bedeutungsverschiebung, analysiert werden.
Bei weiteren bevorzugten Ausführungsformen kann die erste Größe G1 bzw. Bedeutungsverschiebung BV für ein (weiteres) Element der ersten
Textsammlung K1 z.B. mittels der folgenden Schritte ermittelt werden, sofern die Modelle M1 , MT (beispielsweise durch eine vorangehende Ausführung der Schritte 102, 104, 106, 108, 110‘) bereits vorliegen: Auswählen bzw. Vorgeben des weiteren Elements E, Ermitteln der ersten Größe G1 in Abhängigkeit der mit dem weiteren Element E assoziierten Wortvektoren beider Modelle M1 , M2‘.
D.h., die Schritte 102, 104, 106, 108, 110 müssen bei weiteren bevorzugten Ausführungsformen nicht für jede Ermittlung der Größen G1 , BV für ein
(weiteres) Element E wiederholt werden. Vielmehr reicht es bei weiteren bevorzugten Ausführungsformen, die mit dem weiteren Element E assoziierten Wortvektoren zu ermitteln und z.B. deren Distanz auszuwerten.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Verfahren weiter aufweist, vgl. Fig. 1 und 2: Einbringen 104a eines Teils der ersten Textsammlung K1 in die zweite Textsammlung K2 und/oder umgekehrt. Das Einbringen 104a des Teils der ersten Textsammlung K1 in die zweite Textsammlung K2 und/oder umgekehrt kann z.B. nach oder während dem Bereitstellen 104 (Fig. 1) der zweiten Textsammlung K2 erfolgen. In Fig. 2 ist das Einbringen beispielhaft durch den gestrichelten Pfeil 104a symbolisiert. Bei weiteren bevorzugten Ausführungsformen ist das Einbringen 104a
gleichbedeutend mit einem Mischen eines Teils der ersten Textsammlung K1 unter die zweite Textsammlung K2. Bei weiteren bevorzugten
Ausführungsformen kann das Einbringen 104a bzw. Mischen folgende
Auswirkung haben: je domänenspezifischer Fachbegriffe/Terme sind, in desto eingeschränkterem Kontext kommen sie vor (z.B. kommt das Wort "blanchieren" als Kochmethode meistens zusammen mit "Salzwasser" vor, während
"Plätzchen" sowohl in Backrezepten als auch in anderen Kontexten, z.B. in Bezug zu Weihnachten auftaucht.). Wenn man nun also gemäß weiteren bevorzugten Ausführungsformen Wortvektoren auf jeder Textsammlung (z.B. allgemeinsprachlich und domänenspezifisch) bildet, dann können sich die Wortvektoren von sehr domänen-spezifischen Termen vergleichsweise ähnlich sein, weil im allgemeinsprachlichen Korpus (Textsammlung) nur die Texte aus dem domänenspezifischen Korpus Vorkommen, die sich noch dazu
untereinander sehr ähneln. Bei den allgemeinsprachlicheren Begriffen oder mehrdeutigen Begriffen sind die Kontexte diverser, dadurch gehen die Vektoren gemäß weiteren bevorzugten Ausführungsformen stärker auseinander. Das Verfahrens gemäß bevorzugten wird somit empfindlicher.
Bei weiteren bevorzugten Ausführungsformen kann anstelle der Ermittlung 106, 108 (Fig. 1) der beiden Vektorraummodelle M1 , M2 ein Vektorraum über beide Textsammlungen (Korpora) K1 , K2 zusammen ermittelt werden, wobei insbesondere die folgenden Schritte ausführbar sind: ersetze vorher die
Zielwörter, für die die Bedeutungsverschiebung berechnet werden soll, durch zwei unterschiedliche Zeichen in den jeweiligen Korpora, z.B. <Wort>_1 im allgemeinsprachlichen Korpus und <Wort>_2 im spezifischen Korpus.
Bei weiteren bevorzugten Ausführungsformen kann anstelle der Ermittlung 106, 108 (Fig. 1) der beiden Vektorraummodelle M1 , M2 in einer Fensterspanne von X benachbarten Wörtern, folgendes ausgeführt werden: speichere für jeden Satz im jeweiligen Korpus die Nachbarwörter der Zielwörter ab.
Weitere bevorzugte Ausführungsformen beziehen sich auf eine Verwendung des Verfahrens gemäß den Ausführungsformen zur Ermittlung einer
Bedeutungsverschiebung BV wenigstens eines Elements E der ersten
Textsammlung K1 von der zweiten Textsammlung K2, die beispielsweise die Allgemeinsprache repräsentiert, zu einer mit der ersten Textsammlung K1 assoziierten Domäne, beispielsweise einer Fachsprache, insbesondere zur Ermittlung einer Stärke der Bedeutungsverschiebung des wenigstens einen Elements E der ersten Textsammlung K1 von der zweiten Textsammlung K2 zu der mit der ersten Textsammlung K1 assoziierten Domäne.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Verfahren weiter aufweist: Ermitteln eines Bias-Vektors, insbesondere für Termextraktionsverfahren TE (Fig. 1), in Abhängigkeit der
Bedeutungsverschiebung BV. Dies ermöglicht vorteilhaft eine präzise
Initialisierung des Bias-Vektors, wobei die Konvergenz des Algorithmus beschleunigt werden kann.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Verfahren weiter aufweist: Ermitteln eines aktuellen page rank-Werts in
Abhängigkeit der Bedeutungsverschiebung BV, insbesondere in Abhängigkeit des Bias-Vektors. Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi z.B. wie folgt ermittelt werden: vi = 1-xi, wenn xi die zu einem Wort wi zugehörige Bedeutungsverschiebung ("meaning shift Wert") ist, ansonsten vi = 0.
Eine Möglichkeit, Terminologie zu einem bestimmten Fachgebiet auch in einer heterogenen Textdatensammlung zu finden, ist mittels des Personalized
PageRank Algorithmus. Die Knoten im Graph werden durch die Wörter im Text repräsentiert, und die Kanten durch ihr gemeinsames Auftreten innerhalb eines Fensters oder ihrer Wortvektorähnlichkeit etc. (Milhacea and Tarau, 2004; De Groc et al, 2011 ; Khan et al, 2016, Zhang et al., 2017 i.a.). Der PageRank Algorithmus kann folgendermaßen formalisiert werden:
PR‘ = d*A*PR + (1-d)*v, wobei PR ein Vektor der Größe |V| ist, bei dem jeder Wert zugehörig zu einem Wort ist; PR‘ ist der aktuelle Page Rank und PR der Page Rank aus dem vorherigen Schritt, d ein Dämpfungsfaktor, A die Übergangsmatrix, und v der vorstehend bereits erwähnte Bias-Vektor, der für jeden Knoten (jedes Wort) einen Wert enthält, der bestimmt, wie stark die Berechnung in Richtung eines Knoten beeinflusst werden soll.
Bei der Termextraktion kann es gemäß weiteren bevorzugten
Ausführungsformen zufolge nützlich sein, die Berechnung in Richtung einiger Seed-Terme zu beeinflussen: vi =1 , wenn das betreffende Wort wi in der Menge der Seed-Worte enthalten ist, sonst vi =0.
Bei weiteren bevorzugten Ausführungsformen kann der genannte Bias-Vektor vi in Abhängigkeit der gemäß bevorzugten Ausführungsformen ermittelten
Bedeutungsverschiebung BV ermittelt werden, was eine akkurate Berechnung der Bias-Werte ermöglicht und die Konvergenz des Algorithmus beschleunigt. D.h., der bekannte Page Rank Algorithmus kann gemäß bevorzugten
Ausführungsformen verbessert werden. Dies ist schematisch in Fig. 7 abgebildet. Schritt 30 repräsentiert schematisch die Ermittlung der Bedeutungsverschiebung BV, z.B. mittels des vorstehend beispielhaft unter Bezugnahme auf Fig. 1 , 2 beschriebenen Verfahrens gemäß bevorzugten Ausführungsformen. Schritt 32 aus Fig. 7 repräsentiert schematisch die Ermittlung des Bias-Vektors vi in Abhängigkeit der zuvor in Schritt 30 ermittelten Bedeutungsverschiebung BV. Bevorzugte Ausführungsformen sind z.B. für eine automatische Terminologieextraktion (ATE) nutzbar, bei der es um das automatische Auffinden von Worten oder Wortgruppen geht, die ein bestimmtes Fachgebiet
charakterisieren. Die Terminologieextraktion findet ihre Anwendung unter anderem im Lexikon-, Thesaurus- und Ontologieaufbau, der Informationssuche in Datenbanken, in der Textklassifikation und im Text-Clustering.
Mithilfe des gemäß bevorzugten Ausführungsformen ermittelten bzw.
initialisierten Bias-Vektors vi können z.B. Termextraktionsverfahren TE (Fig. 1) beschleunigt werden, was z.B. Rechenkapazität spart. Zudem können Fehler in der Extraktion vermieden werden, z.B. wenn das System einen falschen Pfad einschlägt. Zudem werden folgende Anwendungen verbessert: - Verschlagwortung: eindeutigere Schlagworte können vergeben werden
- Schnellerer automatischer Aufbau von Glossaren und Ontologien.
Das Prinzip gemäß den Ausführungsformen kann den Bereich der
Terminologieextraktion und damit verwandte Bereiche wie z.B. die
Verschlagwortung (.Keyword Extraction') verbessern. Mit bevorzugten
Ausführungsformen können z.B. domänen-spezifische Fachterme schneller, speziell in heterogenen Textmengen, gefunden werden.
Das Prinzip gemäß den Ausführungsformen kann auch andere Algorithmen als dem vorstehend beispielhaft genannten Personalized PageRank Algorithmus verbessern. Nützlich dafür ist, dass das verbesserte Verfahren einen Bias-Vektor gemäß den Ausführungsformen nutzt, z.B. zum Beeinflussen der
Transitionswahrscheinlichkeiten, so dass das verbesserte Verfahren schneller konvergieren kann. Die Anwendung des Prinzips gemäß den Ausführungsformen bewirkt, dass überwiegend, insbesondere nur, eindeutige (nicht mehrdeutige) Termbegriffe gefunden werden und als Seed genutzt werden. Dadurch wird das Verfahren nicht von einem mehrdeutigen Wort in eine falsche Richtung abgelenkt.
Weitere bevorzugte Ausführungsformen beziehen sich auf eine Vorrichtung 200 (vgl. Fig. 3) zur Analyse von Elementen einer ersten Textsammlung, wobei die Vorrichtung 200 zur Ausführung des Verfahrens gemäß den Ausführungsformen, vgl. z.B. das Flussdiagramm aus Fig. 1 , ausgebildet ist. Figur 3 zeigt schematisch ein vereinfachtes Blockdiagramm der Vorrichtung 200 gemäß weiteren bevorzugten Ausführungsformen. Die Vorrichtung 200 weist wenigstens eine Recheneinrichtung 202 auf, wenigstens eine der
Recheneinrichtung 202 zugeordnete Speichereinrichtung 204 zur zumindest zeitweisen Speicherung eines Computerprogramms PRG, wobei das
Computerprogramm PRG insbesondere zur Steuerung eines Betriebs der Vorrichtung 200, insbesondere zur Ausführung des Verfahrens gemäß bevorzugten Ausführungsformen, ausgebildet ist.
Bei weiteren bevorzugten Ausführungsformen weist die Recheneinrichtung 202 wenigstens eines der folgenden Elemente auf: einen Mikroprozessor, einen Mikrocontroller, einen digitalen Signalprozessor (DSP), einen programmierbaren Logikbaustein (z.B. FPGA, field programmable gate array), einen ASIC
(anwendungsspezifischen integrierten Schaltkreis), eine Hardwareschaltung. Kombinationen hieraus sind bei weiteren bevorzugten Ausführungsformen auch denkbar, ebenso wie eine verteilte Anordnung zumindest mancher
Komponenten, z.B. auf verschiedene Elemente eines Computernetzwerks.
Bei weiteren bevorzugten Ausführungsformen weist die Speichereinrichtung 204 wenigstens eines der folgenden Elemente auf: einen flüchtigen Speicher 204a, insbesondere Arbeitsspeicher (RAM), einen nichtflüchtigen Speicher 204b, insbesondere Flash-EEPROM. Bevorzugt ist das Computerprogramm PRG in dem nichtflüchtigen Speicher 204b abgelegt. Bei weiteren bevorzugten
Ausführungsformen sind in der Speichereinrichtung 204 auch Daten DAT zumindest zeitweise speicherbar, die für die Ausführung des Verfahrens gemäß den Ausführungsformen verwendbar sind. Die Daten DAT können beispielsweise wenigstens eines der folgenden Elemente aufweisen: die erste Textsammlung K1 oder Teile der ersten Textsammlung K1 , die zweite Textsammlung K2 oder Teile der zweiten Textsammlung K2, das erste Vektorraummodell M1 und/oder das zweite Vektorraummodell M2 und/oder das modifizierte zweite
Vektorraummodell M2‘ charakterisierende Daten, die Abbildung des zweiten Vektorraums auf den ersten Vektorraum charakterisierende Daten, insbesondere in Form einer Transformationsmatrix T, ein oder mehrere Wortvektoren WV1 des ersten Vektorraums und/oder des zweiten Vektorraums WV2 charakterisierende Daten, die erste Größe G und/oder gemäß weiteren bevorzugten
Ausführungsformen ermittelte Bedeutungsverschiebungen BV, insbesondere in Form numerischer Größen. Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, vgl.
Fig. 4, zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computer und/oder Computernetzwerk, aufweisend die folgenden Schritte: Bereitstellen 10 von Seed-Informationen, die ein oder mehrere Startpunkte in der Menge digitaler Daten, insbesondere in dem
Computernetzwerk, für die Suche der Informationen charakterisieren, Suchen 12 von Informationen in dem Computernetzwerk in Abhängigkeit der Seed- Informationen Sl, wobei für das Bereitstellen der Seed-Informationen Sl ein Verfahren gemäß den Ausführungsformen verwendet wird, z.B. der vorstehend beispielhaft beschriebene Ablauf gemäß Fig. 1. Dadurch können besonders sinnvolle, z.B. für eine bestimmte Domäne spezifische bzw. eindeutige, Seed- Informationen Sl vorgebeben werden, die die Effizienz der Suche 12 (Fig. 4) steigern. Auf diese Weise kann unter Einsatz derselben Rechenressourcen eine größere Menge digitaler Daten gesucht bzw. ausgewertet werden, und es können mit geringerem Rechenaufwand als bei konventionellen Ansätzen themenrelevante Daten, insbesondere Textdaten, gecrawlt werden.
Insbesondere kann das vorstehend beschriebene Suchverfahren bei weiteren bevorzugten Ausführungsformen zur Implementierung effizienter focus Crawler verwendet werden.
Bei weiteren bevorzugten Ausführungsformen kann es sich bei den Seed- Informationen Sl z.B. um Internetadressen (URLs) handeln, und/oder um
Suchworte zur Verwendung mit wenigstens einer Suchmaschine und/oder Datenbank.
Bei weiteren bevorzugten Ausführungsformen ist vorgesehen, dass das
Bereitstellen 10 der Seed-Informationen Sl aufweist, vgl. Fig. 5: Vorgeben 10a einer ersten Anzahl von Begriffen für die Suche (Beispielsweise durch einen Benutzer über eine optionale Benutzerschnittstelle 206 (Fig. 3) und/oder automatisiert, z.B. in Abhängigkeit von Konfigurationsdaten, die z.B. ebenfalls zumindest zeitweise in der Speichereinrichtung 204 speicherbar sind), Ermitteln 10b (Fig. 5) einer Bedeutungsverschiebung BV der ersten Anzahl von Begriffen für die Suche in Abhängigkeit der ersten Größe G1 (Fig. 2), Verwenden 10c (Fig. 5) derjenigen Begriffe der ersten Anzahl von Begriffen als Seed-Informationen Sl für das Suchen 12 (Fig. 4), deren Bedeutungsverschiebung BV einen
vorgebbaren ersten Schwellwert unterschreitet. Dadurch wird vorteilhaft sichergestellt, dass besonders spezifische Begriffe für die Seed-Informationen Sl verwendet werden. Beispielsweise kann bei weiteren bevorzugten Ausführungsformen für jeden Begriff der ersten Anzahl von Begriffen ein Ablauf gemäß Fig. 1 ausgeführt werden, um eine jeweilige Bedeutungsverschiebung BV dieses Begriffs E zu ermitteln. Solche Begriffe, deren Bedeutungsverschiebung BV den vorgebbaren Schwellwert unterschreitet, können z.B. als hinreichend spezifisch für eine geplante Suche 12 angesehen werden, wobei die Suche unter Verwendung dieser hinreichend spezifischen Begriffe ausführbar ist. Für die weiteren Begriffe der ersten Anzahl von Begriffen wird z.B. keine Suche ausgeführt, da sie als nicht hinreichend spezifisch angesehen werden.
Bei weiteren bevorzugten Ausführungsformen ist die Vorrichtung 200 gemäß Figur 3, insbesondere unter Steuerung durch das Computerprogramm PRG, (auch) zur Ausführung des Verfahrens gemäß Fig. 4, 5 ausgebildet.
Weitere bevorzugte Ausführungsformen beziehen sich auf ein Verfahren, vgl.
Fig. 6, zum Suchen von Informationen in einer Menge digitaler Daten, insbesondere in einem Computernetzwerk oder einer Datenbank, aufweisend die folgenden Schritte: Empfangen 20 eines Suchbegriffs Q (z.B. über eine
Benutzerschnittstelle 206, Fig. 3), Bewerten 22 des Suchbegriffs Q in
Abhängigkeit einer mittels des Verfahrens gemäß den Ausführungsformen (z.B. durch den Ablauf gemäß Fig. 1 oder Teilen hiervon) ermittelten
Bedeutungsverschiebung des Suchbegriffs bezüglich der zweiten Textsammlung K2, und, in Abhängigkeit der Bewertung 22, Ausführen 24 der Suche unter Verwendung des Suchbegriffs oder Ablehnen 26 des Suchbegriffs. Dadurch ist es vorteilhaft möglich, Suchen gezielt dann auszuführen, wenn hinreichend genaue bzw. spezifische Suchbegriffe, insbesondere bezüglich einer bestimmten Domäne, verwendet werden, wohingegen Suchvorgänge für weniger spezifische Suchbegriffe vermieden werden können, was Rechenressourcen und Energie spart.
Bei weiteren bevorzugten Ausführungsformen ist die Vorrichtung 200 gemäß Figur 3, insbesondere unter Steuerung durch das Computerprogramm PRG, (auch) zur Ausführung des Verfahrens gemäß Fig. 6 ausgebildet.
Nachfolgend sind weitere vorteilhafte Aspekte und Ausführungsformen beschrieben, die einzeln für sich oder in Kombination miteinander mit den vorstehend beispielhaft beschriebenen Ausführungsformen kombinierbar sind. Bei weiteren bevorzugten Ausführungsformen kann mithilfe einer numerischen Bewertung des Grades der Bedeutungsänderung, z.B. unter Verwendung der ersten Größe G1 (Fig. 2), für einen potentiellen Term hinsichtlich einer
Fachsprache neue Anwendungen adressiert sowie alte Anwendungen verbessert werden, z.B.: - Verschlagwortung: eindeutigere Schlagworte vergeben, - Automatischer Aufbau von Glossaren, - Lernsystem das Hilfestellung gibt beim Erlernen des Gebrauchs einer Fachsprache (z.B. durch Laien), - Bessere Einordnung von Begriffen in eine Terminologie (über Stärke der Zugehörigkeit zu einer Fachsprache, Zentralität), - Bessere Einordnung des Schwierigkeitsgrades von Begriffen einer Terminologie (Spezifizität), - Focus Crawling: man kann bessere Seedwörter auswählen (Seedwörter ohne Bedeutungsveränderung hinsichtlich der Allgemeinsprache), die eindeutiger das Fachgebiet definieren.
Bei weiteren bevorzugten Ausführungsformen kann das Problem gelöst werden, wie mehrdeutige Begriffe in eine Terminologie einzuordnen sind im Vergleich zu rein allgemeinsprachlichen Begriffen, also Elemente der zweiten Textsammlung K2. Dies ist besonders vorteilhaft, da konventionelle Methoden bisher noch nicht mit Mehrdeutigkeit umgehen können.
Eine bei weiteren bevorzugten Ausführungsformen ermöglichte
Charakterisierung einer Terminologie kann vorteilhaft auch für
Folgeanwendungen nützlich sein, z.B. beim Erlernen einer Fachterminologie durch Laien. Bedeutungsänderungen schon bekannter Begriffe in der
Fachsprache werden von Laien unter Umständen nicht erkannt, weshalb ein Lernsystem diese besonders behandeln sollte.
Weitere bevorzugte Ausführungsformen ermöglichen auch, eine
Terminologieextraktion zu verbessern sowie damit verwandte Bereiche wie z.B. die Verschlagwortung (.Keyword Extraction'). Der bisherige Stand der Technik beinhaltet insbesondere nicht eine Detektion der Stärke der
Bedeutungsverschiebung BV eines Begriffes E von der Allgemeinsprache in die Fachsprache. Dabei wird der Grad der Bedeutungsverschiebung BV gemäß weiteren bevorzugten Ausführungsformen numerisch bestimmt, z.B. ausgehend von einer Anzahl x Bedeutungen in der Allgemeinsprache (Textsammlung K2), hin zu einer Anzahl y an Bedeutungen in der Fachsprache (Textsammlung K1). Weitere bevorzugte Ausführungsformen ermöglichen insbesondere auch, eine Häufigkeitsverteilung der Bedeutungen innerhalb einer Sprache zu
berücksichtigen.
Weitere bevorzugte Ausführungsformen ermöglichen zu erkennen, dass ein Begriff E eine fachspezifische Bedeutung hat. Weitere bevorzugte
Ausführungsformen ermöglichen auch, zu erkennen, ob ggf. über alle
Bedeutungen des Begriffs E und die Häufigkeit der Nutzung hinweg ein Konflikt im Verständnis des Begriffs existiert. Das Maß BV reflektiert gemäß weiteren bevorzugten Ausführungsformen damit auch eine gewisse Erwartungshaltung, die z.B. ein Laie an die Nutzung eines Begriffes E in der Fachsprache hat. Z.B. erwartet er bei einem schon in der Allgemeinsprache K2 mehrdeutigen Begriff E eher, dass eine Bedeutungsverschiebung BV passiert (insbesondere mit einem nichtverschwindenden Wert z.B. der Vektordistanz der betreffenden
Wortvektoren WV1 , WV2), als bei einem vorher eindeutigen Begriff.
Unterscheiden sich die Bedeutungen in der Allgemeinsprache und der
Fachsprache nicht zu stark, ist es wahrscheinlicher dass der Laie die
Bedeutungsverschiebung nicht sofort erkennt.
Weitere bevorzugte Ausführungsformen beziehen sich auf eine Anwendung des Verfahrens gemäß den Ausführungsformen, vgl. z.B. den beispielhaften Ablauf gemäß Figur 1 , in den Bereichen Assistenz, Textklassifikation (Einordnung von Texten in Kollektionen; Domänenzugehörigkeit, Relevanz für Nutzergruppen, z.B. Fachexperten oder Laien), digitale Wörterbücher und Thesauri.