Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PRODUCTION OF CORRELATIONS, INTERACTIONS AND KNOWLEDGE FROM SCANNED DATA RECORDS
Document Type and Number:
WIPO Patent Application WO/2002/080096
Kind Code:
A2
Abstract:
The invention relates to a method for producing correlations and/or interactions and/or knowledge from a plurality of scanned data records. Said method comprises the following steps: a block called a Knowledge Grain (KG) is produced, said block individually providing seed tables comprising concepts and/or terms, each characterising a pre-determined area of knowledge; blocks called Information Grains (IG) are produced, said blocks automatically providing thesaurus tables comprising concepts and/or terms of a scanned data record; vectorial relations (pointers) are created, through which references between identical and/or different grains (IG, IG; KG, KG; IG, KG) can be marked; said pointers are weighted according to consistencies between the grains (IG, KG) related to each other by the pointers; and an action is carried out as soon as a pointer exceeds a pre-determined threshold value.

Inventors:
GROB ULRICH (DE)
Application Number:
PCT/EP2002/001628
Publication Date:
October 10, 2002
Filing Date:
February 15, 2002
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
METALIFE AG (DE)
GROB ULRICH (DE)
International Classes:
G06N5/02; (IPC1-7): G06N5/02
Domestic Patent References:
WO2001011559A12001-02-15
WO2001008096A12001-02-01
Foreign References:
US5594837A1997-01-14
DE19914326A12000-10-05
US5855011A1998-12-29
Attorney, Agent or Firm:
WESTPHAL, MUSSGNUG & PARTNER (Villingen-Schwenningen, DE)
Download PDF:
Claims:
Patentansprüche
1. Verfahren zur Erzeugung von Korrelationen und/oder Interak tionen und/oder Wissen aus einer Vielzahl von durchsuchten Da tensätzen, g e k e n n z e i c h n e t durch folgende Verfahrensschritte : Erzeugung eines Knowledge Grains (KG) mit einem individuellen Bereitstellen von Seed Tables, welche Begriffe und/oder Wörter zur Charakterisierung je eines vorgegeben Wissensgebietes auf weisen, und Erzeugung von Information Grains (IG) mit automatisierten Be reitstellen von Thesaurustabellen, welche Begriffe und/oder Wörter eines durchsuchten Datensatzes aufweisen, Erzeugung von vektoriellen Bezügen (Pointern), durch welche Verweise zwischen gleichartigen und/oder unterschiedlichen Grains (IG, IG ; KG, KG ; IG, KG) markiert werden, Gewichtung dieser Pointer nach Maßgabe von Übereinstimmungen der über Pointer zueinander in Beziehung stehenden Grains (IG, KG), und Ausführung einer Aktion, sobald ein Pointer einen vorgegeben Schwellwert überschreitet.
2. Verfahren nach Anspruch 1, d a d u r c h g e k e n n z e i c h n e t, dass die Gewich tung der Pointer manuell beeinflußt wird.
3. Verfahren nach Anspruch 1 oder 2, d a d u r c h g e k e n n z e i c h n e t, dass zur Initiali sierung des Verfahrens die Knowledge Grains (KG) manuell vorge geben werden.
4. Verfahren nach Anspruch 3, d a d u r c h g e k e n n z e i c h n e t, dass zur Initiali sierung des Verfahrens weiterhin der Name und Typ des Knowledge Grains (KG) sowie die Schwellwerte manuell vorgegeben werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, d a d u r c h g e k e n n z e i c h n e t, dass zur Initiali sierung des Verfahrens eine initiale, veränderbare Thesaurusta belle vorgegeben wird.
6. Verfahren nach einem der Ansprüche 1 bis 5, d a d u r c h g e k e n n z e i c h n e t, dass bei der Er stellung der Thesaurustabellen jedes Wort eines durchsuchten Datensatzes ausgewertet wird.
7. Verfahren nach Anspruch 6, d a d u r c h g e k e n n z e i c h n e t, dass bei der Durchsuchung der Datensätze vorgebbare Füllwörter ausgeblendet werden.
8. Verfahren nach einem der Ansprüche 1 bis 7, d a d u r c h g e k e n n z e i c h n e t, dass zusätzlich zu jedem Wort einer Thesaurustabelle eine Zahl gespeichert wird, die die Häufigkeit dieser in dem jeweils durchsuchten Datensatz vorkommenden Wortes angibt.
9. Verfahren nach einem der Ansprüche 1 bis 8, d a d u r c h g e k e n n z e i c h n e t, dass Wörter der Thesaurustabellen mit anderen Thesaurustabellen und den Know ledge Grains (KG) im Hinblick auf übereinstimmende Wörter ver glichen werden und nach Maßgabe der Übereinstimmungen die Poin ter bewertet werden.
10. Verfahren nach Anspruch 9, d a d u r c h g e k e n n z e i c h n e t, dass die Berech nung der Gewichtung (IPS) nach folgender Formel erfolgt : HäufigkeitB/ (N x W x K)) x 10X) erfolgt, wobei : B = (Begriff 1, Begriff 2, Begriff 3,..., Begriff N) ; B ist die Gesamtheit der zwischen dem jeweils betrachteten Informati on Grain (gespeichert in Thesaurustabelle) und dem jeweils be trachteten Knowledge Grain (gespeichert in Seed Table und Growth Table) übereinstimmenden Begriffe ist, N = Anzahl der Begriffe in der Thesaurustabelle des Information Grain, W = Gesamtanzahl der Wörter/Begriffe in der Informationsein heit, und K = Gesamtanzahl der Begriffe in Seed Table und Growth Table des Knowledge Grain.
11. Verfahren nach Anspruch 9 oder 10, d a d u r c h gekennzeichnet, dass sämtliche Thesaurustabellen einem Vergleich unterzogen werden.
12. Verfahren nach Anspruch 9 oder 10, d a d u r c h g e k e n n z e i c h n e t, dass nur vorgege bene Thesaurustabellen dem Vergleich unterzogen werden.
13. Verfahren nach Anspruch 9 oder 10, d a d u r c h gekennzeichnet, dass sämtliche Wörter und/oder Begriffe der Thesaurustabellen dem Vergleich unterzogen werden.
14. Verfahren nach Anspruch 9 oder 10, d a d u r c h g e k e n n z e i c h n e t, dass nur vorgege bene Wörter und/oder Begriffe der Thesaurustabellen dem Ver gleich unterzogen werden.
15. Verfahren nach einem der Ansprüche 1 bis 14, d a d u r c h g e k e n n z e i c h n e t, dass eine Vielzahl von Knowledge Grains (KG) im Verfahren vorgegeben sind.
16. Verfahren nach einem der Ansprüche 1 bis 15, d a d u r c h g kennzeichnet, dass ein Knowledge Grain (KG) eine growth table enthält, in die automatisch Wörter und/oder Begriffe eingetragen werden, die das betreffende Wis sensgebiet charakterisieren.
17. Verfahren nach einem der Ansprüche 1 bis 16, d a d u r c h g e k e n n z e i c h n e t, dass bei einer An frage an das Verfahren ein beliebiges Knowledge Grain (KG) als Ausgangspunkt ausgewählt wird und über die pointerVerbindungen in einem FrageAntwortDialog iterativ Antworten generiert wer den.
18. Verfahren nach einem der Ansprüche 1 bis 17, d a d u r c h g e k e n n z e i c h n e t, dass es nach Maßga be interner Faktoren mindestens zwei Knowledge Grains (KG) au tomatisch zu einem Knowledge Grain (KG) zusammenfassen kann.
19. Verfahren nach einem der Ansprüche 1 bis 18, d a d u r c h g e k e n n z e i c h n e t, dass es nach Maßga be interner Faktoren die Gewichtung von Pointern verändern kann.
20. Verfahren nach einem der Ansprüche 1 bis 19, d a d u r c h g e k e n n z e i c h n e t, dass es nach Maßga be äußerer Faktoren die Gewichtung von Pointern verändern kann.
21. Verfahren nach einem der Ansprüche 1 bis 20, d a d u r c h g e k e n n z e i c h n e t, dass die Datensätze aus Daten, Sequenzen, Dokumenten, Bildern oder dgl. gebildet sind.
22. Verfahren nach einem der Ansprüche 1 bis 20, d a d u r c h g e k e n n z e i c h n e t, dass die Datensätze aus Daten, Sequenzen, Dokumenten, Bildern oder dgl. gebildet sind.
23. System zur Erzeugung von Korrelationen und/oder Interak tionen und/oder Wissen aus einer Vielzahl von durchsuchten Da tensätzen, d a d u r c h g e k e n n z e i c h n e t, dass es nach dem Verfahren gemäß eines der Ansprüche 1 bis 21 arbeitet.
24. Datenträger mit einem auf dem Datenträger gespeicherten Programm, durch welches das in wenigesten einem der Ansprüche 1 bis 22 beanspruchte Verfahren ausführbar ist.
25. Datenträger nach Anspruch 24, d a d u r c h g e k e n n z e i c h n e t, dass dieser ein optischer oder magnetischer Speicherträger ist.
26. Datenträger nach Anspruch 25, d a d u r c h g ek e n n z e i c h n e t, dass der Datenträger eine CompactDisc, ein Flashmemory, ein Microdrive oder dgl. ist.
27. Datenträger nach einem der Ansprüche 24 bis 26, d a d u r c h g e k e n n z e i c h n e t, dass dieser Daten träger Bestandteil eines Systems nach Anspruch 23 ist.
Description:
Verfahren, System und Datenträger zur Erzeugung von Korrela- tionen und/oder Interaktionen und/oder Wissen aus einer Viel- zahl von durchsuchten Datensätzen Die Erfindung betrifft ein Verfahren zur Erzeugung von Korre- lationen und/oder Interaktionen und/oder Wissen aus einer Vielzahl von durchsuchten Datensätzen sowie ein System das nach diesem Verfahren arbeitet. Die Erfindung betrifft auch einen Datenträger, der Bestandteil eines solches lauffähigen Systems ist und auf dem das Programm zur Durchführung des Verfahrens gespeichert ist.

Es sind bereits eine Vielzahl von Veröffentlichungen bekannt, die sich mit der automatischen Erfassung von Daten aus Doku- menten befassen. So wurde zu der vorliegenden Erfindung vorab eine Recherche beim Österreichischen Patentamt unter dem Ak- tenzeichen R22/2002 durchgeführt. Dabei wurden als technolo- gischer Hintergrund zu der vorliegenden Erfindung folgende Dokumente als Stand der Technik aufgefunden : DE 198 43 450 Al ; US 5,297,039 ; W001/86499 A2 ; US 5,446,891 ; WO 00/72256 A2 und EP 0 987 639 A1.

Technologischer Hintergrund Die mannigfaltigen und meist nicht miteinander kompatiblen Datensammlungen der modernen Informationsgesellschaft stellen mittlerweile ein ernsthaftes Problem bezüglich der Informati- onsverarbeitung und Wissensgenerierung dar. Zwar werden rie- sige Datenmengen elektronisch gespeichert, die Extraktion von Zusammenhängen und Wissen ist aber nach wie vor zum aller- größten Teil Arbeit, die von Menschen übernommen werden muss.

Allerdings sind die Datenmengen mittlerweile so umfangreich, dass auch Menschen oftmals überfordert sind, daraus Wissen zu

generieren. Es ist daher zwingend notwendig, Verfahren zu er- arbeiten, die aus heterogenen Sammlungen von Daten automati- siert Korrelationen und Wissen generieren.

De vorliegenden Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren anzugeben, das aus heterogenen Sammlungen von Daten gleich welcher Art (z. B. Sequenzen, Dokumente, Veröf- fentlichungen, Patentanmeldungen oder dgl.) automatisiert Korrelationen und/oder Interaktionen und/oder Wissen zu gene- riert. Zusätzlich soll ein System und ein Datenträger zur Durchführung dieses Verfahrens angegeben werden.

Lösung Diese Aufgaben werden für das Verfahren durch die Merkmale des Anspruchs 1, für das System durch die Merkmale des An- spruchs 23 und für den Datenträger durch die Merkmale des An- spruchs 24 gelöst.

Weiterbildungen der Erfindung sind in den Unteransprüchen an- gegeben.

Das hier vorgestellte Verfahren kann weitgehend selbstständig und unabhängig von aktuellen Benutzeranfragen Zusammenhänge finden, bewerten und katalogisieren.

Das erfindungsgemäße Verfahren geht davon aus, dass Informa- tion und Wissen aus Grund-Blöcken zusammengesetzt ist. Im folgenden werden diese Blöcke Information Grain (IG) und Knowledge Grain (KG) genannt. Zwischen diesen Grains gibt es Beziehungsinteraktionen, die vektorielle Beziehungen oder Pointer genannt werden. Das erfindungsgemäße Verfahren ermög- licht, dass diese Pointer automatisch erstellt werden. An- schließend wird die Topologie des sich daraus ergebenden Netzwerkes nach Beziehungen der Grains untereinander durch- sucht und diese Assoziationen bewertet. Diese Assoziationen

werden, in geeigneter Weise aufbereitet, dem Benutzer zur Verfügung gestellt.

Da mit größer werdenden Informationsnetzwerken sehr schnell die zu berechnenden Werte so zahlreich werden, dass die der- zeitigen Rechner dafür zu langsam wären, können in einer Wei- terbildung der Erfindung beschränkte Teilnetzwerke betrach- tet.

Da das vorliegende Verfahren generell kein anderes Ziel hat, als ständig Informationen in Beziehung zu setzen und diese Beziehungen zu gewichten und zu dokumentieren, besitzt das Verfahren auch keinen klassischen Endpunkt. Einmal angestoßen läuft es so lange, wie das physikalische Rechenwerk mit Ener- gie versorgt wird. Anfragen an das Verfahren bringen immer nur einen aktuellen Wissensstand als Ausgabeergebnis. Damit gleicht es der organischen Informationsverarbeitung, die ja auch keinen definierten Endpunkt kennt.

Das Verfahren ermöglicht es, das selbstständig Ergebnisse mitgeteilt werden, ohne dass das Verfahren explizit danach gefragt wurde. Die Verknüpfung der Netzwerkelemente durch Pointer erlaubt es, dass zu jedem Zeitpunkt jedes Ergebnis logisch begründet auf die Grundinformationen zurückgeführt werden und dokumentiert werden kann.

Ein weiterer Vorteil des Verfahrens besteht darin, beliebige Informationsstrukturen zu integrieren und miteinander zu ver- knüpfen. Die integrierbaren Informationsstrukturen umfassen zum Beispiel relationale und/oder objektorientierte Datenban- ken, Texte jeder Art (Veröffentlichungen, Berichte, Zusammen- fassungen, Artikel), Tabellen, Tondokumente usw.

Durch einen Frage-Antwort-Dialog zwischen Benutzer und dem erfindungsgemäßen System ist es möglich, komplexe Fragestel- lungen, die (noch) nicht zu beantworten sind, in weniger kom- plexe Teilfragen zu zerlegen, zu spezifizieren und einzugren-

zen, auf die das Verfahren eine Antwort zu geben in der Lage ist.

Ein wichtiger Teilaspekt des vorliegenden Verfahrens ist die Möglichkeit Rückmeldungen über die Richtigkeit und Wertigkeit der gefundenen und ausgegebenen Antworten und Assoziationen zu verarbeiten. Dies bedeutet, dass Assoziationen zwischen den Netzwerkelementen durch die Rückmeldung der Benutzer ge- stärkt oder geschwächt werden können.

Detailbeschreibung - Begriffsdefinitionen Seed Table ist eine Tabelle des Knowledge Grain, die Begrif- fe, Wörter und verbundene Begriffe und Wörter enthält, die das betreffende Wissensgebiet charakterisieren oder einen funktionalen Zusammenhang mit dem betreffenden Wissensgebiet besitzen oder herstellen. Die Seed Tables verschiedener Wis- sensgebiete können gemeinsame Elemente enthalten, unterschei- den sich aber voneinander in mindestens einem Element. In diese Tabelle werden a priori Begriffe, Wörter und verbundene Begriffe und Wörter über das betreffende Wissensgebiet einge- geben. Weiterhin wird die Gesamtanzahl der in der Seed Table abgespeicherten Begriffe ebenfalls in der Tabelle gespei- chert.

Growth Table ist eine Tabelle des Knowledge Grain, in die Be- griffe, Wörter und verbundene Begriffe und Wörter automatisch eingetragen werden, die das betreffende Wissensgebiet charak- terisieren oder die einen funktionalen Zusammenhang mit dem betreffenden Wissensgebiet besitzen oder herstellen. Die Growth Tables verschiedener Wissensgebiete können gemeinsame Elemente enthalten. Für jeden im Growth Table abgespeicherten Begriff wird eine Zahl mit abgespeichert, die angibt, wie

viele Vergleiche des Growth Table mit Thesaurustabellen ver- schiedener Information Grains durchgeführt wurden, bei denen der Begriff nicht in der Thesaurustabelle gefunden wurde.

Weiterhin wird die Gesamtanzahl der in der Growth Table abge- speicherten Begriffe ebenfalls in der Tabelle gespeichert.

Thesaurustabelle ist eine Tabelle des Information Grain, die alle Begriffe, Wörter und verbundene Begriffe und Wörter ei- nes Datensatzes enthält. Ein Datensatz kann unter anderem ein Schriftstück, ein Dokument, eine Datei, ein Ergebnisproto- koll, eine Bilddatei, eine Tonaufzeichnung, eine Teilinforma- tion einer Datenbank etc. sein.

Storage Pointer ist ein abgespeicherter Verweis auf die Ur- sprungsablage der betreffenden Information. Dies kann zum Beispiel eine Dateibezeichnung, eine Schriftstückablage, eine Bildablage etc. sein.

Information Pointer ist ein bidirektionaler, gewichteter Ver- weis zwischen einem Information Grain und einem Knowledge Grain. Die Gewichtung der einen Verweisrichtung kann aber muss nicht gleich der Gewichtung der anderen Verweisrichtung sein.

Knowledge Pointer ist ein bidirektionaler, gewichteter Ver- weis zwischen zwei Knowledge Grains. Die Gewichtung der einen Verweisrichtung kann aber muss nicht gleich der Gewichtung der anderen Verweisrichtung sein.

Information Pointer Table ist eine Tabelle des Information Grain, die Information Pointer enthält.

Knowledge Pointer Table ist eine Tabelle des Knowledge Grain, die Knowledge Pointer enthält.

Information Pointer Strength (IPS) ist das Maß der Überein- stimmung zwischen einem Information Grain und einem Knowledge

Grain. Wie der Wert der Übereinstimmung gefunden wird, wird weiter unten im Text beschrieben.

Knowledge Pointer Strength (KPS) ist das Maß der Übereinstim- mung zwischen zwei Knowledge Grains. Wie der Wert der Über- einstimmung gefunden wird, wird weiter unten im Text be- schrieben.

Threshold-Parameter sind Grenzwerte, bei deren Erreichung ei- ne Aktion ausgeführt wird. Allgemein ist zu bemerken, dass diese Parameter in einer bevorzugten Ausführungsform des Ver- fahrens sowohl global, das heißt für alle Teilelemente gleich, als auch lokal, das heißt nur ein Teilelement betref- fend eingestellt werden können.

Pointer Strength Threshold ist ein Grenzwert für das Maß der Übereinstimmung. Damit ein Information Pointer oder ein Know- ledge Pointer erstellt wird, muss der Wert der Übereinstim- mung mindestens den Pointer Strength Threshold erreichen.

Growth Storage Threshold ist ein Grenzwert für die Aufnahme neuer Begriffe in die Growth Table. Erreicht die Gewichtung eines Information Pointer mindestens den Growth Storage Threshold des betreffenden Knowledge Grain, so werden die am häufigsten in der betreffenden Thesaurustabelle des Informa- tion Grain vorkommenden Begriffe in den Growth Table des be- treffenden Knowledge Grain aufgenommen.

Growth Deletion Threshold ist ein Grenzwert, bei dessen Er- reichen der betreffende Begriff aus dem Growth Table des be- trachteten Knowledge Grain gelöscht wird.

Information Grain (IG) ist eine Datenstruktur, die bevorzugt mindestens folgende Bestandteile umfasst :

Name, Information Type, Storage Pointer, Thesaurustabelle, In- formation Pointer Table In Fig. 1 ist ein Beispiel für ein Information Grain (IG) ab- gebildet. Hierbei handelst es sich um das Vorwort bzw. Ab- stract eines Artikel mit dem Titel"New roles for structure in biology and drug discovery"aus der Zeitschrift"Nature Structural Genomics", Supplement Vol. 7,2000, Seiten 928- 930. Im Thesaurus Table sind N=14 Begriffe abgespeichert. Da- bei kommt der Begriff"structure"insgesamt drei mal im Doku- ment vor, was durch die" (3)" nach dem wort"structure"ver- duetlicht ist. Die Gesamtanzahl der Wörter in der Ursprungs- informationseinheit beträgt W=67. Das Information Grain IG besitzt einen Information Pointer, der auf das Knowledge Grain"Protein Structure"verweist und die Gewichtung 118 be- sitzt.

Knowledge Grain (KG) ist eine Datenstruktur, die vorzugsweise mindestens folgende Bestandteile umfasst : Name, Knowledge Type, Seed Table, Growth Table, Information Pointer Table, Knowledge Pointer Table, Information Pointer Strength Threshold, Knowledge Pointer Strength Threshold, Growth Storage Threshold, Growth Deletion Threshold.

In Fig. 2 ist eine Beispiel für ein Knowledge Grain (KG) dar- gestellt. Die Gesamtanzahl der Begriffe, die im Seed Table und im Growth Table abgespeichert ist, beträgt K=9. Das Know- ledge Grain (KG) besitzt einen Information Pointer, der auf das Information Grain"New roles for structure in biology and drug discovery"verweist und eine Gewichtung von 118 hat.

Weiterhin besitzt es einen Knowledge Pointer, der auf das Knowledge Grain mit der Bezeichnung"X-ray Cristallography" verweist und eine Gewichtung von 250 hat. Die Threshold-Werte sind nur exemplarisch aufgeführt. Sie sind nicht vollständig.

Informations-und Assoziationsnetzwerk (1+A-Netzwerk) be- zeichnet das Geflecht, bestehend aus Information Grains und Knowledge Grains, verbunden durch Information Pointer und Knowledge Pointer.

Assoziationskette bezeichnet eine lineare, durch Pointer ge- schaffene Verbindung zwischen zwei Grains des Informations- und Assoziationsnetzwerkes. Die Knoten der Assoziationskette werden durch Grains gebildet.

Genereller Ablauf des erfindungsgemäßen Verfahrens a) Initialisierung - Erstellung der initialen Knowledge Grains Für die jeweils in Frage kommenden Wissensgebiete werden durch den Menschen eine Reihe von anfänglichen Knowledge Grains erstellt. Ein Beispiel für ein Knowledge Grain ist in Fig. 2 gegeben. Je feiner und schärfer definiert die Knowled- ge Grains sind, desto genauer und detaillierter ist die Asso- ziationsfindung und die Wissenszuordnung und-generierung.

Zur Erstellung eines Knowledge Grains muss der Seed Table er- stellt werden.

In einer bevorzugten Ausführungsform können die Seed Tables der Knowledge Grains automatisch erzeugt werden. Dabei kom- men allgemein bekannte Verfahren zur Erzeugung von fachspezi- fischen Wortlisten und Thesauri zum Einsatz.

Der Seed Table ist eine der zentralen Tabellen des Knowledge Grain. Darin werden alle Begriffe, Wörter und Begriffskombi- nationen abgelegt, die das betreffende Wissensgebiet charak- terisieren beziehungsweise als Begriffe in diesem Gebiet ver- wendet werden. Je genauer und treffender die Auswahl der Be-

griffe ist, desto genauer und schärfer kann dass erfindungs- gemäße Verfahren im späteren Verlauf Assoziationen berechnen.

Weiterhin werden der Name des Grain, der Knowledge Type und die diversen Threshold-Werte festgelegt. Diese Anfangswerte werden auf Grund von Erfahrung eingegeben. Das erfindungsge- mäße Verfahren ist in der Lage, diese Werte im Laufe der In- formationsverarbeitung selbstständig zu verändern. Auch neue Knowledge Grains können durch das Verfahren im Zuge der In- formationsverarbeitung selbstständig neu erstellt werden.

Erstellung eines initialen Globalthesaurus Zur Vereinfachung und Vereinheitlichung der Informationsab-, speicherung wird ein initialer Globalthesaurus erstellt. Es können auch aus Gründen der praktischen Durchführung für je- des Wissensgebiet separate Thesauri erstellt werden. Diese initialen Thesauri werden während der Laufzeit des Verfahrens ständig erweitert und überprüft.

Erstellung einer initialen Wortausschlussliste Zur Vermeidung von Füllwörtern (z. B. in, am, wo, wer, bei etc.) im Globalthesaurus und in den Thesaurustabellen der In- formation Grains wird mindestens eine Wortausschlussliste er- stellt, die ebenfalls während der Laufzeit des Verfahrens ständig erweitert und überarbeitet wird. b) Informationsaufnahme Information Grain Erstellung-Erste Phase Für jede zu bearbeitende Informationseinheit (Schriftstück, Ergebnisdatei, Datensatz etc.) erstellt das erfindungsgemäße Verfahren ein Information Grain mit den oben beschriebenen Elementen. Ein beispielhaftes Information Grain zeigt Fig. 1.

Kernstück des Information Grain ist die Thesaurustabelle, in die jeder Begriff, jedes Wort eingetragen wird, das in der Informationseinheit vorkommt. Zusätzlich zu dem Begriff wird die Zahl, wie häufig dieser Begriff in der Informationsein- heit vorkommt, mit abgespeichert. Weiterhin wird in der The- saurustabelle vermerkt, wie viele verschiedene Begriffe ins- gesamt darin gespeichert sind und wie viele Wörter oder Be- griffselemente die betrachtete Informationseinheit insgesamt besitzt. Vor dem Eintrag eines Begriffes in die Thesaurusta- belle wird der Begriff mit den Einträgen im Globalthesaurus verglichen, damit eine einheitliche Schreib-und Darstel- lungsform der Begriffe gewährleistet werden kann. Kommt ein Begriff noch nicht im Globalthesaurus vor, so wird er darin aufgenommen.

Der Storage Pointer verweist auf den Ablageort der Informati- onseinheit. Dies kann sowohl eine physikalische Ablage (z. Bsp. Aktenordner, Bild) als auch eine virtuelle Ablage (z.

Bsp. Dateinamen, Datenbankeintrag) sein.

Der Information Type wird automatisch aus einer Liste mögli- cher Typen nach festgelegten Kriterien zugeordnet.

Information Grain Erstellung-Zweite Phase Nachdem für alle aktuell zu verarbeitenden Informationsein- heiten die erste Phase der Information Grain Erstellung durchgeführt wurde, werden in der zweiten Phase die Informa- tion Pointer Table der Information Grains und der Knowledge Grains berechnet.

Hierzu werden die Begriffe der Thesaurustabelle eines Infor- mation Grain nacheinander mit den Begriffen in den Seed Ta- bles und den Growth Tables aller Knowledge Grains verglichen (siehe auch Abbildung 3"Berechnung des Information Pointer Strength"). Begriffe können auch zusammengesetzte Wörter sein

(z. Bsp. Macro-molecular, high resolution, Brückenpfeiler).

Es wird der Information Pointer Strength (IPS) berechnet.

In einer bevorzugten Ausführungsform wird dazu die folgende Formel verwendet : HäufigkeitB/ (N x W x K)) x 10X) Wobei : B = (Begriff 1, Begriff 2, Begriff 3,..., Begriff N) ; B ist die Gesamtheit der zwischen dem jeweils betrachteten Information Grain (gespeichert in Thesaurustabelle) und dem jeweils betrachteten Knowledge Grain (gespeichert in Seed Ta- ble und Growth Table) übereinstimmenden Begriffe N = Anzahl der Begriffe in der Thesaurustabelle des Informa- tion Grain W = Gesamtanzahl der Wörter/Begriffe in der Informationsein- heit, und K = Gesamtanzahl der Begriffe in Seed Table und Growth Table des Knowledge Grain sind.

Der Faktor 10X dient nur dazu, die Zahlen in einen leichter handhabbaren Bereich zu transformieren. Durch die Modulo- Operation wird nur der ganzzahlige Teil des Rechenwertes als Endergebnis verwendet. X wird experimentell im Zuge der Er- probung des Verfahrens bestimmt. Der bevorzugte Anfangswert von x ist 5.

In Fig. 3 ist ein Beispiel zur Berechnung des Information Pointer Strength (IPS) dargestellt. Dabei dienen die in Fig.

1 und 2. gezeigten Grains als Berechungsgrundlage. Die linke Seite zeigt einen Ausschnitt aus einem Information Grain (IG), die rechte Seite zeigt einen Ausschnitt aus einem Know- ledge Grain (KG). Es werden für die Berechnung des Informati- on Pointer Strenght (IPS) die Anzahl der übereinstimmenden Begriffe zwischen Thesaurus Table einerseits und Seed Table

und Growth Table andererseits bestimmt. Im Thesaurus Table ist hinter den Begriffen zusätzlich abgespeichert, wie häufig diese in der Ursprungsinformationseinheit vorkommen. Im Bei- spiel kommt der Begriff"structures"dreimal in der Ur- sprungsinformation vor. Zusätzlich kommt das Wort"structure" noch in dem zusammengesetzten Begriff"structure determinati- on"vor, so dass die Gesamtanzahl des Vorkommens des überein- stimmenden Begriffes"structure (s)"zwischen den betrachteten Grains bei vier liegt. Ist keine Zahl mit abgespeichert, so kommt der Begriff nur einmal vor. Die Berechnung erfolgt nach der oben aufgeführten Formel, wobei die Werte der Variablen N, W und K aus den Grains übernommen werden.

Nach der Berechnung des Information Pointer Strength (IPS) wird dieser Wert mit dem Information Pointer Strength Thres- hold des betreffenden Knowledge Grain verglichen. Ist der IPS mindestens so hoch wie der vorgegebene Threshold, so ist da- mit eine Zugehörigkeit der Informationseinheit zu diesem Wis- sensgebiet, repräsentiert durch das Knowledge Grain, festge- stellt. Es wird ein Information Pointer abgespeichert (siehe auch Fig. 3"Berechnung der Information Pointer").

Die Ausgestaltung dieses Information Pointers ist bevorzugt jedoch nicht notwendigerweise bidirektional und gewichtet.

Dies bedeutet, er deutet vom betrachteten Information Grain zum betrachteten Knowledge Grain und vice versa. Zusammen mit dem Pointer wird bevorzugt eine Gewichtung abgespeichert, die für beide Richtungen gleich aber auch unterschiedlich sein kann. In der Anfangsphase wird die Gewichtung für beide Rich- tungen identisch sein. Als Gewichtungswert wird der Informa- tion Pointer Strength verwendet.

In Fig. 4a ist ein Beispiel hierfür dargestellt. Es sind fünf Information Grains IG 1 bis IG 5 und vier Knowledge Grains KG A bis KG D im Netzwerk vorhanden.

Hieraus werden entsprechend der oben und in Fig. 3 "Berechnung des Information Pointer Strength (IPS)"beschrie- benen Rechenvorschrift die Information Pointer des Knowledge Grains"KG A"berechnet und abgespeichert, wie in Fig. 4b il- lustriert.

Wie in Fig. 4c grafisch dargestellt werden die weiteren In- formation Pointer berechnet und abgespeichert. Die Gewichtung der jeweiligen Pointer wird durch die an den Pointern stehen- den Zahlenwerte verdeutlicht.

Eine mögliche Ausführungsform des Verfahrens kann sein, die Begriffe der Thesaurustabellen nicht mit allen Tabellen aller Knowledge Grains zu vergleichen, sondern nur mit einem einge- schränkten Kreis von Knowledge Grains. Dies kann zum Beispiel dadurch erreicht werden, dass nur die prominentesten Begriffe der Thesaurustabelle mit den Namen der Knowledge Grains oder mit den Begriffen der Seed-Tabellen der Knowledge Grains auf Ähnlichkeit überprüft werden. Erreicht man mit dieser ver- kürzten Überprüfung eine Mindestübereinstimmung, so wird der oben beschriebene vollständige Vergleich der Begriffe zwi- schen diesen Grains durchgeführt.

Als Ergebnis der oben beschriebenen Berechnung der Informati- on Pointer besitzen danach die Information Grains eine Infor- mation Pointer Table, deren gewichtete Pointer auf die ver- bundenen Knowledge Grains verweisen. Die Knowledge Grains wiederum enthalten danach ebenfalls eine Information Pointer Table, deren gewichtete Pointer auf die verbundenen Informa- tion Grains verweisen. Damit ist eine gewichtete Beziehung zwischen der Informationseinheit und einem Wissensgebiet her- gestellt. Selbstverständlich ist es möglich, dass von einer Informationseinheit Beziehungen zu mehreren verschiedenen Wissensgebieten hergestellt werden. Genauso selbstverständ- lich sind Beziehungen von einem Wissensgebiet zu mehreren In- formationseinheiten möglich.

c) Erzeugung der Grund-Wissensbeziehungen Aufnahme neuer Begriffe in den Growth Table eines Knowledge Grain Überschreitet bei der Betrachtung der Informationskorrelation zwischen einem Information Grain und einem Knowledge Grain der Information Pointer Strength (IPS) den Growth Storage Threshold des Knowledge Grain, dann werden die A in der The- saurustabelle des Information Grain am häufigsten vorkommen- den Begriffe in die Growth Table des Knowledge Grain aufge- nommen. Die Berechnung von A wird unten im Text beschrieben.

Kommen mehrere Begriffe gleich häufig vor und können nicht alle in die Growth Table aufgenommen werden, so wählt ein Zu- fallsgenerator die aufzunehmenden Begriffe unter den häufig- sten aus.

Die Anzahl (A) der aufzunehmenden Begriffe richtet sich dabei in einer bevorzugten Ausführungsform nach folgender Formel : A = ln (N2/tn1) Wobei : N = Anzahl der Begriffe in der Thesaurustabelle des Information Grain und W = Gesamtanzahl der Wörter/Begriffe in der Informationsein- heit ist.

Löschung von Begriffen aus dem Growth Table eines Knowledge Grain Wird ein Begriff des Growth Table innerhalb von einer be- stimmten Anzahl von Vergleichen mit Thesaurustabellen ver- schiedener Information Grains nicht in mindestens einer der Thesaurustabellen gefunden, so wird er aus dem Growth Table

des Knowledge Grain gelöscht. Die Anzahl (V) der Vergleiche wird im Growth Deletion Threshold festgelegt und richtet sich dabei in einer bevorzugten Ausführungsform nach folgender Formel : V = P/Q wobei P = Gesamtanzahl der Information Grains und Q = Gesamtanzahl der Knowledge Grains ist.

Berechnung der Knowledge Pointer, Methode 1 Die Knowledge Pointer stellen einen wesentlichen Teil der Wissenskorrelationen dar und repräsentieren die Beziehungen zwischen Wissensgebieten (Knowledge Grains) untereinander. Es sind bidirektionale, gewichtete Verweise, die in einer bevor- zugten Ausführungsform wie folgt berechnet werden (siehe auch Fig. 5a und Fig. 5b"Berechnung der Knowledge Pointer").

Ausgehend von einem Knowledge Grain betrachtet das Verfahren die zu diesem Ausgangs-Knowledge Grain gehörenden Information Pointer (IP) nacheinander. Beginnend mit dem ersten Informa- tion Pointer wird im zugehörigen Information Grain das Vor- handensein weiterer Information Pointer überprüft. Wenn min- destens ein weiterer Pointer, der ja zu einem anderen Know- ledge Grain, dem Ziel-Knowledge Grain weist, vorhanden ist, so wird der Knowledge Pointer Strength für diese Assoziati- onskette berechnet. Die Berechnung wird bevorzugt nach fol- gender Rechenvorschrift durchgeführt.

Die Summe der Gewichtungen der beteiligten Information Poin- ter dividiert durch die Anzahl der durchlaufenen Knoten minus eins ergibt den Knowledge Pointer Strength (Jedes Information

Grain und jedes Knowledge Grain zählen als je ein Knoten, Ausgangs-Grain und Ziel-Grain zählen mit).

Entsprechend dieser Rechenvorschrift werden alle möglichen Verbindungen via Information Pointer zwischen den beiden be- trachteten Knowledge Grains berechnet.

Wenn der höchste berechnete Knowledge Pointer Strength minde- stens so hoch ist, wie jeder der Knowledge Pointer Strength Threshold-Werte der beteiligten Knowledge Grains, so ist da- mit eine Assoziation zwischen den beteiligten Knowledge Grains festgestellt. Es wird ein Knowledge Pointer abgespei- chert. Die Ausgestaltung dieses Knowledge Pointer ist bevor- zugt bidirektional und gewichtet. Dies bedeutet, er deutet vom betrachteten Ausgangs-Knowledge Grain zum betrachteten Ziel-Knowledge Grain und vice versa. Zusammen mit dem Pointer wird eine Gewichtung abgespeichert, die für beide Richtungen gleich aber auch unterschiedlich sein kann. In der Anfangs- phase wird die Gewichtung für beide Richtungen identisch sein. Als Gewichtungswert wird der höchste berechnete Know- ledge Pointer Strength verwendet.

Die vorstehend beschriebene Berechnung der Knowledge Pointer Strength wird für jedes Knowledge Grain durchgeführt. Als Er- gebnis dieser Berechnungen besitzen danach die Knowledge Grains eine Knowledge Pointer Table, deren gewichtete Pointer auf die verbundenen Knowledge Grains verweisen. Damit sind gewichtete Beziehung zwischen Wissensgebieten untereinander hergestellt. Selbstverständlich ist es möglich, dass von ei- nen Knowledge Grain Beziehungen zu mehreren verschiedenen Wissensgebieten hergestellt werden. Genauso selbstverständ- lich ist es möglich, dass Wissensgebiete keine Assoziation via Knowledge Pointer untereinander besitzen.

Das folgende Beispiel soll die Berechnung eines Knowledge Pointer verdeutlichen : Knowledge Grain A Information Grain 1 Knowledge Grain B IP : KG A <-> IG li ; 200 IP : IG 1 <-> KG A ; 200 IP : KG B <-> IG 1 ; 100 IP : IG 1 <-> KG B ; 100

Ausgehend vom Knowledge Grain (KG) A führt der Information Pointer (IP) zum Information Grain (IG) 1. Von dort führt ein weiterer Pointer zum Knowledge Grain (KG) B. Daher wird nun ein Knowledge Pointer (KP), KG A <-> KG B, in beiden betrof- fenen Knowledge Grains gespeichert, der die Gewichtung (200 + 100)/ (3-1) = 150 bekommt. Knowledge Grain A Information Grain 1 Knowledge Grain B IP : KG A <-> IG li 200 IP : IG 1 <-> KG A ; 200 IP : KG B <-> IG 1 ; 100 KP : KG A <-> KG B ; 150 IP : IG 1 <-> KG B ; 100 KP : KG B <-> KG A ; 150 Gemäss dem oben beschriebenen Verfahren werden alle möglichen Assoziationsketten zwischen zwei Knowledge Grains berechnet.

Der Knowledge Pointer mit der höchsten Gewichtung wird in den beteiligten Knowledge Grains gespeichert, wenn die Gewichtung des Pointers mindestens die Knowledge Pointer Strength Thres- holds der beteiligten Knowledge Grains erreicht. Anschließend wird die gleiche Prozedur mit allen weiteren Knowledge Grains durchgeführt.

Gemäß Fig. 5a werden nach Abschluss der Berechnung der Infor- mation Pointer gemäß er oben beschriebenen Rechenvorschrift in einem ersten Schritt die Knowledge Pointer zwischen den Knowledge Grains"KG C"und"KG D"berechnet : KG C <-> IG 3 <-> KG D = 200 + 400 = 600 ; 600 : 2 = 300. Es bestehen zwar noch andere Möglichkeiten einen Knowledge Pointer zwischen diesen beiden Knowledge Grains zu berechnen (z. B. KG C <-> IG 2 <-> KG A <-> IG 1 <-> KG D ; 200 + 100 + 200 + 50 = 550 ; 550

: 4 = 137, 5), jedoch erzielt die Assoziationskette KG C <-> IG 3 <-> KG D den höchsten Knowledge Pointer Strength.

Schließlich sind sämtliche Information Pointer und Knowledge Pointer des Informations-und Assoziationsnetzwerkes berech- net. In Fig. 5b ist dieses fertig berechnete Netzwerk ge- zeigt.- Ab einer bestimmte Größe des Netzwerkes kann es notwendig sein, nicht mehr alle Knowledge Pointer berechnen zu lassen.

In einer bevorzugten Ausführungsform beschränkt sich das Ver- fahren dann darauf, nur die Information Pointer zu verfolgen, die die jeweils J höchsten Gewichtungen haben, wobei die Zahl J als globale Variable oder in Tabellenform festgelegt wird oder vom Verfahren selbstständig, in Abhängigkeit von der An- zahl der vorhandenen Knoten in einer bevorzugten Ausführungs- form nach folgender Formel berechnet wird : V = Q/P x 10Y wobei : P = Gesamtanzahl der Information Grains Q = Gesamtanzahl der Knowledge Grains y wird experimentell im Zuge der Erprobung des Verfahrens be- stimmt.

Ein möglicher bevorzugter Anfangswert von y ist 5.

In einer weiteren bevorzugten Ausführungsform ist die Such- tiefe (S) auf eine maximale Anzahl von Knoten beschränkt. Die Anzahl der jeweils zu durchsuchenden Knoten wird entweder in einer globalen Variable festgelegt oder vom Verfahren selbst- ständig, in Abhängigkeit von der Anzahl der vorhandenen Kno- ten, zum Beispiel mit folgender Formel, berechnet : S = C X e-log R

wobei : C = Konstante ; zum Beispiel 3000 R = Anzahl der vorhandenen Knoten Eine weitere bevorzugte Ausführungsform verwendet eine Misch- form aus beiden vorgenannten Ausführungsformen.

Berechnung der Knowledge Pointer, Methode 2 Eine weitere bevorzugte Ausführungsform der Berechnung der Knowledge Pointer ist wie folgt charakterisiert.

Es werden entsprechend den unter"Information Grain Erstel- lung-Zweite Phase"beschriebenen Verfahren die Seed und Growth Tables eines Knowledge Grains nacheinander mit den Seed und Growth Tables aller anderen Knowledge Grains vergli- chen. Dies wird für jedes Knowledge Grain durchgeführt. Das Verfahren berechnet dabei den jeweiligen Knowledge Pointer Strength (KPS).

Nach der Berechnung des Knowledge Pointer Strength (KPS) wird dieser Wert mit dem Knowledge Pointer Strength Threshold des betreffenden Knowledge Grains verglichen. Ist der KPS minde- stens so hoch wie der Threshold, so ist damit eine Korrelati- on dieser Wissensgebiete, repräsentiert durch die beiden Knowledge Grains, festgestellt. Es wird ein Knowledge Pointer abgespeichert. Die Ausgestaltung dieses Knowledge Pointers ist bevorzugt bidirektional und gewichtet. Dies bedeutet, er deutet vom ersten betrachteten Knowledge Grain zum zweiten betrachteten Knowledge Grain und vice versa. Zusammen mit dem Pointer wird eine Gewichtung abgespeichert, die für beide Richtungen gleich aber auch unterschiedlich sein kann. In der Anfangsphase wird die Gewichtung für beide Richtungen iden- tisch sein. Als Gewichtungswert wird der Knowledge Pointer Strength verwendet.

d) Assoziationsfindung, Ergebnisdarstellung und Interaktion mit Benutzern Generell gilt für alle in diesem Abschnitt "Assoziationsfindung, Ergebnisdarstellung und Interaktion mit Benutzern"beschriebenen Teilverfahren, dass eine "holografische Hierarchie"der betrachteten Knowledge Grains ein wesentliches Merkmal des erfindungsgemäßen Verfahrens ist. Der Begriff"holografische Hierarchie"soll folgende Ei- genschaft des durch das erfindungsgemäßen Verfahren erzeugten Informations-und Assoziationsnetzwerkes (I+A-Netzwerk) ver- deutlichen.

Der Eintrittspunkt in das I+A-Netzwerk geschieht in einer be- vorzugten Form über ein Knowledge Grain. Dieses Grain sei für diese Anfrage per Definition das hierarchisch oberste. Die Knowledge Pointer dieses Grains verweisen nun auf verbundene Wissensgebiete,-untergebiete oder auch übergeordnete Wis- sensstrukturen. Alle diese verbundenen Knowledge Grains sind in Betrachtung dieser Anfrage jedoch untergeordnet und hier- archisch, über die Knowledge Pointer, mit dem Eintrittspunkt verbunden und erlauben dadurch einen iterativen Frage- Antwort-Dialog mit dem Benutzer, der zu einer Eingrenzung der Ursprungsfrage und zu immer präziseren Antworten führt.

Stellt man nun eine neue Anfrage an das I+A-Netzwerk, so ist nunmehr der neue Eintrittspunkt das hierarchisch oberste Knowledge Grain. Dies bedeutet, dass sich die Hierarchie des Netzwerkes mit der gestellten Frage verändert. Da dies keine statische Hierarchie ist und der Eintrittspunkt an mindestens jedem Knowledge Grain liegen kann und es sich dabei aber im- mer um das gleich Netzwerk handelt, wird diese Hierarchie als "holografisch"bezeichnet.

Es ist also möglich, den Eintrittspunkt in das Netzwerk, also z. B. die erste gestellte Frage an einem beliebigen Knowledge

Grain zu wählen. In diesem Punkt unterscheidet sich das vor- liegende Verfahren grundlegend von den sogenannten neuronalen Netzen.

Darstellung der direkten Wissensbeziehungen (KG-KG) In einer bevorzugten Ausführungsform können alle Wissensbe- ziehungen, repräsentiert durch die Knowledge Pointer zwischen Knowledge Grains, die einen Minimal Association Score (MAS) überschreiten, dem Benutzer als Ergebnis präsentiert werden.

Der Assoziation Score wird grundsätzlich dadurch berechnet, indem die Summe der Gewichtungen der in der betrachteten As- soziationskette durchlaufenen Pointer dividiert wird durch die Anzahl der durchlaufenen Pointer. Der Grenzwert MAS kann dabei sowohl vom Benutzer direkt als auch vom Programm in Ab- hängigkeit von verschiedenen anderen Parametern, wie zum Bei- spiel Rechenleistung der verwendeten Hardware, Anzahl der vorhandenen Knowledge Grains und Information Grains, gewählt werden. Die Ergebnispräsentation kann dabei auf alle tech- nisch machbare Weise erfolgen, zum Beispiel durch Ausgabe in Schriftform, gedruckt oder auf einem Bildschirm, graphisch, gesprochen, als Datei etc..

In einer weiteren bevorzugten Ausführungsform muss die Ge- wichtung jedes einzelnen der betrachteten Pointer einen Mini- mal Pointer Score (MPS) überschreiten, damit die Assoziation in die Ergebnisdarstellung mit aufgenommen werden kann. Dies bedeutet, dass alle Pointer einer Informationskette diesen MPS überschreiten müssen. Der Wert für den MPS kann als glo- bale Variable festgelegt werden oder in Abhängigkeit vom be- trachteten Knowledge Grain sein oder vom Verfahren selbst- ständig in Abhängigkeit von weiteren Verfahrensparametern be- rechnet werden.

Berechnung und Darstellung der indirekten Informationsbezie- hungen (KG-IG-KG-IG ; KG-KG-IG) Indirekte Informationsbeziehungen sind Assoziationen zwischen einem Knowledge Grain und einem nicht direkt über einen In- formation Pointer damit verbundenen Information Grain. Die Verbindung zwischen dem betrachteten Knowledge Grain und dem Information Grain verläuft dabei über mindestens einen Zwi- schenknoten.

Zur Berechnung der Informationskette dieser indirekten Bezie- hungen berechnet das Verfahren die Gewichtung aller Relatio- nen zwischen einem Knowledge Grain und allen Information Grains. Dazu wird die Summe der Pointer-Gewichtungen zwischen dem Anfangspunkt und dem Endpunkt der Informationskette divi- diert durch die Anzahl der benutzten Pointer. Dies wird für alle Knowledge Grains durchgeführt. Anschließend können die Assoziationen, die einen Gewichtungswert M überschreiten, dem Benutzer als Ergebnis präsentiert werden. Die Annahme des Ge- wichtungswertes M und die Art der Ergebnisdarstellung ist entsprechend wie unter Punkt"Darstellung der direkten Wis- sensbeziehungen (KG-KG)"beschrieben.

Bei umfangreichen Netzwerken kann die Suchtiefe S wie unter Punkt"Berechnung der Knowledge Pointer, Methode 1"be- schränkt werden.

In einer weiteren bevorzugten Ausführungsform muss jeder ein- zelne der betrachteten Pointer einen Minimal Pointer Score (MPS) überschreiten, damit die Assoziation in die Ergebnis- darstellung mit aufgenommen werden kann. Dies bedeutet, dass alle Pointer einer Informationskette diesen MPS überschreiten müssen. Der Wert für den MPS kann als globale Variable fest- gelegt werden oder in Abhängigkeit vom betrachteten Knowledge Grain sein oder vom Verfahren selbstständig in Abhängigkeit von weiteren Verfahrensparametern berechnet werden.

Bearbeitung direkter Benutzeranfragen Direkte Benutzeranfragen an das erfindungsgemäße System sind möglich. Die Benutzeranfrage, bevorzugt in natursprachlicher Form, wird bevorzugt wie folgt bearbeitet.

Unter Ausnutzung von Standarddatenbanktechniken werden die Begriffe der Anfrage mit a) den Bezeichnungen der Knowledge Grains, b) mit den Begriffen der Seed Tables und Growth Ta- bles der Knowledge Grains und c) mit den Ursprungsinformati- onsinhalten der Information Grains verglichen. Dieser Abfra- geprozess kann bevorzugt hierarchisch gemäß oben beschriebe- ner Reihenfolge ablaufen, d. h. wenn es Knowledge Grains gibt, deren Bezeichnung mit Begriffen der Anfrage übereinstimmen, so bilden diese Knowledge Grains und die über die darin abge- speicherten Pointer mit den Knowledge Grains verbundenen As- soziationsketten den eingeschränkten, sekundären Suchraum für die Benutzeranfrage.

Ergibt sich keine hinreichende Übereinstimmung mit Bezeich- nungen der Knowledge Grains, so wird der Suchraum der Anfrage auf die Begriffe der Seed und Growth Tables aller Knowledge Grains erweitert. Es werden die Knowledge Grains und die da- mit verbundenen Information Grains, die die N höchsten Über- einstimmungen zwischen Anfrage und Begriffen der Seed und Growth Tables haben, als Ergebnis angezeigt. Die Zahl N kann als globale Variable festgelegt, vom Benutzer eingeben oder vom AAA-Verfahren selbst in Abhängigkeit von anderen Verfah- rensparametern berechnet werden.

Ergibt sich auch hierbei keine befriedigende Antwort, so wird der Suchraum auf alle Ursprungsinformationseinheiten ausge- dehnt. Die Assoziationsketten, die mit den Ursprungsinforma- tionseinheiten verbunden sind, die die N höchsten Überein- stimmungen mit der Anfrage besitzen, werden als Ergebnis an- gezeigt. Auch hierbei kann die Zahl N als globale Variable

festgelegt, vom Benutzer eingeben oder vom erfindungsgemäßen System selbst in Abhängigkeit von anderen Verfahrensparame- tern berechnet werden.

Diese hierarchische Suche kann in einer weiteren bevorzugten Ausführungsform mit der Berücksichtigung der Pointer- Gewichtungen kombiniert werden. Dabei wird die Suche bevor- zugt zu solchen Netzwerkelementen fortgeführt, die über hoch gewichtete Pointer mit dem Ausgangsnetzwerkelement verbunden sind. Dabei werden in jedem Suchschritt die N am höchsten ge- wichteten Pointer weiter verfolgt, wobei die Zahl N als glo- bale Variable festgelegt, vom Benutzer eingeben oder vom er- findungsgemäßen System selbst in Abhängigkeit von anderen Verfahrensparametern berechnet werden kann.

Frage-Antwort-Dialog Eine typische, bevorzugte Interaktion zwischen Benutzer und erfindungsgemäßen System geschieht über einen Frage-Antwort Dialog. Der Benutzer stellt eine Frage, das System erzeugt eine bevorzugt natursprachliche Abfrage, die gemäß der unter "Bearbeitung direkter Benutzeranfragen"beschriebenen hierar- chischen Reihenfolge an das Informations-und Assoziations- netzwerk (I+A-Netzwerk) gestellt wird. Dabei werden die Zwi- schenergebnisse als Teilantworten ausgegeben, die mit einer Frage nach weiterer Eingrenzung der Ursprungsfrage des Benut- zers verbunden wird. Der Benutzer kann einen oder mehrere der in der Teilantwort aufgeführten Begriffe als Eingrenzung be- nutzen oder neue, zusätzliche Fragebegriffe einführen. Mit der eingegrenzten Frage wird der hierarchische Suchpfad wei- ter durchlaufen. Nach einer oder mehreren Eingrenzungen wird das Verfahren zu einer limitierten Anzahl von Knowledge Grains gelangt sein. Nunmehr folgt die Eingrenzung auf Ebene der Information Pointer. Das erfindungsgemäße Verfahren sucht mit der eingegrenzten Frage in den Thesaurustabellen der durch Information Pointer verbundenen Information Grains und

stellt die Ergebnisse wieder als Teilantwort dem Benutzer zur Verfügung. Dieser kann wiederum eine weitere Eingrenzung des Fragebereichs durchführen.

Dieser Frage-Antwort-Dialog führt iterativ zu einer Verfeine- rung und Spezifizierung der Ursprungsfrage. Allgemein gesagt führt dieser Dialog dazu, dass (zur Zeit) unbeantwortbare Fragen durch Interaktion mit dem erfindungsgemäßen Verfahren in beantwortbare Teilfragen zerlegt werden und die Antworten auf diese Teilfragen dann gegeben werden. e) Plastizität des Informations-und Assoziationsnetzwerkes Autonome Erzeugung von Knowledge Grains In einer bevorzugten Ausführungsform ist das erfindungsgemäße Verfahren und System in der Lage Knowledge Grains selbsttätig zu erzeugen.

Erhält ein Information Grain keine Information Pointer zu den vorhandenen Knowledge Grains, so erzeugt das erfindungsgemäße Verfahren bzw. System automatisch einen neuen Knowledge Grain, bestehend aus den wesentlichen Bestandteilen des In- formation Grain und berechnet den Information Pointer zwi- schen diesen beiden Netzwerkelementen. Als wesentliche Be- standteile werden die N-häufigsten Begriffe der Thesaurusta- belle des Information Grain in die neue Seed Tabelle des Knowledge Grain übernommen, wobei die Zahl N als globale Va- riable festgelegt, vom Benutzer eingeben oder vom System selbst in Abhängigkeit von anderen Verfahrensparametern be- rechnet werden kann.

In einer weiteren bevorzugten Ausführungsform kann das erfin- dungsgemäße Verfahren bzw. System vorhandene Knowledge Grains in neue Knowledge Grains aufspalten. Dies wird durchgeführt, wenn eine bestimmte Anzahl N an Knowledge Pointern und/oder Information Pointer bei einem Knowledge Grain überschritten wird. Die Zahl N kann als globale Variable festgelegt, vom Benutzer eingeben oder vom erfindungsgemäßen Verfahren bzw.

System selbst in Abhängigkeit von anderen Verfahrensparame- tern berechnet werden. Dann kann zum Beispiel für jeden Be- griff, der im Seed Table oder im Growth Table vorkommt, be- stimmt werden, zu wie viel und welchen Information Grains ei- ne Übereinstimmung mit einem Begriff von deren Thesaurusta- bellen besteht. Es wird eine Clusteranalyse der Begriffs- Information Grain Relationen durchgeführt und das ursprüngli- che Knowledge Grain entsprechend den Clustern in neue Know- ledge Grains aufgespalten. Das ursprüngliche Knowledge Grain erhält neue Knowledge Pointer, die zu den aus ihm hervorge- gangenen Grains verweisen und die Begriffe der Seed Table sind die Namen der neuen Knowledge Grains. Als Namen werden die Begriffe mit den höchsten Relationswerten der Clusterana- lyse verwendet. Abschließend werden die Information Pointer der neuen Grains neu berechnet.

4.5.2 Autonome Löschung von Knowledge Grains In einer weiteren bevorzugten Ausführungsform ist es möglich, Knowledge Grains auch zu löschen. Dies bedeutet im wesentli- chen die Umkehrung der zuvor beschriebenen Aufspaltung. Dies kann notwendig sein, wenn die Zahl N der von dem betrachteten Knowledge Grain ausgehenden Information Pointer und/oder Knowledge Pointer einen Mindestwert unterschreitet. Die Zahl N kann als globale Variable festgelegt, vom Benutzer eingeben oder vom erfindungsgemäßen Verfahren selbst in Abhängigkeit von anderen Verfahrensparametern berechnet werden kann. Die Begriffe der Seed Table und Growth Table des zu löschenden Grains werden in den Growth Table des Knowledge Grains aufge- nommen, das den am höchsten gewichteten Knowledge Pointer zu

diesem Grain besitzt. Die Information Pointer werden neue be- rechnet.

Verarbeitung von Feed-Back von außerhalb des erfindungsgemä- ßen Verfahrens Ein wesentlicher Aspekt des erfindungsgemäßen Verfahrens ist die Möglichkeit, Rückmeldungen von außerhalb aufzunehmen.

Rückmeldungen verstärken oder schwächen Verknüpfungen zwi- schen Grains.

Dazu werden in einer bevorzugten Ausführungsform alle Pointer einer betrachteten Assoziationskette gemäss der Rückmeldung von außerhalb des erfindungsgemäßen Verfahrens mit einem Bo- nus oder Malus versehen. Bonus und Malus können ein Faktor sein, der als globale Variable festgelegt, vom Benutzer ein- geben oder vom erfindungsgemäßen Verfahren selbst in Abhän- gigkeit von anderen Verfahrensparametern berechnet werden kann. Es können auch Absolutwerte als Bonus und Malus verwen- det werden, die ebenfalls wie vorbezeichnet vom Benutzer oder Verfahren intern erzeugt werden können. Bonus und Malus kön- nen für Information Pointer und Knowledge Pointer gleich aber auch unterschiedlich sein. Sie können auch in Abhängigkeit von einer eventuellen Wertigkeit (siehe Kapitel"Mögliche Verfahrensverfeinerungen") des Grains gewählt werden. Bonus- und Maluswerte können mit jeder Rückmeldung verändert werden.

Werden Pointer einer Assoziationskette mehrfach durch positi- ve Rückmeldung gestärkt, so wird dies als Bahnung bezeichnet.

In einer bevorzugten Ausführungsform werden die Bonus-und Maluswerte separat mit der Gewichtung eines Pointers gespei- chert, damit eine bessere Nachvollziehbarkeit der Assoziati- onsgewichtung gewährleistet ist.

Es ist zu beachten, dass eine Neuinformation einer schon vom erfindungsgemäßen Verfahren benutzten Datenbank ebenfalls ein Feed-Back von außen sein kann (Update einer Datenbank).

Mit der Benutzerrückmeldung"reift"ein einmal in Gang ge- setztes erfindungsgemäßes System. Es wird in einem späteren Reifezustand möglich sein, dass das Verfahren Konzepte, Hypo- thesen und Modelle erzeugt, indem Assoziationsketten mit ho- hen Gewichtungsfaktoren aufgezeigt werden. Diese Hypothesen können mit Hilfe der Rückmeldung von außerhalb des erfin- dungsgemäßen Systems überprüft und bewertet werden. Weiterhin können dadurch Widersprüche in vorhandenen Hypothesen und Mo- dellen aufgezeigt werden. f) Verfahrensdetails Ein direkter Zugriff auf und Suche in Ursprungsinformation beziehungsweise Information Grains ist möglich. Dies wird durch Standard-Datenbankverfahren gewährleistet.

Bei der Präsentation von Ergebnissen können Daten, die aus gesicherten Quellen stammen, als Fakten gekennzeichnet darge- stellt werden. Bei anderen Ergebnissen, die zum Beispiel auf Assoziationsketten beruhen, können Wahrscheinlichkeitswerte, die die Richtigkeit des Ergebnisses abschätzen, mit ausgege- ben werden. Diese Wahrscheinlichkeitswerte können sich in ei- ner bevorzugten Ausführungsform anhand der Gewichtungen der Pointer berechnen lassen. Dazu nimmt man zum Beispiel die höchste im Gesamtnetzwerk vorkommende Pointergewichtung und nimmt an, dass diese Gewichtung eine 958 Richtigkeit reprä- sentiert. Der Richtigkeitswert des betrachteten Pointers wird nun im Verhältnis dazu berechnet.

Eine weitere bevorzugte Ausführungsform ist, über die Rück- meldungen von außerhalb des Systems einen Erfahrungswert für die Richtigkeit bei gegebenen Pointergewichtungen aufzubauen.

Das Verfahren kann eine Korrelation zwischen positiver Rück- meldung (richtige Antwort) und Pointergewichtung berechnen und diese für die Wahrscheinlichkeitsbestimmung der Richtig- keit zukünftiger Antworten verwenden.

Durch die Verknüpfung aller Glieder einer Assoziationskette über Pointer ist eine intrinsische Dokumentation gewährlei- stet. Die Begrünung für das Aufzeigen einer Assoziation sind zu jeder Zeit für jeden Benutzer nachvollziehbar, da über die Pointer die Assoziationskette sowohl vorwärts als auch rück- wärts nachvollzogen werden kann.

Mögliche Verfahrensverfeinerungen Grain-Wertigkeitsfaktor In einer bevorzugten Ausführungsform wird für jedes Grain ein Wertigkeitsfaktor eingeführt, der die Wichtigkeit und Rich- tigkeit der durch das Grain repräsentierten Information an- zeigt. Dieser Wertigkeitsfaktor fließt in die Berechnung der Assoziationskettengewichtung mit ein. Eine bevorzugte Berech- nung dieses Wertigkeitsfaktors kann zum Beispiel durch die Addition aller Gewichtungen der von diesem Grain ausgehenden Information Pointer und anschließende Division durch die An- zahl der Information Pointer geschehen. Bei Knowledge Grains wird sowohl dieser Quotient für die Information Pointer als auch der Quotient für die Knowledge Pointer berechnet. Die Summe der Wertigkeitsfaktoren eines Knowledge Grain können entweder getrennt bewertet werden oder es wird der Mittelwert der beiden Quotienten gebildet.

In einer weiteren bevorzugten Ausführungsform wird die Anzahl der Pointer zur Bildung des Wertigkeitsfaktors des Grains herangezogen. Es wird bevorzugt folgende Formel angewendet :

W = ln N wobei : W = Wertigkeitsfaktor des betrachteten Grains N = Anzahl der Pointer des betrachteten Grains Distanzgewichtung In einer bevorzugten Ausführungsform wird eine Distanzgewich- tung der Assoziationen berechnet. Dies soll berücksichtigen, dass Assoziationsketten über N Grains hinweg um so unwahr- scheinlicher werden, je mehr Grains in dieser Kette verbunden sind, wobei die Distanzgewichtung als globaler Faktor festge- legt, vom Benutzer eingeben oder vom erfindungsgemäßen System bzw. Verfahren selbst in Abhängigkeit von anderen Verfahren- sparametern berechnet werden kann.

5.3 Analogieschlüsse In einer bevorzugten Ausführung kann das Verfahren in einem späteren Reifezustand selbstständig Analogieschlüsse durch- führen, indem es intern Assoziationsketten miteinander ver- gleicht. Dies kann zum Beispiel durch Rückverfolgung von Be- griffsverwandtschaften der verschiedenen Seed Tables und Growth Tables der Knowledge Grains geschehen oder durch Ver- gleich aller von einem Information Grain ausgehenden Assozia- tionsketten.

5.4"Mutation"und"Kreativität" In einer bevorzugten Ausführungsform können durch Zufallsge- neratoren ausgewählte schwache oder nicht vorhandene Knowled-

ge Pointer verstärkt oder erzeugt werden. Dies führt zu neuen Assoziationsketten. Diese Ketten werden durch die Rückmeldung von außerhalb des erfindungsgemäßen Verfahrens auf sinnvolle und nicht sinnvolle Neuassoziationen selektiert. Eine weitere Selektion kann durch den Abgleich mit den Ursprungsinforma- tionen erfolgen. Ein weiteres Mutationsprinzip kann die Ver- änderung der Wertigkeitsfaktoren der Knowledge Grains sein.

Von entscheidenden Bedeutung ist bei allen Mutationen die Überprüfung der Richtigkeit durch Rückmeldungen von außerhalb des erfidnungsgemäßen Verfahrens bzw. System.

Mögliche Realisierungsformen Das erfindungsgemäße Verfahren kann als Software, die auf op- tische und/oder magnetische Datenträger speicherbar ist, auf Computern realisiert werden.

Das Verfahren kann sowohl auf lokalen Computern als auch auf vernetzten Computern realisiert werden. Die vernetzten Com- puter können auch über Intra-oder Internet verbunden sein.

In einer weiteren bevorzugten Anwendungsform können die Algo- rithmen zur Generierung der Pointer und/oder die Algorith- men zur Berechnung der Assoziationskettengewichtung und/ oder die Algorithmen in einem applikationsspezifischen Chip (ASIC) realisiert werden. Dieser ASIC wird auf einer Erweite- rungsplatine in den Computer eingebracht.

Eine weitere bevorzugte Anwendungsform ist die Realisierung in autonom agierenden Maschinen (Robotern). Dieser Roboter ist dann in der Lage, selbstständig assoziative Schlussfolge- rungen durchzuführen.

Anwendungsgebiete Ein bevorzugte Anwendung für das erfindungsgemäße Verfahren ist die Informationsverarbeitung auf dem Gebiet der molekula- ren Biologie, einschließlich Biochemie, Genetik, Genomik, Proteomik, etc. Hier werden die zur Verfügung stehenden Da- tensammlungen und Datenbanken, einschließlich der Veröffent- lichungen und Forschungsberichte als Ursprungsinformation in das Verfahren aufgenommen. Da speziell auf diesem Gebiet die Zunahme der Information überexponientiell verläuft, wird es unumgänglich sein, die Verarbeitung dieser Information und die Neu-Wissensgenerierung aus dieser Information heraus zu automatisieren. Das vorliegende Verfahren ist dazu in der La- ge.

Selbstverständlich kann das vorliegende Verfahren genau so auf alle wissenschaftlichen Forschungsgebiete angewendet wer- den.

Ein Spezialfall der wissenschaftlichen-technischen Anwen- dungsgebiete besteht in der Möglichkeit mit Hilfe des vorge- stellten Verfahrens Simulationen komplex vernetzter Verfahre- ne durchzuführen.

Ein weiteres Anwendungsgebiet des vorgestellten Verfahrens liegt in der unternehmensweiten Informationsverarbeitung.

Große Unternehmen besitzen eine nicht mehr zu überschauende Vielfalt von Einzelinformationen, Datensammlungen, Datenban- ken, persönlichem Wissen etc. Als Ursprungsinformation in das vorgestellte System bzw. Verfahren eingegeben, wird es mög- lich aus dieser Information Wissen zu erzeugen, beziehungs- weise neue Assoziationen und Relationen aufzuzeigen.

Ein Spezialfall der unternehmensweiten Anwendung ist der Ein- satz in Verfahrenen zur Bearbeitung von technischen Kundenan- fragen ("technical hotline"). Das Verfahren ermöglicht in der Anfangsphase den automatisierten Aufbau einer Antwortbiblio-

thek und in einer späteren Phase die zumindest teilweise vollautomatische Beantwortung der Anfragen. Dazu werden die Informationen über die zu betreuenden Produkte als Informati- on Grain abgelegt und die Initialantworten erzeugen Knowledge Grains. Nach kurzer Zeit hat sich ein Assoziationsgeflecht aufgebaut, dass eine zielgerichtete Dokumentation der Anfra- gen und schließlich eine automatisierte Beantwortung ermög- licht.

In Fig. 6 sind zwei Beispiele von Anfragen an das erfindungs- gemäße System (example 1 und example 2) dargestellt. In den vorliegenden Beispielen ist englisch als Sprache vorgesehen.

Es könnte jedoch genauso gut deutsch oder französisch kommu- nizeiert werden. In diesem Zusammenhang ist noch zu erwähnen, dass das erfdinungsgemäße System bzw. Verfahren beim Automa- tisierten Erstellen von Thesaurustabellen auch selbsstätig das erfasste Dokument in eine bestimtme Sprache übersetzten kann. Wird also ein deutschsprachiges Dokument erfaßt, können die einzelnen Begriffe-vorzugsweise von Füllwörtern befreit - in die englische Sprache übersetzt gespeichert werden.