Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
STRUCTURING OF NEUTRAL NETWORKS BY RULE-BASED KNOWLEDGE
Document Type and Number:
WIPO Patent Application WO/1993/020530
Kind Code:
A1
Abstract:
Described is a neural network which can be pre-structured using rule-based knowledge. Also described is a method of representing rule-based knowledge in relation to this network structure and a method of adapting the network parameters.

Inventors:
HOLLATZ JUERGEN (DE)
TRESP VOLKER (DE)
Application Number:
PCT/DE1993/000245
Publication Date:
October 14, 1993
Filing Date:
March 17, 1993
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
HOLLATZ JUERGEN (DE)
TRESP VOLKER (DE)
International Classes:
G06N3/04; (IPC1-7): G06F15/80
Foreign References:
EP0378689A11990-07-25
EP0471857A11992-02-26
Other References:
IECON 90 , 16TH ANNUAL CONFERENCE OF IEEE INDUSTRIAL ELECTRONICS SOCIETY Bd. 2, 27. November 1990, PACIFIC GROVE , USA Seiten 1314 - 1343 DOTE 'Fuzzy and neural network controller'
IEEE TRANSACTIONS ON COMPUTERS Bd. 40, Nr. 12, Dezember 1991, NEW YORK US Seiten 1320 - 1336 LIN 'Neural-network-based fuzzy logic control and decision system'
1991 IEEE INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS Bd. 1, 18. November 1991, SINGAPORE Seiten 875 - 880 GUPTA 'Synaptic and somatic learning and adaptation in fuzzy neural systems'
Download PDF:
Claims:
Patentansprüche
1. Neuronales Netzwerk mit einer regelbasierten > Netzwerkstruktur, bei dem jeder Ausgangswert yτ_ eine normierte Linearkombination von I Basisfunktionen bj_ mit I Gewichtskoeffizienten w± ist, wobei die Basisfunktionen b^ um I Mittelwerte cj_ lokalisierte, nichtnegative Funktionen der Eingangswerte x des neuronalen Netzwerkes sind.
2. Neuronales Netzwerk nach Anspruch 1 mit Basisfunktionen der Form bf(x) = kfexp ~(xc ∑71(xc) wobei X i. eine inverse Kovarianzmatrix und k;L ein Normierungsfaktor der iten Basisfunktion ist.
3. Verfahren zur Strukturierung eines neuronalen Netzwerkes durch regelbasiertes Wissen, bei dem die Basisfunktionen eines neuronalen Netzwerkes nach einem der vorhergehenden Ansprüche nach Art der Zugehörigkeitsfunktionen zur Dar¬ stellung unscharfer Regeln gewählt werden.
4. Verfahren zur Adaption der Parameter eines neuronalen Netzwerkes nach einem der vorhergehenden Ansprüche, bei dem eine vorgegebene Zielfunktion dieser Parameter lokal opti¬ miert wird.
5. Verfahren nach Anspruch 4, bei dem während der Adaption laufend neue Basisfunktionen und damit Regeln eingeführt werden, um zu verhindern, daß die Prädiktionen des Netzwer¬ kes zu sehr von den Beobachtungsdaten abweichen.
6. Verfahren nach Anspruch 4, bei dem die Zielfunktion ei nen Strafterm enthält, welcher ein Maß für die Abweichungen der momentanen Netzwerkparameter von den anfänglichen Netzwerkparametern ist.
7. Verfahren nach Anspruch 6, bei dem der Strafterm additiv und zu der Summe der quadratischen Abweichungen proportio¬ nal ist.
8. Verfahren nach"Anspruch 6, bei dem der Strafterm additiv und zu den über alle möglichen oder über ausgewählte Werte der Eingangsvariablen summierten quadratischen Abweichungen der momentanen Ausgabewerte des neuronalen Netzwerkes von den Ausgabewerten einer Kopie des anfänglichen Netzwerkes mit anf nglichen Parameterwerten ist.
9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Gewichtskoeffizienten wi von den Eingangsvariablen xl, ... ,xN abhängige Funktionen sind.
Description:
Strukturierung von neuronalen Netzen durch regelbasiertes

* Wissen

* Informationsverarbeitende Systeme sollten in der Lage sein, 5 aus Erfahrungen zu lernen und dabei gleichzeitig auch re¬ gelbasiertes Wissen zu berücksichtigen. Die klassischen Sy¬ stemtypen der künstlichen Intelligenz, wiεsensbasierte Sy¬ steme genannt, haben den Nachteil, daß einfache und bewähr¬ te numerische bzw. statistische Lernverfahren mit ihnen nur

10 schwer oder gar nicht verwendet werden können. Neuronale Netze hingegen sind leicht mit Hilfe von (statistischen) Daten zu trainieren; die Verwertung von Wissen in Form von Regeln ist aber mit neuronalen Netzen nicht ohne weiteres möglich.

15

Der Erfindung liegt daher die Aufgabe zugrunde, ein infor¬ mationsverarbeitendes System anzugeben, welches durch Er¬ fahrungen gewonnene Kenntnisse verarbeiten kann, und wel¬ ches gleichzeitig mit Hilfe von regelbasiertem Wissen

20 strukturiert werden kann. Diese Aufgabe wird durch ein Neu¬ ronales Netzwerk mit Merkmalen nach Anspruch 1 gelöst.

Das erfindungsgemäße neuronale Netzwerk weist eine regelba¬ sierte Netzwerkstruktur auf, bei der jeder Ausgangswert ei- 25 ne normierte Linearkombination von Basisfunktionen mit Ge¬ wichtskoeffizienten ist. Die Basisfunktionen sind dabei nicht-negative, lokalisierte Funktionen, beispielsweise vom multivariaten Gauß- yp. Die Basisfunktionen haben eine den Zugehörigkeitsfunktionen der Fuzzy-Logik vergleichbare Be- -» 30 deutung, indem ihre Werte zwischen 0 und 1 variieren, wobei diese Werte ein Maß für die Zugehörigkeit ihres Arguments zu der i.a. unscharfen Erfüllungsmenge einer Regel oder ei¬ nes Satzes von Regeln sind.

Ein erfindungsgemäßes neuronales Netzwerk kann daher durch regelbasiertes Wissen strukturiert werden, indem die Basis¬ funktionen eines solchen Netzes nach Art der Zugehörig¬ keitsfunkt Jonen unscharfer Erfüllungsmengen eines entspre- chenden RegelSystems gewählt werden. Durch dieses Verfahren ist das Netz bereits vor dem Lernen in der Lage, Wissen in Form von Regeln mit der durch die Knotengleichungen festge¬ legten Schlußfolgerungsmethode zu verarbeiten. Anschließend wird das Netz anhand von Trainingsdaten weiter adaptiert, um den eventuell fehlerhaften und/oder unvollständigen Re¬ gelsatz zu optimieren.

Falls nur wenige Trainingsdaten verfügbar sind, erreicht das Netz mit diesem Verfahren trotzdem gute Resultate, da Bereiche des Eingangsraums, für die keine Trainingsbeispie¬ le vorhanden sind, durch regelbasiertes Wissen abgedeckt werden. Ohne zusätzliches Wissen könnte das Netz das Pro¬ blem ansonsten nicht genügend repräsentieren.

Durch eine willkürliche Wahl der Zahl der Parameter eines neuronalen Netzes (oft als Zahl der verborgenen Einheiten eines Netzwerks bezeichnet) , kann eine Über- bzw. Unterre¬ präsentation eines Problems durch ein neuronales Netz auf¬ treten. Eine Oberrepräsentation wirkt sich deshalb nachtei- lig aus, weil hierbei eine zu große Zahl von Parametern das statistische Rauschen in den Trainingsdaten mitlernt und so eine Generalisierung der Trainingsdaten unterbleibt. Bei einer Unterrepräsentation reichen dagegen die Parameter zum vollständigen Erlernen des Datenmaterials nicht aus.

Die erfindungsgemäße (Vor-)Strukturierung eines neuronalen Netzes anhand von bereits existierenden Regeln vermindert die Gefahr der Ober- bzw. Unterrepräsentation. Ein weiterer Vorteil der Erfindung liegt in der Möglichkeit, modifi-

zierte Regeln nach dem Training wieder extrahieren zu kön¬ nen und durch einen Experten interpretieren zu lassen.

Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.

Figur 1 zeigt eine schematische Darstellung der erfindungs¬ gemäßen Netzwerktopologie.

Im folgenden wird die Erfindung anhand eines bevorzugten Ausführungsbeispiels beschrieben.

Im Rahmen dieser Patentanmeldung werden neuronale Netze be¬ trachtet, die einem reellen n-dimensionalen Vektor eine re- eile Zahl zuordnen. Unter einer Regel wird in diesem Zusam¬ menhang ein domänenspezifisches Wissen über eine derartige Zuordnung betrachtet. Solche Regeln werden in einfachen Ausdrücken formulier :

Wenn (Prämisse) dann (Folgerung) .

Die Prämisse macht hierbei eine Aussage über den Eingangs- und die Folgerung über den Ausgangsraum.

Die hierbei benutzen Regeln weisen folgende allgemeine — Struktur auf:

Regel(i) : if xl is Ail <op> ... <op> xk is Aik then y is Bi

wobei <op> = AND bzw. OR ist. XI bis Xk bezeichnen die Kom¬ ponenten des Eingangsvektors und Y die Ausgangsvariable. Ähnlich der Verwendung in der Fuzzy Theorie können die AI als unscharfe Mengen interpretiert werden, die durch eine Zugehörigkeitsfunktion μAl(xl) definiert ist. Diese Funkti-

on legt durch einen Wert zwischen 0 und 1 fest, inwieweit die Komponente XI in der unscharfen Mengen AI liegt, oder einer mit der Menge assoziierten linguistischen Variablen entspricht. Im folgenden behandeln wir AI daher wie eine charakteristische Zugehörigkeitsfunktion, die durch Funkti¬ onsparameter charakterisiert ist. Bi bezeichnet den Ausga¬ bewert für die Variable Y, den die Regel(i) vorschlägt.

{Regel(i) : i:l,...,M} ist eine Menge von Regeln. Für jede Regel wird eine Basisfunktion bi(X) eingeführt, die gleich 1 ist, wo die ganze Regel zutrifft und sonst den Wert 0 hat. Sie beschreibt nicht nur - wie μAl(xl) - in wiefern eine Variable gültig ist, sondern betrachtet alle Eingangs¬ variablen und somit die Regel. Alternativ kann ein Wert zwischen 0 und 1 definiert werden, der die Gültigkeit einer bestimmten Regel für einen gegebenen Eingangsvektor X an¬ gibt. Eine solche Basisfunktion kann __ . B. mit einer multi¬ variaten Gaußfunktion beschrieben werden:

wobei wir davon ausgehen, daß die Matrix ∑i diagonal mit dem j-ten Diagonalelement σ~ij ist. —

Die einzelnen Komponenten dieser multivariaten Gaußfunktion entsprechen den Zugehörigkeitsfunktionen der Variablen des Eingangsvektors X. Der Parameter Aij = cij legt die Positi¬ on der j-ten Dimension des Eingangsraums fest, bei der die Regel(i) ihre größte Gültigkeit hat. Der Parameter rangeij = sij gibt ungefähr den Bereich an, in dem Regel(i) in der j-ten Eingangsdimension gültig ist. Wie schon erwähnt ent¬ sprechen solche Baεisfunktionen ungefähr Zugehörigkeits- funktionen in der Fuzzy Logik. Jeder Basisfunktion wird ein

Parameter Bi = wi zugewiesen, der gleich dem (erwarteten) Wert von Y ist bei gegebener gültiger Regel i. Dieser Para¬ meter entspricht in dem Netz dem Ausgangsgewicht. Die Aus¬ gabe des Netzes wird wie folgt definiert:

X W (2) y N _= NN[x] = -\

∑bi(x)

In Bereichen in denen nur eine Regel signifikant gültig ist, ist die Ausgabe gleich wi. In den Bereichen, in denen mehr als eine Regel signifikant gültig ist, berechnet die Gleichung einen gewichteten Durchschnitt der Ausgaben der einzelnen Regeln.

Die Topologie des neuronalen Netzes gemäß der Erfindung ist in Fig. 1 dargestellt. Die Operationen der Knoten sind durch die Gleichungen (1) und (2) gegeben. Jeder Regel ent¬ spricht ein Knoten in der mittleren Schicht des Netzes.

Durch Trainingsdaten wird das Netzwerk geändert. Die Para¬ meter (Zentren cij , Weiten σi , Gewichte wi) werden durch Error-Backpropagation modifiziert. Die Gradienten zum Modi¬ fizieren der Parameter wi, cij, σij und ki lauten:

J

dE kj dbiJxk)

J

mit qi = cij , σij und ki.

NN[xk] stellt die tatsächliche Netzausgabe dar und k ist der Laufindex durch alle Muster. ED bezeichnet den zu mini¬ mierenden Fehler.

Alle Parameter pi aus { w, c, σ, k} werden gemäß folgender Beziehung geändert:

(6) pi := pi - η Grad(pi)

wobei Gradienten wie oben beschrieben berechnet werden, und η eine Lernrate ist, die die Lerngeschwindigkeit angibt.

Im folgenden wird anhand von Beispielen beschrieben, auf welche Weise Regeln in neuronale Strukturen und umgekehrt transformiert werden können. Dabei wird von einer neurona¬ len Architektur ausgegangen wie sie oben beschrieben wurde, und wie sie in Fig. 1 dargestellt ist. Die Parameterbele¬ gung erfolgt dabei nach folgendem Schema:

Ohne Beschränkung der Allgemeinheit wird ein zwei-dimensio- naler Eingangsraum angenommen. Die drei verschiedenen Re¬ geltypen werden mit Regel 1, Regel 2 und Regel 3 bezeich¬ net.

Regel 1

if xl is All (rangell - Rll) and if x2 is A12 (rangel2 = R12) then y is Bl

entspricht einer Gaußschen Funktion zentriert um cll-All, cl2=A12 mit sll-Rll und sl2=Rl2 und zugeordnetem Gewicht wl-Bl.

Regel 2

if xl is A21 (range21 = R21) then y is B2

stellt eine eindimensionale Gaußsche Funktion dar, zen¬ triert um c21=A21 mit s21=R21 und Gewicht w2=B2. In diesem Fall ist anzumerken, daß die Basisfunktion unabhängig von X2 ist. Regeln wie

Regel 3 if xl is A31 (range31 = R31) or if x2 is A32 (range32 = R32) then y is B3

werden zunächst umgeformt in folgende zwei Regeln:

Regel 3a if xl is A31 (range31 = R31) then y is B3 und

Regel 3b

if xl is A32 (range32 - R32) then y is B3

und dann behandelt wie Regel 2. Mit diesem Vorgehen kann man eine Netzwerkarchitektur aus einer Menge von Regeln konstruieren. Andererseits ist auch ein umgekehrters Vorge¬ hen möglich, bei dem man aus einer Netzwerkarchitektur eine Menge von einfachen Regeln wieder herauslesen kann. Unter Verwendung bekannter Ausdünnungsverfahren für neuronale Netze können Knoten gelöscht werden und damit auch die ih¬ nen entsprechenden Regeln.

Das erfindungsgemäße Netzwerk kann besonders dann mit gro¬ ßem Vorteil eingesetzt werden, wenn zu Anfang eines on-line Steuerungs- oder Regelungsprozesses nocht nicht genügend oder gar keine Trainingsdaten vorliegen. Dann greift das Netzwerk gemäß dieser Erfindung auf das bereits zu Anfang vorhandene Regelwissen zurück und kann so - wenn auch even¬ tuell suboptimal - arbeiten.

Das erfindungsgemäße neuronale Netzwerk kann auch in sol¬ chen Fällen angewendet werden, in denen der Wert, welcher der Ausgangs ariablen y gemäß einer Regel zugewiesen werden soll nicht konstant ist, sondern von x abhängt. Dieser Fall läßt sich formal dadurch beschreiben, daß die Größen B in den Regeln Funktionen von x sind. Das neuronale Netz, wel¬ ches dieser Situation entspricht, enthält anstelle von kon¬ stanten Gewichten wi von x = xl, .. ,,xN abhängige Gewichte wi(x) .

Ferner kann ein Straf-Term EP in die Funktion ED eingeführt werden, der verhindert, daß das Netzwerk die durch die (anfänglichen) Regeln vorgegebene Parameterwerte zu schnell (durch die Adaption an die Trainingsdaten) vergißt. Ein

solcher Ter kann z.B. die Abweichung der momentanen Para¬ meterwerte von den anfänglichen Parameterwerten messen und entsprechend mit Kosten bewerten. Eine mögliche Wahl für diesen Strafterm ist ein additiver, zu der Summe der qua¬ dratischen Abweichungen der momentanen Netzwerkparameter von den anfänglichen Netzwerkparametern proportionaler Ko- stenterm in der Zielfunktion:

(7) E P -<i tiai ) 2

J

Wenn die Netzwerkparameter nicht intuitiv genug sind, kann man alternativ dazu einen ( z.B. additiven) Kostenterm in der Energiefunktion ED verwenden, welcher die (z.B. quadra¬ tische) Abweichung der anfänglichen Netzwerkausgangswerte von den momentanen Netzwerkausgangswerten - summiert über eine Menge von ausgewählten Eingangsdaten - bewertet'.

(8) E P - (NN initial [x] - NN[x]) 2 xeXref

Hierbei kann sich die Summe wahlweise über ein regelmäßiges Gitter von Referenzpunkten im Eingangsraum des Netzwerkes oder über eine zufällig oder auf andere Weise ausgewählte Menge solcher Referenzpunkte erstrecken.