Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND ARRANGEMENT FOR REDUCING AND MONITORING ARTIFICIAL NEURAL NETWORKS
Document Type and Number:
WIPO Patent Application WO/2024/022919
Kind Code:
A1
Abstract:
To reduce a neural network (NN), discrete reduction steps are provided by means of which a neuron or a neural connection is in each case removed and/or a numeric resolution is reduced. The trained neural network (NN) is reduced by different test reduction steps (TRA, TRB) in each case for a test network (NNA, NNB), and a plurality of input signals (ES) are fed into the trained neural network (NN) and into the test networks (NNA, NNB). Furthermore, for a respective input signal (ES), a reference distribution (VR) of first activation strengths, induced by the respective input signal (ES), of output neurons of the trained neural network (NN) is determined and, for the test reduction steps (TRA, TRB), a deviation (DRA, DRB) of the reference distribution (VR) from a corresponding distribution (VA, VB) of two activation strengths of output neurons of the test network (NNA, NNB) in question is also determined. Proceeding herefrom, the trained neural network (NN) is reduced by test reduction steps the deviations of which are, on average, lower than the deviations of other test reduction steps for a reduced neural network (NNR). The reduced neural network (NNR) is then operated, wherein during operation, third activation strengths of output neurons of the reduced neural network (NNR) are detected. Finally, to monitor operation, a monitoring signal (MS) is output depending on the third activation strengths.

Inventors:
TOKIC MICHEL (DE)
VON BEUNINGEN ANJA (DE)
SCHARINGER BORIS (DE)
Application Number:
PCT/EP2023/070042
Publication Date:
February 01, 2024
Filing Date:
July 19, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
International Classes:
G06N3/045; G06N3/082; G06N3/084; G06N3/092
Other References:
TAILIN LIANG ET AL: "Pruning and Quantization for Deep Neural Network Acceleration: A Survey", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 24 January 2021 (2021-01-24), XP081866346
MIGACZ SZYMON: "8-bit Inference with TensorRT", 8 May 2017 (2017-05-08), pages 1 - 41, XP055967266, Retrieved from the Internet [retrieved on 20221003]
Attorney, Agent or Firm:
SIEMENS PATENT ATTORNEYS (DE)
Download PDF:
Claims:
Patentansprüche

1 . Computerimplementiertes Verfahren zum Reduzieren und Überwachen eines zum Steuern einer Maschine trainierten neuronalen Netzes (NN) , wobei a) zum Reduzieren des trainierten neuronalen Netzes (NN) diskrete Reduktionsschritte vorgesehen sind, durch die j eweils mindestens ein Neuron entfernt wird, mindestens eine neuronale Verbindung entfernt wird und/oder eine numerische Auflösung verringert wird, b) das trainierte neuronale Netz (NN) durch unterschiedliche Test-Reduktionsschritte ( TRA, TRB ) j eweils zu einem Test-Netz (NNA, NNB ) reduziert wird, c) eine Viel zahl von Eingabesignalen (ES ) in das trainierte neuronale Netz (NN) sowie in die Test-Netze (NNA, NNB ) eingespeist wird, d) für ein j eweiliges Eingabesignal (ES )

- eine Referenzverteilung (VR) von durch das j eweilige Eingabesignal (ES ) induzierten, ersten Aktivierungsstärken von Ausgabeneuronen ( 01 , 02 , 03 ) des trainierten neuronalen Netzes (NN) ermittelt wird, und

- für die Test-Reduktionsschritte ( TRA, TRB ) j eweils eine Abweichung ( DRA, DRB ) der Referenzverteilung (VR) von einer entsprechenden Verteilung (VA, VB ) von zweiten Aktivierungsstärken von Ausgabeneuronen des betref fenden Test-Netzes (NNA, NNB ) ermittelt wird, e ) das trainierte neuronale Netz (NN) durch Test- Reduktionsschritte , deren Abweichungen im Mittel geringer sind, als die Abweichungen anderer Test-Reduktionsschritte zu einem reduzierten neuronalen Netz (NNR) reduziert wird, f ) das reduzierte neuronale Netz (NNR) betrieben wird, wobei im laufenden Betrieb dritte Aktivierungsstärken von Ausgabeneuronen des reduzierten neuronalen Netzes (NNR) erfasst werden, und g) abhängig von den dritten Aktivierungsstärken ein Überwa- chungssignal (MS ) zum Überwachen des Betriebs ausgegeben wird . 2 . Verfahren nach Anspruch 1 , dadurch gekennzeichnet , dass eine Streubreite der dritten Aktivierungsstärken ermittelt wird, und dass abhängig von der ermittelten Streubreite

- ein eine Unsicherheit eines Ausgabesignals des reduzierten neuronalen Netzes (NNR) quanti fi zierendes Unsicherheitssignal ,

- ein Warnsignal oder Alarmsignal zur Warnung vor einer möglichen Fehl funktion der Maschine (M) ,

- ein Steuersignal zum Steuern der Maschine (M) in einen Siche rheitsmodus ,

- ein Anforderungssignal zum Anfordern eines Nachtrainings oder Neutrainings des reduzierten neuronalen Netzes (NNR) ,

- ein Wartungssignal zur Anzeige einer Degradation der Maschine (M) und/oder

- ein alternatives Steuersignal oder Klassi fikationssignal als Uberwachungssignal (MS ) ausgegeben wird .

3 . Verfahren nach einem der vorhergehenden Ansprüche , dadurch gekennzeichnet , dass Ausgabesignalen des trainierten neuronalen Netzes ein digitales Wasserzeichen (WM) aufgeprägt ist , dass geprüft wird, ob Ausgabesignale des reduzierten neuronalen Netzes (NNR) das digitale Wasserzeichen (WM) enthalten, und dass abhängig vom Prüfungsergebnis ein Benutzungssignal als Uberwachungssignal (MS ) ausgegeben wird .

4 . Verfahren nach einem der vorhergehenden Ansprüche , dadurch gekennzeichnet , dass als Abweichung ( DRA, DRB ) zwischen der Referenzverteilung (VR) und der j eweiligen Verteilung (VA, VB ) von zweiten Aktivierungsstärken eine Kullback-Leibler-Divergenz dieser Verteilungen ermittelt wird .

5. Verfahren nach einem der vorhergehenden Ansprüche , dadurch gekennzeichnet , dass a) das trainierte neuronale Netz (NN) um mindestens eine nachgeschaltete Ausgabeschicht (OL) erweitert wird, b) die mindestens eine Ausgabeschicht (OL) darauf trainiert wird, für ein jeweiliges Ausgabeneuron (01, 02, 03) des trainierten neuronalen Netzes (NN) eine jeweilige Einzel- Streubreite (VR1, VR2, VR3) von dessen jeweiliger erster Aktivierungsstärke durch ein dem jeweiligen Ausgabeneuron (01, 02, 03) zugeordnetes, weiteres Ausgabesignal zu reproduzieren, und c) die Reduktion an dem durch die trainierte mindestens eine Ausgabeschicht (OL) erweiterten trainierten neuronalen Netz ausgeführt wird, wobei

- eine weitere Abweichung zwischen einer Verteilung der weiteren Ausgabesignale des erweiterten trainierten neuronalen Netzes und einer entsprechenden Verteilung der weiteren Ausgabesignale des betreffenden Test-Netzes (NNA, NNB) ermittelt wird, und

- das erweiterte trainierte neuronale Netz durch Test- Reduktionsschritte, deren weitere Abweichungen im Mittel geringer sind, als die weiteren Abweichungen anderer Test- Reduktionsschritte zum reduzierten neuronalen Netz (NNR) reduziert wird.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zum Training der mindestens einen Ausgabeschicht (OL) eine log-likelihood-Fehlerfunktion von Einzel-Streubreiten als Kostenfunktion verwendet wird.

7. Anordnung zum Reduzieren und Überwachen eines zum Steuern einer Maschine (M) trainierten neuronalen Netzes (NN) , eingerichtet zum Ausführen aller Verfahrensschritte eines Verfahrens nach einem der vorhergehenden Ansprüche.

8. Computerprogrammprodukt umfassend Befehle, die bei der Ausführung durch einen Computer diesen veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen. 9. Computerlesbares Speichermedium mit einem Computerprogrammprodukt nach Anspruch 8 .

10 . Verfahren nach einem der Ansprüche 1 bis 6 , dadurch ge- kennzeichnet , dass das reduzierte neuronale Netz (NNR) zum Steuern der Maschine (M) eingesetzt wird, dass die dritten Aktivierungsstärken im laufenden Betrieb der Maschine (M) erfasst werden, und dass das Überwachungssignal abhängig von den dritten Aktivierungsstärken zum Überwachen des Betriebs der Maschine M und des neuronalen Netzes (NNR) ausgegeben wird .

Description:
Beschreibung

Verfahren und Anordnung zum Reduzieren und Überwachen von künstlichen neuronalen Netzen

Komplexe Maschinen, wie z . B . Roboter, Motoren, Fertigungsanlagen, Werkzeugmaschinen, Gasturbinen, Windturbinen, Energieversorgungseinrichtungen oder Kraftfahrzeuge benötigen für einen produktiven und stabilen Betrieb in der Regel komplexe Steuerungs- und Überwachungsverf ahren . Zu diesem Zweck werden in zeitgemäßen Maschinensteuerungen häufig Techniken des maschinellen Lernens eingesetzt . So kann z . B . ein neuronales Netz als Steuermodell darauf trainiert werden, eine Maschine in optimierter Weise zu steuern .

Insofern neuronale Netze zunehmend auch in zeitkritischen Anwendungen oder Echt Zeitanwendungen genutzt werden, wird vielfach angestrebt , trainierte neuronale Netze mit möglichst geringem Rechenaufwand zu betreiben . Zur Verringerung des numerischen Aufwands beim Auswerten von trainierten neuronalen Netzen werden diese häufig strukturell reduziert . Dies kann beispielsweise durch Quantisierung oder sogenanntes Pruning erfolgen .

Bei einer Quantisierung kann z . B . ein Datentyp von neuronalen Gewichten reduziert werden, beispielsweise von 64 Bit ( double ) auf 32 Bit ( float ) oder sogar auf 8 Bit ( int ) . Auf diese Weise kann eine Rechenkomplexität in der Regel signi fikant verringert werden .

Ein Pruning kann sowohl neuronale Gewichte als auch Teile einer Architektur eines trainierten neuronalen Netzes betreffen . So können beispielsweise besonders kleine neuronale Gewichte auf null gesetzt oder bei der Auswertung des neuronalen Netzes vernachlässigt werden . Zusätzlich oder alternativ können Neuronen oder ganze , für den Betrieb weniger relevante Äste des trainierten neuronalen Netzes abgetrennt oder vernachlässigt werden . Eine derartige Reduktion eines zum Steuern einer Maschine trainierten neuronalen Netzes wird in der Regel so durchgeführt , dass sich die Steuerung der konkreten Maschine nicht signi fikant verschlechtert .

In der Praxis erweisen sich solcherart reduzierte neuronale Netze j edoch häufig als weniger robust gegenüber Änderungen von Betriebsbedingungen oder Änderungen an der Maschine als das ursprünglich trainierte neuronale Netz . Derartige , z . B . verschleißbedingte Änderungen von Betriebsbedingungen und/oder der Maschine sind indes Gegenstand vieler Überwa- chungsmaßnahmen, deren Zuverlässigkeit beim Einsatz von reduzierten neuronalen Netzen in vielen Fällen beeinträchtigt wird .

Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Anordnung zum Reduzieren und Überwachen eines zum Steuern einer Maschine trainierten neuronalen Netzes anzugeben, die einen robusteren Betrieb und/oder eine zuverlässigere Überwachung der Maschine erlauben .

Gelöst wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 , durch eine Anordnung mit den Merkmalen des Patentanspruchs 7 , durch ein Computerprogrammprodukt mit den Merkmalen des Patentanspruchs 8 sowie durch ein computerlesbares Speichermedium mit den Merkmalen des Patentanspruchs 9 .

Zum Reduzieren eines zum Steuern einer Maschine trainierten neuronalen Netzes sind diskrete Reduktionsschritte vorgesehen, durch die j eweils mindestens ein Neuron entfernt wird, mindestens eine zwischen Neuronen verlaufende neuronale Verbindung entfernt wird und/oder eine numerische Auflösung verringert wird . Das trainierte neuronale Netz wird durch unterschiedliche Test-Reduktionsschritte j eweils zu einem Test- Netz reduziert , und es wird eine Viel zahl von Eingabesignalen in das trainierte neuronale Netz sowie in die Test-Netze ein- gespeist . Weiterhin werden für ein j eweiliges Eingabesignal zum einen eine Referenzverteilung von durch das j eweilige Eingabesignal induzierten, ersten Aktivierungsstärken von Ausgabeneuronen des trainierten neuronalen Netzes und zum anderen für die Test-Reduktionsschritte j eweils eine Abweichung der Referenzverteilung von einer entsprechenden Verteilung von zweiten Aktivierungsstärken von Ausgabeneuronen des betref fenden Test-Netzes ermittelt . Unter einer Aktivierungsstärke eines Neurons sei hierbei dem fachsprachlichen Gebrauch folgend, insbesondere ein Ausgabewert oder ein Eingabewert einer Aktivierungs funktion dieses Neurons verstanden . Unter der Verteilung und speziell unter der Referenzverteilung sei insbesondere eine statistische Verteilung, eine Wahrscheinlichkeitsverteilung oder eine Streuung von Aktivierungsstärken über die Ausgabeneuronen verstanden . Ausgehend davon wird das trainierte neuronale Netz durch Test- Reduktionsschritte , deren Abweichungen im Mittel geringer sind, als die Abweichungen anderer Test-Reduktionsschritte zu einem reduzierten neuronalen Netz reduziert . Das reduzierte neuronale Netz wird dann betrieben, wobei im laufenden Betrieb dritte Aktivierungsstärken von Ausgabeneuronen des reduzierten neuronalen Netzes erfasst werden . Zum Überwachen des Betriebs wird schließlich abhängig von den dritten Aktivierungsstärken ein Uberwachungssignal ausgegeben .

Zur Durchführung des erfindungsgemäßen Verfahrens sind eine Anordnung, ein Computerprogrammprodukt sowie ein computerlesbares , vorzugsweise nicht flüchtiges Speichermedium vorgesehen .

Das erfindungsgemäße Verfahren sowie die erfindungsgemäße Anordnung können beispielsweise mittels eines oder mehrerer Computer, Prozessoren, anwendungsspezi fischer integrierter Schaltungen (AS IC ) , digitaler Signalprozessoren ( DSP ) und/oder sogenannter „Field Programmable Gate Arrays" ( FPGA) ausgeführt bzw . implementiert werden . Darüber hinaus kann das erfindungsgemäße Verfahren zumindest teilweise in einer Cloud und/oder in einer Edge-Computing-Umgebung ausgeführt werden . Das Verfahren basiert unter anderem auf der Beobachtung, dass zur Überwachung eines neuronalen Netzes neben dessen eigentlichem Ausgabesignal vorteilhafterweise auch die relativen Aktivierungsstärken verschiedener Ausgabeneuronen berücksichtigt werden können . So können z . B . bei einem zur Klassi fikation eingesetzten neuronalen Netz die Aktivierungsstärken verschiedener, j eweils einer Klasse zugeordneten Ausgabeneuronen verglichen werden, um eine Unsicherheit eines Klassi fikationsergebnisses zu bewerten . Wenn neben dem das Klassi fikationsergebnis festlegenden Ausgabeneuron mit der höchsten Aktivierungsstärke , ein anderes Ausgabeneuron eine ähnlich hohe Aktivierungsstärke aufweist , kann dies auf eine möglicherweise überwachungsrelevante Unsicherheit des Klassi fikationsergebnisses hindeuten . In analoger Weise können bei einem neuronalen Netz , das im Rahmen eines Verfahrens des bestärkenden Lernens zur Prädiktion von sogenannten Q-Werten für verschiedene an einer Maschine vornehmbare Steueraktionen verwendet wird, die relativen Aktivierungsstärken von verschiedenen, j eweils einer Steueraktion zugeordneten Ausgabeneuronen berücksichtigt werden . Falls mehrere Ausgabeneuronen eine vergleichbar hohe Aktivierungsstärke aufweisen, kann dies auf eine möglicherweise überwachungsrelevante Unsicherheit hinsichtlich der vorzunehmenden Steueraktion hindeuten .

Wie oben schon angedeutet , wird die Reduktion von trainierten neuronalen Netzen bei bekannten Reduktionsverfahren derart vorgenommen, dass sich deren Klassi fikationen oder Prädiktionen nicht signi fikant verschlechtern . Dies wird üblicherweise dadurch erreicht , dass bei bekannten Reduktionsverfahren eine auch für das Training des neuronalen Netzes verwendete Kostenfunktion zur Kontrolle des Reduktionsprozesses genutzt wird . Es ist j edoch in vielen Fällen zu beobachten, dass die Aktivierungsstärken und insbesondere deren Verteilung bei bekannten Reduktionsverfahren wesentlich verändert werden . Dies kann dazu führen, dass eine Zuverlässigkeit von Überwachungsmaßnahmen bei Verwendung reduzierter neuronaler Netze signifikant beeinträchtigt wird . In Unterschied dazu werden bei einem erfindungsgemäßen Reduktionsprozess auch Verteilungen von Aktivierungsstärken der Ausgabeneuronen berücksichtigt . Ein auf diese Weise reduziertes neuronales Netz liefert in vielen Fällen Verteilungen von Aktivierungsstärken, die nur wenig von entsprechenden Verteilungen des ursprünglichen trainierten neuronalen Netzes abweichen . Dementsprechend kann in vielen Fällen eine reduktionsbedingte Beeinträchtigung von Uberwachungsmaßnahmen vermieden oder zumindest verringert werden . Darüber hinaus kann durch die erfindungsgemäße Reduktion ein Rechenaufwand zum Betreiben oder Auswerten des neuronalen Netzes oft wesentlich gesenkt werden .

Vorteilhafte Aus führungs formen und Weiterbildungen der Erfindung sind in den abhängigen Ansprüchen angegeben .

Insbesondere kann eine Streubreite , z . B . eine statistische Streuung, Standardabweichung oder Varianz der dritten Aktivierungsstärken ermittelt werden . Abhängig von der ermittelten Streubreite kann dann ein eine Unsicherheit eines Ausgabesignals des reduzierten neuronalen Netzes quanti fi zierendes Unsicherheitssignal , ein Warnsignal oder Alarmsignal zur Warnung vor einer möglichen Fehl funktion der Maschine , ein Steuersignal zum Steuern der Maschine in einen Sicherheits- oder Ruhemodus , ein Anforderungssignal zum Anfordern eines Nachtrainings oder Neutrainings des reduzierten neuronalen Netzes , ein Wartungssignal zur Anzeige einer Degradation der Maschine und/oder ein alternatives Steuersignal oder Klassi fikationssignal als Uberwachungssignal ausgegeben werden . Als alternatives Steuersignal oder Klassi fikationssignal kann beispielsweise ein Ausgabesignal desj enigen Ausgabeneurons ausgegeben werden, das eine zweithöchste Aktivierungsstärke aufweist . Die ermittelte Streubreite kann insbesondere mit einem vorgegebenen Schwellwert verglichen werden . Die Ausgabe des Uberwachungssignals kann dann durch ein Überschreiten des Schwellwerts ausgelöst werden . Nach einer vorteilhaften Weiterbildung der Erfindung kann Ausgabesignalen des trainierten neuronalen Netzes ein digitales Wasserzeichen aufgeprägt sein . Entsprechend kann geprüft werden, ob Ausgabesignale des reduzierten neuronalen Netzes das digitale Wasserzeichen enthalten, und abhängig davon kann ein Benutzungssignal als Überwachungssignal ausgegeben werden . Anhand von aufgeprägten digitalen Wasserzeichen können vorliegende neuronale Netze daraufhin geprüft werden, ob sie vom Verwender des Wasserzeichens stammen . Auf diese Weise können neuronale Netze ef fektiv gegen unkontrollierte oder unberechtigte Verbreitung oder Verwendung geschützt werden . Bei manchen bekannten Verfahren zur Reduktion von neuronalen Netzen ist indes zu beobachten, dass digitale Wasserzeichen durch die Reduktion unkenntlich oder zumindest nicht mehr sicher nachweisbar werden . Demgegenüber bleiben beim erfindungsgemäßen Reduktionsprozess viele Arten von digitalen Wasserzeichen erhalten oder bleiben zumindest nachweisbar, da die Verteilungen von Aktivierungsstärken der Ausgabeneuronen in der Regel weniger verändert werden als bei bekannten Reduktionsverfahren .

Nach einer vorteilhaften Aus führungs form der Erfindung kann als Abweichung zwischen der Referenzverteilung und der j eweiligen Verteilung von zweiten Aktivierungsstärken eine Kull- back-Leibler-Divergenz dieser Verteilungen ermittelt werden . Eine Kullback-Leibler-Divergenz D KL zwischen der Referenzverteilung Q (x ) und einer j eweiligen Verteilung P (x ) von zweiten Aktivierungsstärken kann insbesondere ermittelt werden gemäß D KL (P 11 (?) = SxeX wobei X eine Menge aller Ausgabe neuronen, N eine Anzahl der Ausgabeneuronen und x ein j eweiliges Ausgabeneuron darstellen . Mittels einer Kullback- Leibler-Divergenz können strukturelle Abweichungen zwischen Wahrscheinlichkeitsverteilungen in der Regel di f ferenzierter abgebildet werden als beispielsweise mittels einer ggf . durch 2 w (x ) gewichteten Summe SxeX (%) * (P(x) - (?(x)) über quadrierte

Di f ferenzen der Verteilungen P und Q . Nach einer weiteren vorteilhaften Weiterbildung der Erfindung kann das trainierte neuronale Netz um mindestens eine nachgeschaltete Ausgabeschicht erweitert werden . Die mindestens eine Ausgabeschicht kann darauf trainiert werden, für ein j eweiliges Ausgabeneuron des trainierten neuronalen Netzes eine j eweilige Einzel-Streubreite von dessen j eweiliger erster Aktivierungsstärke durch ein dem j eweiligen Ausgabeneuron zugeordnetes , weiteres Ausgabesignal zu reproduzieren . Die Reduktion kann dann an dem durch die trainierte mindestens eine Ausgabeschicht erweiterten trainierten neuronalen Netz ausgeführt werden . Dabei kann eine weitere Abweichung zwischen einer Verteilung der weiteren Ausgabesignale des erweiterten trainierten neuronalen Netzes und einer entsprechenden Verteilung der weiteren Ausgabesignale des betref fenden Test- Netzes ermittelt werden . Das erweiterte trainierte neuronale Netz kann dann durch Test-Reduktionsschritte , deren weitere Abweichungen im Mittel geringer sind, als die weiteren Abweichungen anderer Test-Reduktionsschritte zum reduzierten neuronalen Netz reduziert werden . Hierbei kann als weitere Abweichung vorzugsweise eine Kullback-Leibler-Divergenz zwischen der Verteilung der weiteren Ausgabesignale des erweiterten trainierten neuronalen Netzes und einer entsprechenden Verteilung der weiteren Ausgabesignale des betref fenden Test- Netzes ermittelt werden . Insbesondere kann j eweils eine gewichtete Summe der Abweichung von der Referenzverteilung und der weiteren Abweichung gebildet werden . Entsprechend kann das erweiterte trainierte neuronale Netz durch Test- Reduktionsschritte , deren gewichtete Summen im Mittel geringer sind, als die gewichteten Summen anderer Test- Reduktionsschritte zum reduzierten neuronalen Netz reduziert werden .

Durch die zusätzliche Berücksichtigung von Einzel- Streubreiten der einzelnen Ausgabeneuronen kann der Reduktionsprozess so gesteuert werden, dass auch Unsicherheiten in den j eweiligen einzelnen Aktivierungsstärken im reduzierten neuronalen Netz nur wenig von den entsprechenden Unsicherheiten des trainierten neuronalen Netzes abweichen . Insofern derartige Unsicherheiten häufig überwachungsrelevant sind, erweist sich eine weitgehende Erhaltung dieser Unsicherheiten im reduzierten neuronalen Netz in vielen Fällen als vorteilhaft und erlaubt eine robustere und/oder zuverlässigere Überwachung des Maschinenbetriebs .

Weiterhin kann zum Training der mindestens einen Ausgabeschicht insbesondere eine log-likelihood-Fehlerfunktion von Einzel-Streubreiten als Kostenfunktion verwendet werden . Eine solche log-likelihood-Fehlerfunktion wird häufig auch als logarithmische Plausibilitäts funktion bezeichnet . Mittels einer log-likelihood-Fehlerfunktion kann ein Abstand des j eweiligen weiteren Ausgabesignals von einer Einzel-Streubreite der Aktivierungsstärke des betref fenden Ausgabeneurons abgeschätzt werden . Damit können zu trainierende Parameter, z . B . neuronale Gewichte der mindestens einen Ausgabeschicht dahingehend optimiert werden, dass dieser Abstand minimiert oder zumindest verringert wird .

Ein Aus führungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert . Dabei veranschaulichen j eweils in schematischer Darstellung :

Figur 1 eine Steuerung einer Maschine mittels eines künstlichen neuronalen Netzes ,

Figur 2 ein Trainieren eines künstlichen neuronalen Netzes mittels eines Trainingssystems ,

Figur 3 ein Reduktionssystem zum Reduzieren des trainierten neuronalen Netzes ,

Figur 4 eine Erweiterung eines trainierten neuronalen Netzes zur Ermittlung von Einzel-Streubreiten von Ausgabeneuronen, und

Figur 5 eine Anordnung zum Reduzieren und Überwachen eines neuronalen Netzes . Insofern in den Figuren gleiche oder korrespondierende Bezugs zeichen verwendet werden, bezeichnen diese Bezugs zeichen die gleichen oder korrespondierende Entitäten, die insbesondere wie im Zusammenhang mit der betref fenden Figur beschrieben, implementiert oder ausgestaltet sein können .

Figur 1 veranschaulicht eine Steuerung einer Maschine M mittels eines trainierten künstlichen neuronalen Netzes NNR in schematischer Darstellung . Die Maschine M kann hierbei insbesondere ein Roboter, ein Motor, eine Werkzeugmaschine , eine Fertigungsanlage , eine Energieversorgungseinrichtung, eine Gasturbine , eine Windturbine , eine Dampfturbine , eine Fräsmaschine , ein Kraftfahrzeug sein oder eine solche Maschine umfassen . Für das vorliegende Aus führungsbeispiel sei angenommen, dass die Maschine M ein Fertigungsroboter ist .

Die Maschine M wird durch eine an diese gekoppelte Maschinensteuerung CTL gesteuert . Letztere ist in Figur 1 extern zur Maschine M dargestellt . Alternativ dazu kann die Maschinensteuerung CTL auch ganz oder teilweise in die Maschine M integriert sein . Die Maschinensteuerung CTL verfügt über einen oder mehrere Prozessoren PROC zum Aus führen von erfindungsgemäßen Verfahrensschritten sowie über einen oder mehrere Speicher MEM zum Speichern von zu verarbeitenden Daten .

Die Maschine M weist eine Sensorik S auf , durch die fortlaufend Betriebsparameter der Maschine M sowie andere Messwerte gemessen werden . Die von der Sensorik S ermittelten Messwerte werden zusammen mit anderen Betriebsdaten der Maschine M in Form von Betriebssignalen BS von der Maschine M zur Maschinensteuerung CTL übermittelt .

Die Betriebssignale BS umfassen insbesondere Sensordaten und/oder Messwerte der Sensorik S , Steuersignale der Maschine M und/oder Zustandssignale der Maschine M . Die Zustandssignale spezi fi zieren hierbei j eweils einen Betriebs zustand der Maschine M oder von einer oder mehreren ihrer Komponenten, vorzugsweise im Zeitverlauf . Insbesondere können durch die Betriebssignale BS eine Leistung, eine Drehzahl , ein Drehmoment , eine Bewegungsgeschwindigkeit , eine ausgeübte oder einwirkende Kraft , eine Temperatur, ein Druck, ein aktueller Ressourcenverbrauch, vorhandene Ressourcen, ein Schadstof fausstoß , Vibrationen, ein Verschleiß und/oder eine Belastung der Maschine M oder von Komponenten der Maschine M quanti fi ziert werden . Vorzugsweise werden die Betriebssignale BS j eweils durch einen oder mehrere numerische Datenvektoren dargestellt und in dieser Form zur Maschinensteuerung CTL übermittelt .

Das zum Steuern der Maschine M vorgesehene neuronale Netz NNR ist Teil der Maschinensteuerung CTL . Das neuronale Netz NNR ist darauf trainiert , anhand eines eingespeisten Eingabesignals ein Ausgabesignal aus zugeben, mittels dessen die Maschine M in optimierter Weise gesteuert werden kann . Zum Training eines solchen neuronalen Netzes NNR steht eine Viel zahl ef fizienter Verfahren des maschinellen Lernens zur Verfügung, insbesondere Verfahren des bestärkenden Lernens , das häufig auch als Reinforcement-Learning bezeichnet wird .

Insbesondere kann das neuronale Netz NNR ein rekurrentes neuronales Netz , ein faltendes neuronales Netz , ein Perzeptron, ein bayessches neuronales Netz , einen Autoencoder, einen va- riationalen Autoencoder und/oder eine Deep-Learning- Architektur umfassen .

Im vorliegenden Aus führungsbeispiel werden zum Steuern der Maschine M die Betriebssignale BS als Eingabesignale in eine Eingabeschicht des trainierten neuronalen Netzes NNR eingespeist . Aus den Betriebssignalen BS werden mittels des trainierten neuronalen Netzes NNR Ausgabesignale AS zum Steuern der Maschine M, beispielsweise in Form von numerischen Datenvektoren abgeleitet . Die Ausgabesignale AS oder daraus abgeleitete Signale werden dann als Steuersignale zur Maschine M übermittelt , um diese in optimierter Weise zu steuern . Figur 2 veranschaulicht ein Trainieren eines zum Steuern der Maschine M vorgesehenen neuronalen Netzes NN . Das neuronale Netz NN kann dabei insbesondere wie in Zusammenhang mit Figur 1 beschrieben implementiert sein und verwendet werden .

Das neuronale Netz NN wird in einem Trainingssystem TS , z . B . durch ein Verfahren des bestärkenden Lernens darauf trainiert , ein Ausgabesignal aus zugeben, mittels dessen die Maschine M in optimierter Weise gesteuert werden kann . Das Training wird anhand einer großen Menge von Trainingsdaten TD ausgeführt , die aus einer Datenbank DB, von der Maschine M, von einer dazu ähnlichen Maschine und/oder von einer Simulation der Maschine M stammen .

Unter einem Training sei allgemein eine Optimierung einer Abbildung eines Eingabesignals eines Maschinenlernmoduls , hier eines neuronalen Netzes , auf dessen Ausgabesignal verstanden . Diese Abbildung wird nach vorgegebenen gelernten und/oder zu lernenden Kriterien während einer Trainingsphase optimiert . Als Kriterium können insbesondere bei Steuermodellen ein Erfolg einer Steueraktion oder bei Prädiktionsmodellen ein Prädiktions fehler herangezogen werden . Durch das Training können beispielsweise Vernetzungsstrukturen von Neuronen eines neuronalen Netzes und/oder Gewichte von Verbindungen zwischen den Neuronen so eingestellt bzw . optimiert werden, dass die vorgegebenen Kriterien zumindest im statistischen Mittel möglichst gut erfüllt werden . Das Training kann somit als Optimierungsproblem aufgefasst werden .

Für derartige Optimierungsprobleme auf dem Gebiet des maschinellen Lernens ist eine Viel zahl von ef fi zienten Optimierungsverfahren verfügbar, insbesondere Rückpropagationsverfahren, gradientenbasierte Optimierungsverfahren, gradientenfreie Optimierungsverfahren, Partikelschwarmoptimierungen, genetische Optimierungsverfahren und/oder populationsbasierte Optimierungsverfahren . Zum Training des neuronalen Netzes NN werden diesem in den Trainingsdaten TD enthaltene Betriebssignale der Maschine M als Eingabesignale zugeführt . Im Zuge des Trainings werden dann neuronale Gewichte des neuronalen Netzes NN, vorzugsweise durch eines der vorstehend erwähnten Optimierungsverfahren derart eingestellt , dass die Maschine M mittels der vom neuronalen Netz NN aus den Eingabesignalen abgeleiteten Ausgabesignale in optimierter Weise gesteuert wird . Zur Bewertung einer optimierten Steuerung der Maschine M kann z . B . eine Performanz der Maschine M, insbesondere eine Leistung, ein Wirkungsgrad, ein Durchsatz , eine Aus führungsgeschwindigkeit , eine Fehlerrate oder andere für den Betrieb der Maschine M relevante Parameter gemessen oder simulativ ermittelt und als Optimierungskriterium verwendet werden .

Darüber hinaus wird dem neuronalen Netz NN durch das Trainingssystem TS zum Schutz vor unkontrollierter und unberechtigter Verbreitung ein eindeutiges digitales Wasserzeichen WM auf geprägt , anhand dessen sich das neuronale Netz NN und/oder seine Herkunft später identi fi zieren lassen . Der Informationsinhalt des Wasserzeichen WM kann vorgegeben sein und beispielsweise einen Ersteller des neuronalen Netzes NN oder das Trainingssystem TS eindeutig identi fi zieren .

Im vorliegenden Aus führungsbeispiel wird das digitale Wasserzeichen WM in Ausgabesignale des neuronalen Netzes NN eintrainiert . Um eine Steuerungsqualität des neuronalen Netzes durch das digitale Wasserzeichen nicht zu beeinträchtigen, wird das Training so durchgeführt , dass nach Möglichkeit nur Ausgabesignale verändert werden, die die Steuerung der Maschine nicht oder nur unwesentlich beeinflussen . So kann das digitale Wasserzeichen insbesondere denj enigen Ausgabesignalen von Ausgabeneuronen aufgeprägt werden, die aufgrund einer geringen Aktivierungsstärke ohnehin nicht zum Steuern ausgewählt würden . Insofern das hier beschriebene Reduktionsverfahren eine Verteilung der Aktivierungsstärken verhältnismäßig wenig verändert , ist zu erwarten, dass ein solcherart aufgeprägtes digitales Wasserzeichen auch nach einer Redukti- on des trainierten neuronalen Netzes NN relativ sicher nachweisbar bleibt .

Das oben beschriebene Training des neuronalen Netzes NN kann auch unabhängig vom erfindungsgemäßen Verfahren von einem Drittanbieter durchgeführt werden . Die Erfindung erlaubt es mithin, auch fertig trainierte und/oder mit digitalen Wasserzeichen versehene neuronale Netze zu reduzieren und deren Betrieb zu überwachen .

Das trainierte und durch das digitale Wasserzeichen WM markierte neuronale Netz NN wird nach dem Training vom Trainingssystem TS zu einem Reduktionssystem RED übermittelt . Das Reduktionssystem RED dient dem Zweck, das trainierte neuronale Netz NN durch Quantisierung und/oder Pruning zu reduzieren, ohne eine Verteilung von Aktivierungsstärken von Ausgabeneuronen des trainierten neuronalen Netzes NN wesentlich zu beeinträchtigen .

Figur 3 veranschaulicht das Reduktionssystem RED zum Reduzieren des trainierten neuronalen Netzes NN in detaillierterer Darstellung .

Das Reduktionssystem RED verfügt über einen oder mehrere Prozessoren PROC zum Aus führen von erfindungsgemäßen Verfahrensschritten sowie über einen oder mehrere Speicher MEM zum Speichern von zu verarbeitenden Daten .

Im Rahmen des Reduktionsprozesses werden am trainierten neuronalen Netz NN sukzessive diskrete Reduktionsschritte vorgenommen, bei denen j eweils ein Neuron oder eine neuronale Verbindung des neuronalen Netzes NN entfernt oder eine numerische Auflösung von Gewichten des neuronalen Netzes NN verringert wird . Zum Generieren derartiger Reduktionsschritte verfügt das Reduktionssystem RED über einen Generator GEN . Die Reduktionsschritte werden durch den Generator GEN vorzugsweise in Form von Angaben generiert , durch die zu entfernende Neuronen oder zu entfernende neuronale Verbindungen oder ein bitreduzierter Datentyp der neuronalen Gewichte des neuronalen Netzes NN identifiziert oder spezifiziert werden.

Wie oben schon erwähnt, soll der Reduktionsprozess so vorgenommen werden, dass die Verteilung von Aktivierungsstärken von Ausgabeneuronen des trainierten neuronalen Netzes NN nicht wesentlich beeinträchtigt wird. Zu diesem Zweck wird durch den Generator GEN eine Vielzahl von Test- Reduktionsschritten TRA, TRB, . . . generiert, deren Auswirkungen auf die Verteilung der Aktivierungsstärken jeweils geprüft wird. Die Generierung der Test-Reduktionsschritte TRA, TRB, ... bzw. eine jeweilige Auswahl von zu entfernenden Neuronen, zu entfernenden neuronalen Verbindungen und/oder bitreduzierten Datentypen kann dabei insbesondere zufallsgestützt erfolgen.

Die generierten Test-Reduktionsschritte TRA, TRB, . . . werden am trainierten neuronalen Netz NN testweise vorgenommen, um so jeweils ein reduziertes Test-Netz NNA bzw. NNB, ... zu erzeugen. Im vorliegenden Ausführungsbeispiel wird auf diese Weise das trainierte neuronale Netz NN durch den Test- Reduktionsschritt TRA zum Test-Netz NNA reduziert. Entsprechend wird das trainierte neuronale Netz NN durch den Test- Reduktionsschritt TRB zum Test-Netz NNB reduziert. Weitere Test-Reduktionschritte werden analog dazu ausgeführt.

Die neuronalen Netze NN, NNA, NNB, ... verfügen jeweils über eine Ausgabeschicht, die jeweils verschiedene Ausgabeneuronen 01, 02 und 03 umfasst. Für das vorliegende Ausführungsbeispiel sei angenommen, dass jedes der Ausgabeneuronen 01, 02 und 03 einer an der Maschine M vornehmbaren Steueraktion zugeordnet ist. Zum Steuern der Maschine M würde diejenige Steueraktion ausgeführt, dessen Ausgabeneuron 01, 02 bzw. 03 eine höchste Aktivierungsstärke aufweist.

Unter einer Aktivierungsstärke eines jeweiligen Ausgabeneurons 01, 02 bzw. 03 sei dabei insbesondere ein Ausgabewert oder ein Eingabewert einer Aktivierungsfunktion dieses Neu- rons verstanden . Ein solcher Eingabewert kann insbesondere eine gewichtete Summe von Ausgabewerten von Neuronen einer dem j eweiligen Ausgabeneuron 01 , 02 bzw . 03 vorgeschalteten neuronalen Schicht umfassen . Eine Aktivierungs funktion wird häufig auch Trans fer-Funktion bezeichnet und ist einem auf dem Gebiet des maschinellen Lernens tätigen Fachmann in Bedeutung und Anwendung wohlvertraut .

Aus Gründen der Übersichtlichkeit sind in Figur 3 nur zwei Test-Reduktionsschritte TRA und TRB und zwei daraus resultierende Test-Netze NNA und NNB expli zit dargestellt . Weiterhin sind nur j eweils drei Ausgabeneuronen 01 , 02 und 03 expli zit abgebildet . Entsprechend wird das Reduktionsverfahren im Folgenden anhand der Test-Reduktionsschritte TRA und TRB, der Test-Netze NNA und NNB sowie der j eweiligen Ausgabeneuronen 01 , 02 und 03 stellvertretend für alle Test- Reduktionsschritte , Test-Netze bzw . Ausgabeneuronen beschrieben .

Zur Bewertung eines j eweiligen Test-Reduktionsschritts TRA bzw . TRB werden die resultierenden Test-Netze NNA bzw . NNB hinsichtlich der Verteilung von Aktivierungsstärken ihrer Ausgabeneuronen 01 , 02 und 03 mit dem unreduzierten neuronalen Netz NN verglichen .

Zu diesem Zweck werden dem unreduzierten trainierten neuronalen Netz NN sowie den Test-Netzen NNA und NNB j eweils eine Viel zahl von Eingabesignalen ES zugeführt . Als Eingabesignale ES können insbesondere Betriebssignale der zu steuernden Maschine M eingespeist werden, die die im Betrieb der Maschine M auftretenden Betriebs zustände möglichst repräsentativ abdecken sollten . Derartige Eingabesignale können beispielsweise aus einer Datenbank DB, von der zu steuernden Maschine M, von einer dazu ähnlichen Maschine und/oder von einer Simulation der Maschine M stammen .

Die neuronalen Netze NN, NNA und NNB verarbeiten das j eweilige Eingabesignal ES und steuern gemäß ihrer j eweiligen neuro- nalen Struktur die j eweiligen Ausgabeneuronen 01 , 02 und 03 an .

Beim trainierten neuronalen Netz NN werden, induziert durch das j eweilige Eingabesignal ES , das Ausgabeneuron 01 mit einer Aktivierungsstärke RI , das Ausgabeneuron 02 mit einer Aktivierungsstärke R2 und das Ausgabeneuron 03 mit einer Aktivierungsstärke R3 aktiviert . Das Reduktionssystem RED erfasst die Aktivierungsstärken RI , R2 und R3 und ermittelt eine Verteilung VR dieser Aktivierungsstärken RI , R2 und R3 über die Ausgabeneuronen 01 , 02 und 03 des trainierten neuronalen Netzes NN . Die ermittelte Verteilung VR dient im Folgenden als Referenz Verteilung .

Entsprechend werden bei den Test-Netzen NNA und NNB, j eweils induziert durch das j eweilige Eingabesignal ES , das j eweilige Ausgabeneuron 01 mit einer j eweiligen Aktivierungsstärke Al bzw . Bl , das j eweilige Ausgabeneuron 02 mit einer j eweiligen Aktivierungsstärke A2 bzw . B2 und das j eweilige Ausgabeneuron 03 mit einer j eweiligen Aktivierungsstärke A3 bzw . B3 aktiviert . Das Reduktionssystem RED erfasst die j eweiligen Aktivierungsstärken Al , A2 und A3 bzw . Bl , B2 und B3 und ermittelt deren j eweilige Verteilung VA bzw . VB .

Wie in Figur 3 angedeutet , sei für das vorliegende Aus führungsbeispiel angenommen, dass ein betrachtetes Eingabesignal ES in allen neuronalen Netzen NN, NNA und NNB das j eweilige Ausgabeneuron 02 mit der höchsten Aktivierungsstärke aller Ausgabeneuronen 01 , 02 und 03 anregt . Dementsprechend würde bei allen neuronalen Netzen NN, NNA und NNB die dem Ausgabenneuron 02 zugeordnete Steueraktion beim Steuern der Maschine M ausgeführt .

Im Gegensatz dazu unterscheiden sich allerdings die Verteilungen VR, VA und VB der j eweiligen Aktivierungsstärken . Wie oben schon erwähnt , können auch nichtmaximale Aktivierungsstärken und insbesondere spezi fische Verteilungen von Aktivierungsstärken wertvolle Information über den Betrieb und die Steuerung der Maschine M enthalten . So erweist sich beispielsweise die Aktivierungsstärke B2 des Test-Netzes NNB weniger dominierend als bei den anderen neuronalen Netzen NN und NNA. Beim Test-Netz NNB besteht also eine größere Unsicherheit über die anzuwendende Steueraktion als bei den anderen neuronalen Netzen NN und NNA. Zumindest in dieser Hinsicht weicht das Test-Netz NNA weniger vom als Referenz dienenden neuronalen Netz NN ab als das Test-Netz NNB . Mittels des Test-Netzes NNA kann also eine Unsicherheit über die anzuwendende Steueraktion zumindest in diesem Fall besser bewertet werden als mittels des Test-Netzes NNB .

Zur Steuerung des Reduktionsprozesses in Richtung von neuronalen Netzen, deren Verteilungen von Aktivierungsstärken möglichst ähnlich zur Referenzverteilung VR sind, werden die Verteilungen VA und VB mit der Referenzverteilung VR verglichen . Dabei werden eine Abweichung DRA zwischen der Verteilung VA und der Referenzverteilung VR sowie eine Abweichung DRB zwischen der Verteilung VB und der Referenzverteilung VR durch das Reduktionssystem RED ermittelt . Als j eweilige Abweichung DRA bzw . DRB wird vorzugsweise eine Kullback- Leibler-Divergenz der betref fenden Verteilungen VR und VA bzw . VR und VB ermittelt . Für die Abweichung DRA z . B . gemäß DRA KL (VA 11 VR) = xeX VA(x) log > wobei X eine Menge aller

Ausgabeneuronen, hier 01 , 02 und 03 , N eine Anzahl der Ausgabeneuronen, hier 3 , und x ein j eweiliges Ausgabeneuron darstellen . Die Abweichung DRB kann entsprechend berechnet werden .

Die für die Viel zahl von Eingabesignalen ES ermittelten Abweichungen DRA und DRB werden in ein Optimierungsmodul ORT des Reduktionssystems RED eingespeist . Das Optimierungsmodul OPT vergleicht diese Abweichungen DRA und DRB und ermittelt dasj enige oder diej enigen Test-Netze , hier NNA oder NNB bzw . denj enigen oder diej enigen Test-Reduktionsschritte , hier TRA oder TRB, die zumindest im Mittel die geringste Abweichung, hier DRA oder DRB aufweisen . Für das vorliegende Aus führungsbeispiel sei angenommen, dass das Test-Netz NNA im Mittel die geringste Abweichung DRA aller Test-Netze aufweist . Infolgedessen wird der zugehörige Test-Reduktionsschritt TRA als verteilungsoptimierender Reduktionsschritt durch das Optimierungsmodul ORT selektiert .

Das beschriebene Verfahren kann iterativ fortgesetzt werden, wobei durch das Optimierungsmodul OPT weitere verteilungsoptimierende Reduktionsschritte selektiert werden . Die Iteration kann vorzugsweise abgebrochen werden, sobald eine minimale Abweichung zwischen Verteilungen der Aktivierungsstärken von Test-Netzen und der Referenzverteilung VR einen vorgegebenen Abweichungs-Schwellwert überschreitet . Auf diese Weise kann die Iteration beendet werden, falls nur noch Reduktionsschritte generiert bzw . gefunden werden, die die Verteilung von Aktivierungsstärken wesentlich beeinträchtigen .

Durch die selektierten Reduktionsschritte , hier DRA, wird das neuronale Netz NN durch das Selektionsmodul schließlich zu einem reduzierten neuronalen Netz NNR reduziert , dessen Verteilung von Aktivierungsstärken verhältnismäßig ähnlich zur Referenzverteilung VR ist . Auf diese Weise bleiben viele überwachungsrelevante Informationen und Verhaltensweisen des neuronalen Netzes NN bei seiner Reduktion erhalten .

Insbesondere ist zu erwarten, dass das in Ausgabesignale des neuronalen Netzes NN eintrainierte digitale Wasserzeichen WM durch den obigen Reduktionsprozess nicht wesentlich beeinträchtigt wird .

Figur 4 veranschaulicht eine optionale Erweiterung des trainierten neuronalen Netzes NN zur Ermittlung einer j eweiligen Einzel-Streubreite VR1 , VR2 bzw . VR3 einer j eweiligen Aktivierungsstärke RI , R2 bzw . R3 eines j eden einzelnen Ausgabeneurons 01 , 02 bzw . 03 .

Die Einzel-Streubreiten VR1 , VR2 und VR3 können zusätzlich zur Referenzverteilung VR verwendet werden, um den Redukti- onsprozess in Richtung von neuronalen Netzen zu treiben, die sich hinsichtlich der Aktivierungsstärken ihrer Ausgabeneuronen ähnlich wie das unreduzierte neuronale Netz NN verhalten . Dies führt in vielen Fällen zu einem robusteren Reduktionsprozess .

Zur ef fi zienten Ermittlung der Einzel-Streubreiten VR1 , VR2 bzw . VR3 wird das trainierte neuronale Netz NN um eine oder mehrere zusätzliche , den Ausgabeneuronen 01 , 02 und 03 nachgeschaltete Ausgabeschichten OL erweitert . Die mindestens eine nachgeschaltete Ausgabeschicht OL umfasst zusätzliche Ausgabeneuronen 0L1 , 0L2 und 0L3 . Dabei ist das zusätzliche Ausgabeneuron 0L1 dem Ausgabeneuron 01 , das zusätzliche Ausgabeneuron 0L2 dem Ausgabeneuron 02 und das zusätzliche Ausgabeneuron 0L3 dem Ausgabeneuron 03 zugeordnet .

Die mindestens eine nachgeschaltete Ausgabeschicht OL wird darauf trainiert , für ein j eweiliges Ausgabeneuron 01 , 02 bzw . 03 eine j eweilige Einzel-Streubreite VR1 , VR2 bzw . VR3 von dessen j eweiligen Aktivierungsstärken RI , R2 bzw . R3 durch ein j eweiliges Ausgabesignal des j eweils zugeordneten zusätzlichen Ausgabeneurons 0L1 , 0L2 bzw . 0L3 zu reproduzieren . Dieses Training kann - wie oben allgemein beschrieben - durch Optimierung von neuronalen Gewichten der mindestens einen nachgeschalteten Ausgabeschicht OL durchgeführt werden . Während des Trainings der mindestens einen nachgeschalteten Ausgabeschicht OL bleiben neuronale Gewichte oder andere Lernparameter des ursprünglichen trainierten neuronalen Netzes NN unverändert .

Zum Zwecke des Trainings werden dem erweiterten neuronalen Netz NN eine Viel zahl von Eingabesignalen ES zugeführt . Das erweiterte neuronale Netz NN verarbeitet das j eweilige Eingabesignal ES und steuert entsprechend die Ausgabeneuronen 01 , 02 und 03 an . Die resultierenden Aktivierungsstärken RI , R2 und R3 der Ausgabeneuronen 01 , 02 und 03 werden dann in die mindestens eine nachgeschaltete Ausgabeschicht OL eingespeist . Daneben wird, wie im Zusammenhang mit Figur 3 be- schrieben, die Referenzverteilung VR der Aktivierungsstärken RI, R2 und R3 über die Ausgabeneuronen 01, 02 und 03 ermittelt.

Die mindestens eine nachgeschaltete Ausgabeschicht OL setzt eine jeweils eingespeiste Aktivierungsstärke RI, R2 bzw. R3 in ein Ausgabesignal des jeweiligen zusätzlichen Ausgabeneurons 0L1, 0L2 bzw. 0L3 um. Die mindestens eine nachgeschaltete Ausgabeschicht OL wird nun derart trainiert, dass das jeweilige Ausgabesignal des jeweiligen zusätzlichen Ausgabeneurons 0L1, 0L2 bzw. 0L3 im Mittel möglichst wenig von einer jeweiligen Einzel-Streubreite VR1, VR2 bzw. VR3 der jeweiligen Aktivierungsstärke RI, R2 bzw. R3 abweicht.

Als Kostenfunktion für ein derartiges Training kann insbesondere eine log-likelihood-Fehlerfunktion NLL verwendet werden. Beispielsweise gemäß wobei ESi die Eingabesignale, R± die Aktivierungsstärken, p(Ri) einen prognostizierten Erwartungswert der Aktivierungsstärken und o 2 (ESi, R±) eine prognostizierte statistische Streubreite der Aktivierungsstärken in Form einer Varianz symbolisieren .

Durch die log-likelihood-Fehlerfunktion wird ein Abstand von Ausgabesignalen der zusätzlichen Ausgabeneuronen 0L1, 0L2 und 0L3 von den Einzel-Streubreiten VR1, VR2 und VR3 der Aktivierungsstärken der Ausgabeneuronen 01, 02 und 03 abgeschätzt. Damit können zu trainierende Parameter, z.B. neuronale Gewichte der mindestens einen Ausgabeschicht OL dahingehend optimiert werden, dass dieser Abstand minimiert wird.

Die Einzel-Streubreiten VR1, VR2 und VR3 können somit durch die Ausgabesignale der trainierten mindestens einen zusätzlichen Ausgabeschicht OL prognostiziert werden.

Nach dem Training der mindestens einen zusätzlichen Ausgabeschicht OL kann das um diese Schicht erweiterte neuronale Netz NN dem in Figur 3 beschriebenen Reduktionsprozess unterzogen werden . Dabei werden neben den Verteilungen VA und VB auch noch die Verteilungen der prognosti zierten Einzel- Streubreiten VR1 , VR2 und VR3 mit entsprechenden Verteilungen des unreduzierten neuronalen Netzes NN verglichen . Insbesondere wird j eweils eine weitere Abweichung zwischen einer j eweiligen Verteilung der prognosti zierten Einzel-Streubreiten VR1 , VR2 und VR3 des erweiterten neuronalen Netzes NN und einer entsprechenden Verteilung eines betref fenden Test-Netzes ermittelt . Die weiteren Abweichungen werden vorzugsweise als Kullback-Leibler-Divergenz ermittelt . Entsprechend wird der Reduktionsprozess so ausgeführt , dass auch die weiteren Abweichungen durch die Reduktion nicht wesentlich beeinträchtigt werden .

Vorzugsweise wird eine gewichtete Summe einer j eweiligen Abweichung von der Referenzverteilung VR und einer j eweiligen weiteren Abweichung gebildet . Durch das Optimierungsmodul ORT kann dann derj enige Test-Reduktionsschritt als verteilungsoptimierender Reduktionsschritt selektiert werden, dessen gewichtete Summe minimal ist .

Im Übrigen kann der Reduktionsprozess wie im Zusammenhang mit Figur 3 beschrieben ausgeführt werden, um schließlich ein reduziertes neuronales Netz NNR zu erhalten .

Figur 5 veranschaulicht eine Anordnung zum Reduzieren und Überwachen eines neuronalen Netzes .

Wie oben beschrieben, wird das trainierte und mit einem Wasserzeichen WM versehene neuronale Netz NN durch das Reduktionssystem RED zu einem reduzierten neuronalen Netz NNR reduziert . Letzteres wird vom Reduktionssystem RED zu einer Steuereinrichtung CTL übertragen, um dort zum Steuern der Maschine M eingesetzt zu werden .

Zu diesem Zweck werden dem reduzierten neuronalen Netz Betriebssignale BS der Maschine M als Eingabesignale zugeführt . Das reduzierte neuronale Netz NNR verarbeitet die Eingabesignale BS und steuert entsprechend die Ausgabeneuronen 01 , 02 und 03 an . Infolge dieser Ansteuerung werden das Ausgabeneuron 01 mit der Aktivierungsstärke 01 , das Ausgabeneuron 02 mit der Aktivierungsstärke 02 und das Ausgabeneuron 03 mit der Aktivierungsstärke 03 aktiviert .

Die durch ein j eweiliges Eingabesignal BS induzierten Aktivierungsstärken 01 , 02 und 03 werden im laufenden Betrieb der Maschine M in ein Selektionsmodul SEL der Steuereinrichtung CTL eingespeist . Das Selektionsmodul SEL dient dem Zweck, aus den Aktivierungsstärken 01 , 02 und 03 ein Ausgabesignal AS zum Steuern der Maschine M zu selektieren oder abzuleiten .

Wie oben schon erwähnt , wird zum Steuern der Maschine M in der Regel diej enige Steueraktion ausgewählt , die für ein gegebenes Eingabesignal ES die höchste Aktivierungsstärke 01 , 02 bzw . 03 aufweist . Falls beispielsweise die Aktivierungsstärke 02 des Ausgabeneurons 02 größer ist als die anderen Aktivierungsstärken 01 und 03 , wird durch das Selektionsmodul SEL die dem Ausgabeneuron 02 zugeordnete Steueraktion selektiert . Entsprechend wird ein diese Steueraktion auslösendes Ausgabesignal AS2 zum Steuern der Maschine M ausgegeben .

Darüber hinaus werden die Aktivierungsstärken 01 , 02 und 03 im laufenden Betrieb der Maschine M auch einer Überwachungseinrichtung M0N der Steuereinrichtung CTL zugeführt . Die Überwachungseinrichtung dient dem Zweck, den Betrieb der Maschine M und des neuronalen Netzes NNR zu überwachen .

Hierzu prüft die Überwachungseinrichtung M0N Ausgabesignale des reduzierten neuronalen Netzes NNR sowie die Aktivierungsstärken 01 , 02 und 03 . Insbesondere werden hierbei auch die nicht maximalen Aktivierungsstärken ausgewertet . Diese weichen aufgrund des spezi fischen Reduktionsprozesses verhältnismäßig wenig von denj enigen des ursprünglichen trainierten neuronalen Netzes NN ab . Die Überwachungseinrichtung MON prüft zunächst , ob die Ausgabesignale des reduzierten neuronalen Netzes NNR und/oder die Aktivierungsstärken Cl , C2 und C3 das eintrainierte digitale Wasserzeichen WM enthalten . Aufgrund der zusätzlichen Berücksichtigung nichtmaximaler Aktivierungsstärken können so auch digitale Wasserzeichen verhältnismäßig zuverlässig erkannt werden, die nur schwach aktivierten Ausgabeneuronen aufgeprägt wurden . Zur Erkennung von Wasserzeichenmustern steht eine Viel zahl von bekannten Mustererkennungsverfahren zur Verfügung .

Falls das digitale Wasserzeichen WM durch die Überwachungseinrichtung MON erkannt wird, kann diese ein Benutzungssignal als Überwachungssignal MS ausgeben . Das Benutzungssignal kann beispielsweise zu einem Ersteller des trainierten neuronalen Netzes NN, zu einem Betreiber des Trainingssystems TS und/oder zu einem Betreiber des Reduktionssystems RED übermittelt werden, um den j eweiligen Adressaten über eine Nutzung des reduzierten neuronalen Netzes NNR zu informieren .

Darüber hinaus kann das Überwachungsmodul MON viele weitere Überwachungsmaßnahmen am reduzierten neuronalen Netz NNR ausführen, die die Aktivierungsstärken 01 , 02 und 03 in di f ferenzierter Weise auswerten, und die darauf angewiesen sind, dass die Verteilung der Aktivierungsstärken durch die Reduktion nicht wesentlich beeinträchtigt wird .

So kann beispielsweise eine Streubreite der Aktivierungsstärken 01 , 02 und 03 über die Ausgabeneuronen 01 , 02 und 03 ermittelt werden . Abhängig von der ermittelten Streubreite kann dann

- ein eine Unsicherheit eines Ausgabesignals , hier AS2 , des reduzierten neuronalen Netzes NNR quanti fi zierendes Unsicher- heitssignal ,

- ein Warnsignal oder Alarmsignal zur Warnung vor einer möglichen Fehl funktion der Maschine M,

- ein Steuersignal zum Steuern der Maschine M in einen Siche rheitsmodus , - ein Anforderungssignal zum Anfordern eines Nachtrainings oder Neutrainings des reduzierten neuronalen Netzes NNR,

- ein Wartungssignal zur Anzeige einer Degradation der Maschine M und/oder - ein alternatives Steuersignal oder Klassi fikationssignal als Überwachungssignal MS ausgegeben werden .