Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
TRAINING AN ARTIFICIAL NEURAL NETWORK, ARTIFICIAL NEURAL NETWORK, USE, COMPUTER PROGRAM, STORAGE MEDIUM, AND DEVICE
Document Type and Number:
WIPO Patent Application WO/2021/259980
Kind Code:
A1
Abstract:
The invention relates to a method for training an artificial neural network (60), in particular a Bayesian neural network, in particular a recurrent artificial neural network, in particular a VRNN, for predicting future sequential time series (xt+1 to xt+h) in intervals (t+1 to t+h) on the basis of previous sequential time series (x1 to xt) in order to control a technical system using training data sets (x1 to xt+h), having a step of adapting a parameter of the artificial neural network on the basis of a loss function, wherein the loss function comprises a first term which comprises an estimate of the lower limit (ELBO) of the offset between an a priori probability distribution (prior) for at least one concealed variable (latent variable) and an a posteriori probability distribution (inference) for at least one concealed variable (latent variable), said a priori probability distribution (prior) being independent of future sequential time series (xt+1 to xt+h).

Inventors:
TERJEK DAVID (HU)
Application Number:
PCT/EP2021/067105
Publication Date:
December 30, 2021
Filing Date:
June 23, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G06N3/04; G06N3/08
Other References:
SAMIRA SHABANIAN ET AL: "Variational Bi-LSTMs", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 15 November 2017 (2017-11-15), XP081288786
JUNYOUNG CHUNG ET AL: "A recurrent latent variable model for sequential data", ARXIV:1506.02216V6, 6 April 2016 (2016-04-06), XP055477401, Retrieved from the Internet [retrieved on 20180522]
TAKAZUMI MATSUMOTO ET AL: "Goal-Directed Planning for Habituated Agents by Active Inference Using a Variational Recurrent Neural Network", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 27 May 2020 (2020-05-27), XP081685677, DOI: 10.3390/E22050564
Download PDF:
Claims:
Ansprüche

1. Verfahren zum Trainieren eines künstlichen neuronalen Netzes (60), insbesondere eines Bayes'schen neuronalen Netzes, insbesondere eines rekurrenten künstlichen neuronalen Netzes, insbesondere eines VRNN, zur Vorhersage von zukünftigen sequentiellen Zeitreihen (xt+1 bis xt+h) in Zeitschriften (t+1 bis t+h) in Abhängigkeit von vergangenen sequentiellen Zeitreihen (x1 bis xt) zur Steuerung eines technischen Systems, mittels Trainingsdatensätzen (x1 bis xt+h), mit einem Schritt des Anpassens eines Parameters des künstlichen neuronalen Netzes in Abhängigkeit von einer Verlustfunktion, wobei die Verlustfunktion einen ersten Term umfasst, der eine Abschätzung einer unteren Schranke (ELBO) der Abstände zwischen einer A- Priori-Wahrscheinlichkeitsverteilung (Prior) über mindestens eine verborgene Variable (latent Variable) und einer A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) über die mindestens eine verborgene Variable (latent Variable) aufweist, dadurch gekennzeichnet, dass die A-Priori-Wahrscheinlichkeitsverteilung (Prior) unabhängig von zukünftigen sequentiellen Zeitreihen (xt+1 bis xt+h) ist.

2. Verfahren nach Anspruch 1, wobei die A-Priori-Wahrscheinlichkeitsverteilung (Prior) nicht von den zukünftigen sequentiellen Zeitreihen (xt+1 bis xt+h) abhängig ist.

3. Verfahren (900) nach einem der vorhergehenden Ansprüche, wobei mittels der Verlustfunktion (/) die untere Schranke (ELBO) gemäß nachfolgender

Vorschrift abgeschätzt wird, , wobei p(xt+1...t+h|x1...t die Ziel-Wahrscheinlichkeitsverteilung über die beobachtbaren Variablen der zukünftigen Zeitschritte bis zu einem Horizont h, xt+1...t+h, unter der Bedingung der beobachtbaren Variablen der vergangenen Zeitschritte x1...t repräsentiert, q (z1...t+hlx1...t+h) die Inference, d.h. die A-Posteriori- Wahrscheinlichkeitsverteilung (Inference) über die verborgenen Variablen, z1...t+h, über den gesamten Beobachtungszeitraum, d.h. für die vergangenen Zeitschrift, 1 ... t und die zukünftigen Zeitschritte bis zu einem Horizont h, t +

1 ... t + h unter der Bedingung der beobachtbaren Variablen über den gesamten Beobachtungszeitraum x1...t+h repräsentiert,

P(xt+1...t+h|x1...t,z1...t+h) den Generator, d.h. die Wahrscheinlichkeitsverteilung über die beobachtbaren Variablen der zukünftigen Zeitschritte bis zu einem Horizont h, xt+1...t+h, unter der Bedingung der beobachtbaren Variablen der vergangenen Zeitschritte x1...t und der verborgenen Variablen, z1...t+h, über den gesamten Beobachtungszeitraum, t + 1 t + h repräsentiert und p(z1...t+h|x1...t ) den Prior, d.h. die A-Priori-Wahrscheinlichkeitsverteilung (Prior) über die verborgenen Variablen, z1...t+h, unter der Bedingung der beobachtbaren Variablen der vergangenen Zeitschritte x1...t repräsentiert.

4. Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens (900) nach einem der Ansprüche 1 bis 3 auszuführen.

5. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 4 gespeichert ist.

6. Künstliches neuronales Netz (60), insbesondere Bayes’sches neuronales Netz, trainiert mittels eines Verfahrens (900) nach einem der Ansprüche 1 bis 3.

7. Verwendung eines künstlichen neuronalen Netzes (60), insbesondere eines Bayes’schen neuronalen Netzes, Anspruch 6 zur Steuerung eines technischen Systems, insbesondere eines Roboters, eines Fahrzeugs, eines Werkzeugs oder einer Werkmaschine (11).

8. Computerprogramm, welches eingerichtet ist alle Schritte der Verwendung eines künstlichen neuronalen Netzes (60) nach Anspruch 6 zur Steuerung eines technischen Systems gemäß Anspruch 7 auszuführen.

9. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 8 gespeichert ist

10. Vorrichtung zur Steuerung eines technischen Systems, die zur Verwendung eines künstlichen neuronalen Netzes (60) nach Anspruch 6 gemäß Anspruch 7 eingerichtet ist.

Description:
Beschreibung

Titel

Training eines künstlichen neuronalen Netzwerkes, künstliches neuronales

Netzwerk, Verwendung, Computerprogramm, Speichermedium und Vorrichtung

Die vorliegende Erfindung betrifft ein Verfahren zum Trainieren eines künstlichen neuronalen Netzes. Ferner betrifft die vorliegende Erfindung ein künstliches neuronales Netz trainiert mittels des Verfahrens zum Trainieren gemäß der vorliegenden Erfindung sowie die Verwendung eines solchen künstlichen neuronalen Netzes. Darüber hinaus betrifft die vorliegende Erfindung ein entsprechendes Computerprogramm, ein entsprechendes maschinenlesbares Speichermedium sowie eine entsprechende Vorrichtung.

Stand der Technik

Ein Eckpfeiler des automatisierten Fahrens ist die Verhaltensvorhersage, diese betrifft das Problemfeld der Prognose des Verhaltens von Verkehrsagenten (wie bspw. Fahrzeuge, Radfahrer, Fußgänger). Für ein zumindest teilweise automatisiert betriebenes Fahrzeug ist es wichtig, die Wahrscheinlichkeitsverteilung möglicher zukünftiger Trajektorien der ihn umgebenden Verkehrsagenten zu kennen, um eine sichere Planung, insbesondere Bewegungsplanung, in einer Weise durchzuführen, dass das zumindest teilweise automatisiert betriebene Fahrzeug so gesteuert wird, dass ein Kollisionsrisiko minimal ist. Verhaltensvorhersage kann dem allgemeineren Problem der Vorhersage von sequentiellen Zeitreihen zugeordnet werden, welches wiederum als ein Fall der generativen Modellierung betrachtet werden kann. Die generative Modellierung betrifft die Approximation von Wahrscheinlichkeitsverteilungen, z. B. mit Hilfe künstlicher neuronaler Netze (KNN), um eine Wahrscheinlichkeitsverteilung datengesteuert zu lernen: Die Zielverteilung wird dargestellt durch ein Datensatz, der aus einer Anzahl von Stichproben aus der Verteilung besteht, und das KNN wird darauf trainiert Verteilungen auszugeben, die mit hoher Wahrscheinlichkeit die der Datenproben entsprechen, bzw. Proben zu produzieren, die denen des Trainingsdatensatzes ähneln. Die Zielverteilung kann bedingungslos sein (z.B. für die Bildgeneration) oder bedingt (z.B. für die Vorhersage, bei der die Verteilung der zukünftigen Zustände abhängig von den vergangenen Zuständen). Bei der Verhaltensvorhersage besteht die Aufgabe darin, eine bestimmte Anzahl zukünftiger Zustände in Abhängigkeit einer bestimmten Anzahl von vergangenen Zuständen vorherzusagen. Bspw. die Vorhersage der

Wahrscheinlichkeitsverteilung der Positionen eines bestimmten Fahrzeugs in den nächsten 5 Sekunden, in Abhängigkeit der Positionen des Fahrzeugs in den vergangenen 5 Sekunden. Unter der Annahme einer zeitlichen Abtastung von 10 Hz, würde dies bedeuten, dass 50 zukünftigen Zustände in Abhängigkeit von der Kenntnis von 50 vergangenen Zuständen vorherzugsagen sind. Eine mögliche Herangehensweise zur Modellierung eines solchen Problems ist die Modellierung der Zeitreihe mit einem rekurrenten künstlichen neuronalen Netz (engl. Recurrent Neural Network; RNN) oder einem 1-dimensionalen, faltenden künstlichen neuronalen Netz (engl. ID Convolutional Neural Network; 1D-CNN), wobei die Eingabe die Sequenz der vergangenen Positionen ist und die Ausgabe eine Sequenz von Verteilungen der zukünftigen Positionen (bspw. in Form von Mittelwert und Parameter einer 2-dimensionalen Normalverteilung) ist.

Modelle mit tiefen verborgenen Variablen wie der Variational Autoencoder (VAE) sind weit verbreitete Werkzeuge für die generative Modellierung mittels künstlicher neuronaler Netze. Insbesondere der bedingte VAE (engl. Conditional VAE; CVAE) kann dazu verwendet werden bedingte Verteilungen (d. h. eine Verteilung von x bedingt durch y) zu lernen, indem die nachfolgende Abschätzung der unter Grenze (engl. Evidence Lower Bound; ELBO) zu einer logarithmischen Verteilung optimiert wird. Folgendes optimiert wird untere Grenze der logarithmischen Wahrscheinlichkeit:

Durch Maximierung dieser unteren Grenze, wird auch die zugrunde liegende Wahrscheinlichkeitsverteilung höher sein. Durch Anwendung des Verfahrens der Abschätzung der maximalen Wahrscheinlichkeit (engl. Maximum Likelihood Estimation; MLE) kann diese Formel als Trainingsobjekt für das zu trainierende künstliche neuronale Netz eingesetzt werden. Dazu sind von dem Netz drei Komponenten zu modellieren:

1) Die A-Priori-Wahrscheinlichkeitsverteilung (Prior): p(z|y) repräsentiert die Wahrscheinlichkeitsverteilung der verborgenen Variable z unter der Bedingung der Variablen y.

2) Die A-Posteriori-Wahrscheinlichkeitsverteilung (Inference): q(z|x,y) repräsentiert dabei die Wahrscheinlichkeitsverteilung der verborgenen Variable z unter der Bedingung der Variablen y und der beobachtbaren Ausgabe x.

3) Die weitere Wahrscheinlichkeitsverteilung (Generation): p(x|y,z) repräsentiert dabei die Wahrscheinlichkeitsverteilung der beobachtbaren Ausgabe x unter der Bedingung der Variablen y sowie der verborgenen Variablen z.

Wird als künstliches neuronales Netz ein RNN eingesetzt, sind zusätzliche die verborgenen Zustände (engl. Hidden States) zu implementieren, die eine Zusammenfassung der vergangenen Zeitschritte als Bedingung für die Prior-, die Inference- und die Generation-Wahrscheinlichkeitsverteilungen darstellen.

Diese Komponenten müssen in einer Weise implementiert werden, die ein Sampling und eine analytische Berechnung der Kullbeck-Leibler-Divergenz ermöglichen. Dies ist bspw. der Fall für gelernte Normalverteilungen (künstliche neuronale Netz geben dazu typischerweise einen Vektor aus Mittelwert und Varianzparametern aus). Die bedingte Wahrscheinlichkeitsverteilung, die es zu erlernen gilt ist p(x|y), welche erweitert werden kann zu p(x|y,z)p(z|y), um verborgene Variablen z zu verwenden. Zur Trainingszeit sind dabei die beiden Variablen x und y bekannt. Zur Inferenzzeit ist nur noch die Variable y bekannt.

Für die Modellierung von Zeitreihen wurde eine Menge an Modellen für sequentielle verborgene Variablen veröffentlich. Nachstehend ein Auszug:

1) Basierend auf RNN:

• STORN: https://arxiv.org/abs/1411.7610

• VRNN: https://arxiv.org/abs/1506.02216

• SRNN: https://arxiv.org/abs/1605.07571 • Z-Forcing: https://arxiv.org/abs/1711.05411

• Variational Bi-LSTM: https://arxiv.org/abs/1711.05717 2) Basierend auf 1D-CNN:

• Stochastic WaveNet: https://arxiv.org/abs/1806.06116

• STCN: https://arxiv.org/abs/1902.06568

All diese Modelle basieren darauf bei jedem Zeitschritt ein CVAE einzusetzen.

Die Bedingungsvariable repräsentiert dabei eine Zusammenfassung der beobachtbaren und der verborgenen Variablen der vorherigen Zeitschritte, bspw. mittels des Hidden States eines RNN. Dafür benötigen diese Modelle im Vergleich zu einem gewöhnlichen CVAE eine zusätzliche Komponente, um die Zusammenfassung zu implementieren. Dabei kann es dazu kommen, dass die Prior-Wahrscheinlichkeitsverteilung die zukünftige Wahrscheinlichkeitsverteilung der verborgenen Variablen unter der Bedingung der vergangenen beobachtbaren Variablen bereitstellt, während die Inference-Wahrscheinlichkeitsverteilung die zukünftige Wahrscheinlichkeitsverteilung der verborgenen Variablen unter der Bedingung der vergangenen als auch der aktuell beobachtbaren Variablen bereitstellt. Dadurch „betrügt“ die Inference-Wahrscheinlichkeitsverteilung durch Kenntnis der aktuellen beobachtbaren Variablen, welche für die Prior- Wahrscheinlichkeitsverteilung nicht bekannt ist. Nachstehend ist die Zielfunktion für einen zeitlichen ELBO mit einer Sequenzlänge von T angegeben:

Diese Zielfunktion wurde für VRNN definiert, allerdings hat sich gezeigt, dass andere Varianten die gleiche verwenden können, ggf. mit entsprechend zusätzlichen Termen.

Offenbarung der Erfindung

Die vorliegende Erfindung basiert auf der Erkenntnis, dass zum Training eines künstlichen neuronalen Netzes bzw. eines Systems künstlicher neuronaler Netze zur Vorhersage von Zeitreihen, der eine für die Verlustfunktion verwendete A- Priori-Wahrscheinlichkeitsverteilung (Prior) auf Informationen basiert, die unabhängig von den Trainingsdaten des vorherzusagenden Zeitschritts sind bzw. die A-Priori-Wahrscheinlichkeitsverteilung (Prior) ausschließlich auf Informationen vor dem vorherzusagenden Zeitschrift basiert.

Ferner basiert die vorliegende Erfindung auf der Erkenntnis, dass die angesprochenen künstlichen neuronalen Netze bzw. Systeme künstlicher neuronaler Netze mittels einer Generalisierung der Abschätzung einer unteren Schranke (engl. Evidence Lower Bound; ELBO) als Verlustfunktion trainiert werden können.

Dadurch ist es nunmehr möglich Vorhersagen von Zeitreihen über einen beliebigen Vorhersagehorizont h (d. h. einer beliebigen Anzahl von Zeitschriften) ohne voranschreitenden Verlust der Vorhersagequalität, mithin mit verbesserter Vorhersagequalität, zu treffen.

Dies führt dazu, dass bei der Anwendung zur Steuerung von Maschinen, insbesondere zumindest teilweise automatisiert betriebener Maschinen, wie automatisiert betriebener Fahrzeuge, eine deutliche Verbesserung der Steuerung möglich ist.

Daher schafft die vorliegende Erfindung ein Verfahren zum Trainieren eines künstlichen neuronalen Netzes zur Vorhersage von zukünftigen sequentiellen Zeitreihen in Zeitschriften in Abhängigkeit von vergangenen sequentiellen Zeitreihen zur Steuerung eines technischen Systems. Das Training basiert dabei auf Trainingsdatensätzen.

Das Verfahren umfasst dabei einen Schritt des Anpassens eines Parameters des zu trainierenden künstlichen neuronalen Netzes in Abhängigkeit von einer Verlustfunktion.

Die Verlustfunktion umfasst dabei einen ersten Term, der eine Abschätzung einer unteren Schranke (ELBO) der Abstände zwischen einer A-Priori- Wahrscheinlichkeitsverteilung (Prior) über mindestens eine verborgene Variable (engl, latent Variable) und einer A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) über die mindestens eine verborgene Variable (engl, latent Variable) aufweist. Das Trainingsverfahren ist dadurch gekennzeichnet, dass die A-Priori- Wahrscheinlichkeitsverteilung (Prior) unabhängig von zukünftigen sequentiellen Zeitreihen ist.

Dabei eignet sich das Trainingsverfahren für das Training eines Bayes'schen neuronalen Netzes. Das Trainingsverfahren eignet sich auch für das Training eines rekurrenten, künstlichen neuronalen Netzes. Dabei im Speziellen für ein Virtual Recurrent Neural Network (VRNN) gemäß dem eingangs skizzierten Stand der Technik.

Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist die A-Priori-Wahrscheinlichkeitsverteilung (Prior) nicht von den zukünftigen sequentiellen Zeitreihen abhängig.

In Fortführung des Gegenstands des Hauptanspruchs der vorliegenden Erfindung finden nach dieser Ausführungsform die zukünftigen sequentiellen Zeitreihen keinen Eingang in die Ermittlung der A-Priori-

Wahrscheinlichkeitsverteilung (Prior). Bei dem Gegenstand des Hauptanspruchs können die zukünftigen sequentiellen Zeitreihen zwar Eingang in die Ermittlung der A-Priori-Wahrscheinlichkeit (Priori) finden, die Wahrscheinlichkeitsverteilung ist aber im Wesentlichen unabhängig von diesen Zeitreihen.

Gemäß einer Ausführungsform des Verfahrens der vorliegenden Erfindung wird mittels der nachstehenden Verlustfunktion die untere Schranke (ELBO) gemäß nachfolgender Vorschrift abgeschätzt.

Dabei repräsentieren: p( x t+1 ...t+h |x 1...t : die Zielwahrscheinlichkeitsverteilung über die beobachtbaren Variablen, x t+1...t+h , der zukünftigen Zeitschritte bis zu einem Horizont, h unter der Bedingung der beobachtbaren Variablen der vergangenen Zeitschritte, x 1...t · q(z 1...t+h |x 1...t+h ): die Inference, d. h. die A-Posteriori- Wahrscheinlichkeitsverteilung (Inference) über die verborgenen Variablen,z 1...t+h , über den gesamten Beobachtungszeitraum, d. h. für die vergangenen Zeitschrift, 1 ... t und die zukünftigen Zeitschritte bis zu einem Horizont h, t +

1 ... t + h unter der Bedingung der beobachtbaren Variablen über den gesamten Beobachtungszeitraum, x 1...t+h . p( x t+1 ...t+h |x 1...t ,z 1...t+h ): die Generation, d. h. eine Wahrscheinlichkeitsverteilung über die beobachtbaren Variablen der zukünftigen Zeitschritte bis zu einem Horizont h, x t+1 ... t+h , unter der Bedingung der beobachtbaren Variablen der vergangenen Zeitschritte x 1...t und der verborgenen Variablen, z 1...t+h , über den gesamten Beobachtungszeitraum, t + 1 ... t + h. p(z 1...t+h |x 1...t ): den Prior, d. h. die A-Priori-Wahrscheinlichkeitsverteilung (Prior) über die verborgenen Variablen, z 1...t+h , über den gesamten Beobachtungszeitraum unter der Bedingung der beobachtbaren Variablen der vergangenen Zeitschritte, x 1...t .

Die Vorschrift entspricht eine Abschätzung einer unteren Schranke (ELBO) gemäß dem Conditional Variational Encoder (CVAE) wie aus dem Stand der Technik bekannt, mit x = x t+1 ...t+h , die beobachtbaren Zustände nach dem Zeitschrift t, d. h. zukünftigen Zustände; y = x 1...t , die beobachtbaren Zustände bis zum und inkl. des Zeitschritts t, d. h. die bekannten Zustände; z = z 1...t+h , die verborgenen Zustände, des künstlichen neuronalen Netzes

Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß der vorliegenden Erfindung gespeichert ist. Ein weiterer Aspekt der vorliegenden Erfindung ist ein künstliches neuronales Netz trainiert mittels eines Verfahrens zum Trainieren eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung.

Bei dem künstlichen neuronalen Netz kann es sich vorliegend um ein Bayes'sches neuronales Netz bzw. um rekurrentes künstliches neuronales Netz, dabei im speziellen für ein VRNN gemäß dem eingangs skizzierten Stand der Technik handeln.

Ein weiterer Aspekt der vorliegenden Erfindung ist eine Verwendung eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung zur Steuerung eines technischen Systems.

Bei dem technischen System kann es sich im Rahmen der vorliegenden Erfindung u. A. um einen Roboter, ein Fahrzeug, ein Werkzeug oder eine Werkmaschine handeln.

Computerprogramm, welches eingerichtet ist alle Schritte der Verwendung eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung zur Steuerung eines technischen Systems auszuführen.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß einem Aspekt der vorliegenden Erfindung gespeichert ist.

Ein weiterer Aspekt der vorliegenden Erfindung ist eine Vorrichtung zur Steuerung eines technischen Systems, die zur Verwendung eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung eingerichtet ist.

Nachfolgend werden Ausführungsformen der vorliegenden Erfindung anhand von Zeichnungen näher erläutert.

Es zeigen Fig. 1 ein Ablaufdiagramm einer Ausführungsform des Trainingsverfahrens gemäß der vorliegenden Erfindung;

Fig. 2 ein Diagramm der Verarbeitung einer sequentiellen Datenreihe zum

Training eines künstlichen neuronalen Netzes gemäß der vorliegenden Erfindung;

Fig. 3 ein Diagramm der Verarbeitung von Eingabedaten mittels eines künstlichen neuronalen Netzes gemäß dem Stand der Technik;

Fig. 4 ein Diagramm der Verarbeitung von Eingabedaten mittels eines künstlichen neuronalen Netzes trainiert mittels des Trainingsverfahrens gemäß der vorliegenden Erfindung;

Fig. 5 einen Detailausschnitt des Diagramms der Verarbeitung von

Eingabedaten mittels eines künstlichen neuronalen Netzes trainiert mittels des Trainingsverfahrens gemäß der vorliegenden Erfindung;

Fig. 6 ein Ablaufdiagramm einer Iteration einer Ausführungsform des Trainingsverfahrens gemäß der vorliegenden Erfindung.

Figur 1 zeigt ein Ablaufdiagramm einer Ausführungsform des Trainingsverfahrens 100 gemäß der vorliegenden Erfindung.

In Schritt 101 erfolgt das Training eines künstlichen neuronalen Netzes zur Vorhersage von zukünftigen sequentiellen Zeitreihen (x t+1 bis x t+h ) in Zeitschriften (t+1 bis t+h) in Abhängigkeit von vergangenen sequentiellen Zeitreihen (x 1 bis x t ) zur Steuerung eines technischen Systems, mittels Trainingsdatensätzen (x 1 bis X t+h ), mit einem Schritt des Anpassens eines Parameters des künstlichen neuronalen Netzes in Abhängigkeit von einer Verlustfunktion, wobei die Verlustfunktion einen ersten Term umfasst, der eine Abschätzung einer unteren Schranke (ELBO) der Abstände zwischen einer A-Priori-

Wahrscheinlichkeitsverteilung (Prior) über mindestens eine verborgene Variable (z 1 bis z t+h ) und einer A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) über die mindestens eine verborgene Variable (z 1 bis z t+h ) repräsentiert.

Das Trainingsverfahren zeichnet sich dabei dadurch aus, dass die A-Priori- Wahrscheinlichkeitsverteilung (Prior) unabhängig von zukünftigen sequentiellen Zeitreihen (x t+1 bis x t+h ) ist.

Figur 2 zeigt ein Diagramm der Verarbeitung einer sequentiellen Datenreihe (x 1 bis x 4 ) zum Training eines RNN gemäß dem Stand der Technik.

In dem Diagramm stehen Quadrate für Grunddaten (engl. Ground Truth Data). Kreise stehen für Zufallsdaten bzw. für Wahrscheinlichkeitsverteilungen. Pfeile, die einen Kreis verlassen stehen für das Ziehen (engl. Sampling) einer Probe (engl. Sample), d. h. eines zufälligen Datums, aus der Wahrscheinlichkeitsverteilung. Rauten stehen für deterministische Knoten.

Das Diagramm zeigt den Zustand der Berechnung nach der Verarbeitung der sequentiellen Datenreihe (x 1 bis x 4 ).

Im Zeitschritt t wird zunächst die A-Priori-Wahrscheinlichkeitsverteilung (Prior) als bedingte Wahrscheinlichkeitsverteilung p(z t | h t-1 ) der verborgenen Variable z t unter der Bedingung der Zusammenfassung der Vergangenheit repräsentiert in dem Hidden State h t-1 des RNN ermittelt.

Weiter wird die A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) als bedingte Wahrscheinlichkeitsverteilung q(z t | h t-1 , x t ) der verborgenen Variable z t unter der Bedingung der Zusammenfassung der Vergangenheit repräsentiert in dem Hidden State h t-1 des RNN und dem dem Zeitschritt t zugeordneten Datum x t der sequentiellen Zeitreihe (x 1 bis x 4 ) ermittelt.

Basierend auf der Probe z t der A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) wird die weitere bedingte Wahrscheinlichkeitsverteilung (Generation) p(x t I h t-1 , z t ) der beobachtbaren Variable x t unter der Bedingung der Zusammenfassung der Vergangenheit repräsentiert in dem Hidden State h t-1 des RNN und der Probe z t ermittelt. Ein Sample x t aus der weiteren Wahrscheinlichkeitsverteilung (Generation) und das dem Zeitschritt t zugeordnete Datum x t der sequentiellen Zeitreihe (x 1 bis x 4 ) werden dann dem RNN zugeführt, um den dem Zeitschritt t zugordneten Hidden State h t des RNN zu aktualisieren.

Die einem Zeitschritt t zugeordneten Hidden States h t des RNN repräsentieren die Zustände des Modells der vorhergegangenen Zeitschritte <t gemäß der nachstehenden Vorschrift:

Die Funktion f ist gemäß dem verwendeten Modell, d. h. gemäß dem verwendeten künstlichen neuronalen Netz, d. h. gemäß dem verwendeten RNN, zu wählen. Die Wahl der geeigneten Funktion liegt innerhalb des Fachwissens des einschlägigen Fachmanns.

Der initiale Hidden State ho des RNN kann beliebig gewählt werden und kann bspw. h 0 = 0 sein.

Mittels der weiteren Wahrscheinlichkeitsverteilung (Generation) und dem dem Zeitschritt t zugeordneten Datum x t der sequentiellen Zeitreihe (x 1 bis x 4 ) lässt sich der „Likelihood“-Teil der Abschätzung der unteren Schranke (ELBO) gemäß der vorliegenden Erfindung abschätzen. Dazu kann nachstehende Vorschrift verwendet werden:

Mittels der A-Priori-Wahrscheinlichkeit (Prior) und der A-Posteriori- Wahrscheinlichkeit (Inference) über die dem Zeitschritt t zugeordneten Hidden States h t des RNN lässt sich der KL-Divergenz-Teil der unteren Schranke (ELBO) abschätzen. Dazu kann nachstehende Vorschrift der Kullback-Leibler- Divergenz (KL-Divergenz) verwendet werden: Figur 3 zeigt ein Diagramm Verarbeitung von Eingabedaten während des Einsatz eines künstlichen neuronalen Netzes.

In dem dargestellten Diagramm werden ausgehend von zwei Eingabedaten x 1 , x 2 , die Daten der zwei vergangenen Zeitschritte darstellen, die Daten der zwei zukünftigen Zeitschritte x 3 , x 4 vorhergesagt. Das Diagramm zeigt den Zustand nach der Vorhersage der zwei zukünftigen Zeitschritte x 3 , x 4 an.

Bei der Verarbeitung der Eingabedaten x 1 , x 2 zur Vorhersage der zukünftigen Daten der Zeitreihen x 3 , x 4 , können zunächst die verborgenen Variablen (engl, latent Variables) z t aus der A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) unter der Bedingung des dem vorher gegangenen Zeitschritt t-1 zugeordneten Hidden States h t-1 und des dem aktuellen Zeitschritt zugeordneten Eingabedatums x t hergeleitet werden.

Die Eingabedaten x t und die hergeleiteten verborgenen Variablen z t aus der A- Posteriori-Wahrscheinlichkeitsverteilung (Inference) werden dann verwendet, um den dem aktuellen Zeitschritt t zugeordneten Hidden State h t zu aktualisieren.

Sobald die Vorhersagedaten x 3 , x 4 erforderlich wären, um die jeweiligen Hidden States h t zu aktualisieren, könnten die verborgene Variablen z 3 und z 3 nur aus der A-Priori-Wahrscheinlichkeitsverteilung (Prior) über die Hidden State h t-1 hergeleitet werden. Samples aus der A-Priori-Wahrscheinlichkeitsverteilung (Prior) können dann verwendet werden, um mittels der weiteren Wahrscheinlichkeitsverteilung (Generation) unter der Bedingung der dem aktuellen Zeitschritt zugeordneten verborgenen Variablen z t und den dem voran gegangenen Zeitschritt t-1 zugeordneten Hidden State h t-1 die dem aktuellen Zeitschrift t zugeordneten Vorhersagedaten x t abzuleiten.

Nunmehr werden zur Aktualisierung des dem aktuellen Zeitschrift t zugeordneten Hidden States h t die verborgenen Variablen z t aus der A-Priori- Wahrscheinlichkeitsverteilung (Prior) und die Vorhersagedaten x t aus der weiteren Wahrscheinlichkeitsverteilung (Generation) verwendet. Dieser fundamentale Wechsel bei der Aktualisierung der Hidden States h t führt zu einer schwachen Langzeitvorhersageperformanz.

Figur 4 zeigt ein Diagramm der Verarbeitung von Eingabedaten mittels eines künstlichen neuronalen Netzes trainiert mittels des Trainingsverfahrens gemäß der vorliegenden Erfindung.

Der zentrale Unterschied gegenüber einer Verarbeitung mittels eines künstlichen neuronalen Netzes trainiert gemäß einem Verfahren aus dem Stand der Technik liegt darin, dass die A-Priori-Wahrscheinlichkeitsverteilung (Prior) über die verborgenen Variablen z, in einem Zeitschritt i > t nur noch abhängig sind von den bis zum Zeitschritt t beobachteten Variablen x 1 bis x t und nicht mehr wie im Stand der Technik von den beobachtbaren Variablen x 1 bis x,-i aller vorherigen Zeitschritte. Damit ist die A-Priori-Wahrscheinlichkeit (Prior) nur noch abhängig von den (bekannten) Daten der sequentiellen Datenreihe x 1 bis x t und nicht von während der Verarbeitung abgeleiteten Daten der sequentiellen Datenreihe x t+1 bis x t+h .

In dem in Figur 4 dargestellten Diagramm ist die Verarbeitung in einem VRNN zur Vorhersage von zwei zukünftigen Daten X 3 , x 4 einer sequentiellen Datenreihe x 1 bis x 4 ausgehend von zwei bekannten Daten x 1 , x 2 der sequentiellen Datenreihe x 1 bis x 4 schematisch dargestellt.

Während der Verarbeitung der bekannten Daten x 1 , x 2 der sequentiellen Datenreihe x 1 bis x 4 sind die Wahrscheinlichkeitsverteilungen über die verborgenen Variablen z,, also die der A-Priori-Wahrscheinlichkeit (Prior) und die der A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) jeweils abhängig von den (bekannten Daten x, der sequentiellen Datenreihe x 1 bis x 4 mit i < 3.

Für die Vorhersagen der Daten x, der zukünftigen Zeitschritte i mit i > t ist lediglich die A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) abhängig von vorgesagten verborgenen Variablen z 3 , z 4 , die A-Priori- Wahrscheinlichkeitsverteilung (Prior) dagegen nicht.

In der Darstellung wird dies durch die Abzweigung nach unten dargestellt. Der Teil oberhalb der Hidden States h, entspricht im Wesentlichen der Verarbeitung gemäß der Figur 4. Der Teil unterhalb der Hidden States h, repräsentiert den Einfluss der vorliegenden Erfindung auf die Verarbeitung der Daten x, der sequentiellen Datenreihe x 1 bis x 4 zur Vorhersage von Daten der zukünftigen Zeitschritte i mit i > t mittels entsprechen künstlichen neuronalen Netzen, wie bspw. VRNN.

Der „Likelihood“-Anteil der Abschätzung der unteren Grenze (ELBO) ist aus diesen Wahrscheinlichkeitsverteilungen und den zukünftigen Daten x 3 , x 4 der sequentiellen Datenreihe x 1 bis x 4 berechnet. In dem unteren Zweig werden die verborgenen Variablen z' 3 , z' 4 unabhängig von den zukünftigen Daten x3, x4 der sequentiellen Datenreihe ermittelt. Ein einfacher Weg, dies umzusetzen, ist die Berechnung der Daten der sequentiellen Datenreihe x, auf der Grundlage von Proben der A-Priori-Wahrscheinlichkeitsverteilungen (Prior) der verborgenen Variablen z,, das Ziehen von Proben aus dieser Wahrscheinlichkeitsverteilung und das Einspeisen dieser Proben in die Hidden States h' i des RNN. Der verborgene Zustand h 2 , der die Vergangenheit, repräsentiert in x 1 , x 2 , z 1 , z 2 , zusammenfasst, kann verwendet werden, um die verborgene Verteilung über z 3 zu erhalten, aber danach muss man "parallele" verborgene Zustände z i , z' i konstruieren, die keine Informationen die zukünftigen Daten x 3 , x 4 der sequentiellen Datenreihe x 1 bis x 4 umfassen, sondern speist stattdessen generierte Werte von x' 3 und x' 4 zur Aktualisierung der parallelen verborgenen Zustände h' i ein.

Auch wenn h' i über z i Daten indirekt von x i abhängig sein könnte, ist dies nicht der Fall, da für z, die KL-Divergenz verwendet wird. Daher enthält z i kaum nennenswerte Information über x i .

Informationen von z, über die Zukunft müssen aufgrund der Anwendung der KL- Divergenz den Informationen über die Zukunft unter der Bedingung der Vergangenheit gleichen.

Auf diese Weise stimmen die unteren Bahnen im Rechenfluss der Trainingszeit besser mit dem Rechenfluss der Inferenzzeit überein, mit der Ausnahme, dass die Proben der verborgenen Variablen in dem RNN aus der A-Posteriori- Wahrscheinlichkeitsverteilung (Inference) und nicht aus der A-Priori- Wahrscheinlichkeitsverteilung eingespeist werden.

Figur 5 zeigt einen Ausschnitt aus dem Verarbeitungsdiagramm dargestellt in Figur 4.

In diesem Ausschnitt wird eine alternative Ausführungsform für den untern Zweig der Verarbeitung dargestellt. Die Alternative besteht zum einen darin, dass keine Informationen des oberen Zweigs in den unteren Zweig eingespeist werden. Ferner besteht die Alternative darin, die früheren Proben auch während des Trainings in das RNN einzuspeisen, was ein weiterer vollständig gültiger Ansatz ist, der dem Rechenfluss der Inferenzzeit perfekt entspricht.

Figur 6 zeigt ein Ablaufdiagramm einer Iteration einer Ausführungsform des Trainingsverfahrens gemäß der vorliegenden Erfindung.

In Schritt 610 werden Parameter des Trainingsalgorithmus festgelegt. Zu diesen Parametern zählen u. a. der Vorhersagehorizont h und die Größe bzw. Länge t des (bekannten) vergangenen Datensatzes.

Diese Daten werden einerseits einer Trainingsdatensatzdatenbank DB und anderseits in Schritt 630 weitergegeben.

In Schritt 620 wird aus der Trainingsdatensatzdatenbank DB gemäß den Parametern eine Datenprobe bestehend aus Grunddaten, die die (bekannten) vergangenen Zeitschritte x 1 bis x t repräsentieren und die die vorherzusagenden Daten der zukünftigen Zeitschritte x t+1 bis x t+h repräsentieren, entnommen.

Die Parameter und die Datenprobe werden in Schritt 630 dem Vorhersagemodell, bspw. einem VRNN, zugeführt. Dieses Modell leitet daraus drei Wahrscheinlichkeitsverteilungen ab:

1) In Schritt 641 die Wahrscheinlichkeitsverteilung der vorherzusagenden beobachtbaren Daten über x t+1 bis x t+h in Abhängigkeit von den bekannten beobachtbaren Daten x 1 bis x t und den verborgenen Variablen z 1 bis z t+h , p(x t+1 ... x t+h |x 1...t , z 1...t+h

2) In Schritt 642 die A-Posteriori-Wahrscheinlichkeitsverteilung (Inference) über die verborgenen Variablen z 1 bis z t+h in Abhängigkeit von dem bereitgestellten Datensatz x 1 bis x t+h

3) In Schritt 643 die A-Priori-Wahrscheinlichkeitsverteilung (Prior) über die verborgenen Variablen z 1 bis z t+h in Abhängigkeit von den bekannten Daten der vergangenen Zeitschritt x 1 bis x t . Nachfolgenden wird in Schritt 650 die untere Schranke abgeschätzt, um in Schritt

660 die Verlustfunktion abzuleiten.

Aus der abgeleiteten Verlustfunktion können dann in einem nicht dargestellten

Teil gemäß der bekannten Verfahren, bspw. per Backpropagation, die Parameter des künstlichen neuronalen Netzes, bspw. des VRNN, angepasst werden.