Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR ASCERTAINING A TIME CHARACTERISTIC OF A MEASURED VARIABLE, PREDICTION SYSTEM, ACTUATOR CONTROL SYSTEM, METHOD FOR TRAINING THE ACTUATOR CONTROL SYSTEM, TRAINING SYSTEM, COMPUTER PROGRAM AND MACHINE-READABLE STORAGE MEDIUM
Document Type and Number:
WIPO Patent Application WO/2019/149664
Kind Code:
A1
Abstract:
A method for ascertaining a time characteristic of a measured variable (y) adjustable by an actuator (20), wherein a time characteristic of a control variable (u) is applied to the actuator (20), wherein the ascertaining is effected by means of a Gaussian process state model of the behaviour of the actuator (20), wherein the time characteristic of the measured variable (y) of the actuator (20) is ascertained on the basis of a parameterizable family of functions (q(x1:T, f2:T, z)), wherein in the parameterizable family of functions (q(x1:T, f2:T, z)) a time dependency of a later latent state (xt), in particular ascertained using a transfer function (ft), of the actuator (20) on an earlier latent state (xt-1) of the actuator (20) and an earlier control variable (ut-1) of the actuator (20) is the same as the applicable dependency of the Gaussian process state model.

Inventors:
NGUYEN-TUONG THE DUY (DE)
DANIEL CHRISTIAN (DE)
TRIMPE SEBASTIAN (DE)
SCHIEGG MARTIN (DE)
DOERR ANDREAS (DE)
Application Number:
PCT/EP2019/052026
Publication Date:
August 08, 2019
Filing Date:
January 28, 2019
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
MAX PLANCK GESELLSCHAFT (DE)
International Classes:
G05B17/02; G06N20/00
Foreign References:
DE202017102235U12017-05-12
Other References:
STEFANOS ELEFTHERIADIS; THOMAS F.W. NICHOLSON; MARC PETER DEISENROTH; JAMES HENSMAN: "Identification of Gaussian Process State Space Models", ARXIV PREPRINT ARXIV:1705.10888V2, 2017, XP002791073
ROGER FRIGOLA; YUTIAN CHAN; CARL E.: "Variational Gaussian Process State-Space Models", RASMUSSEN IST EIN VERFAHREN ZUM VARIATIONALEN BAYES'SCHEN LERNEN EINES NICHTLINEAREN ZUSTANDSRAUMMODELLS, 2014
STEFANOS ELEFTHERIADIS; THOMAS F.W. NICHOLSON; MARC PETER DEISENROTH; JAMES HENSMAN: "Identification of Gaussian Process State Space Models", ARXIV PREPRINT ARXIV:1705.10888V2, 2017
ANDREAS SVENSSON; THOMAS B. SCHÖN: "A flexible state space model for learning nonlinear dynamical systems", ARXIV PREPRINT ARXIV:1603.05486V2, 2017
CESAR LINCOLN C. MATTOS; ZHENWEN DAI; ANDREAS DAMIANOU; JEREMY FORTH; GUILHERME A. BARRETO; NEIL D. LAWRENCE: "Recurrent Gaussian processes", ARXIV PREPRINT ARXIV: 1511.06644.V6, 2016
Attorney, Agent or Firm:
BANSE & STEGLICH PATENTANWÄLTE PARTMBB (DE)
Download PDF:
Claims:
Ansprüche

1. Verfahren zum Ermitteln eines zeitlichen Verlaufs einer Messgröße (y), die durch einen Aktor (20) einstellbar ist, wobei auf den Aktor (20) ein zeitlicher Verlauf einer Steuergröße (u) aufgebracht wird,

wobei das Ermitteln mittels eines Gaußprozess-Zustandsmodells des Verhaltens des Aktors (20) erfolgt, wobei der zeitliche Verlauf der Messgröße (y) des Aktors (20) abhängig von einer parametrierbaren Familie von Funktionen (q(xi:T, f2:T, z)) ermit telt wird, wobei in der parametrierbaren Familie von Funktionen (q(xi:T, f2:T, z)) eine zeitliche Abhängigkeit eines, insbesondere mit einer Übergangsfunktion (ft) ermittel ten, zeitlich nachfolgenden latenten Zustand (xt) des Aktors (20) von einem zeitlich vorhergehenden latenten Zustand (xt_i) des Aktors (20) und einer zeitlich vorherge henden Steuergröße (ut-i) des Aktors (20) gleich der entsprechenden Abhängigkeit des Gaußprozess-Zustandsmodell ist.

2. Verfahren nach Anspruch 1, wobei die parametrierbare Familie von Funktionen (q(xi:T, f2:T, z)) eingerichtet ist, eine a-posteriori Wahrscheinlichkeitsverteilung (p(x i ;T, f2:T, z | y [ )) von zumindest zeitlichen Verläufen mindestens des latenten Zu stands (cΐ:t) des Aktors (20) und der Übergangsfunktion (f2:T), gegeben einen zeitli chen Verlauf der Messgröße (yi:T) für einen ermittelten Trainingsdatensatz (ymess) möglichst gut zu approximieren.

3. Verfahren nach Anspruch 1 oder 2, wobei die Abhängigkeit der parametrierbaren Familie von Funktionen (q(xi:T, f2:T, z)) von einem initialen latenten Zustands (xi) des Aktors (20) durch einen Faktor gegeben ist, der von diesem initialen latenten Zu stand (xi) abhängt, wobei dieser Faktor durch eine parametrierbare Variationsfunkti on (q(x ), insbesondere durch eine Normalverteilung (N(mxl, Sxi)) gegeben ist.

4. Verfahren nach einem der Ansprüche 1 bis 3, wobei das Gaußprozess- Zustandsmodell ein spärliches Gaußprozess-Zustandsmodell mit induzierenden Gaußprozess-Zielzuständen (Englisch: inducing Gaussian process targets) (zi,...,zP) an vorgebbaren pseudo-Eingabepunkten (Englisch: pseudo input points) (zi,...,zR) ist.

5. Verfahren nach Anspruch 3 und 4, wobei eine Abhängigkeit der parametrierbaren Familie von Funktionen (q(x1:T, f2:T, z)) von Gaußprozess-Zielzuständen (zd) jeweils durch einen zweiten Faktor gegeben ist, wobei dieser zweite Faktor jeweils eine zweite parametrierbare Variationsfunktion (q(zd)) ist, die als Argument den jeweili gen Gaußprozess-Zielzustand (zd) hat.

6. Verfahren nach Anspruch 5, wobei die zweite parametrierbare Variationsfunktion (q(zd)) durch eine Normalverteilungsfunktion (N(zd | md, Sd)), gegeben ist.

7. Verfahren nach einem der Ansprüche 4 bis 6, wobei eine prognostizierte zeitliche Entwicklung des latenten Zustand (xt) des Aktors (20) ermittelt wird, indem rekursiv eine Stichprobe der prognostizierten zeitlichen Entwicklung des latenten Zustands zu einem nachfolgenden Zeitpunkt (xt+1) aus der parametrierbaren Variationsfunktion (q) des prognostizierten latenten Zustands zum nachfolgenden Zeitpunkt gegeben den prognostizierten latenten Zustand zu einem vorherigen Zeitpunkt (q(xt+1 |xt)) ermittelt wird, wobei der zeitliche Verlauf der Messgröße (y)des Aktors (20) abhän gig von der prognostizierten zeitlichen Entwicklung des latenten Zustands (x) ge wählt wird.

8. Verfahren nach Anspruch 7, wobei ein initialer latenter Zustand ( -jJ der prognosti zierten zeitlichen Entwicklung des latenten Zustands fest vorgegeben, insbesondere zufällig vorgegeben, wird.

9. Verfahren nach Anspruch 7, wobei ein initialer latenter Zustand (c-, ) aus der para metrierbaren Variationsfunktion (q(xi)) durch eine Verteilungsfunktion des initialen Zustands (xi) gegeben den ermittelten Trainingsdatensatz (q(xi|y0:n, uo:n)) ermittelt wird, deren charakterisierende Parameter durch Rückpropagation trainierbar sind.

10. Verfahren nach einem der vorherigen Ansprüche, wobei eine optimale Steuergröße (Uopt) abhängig von einem mittels des Verfahrens nach einem der Ansprüche 1 bis 9 ermittelten Verlaufs der Messgröße (y) ermittelt wird.

11. Verfahren nach Anspruch 10, wobei der Aktor (20) mittels der optimalen Steuergrö ße (Uopt) angesteuert wird.

12. Verfahren zum Ermitteln von wenigstens einem optimalen Parameter (xor1), der eine Regelstrategie eines Aktorsteuerungssystems (40) charakterisiert, welches eingerich tet ist, abhängig von dieser Regelstrategie einen Aktor (20) mit einer Steuergröße (u) anzusteuem,

wobei ein sich bei Anwendung der Regelstrategie ergebender zeitlicher Verlauf einer durch den Aktor (20) einstellbaren Messgröße (y) mittels des Verfahrens nach einem der Ansprüche 1 bis 10 ermittelt wird, und abhängig von dem so ermittelten Verlauf der Messgröße (y) der wenigstens eine optimale Parameter (xorί) ermittelt wird.

13. Prognosesystem (60), welches eingerichtet ist, das Verfahren nach einem der An sprüche 1 bis 10 auszuführen.

14. Aktorsteuerungssystem (40), welches eingerichtet ist, einen Aktor (20) mittels des Verfahren nach Anspruch 11 anzusteuem.

15. Verfahren zum Trainieren des Aktorsteuerungssystems (40) nach Anspruch 14, wo bei Parameter (f) der parametrierbaren Familien von Funktionen (q(xi:T, f2:T, z)) und/oder deterministische Parameter derart angepasst werden, dass sie eine a- posteriori Wahrscheinlichkeitsverteilung p(x1:T, f2:T, z | y1:T) von zumindest zeitlichen Verläufen mindestens des latenten Zustands des Aktors (xi:T ) und der Übergangs funktion (f2:T), gegeben einen zeitlichen Verlauf der Messgröße (yi:T) für einen er mittelten Trainingsdatensatz möglichst gut approximiert.

16. Maschinelles Trainingssystem (140), welches eingerichtet ist, das Aktorsteuerungs system (40) nach Anspruch 14 mittels des Verfahrens nach Anspruch 15 zu trainie ren.

17. Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens nach ei nem der Ansprüche 1 bis 12 oder 15 auszuführen.

18. Maschinenlesbares Speichermedium (46, 2010), auf dem das Computerprogramm nach Anspruch 17 gespeichert ist.

Description:
Beschreibung

Titel

Verfahren zum Ermiteln eines zeitlichen Verlaufs einer Messgröße. Prognosesvstem. Aktorsteuerungssvstem. Verfahren zum Trainieren des Aktorsteuerungssvs- tems.Trainingssvstem. Computerprogramm und maschinenlesbares Speichermedium

Stand der Technik

Aus„Variational Gaussian Process State-Space Models“, arXiv preprint ar- Xiv:l406.4905v2, 2014, Roger Frigola, Yutian Chan und Carl E. Rasmussen ist ein Ver fahren zum variationalen bayes’ sehen Lernen eines nichtlinearen Zustandsraummodells (Englisch: state-space model ) mittels spärlicher Gaußprozesse (Englisch: sparse Gaussian processes) bekannt.

Aus„Identification of Gaussian Process State Space Models”, arXiv preprint ar

Xiv: 1705.10888v2, 2017, Stefanos Eleftheriadis, Thomas F.W. Nicholson, Marc Peter Deisenroth und James Hensman sowie„A flexible state space model for leaming nonli near dynamical Systems”, arXiv preprint arXiv: 1603.05486v2, 2017, Andreas Svensson und Thomas B. Schön sind weitere Verfahren zum Lernen von Zustandsraummodellen bekannt.

Vorteil der Erfindung

Das Verfahren mit den Merkmalen des unabhängigen Anspruch 1 hat demgegenüber dem Vorteil, dass eine besonders effiziente und robuste Methode ist, nichtlineare Zustands raummodelle auch bei hochdimensionalen latenten Zustandsräumen zu lernen.

Vorteilhafte Weiterbildungen sind Gegenstand der unabhängigen Ansprüche.

Offenbarung der Erfindung

In einem ersten Aspekt betrifft die Erfindung ein Verfahren zum Ermitteln eines zeitli chen Verlaufs einer Messgröße y, die durch einen Aktor einstellbar ist, wobei auf den Ak tor ein zeitlicher Verlauf einer Steuergröße u aufgebracht wird. Das Ermitteln erfolgt mittels eines Gaußprozess-Zustandsmodells (Englisch: Gaussian process state space model, kurz GP-SSM), welches ein Verhalten des Aktors beschreibt. Hierbei wird eine Steuergröße des Aktors abhängig von einer parametrierbaren Familie von Funktionen q(xi :T , f 2:T , z) ermittelt.

Zustandsraummodelle, auch Zustandsmodelle genannt, beschreiben das Verhalten eines Systems mittels einer latenten Variable x unter einem Übergangsmodell f und Prozess rauschen (Englisch: process noise) s x . Abhängig von der latenten Variable x wird eine Messgröße y mittels einer Beobachtungsfunktion g mit Messrauschen s y ermittelt. Mittels eines Subscripts„t“ kann wie üblich eine zeitliche Entwicklung beschrieben werden. Ein Zustandsraummodell ist dann gegeben als

Mit Gaußprozessen können Verteilungen über Funktionen dargestellt werden. Dies er laubt es, a-priori-Annahmen über das Verhalten eines Systems zu berücksichtigen. Hier bei wird für einen Satz an Beobachtungen X = [x 1 ... , x N ] die korrespondierenden Funk tionswerte f = [/(x i), ... , f(x N )] als gemeinsam Gaußverteilt angenommen, also p{f\X) = N(f\m x , K XX ), (2)

Mit Mittelwertvektor m x mit Einträgen Gh ; =hi(c;) und einer Kovarianzmatrix K xx mit Elementen K J J = k(x ; ,Xj). K bezeichnet wie üblich eine Normalverteilung. Die Einträge des Mittelwertvektors m x können beispielsweise gleich Null gewählt werden. Die Funk tion k(x ; , X j ) kann mit geeigneten Hyperparametem oj, A = diag(l ... i j ) z.B. gegeben sein durch

Bei gegebenen Funktionswerten f an Beobachtungen X lässt sich die bedingte Wahr scheinlichkeitsverteilung an einer neuen Beobachtungsstelle x * schreiben als p(f * \x * , f, X) = AG(G |m, s 2 ) (3) schreiben, mit wobei k A B einen Skalar bzw. Vektor von Kovarianzen für jedes Paar von Elementen in A, B be- zeichnet. Wichtig ist hier, dass der Kemel so gewählt ist, dass die Funktionen m, s nach x * differenzierbar sind.

Mit der Abkürzung x t = (x t , u t ) lässt sich das Übergangsmodell auch schreiben als f t+1 = f(x t ). Eine Zeitreihe von beobachteten Messgrößen y von einem Zeitpunkt a bis zu einem späteren Zeitpunkt b wird als y a:b abgekürzt (analog für andere Größen).

Vorteilhafterweise kann der beschreibende Gaußprozess als spärlicher Gaußprozess im plementiert sein. Hierzu können induzierende Gaußprozess-Zielzustände (Englisch: indu- cing Gaussian process targets ) z=[zi,.. ,z P ] an vorgebbaren pseudo-Eingabepunkten (Englisch: pseudo input points ) z=[zi,.. ,z R ] vorgesehen sein. Dies verringert den Re chenaufwand der Anpassung der Parameter des Gaußprozesses, insbesondere bei großen T rainingsdatensätzen.

Ein Gaußprozess kann sowohl für das Übergangsmodell f als auch für die Beobachtungs funktion g gewählt werden. Es ist für die ldentifikation der den Gaußprozess charakteri sierenden Parameter allerdings hilfreich, ein bekanntes parametrisches Beobachtungsmo dell zu wählen, beispielsweise p(yt \xt) = w(yt \g(.xt . R ( 4 ) mit diagonaler Kovarianzmatrix R = diag (s 1; ... , y Dy ) und Beobachtungsfunktion g(x t ) = Cx t , (5) wobei die Matrix C so gewählt ist, dass sie die D y ersten Einträge der latenten Variable x t auswählt, also C = [I, 0] e Dy,Dx , wobei / die Einheitsmatrix ist. Mit D, wird hierbei die Dimension des Raums der latenten Variablen x bezeichnet, mit D y die Dimension des Raums der Messgröße y. Dieses Modell ist besonders passend, wenn D y < D x ist, was üblicherweise in Systemen mit einer begrenzten Anzahl physikalischer Sensoren, bei spielsweise bei Robotern, der Fall ist. Die Beobachtungsfunktion g kann aber auch durch eine andere parametrische, differenzierbare Abbildung gegeben sein. Für hochdimensio nale Beobachtungsräume, also großes D y , kann beispielsweise als Beobachtungsfunktion g auch eine andere differenzierbare Funktion, z.B. ein neuronales Netzwerk, eingesetzt werden. Die gemeinsame Verteilungsfunktion der Variablen des GP-SSM lässt sich dann schrei ben als

Hierbei bezeichnet = P^=i Vif t.d IW-i, z d ) und z = \z x , ... , z D . .

Das Prozessrauschen kann als p(x t |/ t ) = N ( x t \f t , Q) mit diagonaler Kovarianz Q = diag(a 1 , ... , ^ X,Dx ) gewählt werden. Die initiale Verteilung der latenten Zustände p(x-i ) ist unbekannt.Die Übergangsdynamik wird für jede latente Dimension d unabhän gig durch p(/ t d \x t -i , z d )p(z d ) beschrieben. Diese Wahrscheinlichkeit kann durch die spärliche Gauß’sche a-posteriori Wahrscheinlichkeitsverteilung analog zu Gleichung (3) gewählt werden. Die a-priori- Wahrscheinlichkeitsverteilung p(z d ) der induzierenden Zielzustände z d kann ebenfalls normalverteilt mit geeigneten Parametern m z , K z z gewählt werden:

(8)

Die Integration, die notwendig ist, um eine log-likelihood oder eine a-posteriori Wahr scheinlichkeitsverteilung für das durch Gleichung (6) gegebene Modell zu ermitteln, ist nur sehr schwer lösbar. Daher gibt es Ansätze, eine Variationsfunktion zu verwenden.

Aus„Recurrent Gaussian processes”, arXiv preprint arXiv: l5l l.06644.v6, 2016, Cesar Lincoln C. Mattos, Zhenwen Dai, Andreas Damianou, Jeremy Forth, Guilherme A. Bar- reto, Neil D. Lawrence ist beispielsweise bekannt, eine sogenannte niean field approxi- mation für die latenten Zustände x 1;T einzuführen. Hierbei wird die a-posteriori Wahr scheinlichkeitsverteilung r(c ΐ: t, f2 :T , z | yi :T ) eines durch Gleichung (6) gegebenen Mo dells durch eine Familie von faktorisierten Näherungsfunktionen q der Form approximiert. Durch Variation der diese Familie parametrierenden Parameter kann dann versucht werden, die tatsächliche a-posteriori Wahrscheinlichkeitsverteilung bestmöglich anzunähem.

Um die im Modell (6) vorhandenen zeitlichen Korrelationen zwischen Zuständen besser beizubehalten, kann statt des oben genannten Ansatzes die parametrierbare Familie von Funktionen q(xi :T , f 2:T , z) derart gewählt werden, dass eine zeitliche Abhängigkeit der zeitlich aufeinander folgenden latenten Zustände x des Aktors erhalten bleibt. D.h. die Abhängigkeit eines zeitlich nachfolgenden latenten Zustand x t des Aktors (der beispiels weise mit einer Übergangsfunktion ermittelt wurde) von einem zeitlich vorhergehenden, insbesondere unmittelbar vorhergehenden latenten Zustand x des Aktors und einer zeit lich vorhergehenden, insbesondere unmittelbar vorhergehenden Steuergröße u des Aktors soll gleich der entsprechenden Abhängigkeit des Gaußprozess-Zustandsmodell, insbeson dere gemäß Gleichung (6), sein. D.h., die durch den Term p(f t \X t -i ) t> zw · (im Fall der spärlichen Formulierung) p( t |x t-1 z) in Gleichung (6) formulierte Abhängigkeit soll in der parametrierbaren Familie von Funktionen q(xi :T , f 2:T , z) ebenfalls so erhalten bleiben.

Insbesondere kann vorgesehen sein, dass die parametrierbare Familie von Funktionen q(xi :T , f 2:T , z) eingerichtet ist, eine a-posteriori Wahrscheinlichkeitsverteilung p(x 1 :T , f 2:T , z | yi :T ) für einen ermittelten Trainingsdatensatz y mess möglichst gut zu approximieren.

Der Trainingsdatensatz y mess wird vorteilhafterweise ermittelt, indem der Aktor mit einem vorgebbaren Trainingsverlauf u 1;n der vorgebbaren Steuergröße u angesteuert wird und ein sich ergebender zeitlicher Trainingsverlauf y 1;n der Messgröße y ermittelt wird. Der Trainingsdatensatz y mess kann dann durch (y 1;n , u 1 :n ) gegeben sein.

Vorteilhafterweise die Abhängigkeit der parametrierbaren Familie von Funktionen q(xi :T , f 2:T , z) von einem initialen latenten Zustands Xi des Aktors durch einen Faktor gegeben ist, der von diesem initialen latenten Zustand Xi abhängt (insbesondere nur von diesem abhängt), wobei dieser Faktor durch eine parametrierbare Variationsfunktion q(xi), insbe sondere durch eine Normalverteilung N (jn xi , S xl ) gegeben ist.

Alternativ oder zusätzlich kann eine Abhängigkeit der parametrierbaren Familie von Funktionen q(xi :T , f 2:T , z) von Gaußprozess-Zielzuständen z d jeweils durch einen zweiten Faktor gegeben ist, wobei dieser zweite Faktor jeweils eine zweite parametrierbare Varia tionsfunktion q(z d ) ist, die als Argument den jeweiligen Gaußprozess-Zielzustand z d hat

Hierbei kann die zweite parametrierbare Variationsfunktion q(z d ) durch eine Normal Ver teilungsfunktion J\f(z d | m d , S d ), gegeben sein.

Die parametrierbare Familie von Funktionen hat dann die Form

Die Parameter, mit denen diese parametrierbare Familie von Funktionen parametriert wird, sind dann gegeben durch

Prozessrauschen

Sensorrauschen

Variationsparameter für die induzierenden Gaußprozess-Zielzustände

Vorgebbare Pseudo-Eingabepunkte

Kemel-Hyperparameter.

Mit dieser parametrierbaren Familie von Funktionen kann nun vorgesehen sein, dass eine prognostizierte zeitliche Entwicklung des latenten Zustand x t des Aktors ermittelt wird, indem rekursiv eine Stichprobe der prognostizierten zeitlichen Entwicklung des latenten Zustands zu einem nachfolgenden Zeitpunkt x t+1 aus der parametrierbaren Variations- funktion des prognostizierten latenten Zustands zum nachfolgenden Zeitpunkt gegeben den prognostizierten latenten Zustand zu einem vorherigen Zeitpunkt q(x t+1 \x t ) ermittelt wird, wobei die Steuergröße des Aktors abhängig von der prognostizierten zeitlichen Entwicklung des latenten Zustands gewählt wird.

Dies ermöglicht, wie in den Ausführungsbeispielen ausführlicher dargestellt, eine einfa che Ermittlung einer unteren variationalen Schranke, die auch als ELBO bekannt ist.

Durch die Marko v- Struktur der latenten Zustände x und die spärliche Gaußprozess- Näherung ist die (marginalisierte) approximierte Verteilung des latenten Zustands zu ei nem Zeitpunkt t, q(xJ bei gegebener Verteilung zu einem vorhergehenden Zeitpunkt l-l konditional unabhängig von vorherigen Zeitschritten. Dies erlaubt das oben beschriebene rekursive Vorgehen.

Es ist allerdings notwendig, einen initialen latenten Zustand x 1 vorzugeben. Es ist entwe der möglich, dass der initiale latente Zustand x der prognostizierten zeitlichen Entwick lung des latenten Zustands fest vorgegeben, insbesondere zufällig vorgegeben wird. Dies ist besonders einfach.

Es ist allerdings auch möglich, dass der initiale latente Zustand (c ) aus der parametrier- baren Variationsfunktion q(xi) durch eine Verteilungsfunktion des initialen Zustands Xi gegeben den ermittelten Trainingsdatensatz q(xi|yi :n , Ui :n ) ) ermittelt wird, deren charakte risierende Parameter durch Rückpropagation trainiert werden.

In einem weiteren Aspekt betrifft die Erfindung ein Verfahren, bei dem eine optimale Steuergröße u opt , mit der der Aktor angesteuert werden kann, abhängig von einem mittels eines der vorgenannten Verfahrens ermittelten Verlaufs der Messgröße y ermittelt wird. Dies ermöglicht auf besonders einfache Weise eine optimale Ansteuerung des Aktors.

In einem weiteren Aspekt betrifft die Erfindung ein Verfahren zum Lernen einer Regel strategie, was auch unter dem Begriff„policy leaming“ bekannt ist. Hierbei kann vorge sehen sein, dass wenigstens ein optimaler Parameter x or1 ermittelt wird. Dieser optimale Parameter x or1 , charakterisiert eine Regelstrategie eines Aktorsteuerungssystems. Dieses ist eingerichtet abhängig von dieser Regelstrategie den Aktor mit einer Steuergröße u an- zusteuem. Die Steuergröße u kann also abhängig von der Regelstrategie und damit ab hängig vom optimalen Parameter x or1 ermittelt. Ein sich bei Anwendung der Regelstrate gie ergebender zeitlicher Verlauf der Messgröße y wird mittels eines der vorgenannten Verfahrens ermittelt wird, und abhängig von dem so ermittelten Verlauf der Messgröße y wird der wenigstens eine optimale Parameter x or1 ermittelt.

In einem weiteren Aspekt betrifft die Erfindung ein Verfahren zum Trainieren eines Ak torsteuerungssystems, das eingerichtet ist, eines der vorgenannten Verfahren auszuführen, wobei Parameter, die die parametrierbare Familie von Funktionen q(xi :T , fV, , z) charakte risieren und/oder deterministische Modell-Parameter derart angepasst werden, dass sie die a-posteriori Wahrscheinlichkeitsverteilung r(ci : t, fV, , z | yi :T ) von zumindest zeitli chen Verläufen mindestens des latenten Zustands des Aktors Xi :T und der Übergangsfunk tion f 2:T , gegeben den zeitlichen Verlauf der Messgröße yi :T des Aktors für einen ermittel- ten Trainingsdatensatz möglichst gut approximiert.

Nachfolgend werden Ausführungsformen der Erfindung unter Bezugnahme auf die bei liegenden Zeichnungen näher erläutert ln den Zeichnungen zeigen:

Figur 1 schematisch einen Aufbau von Ausführungsformen der Erfindung;

Figur 2 schematisch einen Aufbau weiterer Ausführungsformen der Erfindung;

Figur 3 in einem Flussdiagramm den Ablauf eines Verfahrens gemäß einem Aspekt der Erfindung;

Figur 4 in einem Flussdiagramm den Ablauf eines Verfahrens gemäß einem weite ren Aspekt der Erfindung;

Figur 5 in einem Flussdiagramm den Ablauf eines Verfahrens gemäß einem noch weiteren Aspekt der Erfindung.

Beschreibung der Ausführungsbeispiele

Figur 1 illustriert einen Aufbau möglicher Ausführungsformen der Erfindung. Figur 1 zeigt in einer Ausführungsform einen Aktor 10 in seiner Umgebung 20 in lnteraktion mit einem Aktorsteuerungssystem 40. Aktor 10 und Umgebung 20 werden gemeinschaftlich nachfolgend auch als Aktorsystem bezeichnet ln beispielsweise regelmäßigen zeitlichen Abständen wird ein Zustand des Aktorsystems mit einem Sensor 30 erfasst, der auch durch eine Mehrzahl von Sensoren gegeben sein kann. Je ein Sensorsignal S des Sensors 30 wird an das Aktorsteuerungssystem 40 übermittelt. Das Aktorsteuerungssystem 40 empfängt somit eine Folge von Sensorsignalen S. Das Aktorsteuerungssystem 40 ermit telt hieraus eine Folge von Ansteuersignalen A, welches der Aktor 10 empfängt.

Bei dem Aktor 10 kann es sich beispielsweise um einen (teil-) autonomen Roboter, bei spielsweise ein (teil-)autonomes Kraftfahrzeug handeln, oder um einen Roboter, der ge zielt erkanntes Unkraut in einem Feld bekämpft, beispielsweise ausreißt oder mit entspre chenden Chemikalien besprüht.

Bei dem Sensor 30 kann es sich beispielsweise um einen oder mehrere Videosensoren und/oder einen oder mehrere Radarsensoren und/oder einen oder mehrere Ultra- schallsensoren und/oder einen oder mehrere Positionssensoren (beispielsweise GPS) han deln. Alternativ oder zusätzlich kann der Sensor 30 auch ein Informationssystem umfas sen, das eine Information über einen Zustand des Aktorsystems ermittelt, wie beispiels weise ein Wetterinformationssystem, das einen aktuellen oder zukünftigen Zustand des Wetters in der Umgebung 20 ermittelt.

In einem anderen Ausführungsbeispiel kann es sich bei dem Aktor 10 um einen Ferti gungsroboter handeln, und bei dem Sensor 30 dann beispielsweise um einen optischen Sensor handeln, der Eigenschaften von Fertigungserzeugnissen des Fertigungsroboters er fasst.

In einem weiteren Ausführungsbeispiel kann es sich bei dem Aktor 10 um ein Freigabe system handeln, welches eingerichtet ist, die Aktivität eines Geräts freizugeben oder nicht. Bei dem Sensor 30 kann es sich beispielsweise um einen optischen Sensor (bei spielsweise zur Erfassung von Bild- oder Videodaten) handeln, der eingerichtet ist, ein Gesicht zu erfassen. Der Aktor 10 ermittelt abhängig von der Folge von Ansteuersignalen A ein Freigabesignal, das benutzt werden kann, um abhängig vom Wert des Freigabesig nals das Gerät freizugeben. Bei dem Gerät kann es sich beispielsweise um eine physische oder logische Zugangskontrolle handeln. Abhängig vom Wert des Ansteuersignals A kann die Zugangskontrolle dann vorsehen, dass Zugang gewährt wird, oder nicht. ln einem weiteren Ausführungsbeispiel kann es sich bei dem Aktor 10 um einen Teil ei ner Gebäudesteuerung handeln, beispielsweise um einen Regler einer Heizung.

Das Aktorsteuerungssystem 40 empfängt die Folge von Sensorsignalen S des Sensors in einer optionalen Empfangseinheit 50, die die Folge von Sensorsignalen S in eine Folge von Messgrößen y umwandelt (alternativ kann auch unmittelbar je das Sensorsignal S als Messgröße y übernommen werden). Die Messgröße y kann beispielsweise ein Ausschnitt oder eine Weiterverarbeitung des Sensorsignals S sein. Die Messgröße y wird einem ma schinellen Lemsystem 60 zugeführt, dessen Funktionsweise unten im Zusammenhang mit Figur 4 näher erläutert wird.

Das maschinelle Lemsystem 60 ermittelt aus den Messgrößen y eine Steuergröße u. Die se Ermittlung erfolgt abhängig von Parametern f, die in einem Parameterspeicher P abge legt sind. Diese Parameter f können insbesondere Parameter x or1 umfassen, die eine Re gelstrategie des Aktorsteuerungssystems 40 charakterisieren. Der Parameterspeicher P kann in das Aktorsteuerungssystem 40 integriert sein, er kann allerdings auch räumlich getrennt vom Aktorsteuerungssystem 40 ausgebildet sein, und beispielsweise über eine Netzwerkverbindung mit dem Aktorsteuerungssystem 40 verbunden sein. Die Steuergrö ße u wird einer optionalen Umformeinheit 80 zugeführt, die hieraus Ansteuersignale A ermittelt, welche dem Aktor 10 zugeführt werden.

In weiteren Ausführungsformen umfasst das Aktorsteuerungssystem 40 den Aktor 10.

In weiteren bevorzugten Ausführungsformen umfasst das Aktorsteuerungssystem 40 eine Ein- oder Mehrzahl von Prozessoren 45 und wenigstens ein maschinenlesbares Spei chermedium 46, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Pro zessoren 45 ausgeführt werden, das Aktorsteuerungssystem 40 veranlassen, das Verfah ren zum Ansteuem des Aktors 10 auszuführen.

Figur 2 illustriert ein maschinelles Trainingssystem 140, mit der das maschinelle Lemsys- tem 60 des Aktorsteuerungssystems 40 trainiert werden kann.

Eine Messwertvorrichtung 150 ermittelt einen Trainingsdatensatz y mess , der sowohl Steu ergrößen u als auch zugehörige Messgrößen y umfasst. Diese können beispielsweise durch Ansteuerung des Aktors 10 mittels der Steuergrößen u und Ermittlung der sich er gebenden Messgrößen y ermittelt worden sein, und auf einem Datenträger (nicht darge stellt) abgespeichert sein, der Teil der Messwertvorrichtung 150 sein kann. Zur Ermitt lung des Trainingsdatensatzes y mess kann die Messwertvorrichtung 150 aus dem Datenträ ger auslesen.

Der Trainingsdatensatz y mess wird einem Trainingsblock 190 zugeführt, der abhängig von dem im Parameterspeicher P gespeicherten Parametern f mittels des in Figur 3 illustrier ten Verfahrens optimierte Parameter |‘ ermittelt, die im Parameterspeicher P die gespei cherten Parameter f ersetzen.

Alternativ oder zusätzlich können mittels des in Figur 5 illustrierten Verfahrens optimier te Parameter x or1 ermittelt werden, die Teil der optimierten Parameter f sein können, und ebenfalls im Parameterspeicher P hinterlegt werden.

In weiteren bevorzugten Ausführungsformen umfasst das Trainingssystem 140 eine Ein oder Mehrzahl von Prozessoren 200 und wenigstens ein maschinenlesbares Speicherme- dium 210, auf dem Anweisungen gespeichert sind, die dann, wenn sie auf den Prozesso ren 200 ausgeführt werden, das Trainingssystem 140 veranlassen, das Verfahren zum Trainieren des maschinellen Lemsystems 60 auszuführen.

Figur 3 illustriert eine Ausführungsform eines Verfahrens zum Trainieren des maschinel len Lemsystems 60. Zunächst (1000) werden die Parameter f initialisiert und ein Trai ningsdatensatz mit zeitlichen Verläufen der Steuergröße u und der Messgröße y bereitge stellt. Die entsprechenden zeitlichen Verläufe werden mit Ui :T bzw. yi :T bezeichnet.

Dann (1100) werden diese zeitlichen Verläufe optional in Unterverläufe vorgebbarer Länge T sub zerteilt.

Anschließend wird für den Verlauf bzw. einen oder mehrere der Unterverläufe eine Mehrzahl von Unterverläufen jeweils eine Ein- oder Mehrzahl zugehöriger Trajektorien prognostizierter latenter Variablen x ermittelt. Hierzu wird jeweils zunächst ein initialer prognostizierter latenter Zustand x 1 ermittelt, beispielsweise aus der parametrierten Ver teilungsfunktion q(xi) gezogen. Die Parameter dieser Verteilungsfunktion sind dann vor zugsweise ebenfalls Teil der zu optimierenden Parameter f, da etwaige Fehler, die durch den initialen latenten Zustand hervorgerufen werden, insbesondere bei kurzen zeitlichen Verläufen u.U. nicht hinreichend schnell abklingen. Anschließend erfolgt je nach Länge des zeitlichen Verlaufs eine rekursive Ermittlung der weiteren prognostizierten latenten Zustände x t .

Dann werden jeweils Stichproben x t aus der Verteilungsfunktion q(xj gezogen. Hierzu werden beispielsweise Stichproben e~K (0,1) gezogen, und anschließend für alle d und alle Zeitpunkte t>l gezogen. Hierbei ist x t = ( x t , u t ).

Anschließend sollen die Parameter f derart angepasst werden, dass die Kullback-Leibler- Divergenz KL(q(x 1.T , f2. T , z) \ \p(x 1.T ,f2. T , z\y 1.T )) minimiert wird, wobei die Länge T im Falle der Unterteilung in Unterverläufe selbstverständlich durch T sub ersetzt wird. Mit der üblichen unteren variationalen Schranke (Englisch: evidence lower bound, kurz: ELBO) ist das Minimieren dieser KL-Divergenz äquivalent zur Maximierung des ELBO, der gegeben ist durch

Daher wird nun (1200) der ELBO gemäß Gleichung (13) geschätzt. Hierzu wird der erste Term der rechten Seite aus Gleichung (13) mittels der prognostizierten zeitlichen Verläu fe der latenten Variable x mittels

E q( x t) [log p(y t |x t )] * ^E =i log p(y t |x (14) geschätzt, wobei N die in Schritt 1100 generierten prognostizierten zeitlichen Verläufe der latenten Variable x bezeichnet.

Ausgehend von dieser stochastischen Ermittlung des ELBO werden Gradienten der Funk tion E GP-SSM ermittelt, und ein stochastischer Gradientenaufstieg der Parameter f durch- geführt, um neue Parameter |‘ zu ermitteln (1300).

Nun (1400) wird überprüft, ob ein Konvergenzkriterium erfüllt ist. Ist dies der Fall (1500), ersetzen die neuen Parameter |‘ die im Parameterspeicher P gespeicherten Para meter f, und das Verfahren endet. Andernfalls wird zurückverzweigt zu Schritt 1150.

Figur 4 illustriert eine Ausführungsform eines Verfahrens zum Ansteuem des Aktors 10. Optional wird zunächst (2000) das in Figur 3 illustrierte Trainingsverfahren durchgeführt. Anschließend (2010-2050) wird eine modellprädiktive Regelung auf der Steuergröße u für einen vorgebbaren Prädiktionshorizont T pred durchgeführt.

Hierzu wird zunächst (2010) ein zeitlicher Verlauf der Steuergröße u generiert.

Dann (2020) wird der initiale latenter Zustand x t ermittelt, beispielsweise zufällig ge wählt oder gleich 0 gewählt. Dies ist möglich, da für stabile transiente Dynamik transien te Effekte, die durch einen falsch gewählten initialen latenten Zustand x 1 hervorgerufen werden, exponentiell abklingen. Dann wird der latente Zustand Xi-.T pred beispielsweise mittels Gleichung (11) ermittelt, und mittels der Beobachtungsfunktion g (z.B. durch Gleichung (5) gegeben) auch die Messgröße yi :Tpred ermittelt. Anschließend (2030) wird abhängig vom ermittelten Verlauf der Messgröße yi :Tpred eine Kostenfunktion ermittelt.

Dann (2040) wird überprüft, ob ein Konvergenzkriterium der Kostenfunktion erreicht ist. Ist dies der Fall (2050), wird der aktuell ermittelte Verlauf der Steuergröße u als optimale Steuergröße u opt übernommen, und der Aktor 10 wird entsprechend des Verlaufs der op timalen Steuergröße u opt angesteuert.

Ist dies nicht der Fall (2060), wird der Verlauf der Steuergröße u variiert. Beispielsweise kann ein Gradientenabstiegsverfahren eingesetzt werden, wobei die Gradienten bei spielsweise numerisch mit Auswertungs schritten analog zu Schritt (2020) ermittelt wer den können, oder auch analytisch vorgegeben sein können. Dann wird mit verändertem Verlauf der Steuergröße u zurückverzweigt zu Schritt 2020.

Figur 5 illustriert eine Ausführungsform des Verfahrens zum Ermitteln des Parameters xo r1 . Optional wird zunächst (3000) das in Figur 3 illustrierte Trainingsverfahren durchge führt.

Dann (3010) wird ein initialer Wert der Steuergröße u und ein initialer Wert des Parame ters x or1 generiert. Ebenso wird analog zu Schritt (2020) ein initialer Wert des latenten Zustands x ermittelt. Dann (3020) wird mittels Gleichungen (5) und (11) sowie der durch den Parameter x or1 charakterisierten aktuellen Regelstrategie ein zeitlicher Verlauf des la tenten Zustands u, der Messgröße y und der Steuergröße u ermittelt. Anschließend (4030) wird abhängig vom ermittelten Verlauf der Messgröße eine Kostenfunktion ermit telt.

Dann (3040) wird überprüft, ob ein Konvergenzkriterium der Kostenfunktion erreicht ist. Ist dies der Fall (3050), wird der aktuell ermittelte Parameter x or1 als optimaler Parameter x or1 übernommen.

Ist dies nicht der Fall (3060), wird der Parameter x or1 variiert. Beispielsweise kann ein Gradientenabstiegsverfahren eingesetzt werden. Dann wird mit verändertem Verlauf des Parameters x or1 zurückverzweigt zu Schritt 3020.

Selbstverständlich können alle Verfahren nicht nur in Software, sondern auch in Hard ware implementiert sein, oder in einer Mischform aus Hardware und Software.