Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR THE COMPUTER-ASSISTED CONTROL OF A TECHNICAL SYSTEM, IN PARTICULAR AN ENERGY GENERATION PLANT
Document Type and Number:
WIPO Patent Application WO/2019/101422
Kind Code:
A1
Abstract:
The invention relates to a method for the computer-assisted control of a technical system, in particular in a plant for generating energy, in order to achieve a predetermined technical behavior of the technical system, wherein an operating data set for controlling the system is provided. A system model for describing the mode of operation of the technical system is provided, wherein on the basis of the operating data set and on the basis of the system model, an optimization data set is determined by means of an optimization method. Based on the optimization data set, relevant parameters of the technical system that allow a more advantageous control of the technical system than other parameters of the technical system are selected using a selection method, wherein with the selected relevant parameters, a control method for the technical system is determined, wherein the technical system is controlled with the aid of the control method.

Inventors:
HEIN, Daniel (Langbürgener Str. 12, München, 81549, DE)
HENTSCHEL, Alexander (1053 Douglas Crescent, Vancouver BC, British Columbia V6H 1V4, V6H 1V4, CA)
UDLUFT, Steffen (Habichtstraße 2, Eichenau, 82223, DE)
Application Number:
EP2018/077663
Publication Date:
May 31, 2019
Filing Date:
October 11, 2018
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AKTIENGESELLSCHAFT (Werner-von-Siemens-Straße 1, München, 80333, DE)
International Classes:
G05B13/02; G05B13/04
Domestic Patent References:
WO2010121695A12010-10-28
WO2015043806A12015-04-02
Foreign References:
DE102016010796A12017-03-30
Other References:
MICHEL TESMER; PABLO A. ESTEVEZ: "Adaptive Feature Selection by Using Mutual Information", 2004, IEEE, pages: 303 - 308
ISABELLE GUYON ET AL.: "An Introduction to Variable and Feature Selection", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 3, 2003, pages 1157 - 1182, XP058112314
R. BATTITI: "Using Mutual Information for Selecting Features in Supervised Neural Net Learning", IEEE TRANSACTION ON NEURONAL NETWORKS, vol. 5, no. 4, July 1994 (1994-07-01), pages 537,550, XP000460492, DOI: doi:10.1109/72.298224
DANIEL HEIN ET AL.: "Reinforcement Learning with Particle Swarm Optimization Policy (PSO-P) in Continuous State and Action Spaces", INTERNATIONAL JOURNAL OF SWARM INTELLIGENCE RESEARCH, vol. 7, no. 3, July 2016 (2016-07-01), pages 23 - 42
DANIEL HEIN ET AL.: "Reinforcement Learning with Particle Swarm Optimization Policy (PSO-P) in Continuous State and Action Spaces", INTERNATIONAL JOURNAL OF SWARM INTELLIGENCE RESEARCH, vol. 7, no. 3, July 2016 (2016-07-01), pages 23 - 42
JORGE R. VERGARA; PABLO A. ESTEVEZ, A REVIEW OF FEATURE SELECTION METHODS BASED ON MUTUAL INFORMATION
Download PDF:
Claims:
Patentansprüche

1. Verfahren zum rechnergestützten Steuern eines technischen Systems, insbesondere einer Anlage zur Stromerzeugung, zum Erreichen eines vorgegebenen technischen Verhaltens des tech nischen Systems,

wobei ein Betriebsdatensatz zum Steuern des Systems bereitge stellt wird,

wobei ein Systemmodell zur Beschreibung der Funktionsweise des technischen Systems bereitgestellt wird,

wobei anhand des Betriebsdatensatzes und anhand des Systemmo dells mit einem Optimierungsverfahren ein Optimierungsdaten satz ermittelt wird,

wobei auf Basis des Optimierungsdatensatzes mithilfe eines Auswahlverfahrens relevante Parameter des technischen Systems ausgewählt werden, die eine vorteilhaftere Steuerung des technischen Systems ermöglichen als andere Parameter des technischen Systems,

wobei mit den ausgewählten relevanten Parametern ein Steuer verfahren für das technische System ermittelt wird,

wobei mithilfe des Steuerverfahrens das technische System ge steuert wird.

2. Verfahren nach Anspruch 1, wobei das Auswahlverfahren ein adaptives wechselseitiges Informationsmerkmal- Auswahlverfahren (AMIFS) ist.

3. Verfahren nach einem der vorhergehenden Ansprüche, wobei mithilfe eines modellbasierten bestärkenden Lernverfahrens anhand der ausgewählten relevanten Parameter das Steuerver fahren ermittelt wird.

4. Verfahren nach einem der Ansprüche 1 oder 2, wobei mithil fe eines modellfreien bestärkenden Lernverfahrens anhand der ausgewählten Parameter das Steuerverfahren ermittelt wird.

5. Verfahren nach einem der vorhergehenden Ansprüche, wobei als Optimierungsverfahren ein Schwarm-Optimierungsverfahren verwendet wird. 6. Verfahren nach Anspruch 5, wobei als Schwarm-

Optimierungsverfahren ein Partikel-Schwarm- Optimierungsverfahren verwendet wird.

7. Recheneinheit, die ausgebildet ist, um ein Verfahren gemäß einem der vorhergehenden Ansprüche auszuführen.

8. Computerprogrammprodukt mit einem auf einem maschinenles baren Träger gespeicherten Programmcode zur Durchführung ei nes Verfahrens gemäß einem der Ansprüche 1 bis 6.

Description:
Beschreibung

Verfahren zum rechnergestützten Steuern eines technischen Systems, insbesondere einer Energieerzeugungsanlage

Die Erfindung betrifft ein Verfahren zum rechnergestützten Steuern eines technischen Systems, insbesondere einer Anlage zur Stromerzeugung.

Im Stand der Technik sind verschiedene Verfahren bekannt, um stromerzeugende Anlagen zu steuern. Insbesondere für eine ef fiziente Steuerung einer Anlage zur Stromerzeugung sind die Ermittlung eines optimalen Steuerungsverfahrens und die Ver wendung des optimalen Steuerungsverfahrens von Vorteil.

Die Aufgabe der Erfindung besteht darin, ein verbessertes Verfahren zum rechnergestützten Steuern eines technischen Systems bereitzustellen und zu verwenden.

Die Aufgabe wird durch die unabhängigen Patentansprüche ge löst. In den abhängigen Ansprüchen sind Weiterbildungen der Erfindung angegeben.

Ein Vorteil des beschriebenen Verfahrens besteht darin, dass eine verbesserte Steuerung des technischen Systems erreicht wird. Dies wird dadurch erreicht, dass anhand eines Betriebs datensatzes und anhand eines Systemmodells des technischen Systems mit einem insbesondere gradientenfreien Optimierungs verfahren ein Optimierungsdatensatz ermittelt wird. Mithilfe des Optimierungsverfahrens wird ein offenes Verfahren verwen det, um einen Optimierungsdatensatz zu ermitteln. Auf Basis des Optimierungsdatensatzes werden mithilfe eines Auswahlver fahrens relevante Parameter des technischen Systems ausge wählt, die eine vorteilhaftere Steuerung des technischen Sys tems ermöglichen als andere Parameter des technischen Sys tems . Mithilfe der ausgewählten relevanten Parameter wird ein Steu erverfahren für das technische System ermittelt. Das ermit telte Steuerverfahren wird zur Steuerung des technischen Sys tems verwendet. Unter dem Begriff steuern wird sowohl steuern als auch regeln verstanden. Durch das vorgeschlagene Verfah ren kann mit weniger Rechenaufwand ein optimiertes Steuerver fahren für das technische System ermittelt werden.

In einer Ausführungsform ist das verwendete Auswahlverfahren ein adaptives wechselseitiges Informations-Auswahlverfahren (adaptiv mutual Information feature selection, AMIFS) . Mit hilfe dieses Verfahrens können geeignetere relevante Parame ter für die Steuerung des technischen Systems ausgewählt wer den als mit anderen Auswahlverfahren. Somit wird durch die genauere Auswahl der relevanten Parameter eine weitere Ver besserung des Steuerverfahrens erreicht.

In einer weiteren Ausführungsform wird anhand der ausgewähl ten relevanten Parameter mithilfe eines modellbasierten be stärkenden Lernverfahrens das Steuerverfahren ermittelt. Da durch kann schnell und präzise ein optimiertes Steuerverfah ren für das technische System ermittelt werden.

In einer weiteren Ausführungsform wird mithilfe eines modell freien bestärkenden Lernverfahrens anhand der ausgewählten relevanten Parameter das Steuerverfahren ermittelt. Auch die Verwendung des modellfreien bestärkenden Lernverfahrens kann zur Ermittlung eines für das technische System optimierten Steuerverfahrens verwendet werden.

In einer Ausführungsform wird als Optimierungsverfahren ein Schwarm-Optimierungsverfahren verwendet. Dabei kann ein Par- tikel-Schwarm-Optimierungsverfahren verwendet werden, das sich gut für das beschriebene Verfahren eignet.

Die oben beschriebenen Eigenschaften, Merkmale und Vorteile dieser Erfindung sowie die Art und Weise, wie diese erreicht werden, werden klarer und deutlicher verständlich im Zusam- menhang mit der folgenden Beschreibung der Ausführungsbei spiele, die im Zusammenhang mit den Zeichnungen näher erläu tert werden, wobei

FIG 1 eine schematische Darstellung verschiedener Verfahren zur Ermittlung des Steuerverfahrens,

FIG 2 eine schematische Darstellung zur Ermittlung eines Sys temmodells auf Basis eines Betriebsdatensatzes,

FIG 3 eine schematische Darstellung eines ersten Verfahrens standes für ein Schwarm-Optimierungsverfahren,

FIG 4 eine schematische Darstellung eines zweiten Verfahrens standes für das Schwarm-Optimierungsverfahren, und

Fig. 5 einen schematischen Aufbau eines Systems zur Durchfüh rung des Verfahrens darstellt.

FIG 1 zeigt in einer schematischen Darstellung verschiedene Verfahren zur Erzeugung eines Steuerverfahrens für ein tech nisches System. Bei einem ersten Programmpunkt 1 wird ein vorgegebener Betriebsdatensatz zur Steuerung des technischen Systems bereitgestellt. Der Betriebsdatensatz wird beispiels weise experimentell ermittelt oder mit vorgegebenen Werten belegt. In einer einfachen Ausführungsform werden Zufallswer te für die Steuerung während der Erstellung des Betriebsda tensatzes beim ersten Programmpunkt 1 verwendet. Der Be triebsdatensatz wird vom ersten Programmpunkt 1 direkt an ei nen vierten Programmpunkt 4 übermittelt.

Bei einem zweiten Programmpunkt 2 wird anhand des Betriebsda tensatzes mithilfe eines Regressionstrainings mithilfe eines Maschinenlernverfahrens ein Systemmodell 3 für das technische System ermittelt.

Dabei kann beispielsweise ein neuronales Netz, insbesondere ein rekurrentes neuronales Netz, verwendet werden, um das Systemmodell 3 für das technische System, beispielsweise eine Anlage zur Stromerzeugung zu ermitteln. Die Anlage zur Strom erzeugung kann beispielsweise als Gasturbine oder als Wind turbine ausgebildet sein. Das ermittelte Systemmodell 3 wird an den vierten Programmpunkt 4 übermittelt.

Beim vierten Programmpunkt 4 wird unter Verwendung des Be triebsdatensatzes und des Systemmodells 3 mithilfe eines gradientenfreien Optimierungsverfahrens, insbesondere mithil fe eines Schwarm-Optimierungsverfahrens ein Steuerdatensatz 5 ermittelt. Der Steuerdatensatz 5 umfasst wenigstens für einen Zustand des Systems einen zugeordneten optimalen Wert für we nigstens einen Steuerparameter, insbesondere zugeordneten Werte für mehrere Steuerparameter. Vorzugsweise umfasst der Steuerdatensatz für eine Vielzahl von Zuständen des Systems die zugeordneten optimalen Werte von Steuerparametern. Somit beschreibt der Steuerdatensatz Werte für Steuerparameter zur Steuerung des technischen Systems insbesondere für verschie dene Zustände des technischen Systems, um ein gewünschtes op timales Verhalten des technischen Systems zu erreichen.

Der Steuerdatensatz 5 wird bei einem fünften Programmpunkt 6 verwendet, um relevante Steuerparameter mit einem Auswahlver fahren zu ermitteln. Das Auswahlverfahren beim fünften Pro grammpunkt 6 ist ausgebildet, um eine begrenzte Anzahl von relevanten technischen Parametern des technischen Systems auszuwählen, die eine bessere Steuerung des technischen Sys tems ermöglichen als andere technischen Parametern des tech nischen Systems.

Zur Auswahl der relevanten Parameter können verschiedene Ver fahren verwendet werden. Beispielsweise können Verfahren ver wendet werden, die auf Basis einer gegenseitigen Information (Mutual Information) in Bezug auf die Steuerparameter basie ren. Beispielsweise kann ein AMIFS-Verfahren verwendet wer den, um die festgelegte Anzahl von relevanteren Parametern aus den zur Verfügung stehenden Parametern des technischen Systems auszuwählen. Das AMIFS-Verfahren (Adaptive Feature Selection by Using Mutual Information) ist beispielsweise von Michel Tesmer und Pablo A. Estevez, in 2004 IEEE, 0-7803- 8359-1/04, Seite 303 bis Seite 308 beschrieben. Zudem können auch andere Auswahlverfahren zur Auswahl von der vorgegebenen Anzahl von relevanteren Parametern verwendet werden, wie bei spielsweise von Isabelle Guyon et al . in „An Introduction to Variable and Feature Selection", Journal of Machine Learning Research 3(2003) 1157-1182 beschrieben ist. Weiterhin kann auch ein MIFS oder ein MIFS-U-Verfahren zur Auswahl der vor gegebenen Anzahl von relevanteren Parametern verwendet wer den. Versuche haben jedoch gezeigt, dass das AMIFS-Verfahren sich besonders für die Auswahl der relevanteren Parameter bei technischen Systemen wie Anlagen zur Stromerzeugung eignet. Die Verfahren MIFS und MIFS-U sind beispielsweise von R.

Battiti in „Using Mutual Information for Selecting Features in Supervised Neural Net Learning", IEEE Transaction on

Neuronal Networks, Volume 5, Issue 4, Pages 537 to 550, July 1994 beschrieben.

Beim fünften Programmpunkt 6 wird eine Anzahl von relevanten Parametern 7 aus der Menge der zur Verfügung stehenden Para meter mithilfe eines der vorab beschriebenen Verfahren ermit telt. Mithilfe der ermittelten relevanten Parameter 7 wird bei einem sechsten Programmpunkt 8 mithilfe eines modellba sierten Lernverfahrens ein optimiertes Steuerverfahren mit verbesserten Werten für das technische System ermittelt. Da bei wird z.B. das beim zweiten Programmpunkt 2 ermittelte Systemmodell 3 als Modell für das modellbasierte Lernverfah ren verwendet.

Das Steuerverfahren kann in Form von Funktionen, Tabellen, Kennlinien usw. erstellt werden. Beispielsweise kann das Steuerverfahren als Datensatz ausgebildet sein, wobei der Da tensatz für mehrere Zustände des Systems jeweils einen Wert für einen Steuerparameter aufweist. Zudem kann das Steuerver fahren als Datensatz ausgebildet sein, wobei der Datensatz für jeweils einen Zustand des technischen Systems jeweils Werte für mehrere Steuerparameter des technischen Systems aufweist .

In einer weiteren Ausführungsform kann mithilfe der relevan ten Parameter 7 bei einem siebten Programmpunkt 9 und unter Berücksichtigung des beim ersten Programmpunkt 1 bereitge stellten Betriebsdatensatzes mithilfe eines modellfreien be stärkenden Lernverfahrens (model free reinforcement lear- ning) , insbesondere mit einem bestärkenden Maschinenlernver fahren ein weiteres optimiertes Steuerverfahren für das tech nische System ermittelt werden.

Das weitere Steuerverfahren kann in Form von Funktionen, Ta bellen, Kennlinien usw. erstellt sein. Beispielsweise kann das weitere Steuerverfahren als Datensatz ausgebildet sein, wobei der Datensatz für mehrere Zustände des Systems jeweils einen Wert für einen Steuerparameter aufweist. Zudem kann das weitere Steuerverfahren als Datensatz ausgebildet sein, wobei der Datensatz für jeweils einen Zustand des technischen Sys tems jeweils Werte für mehrere Steuerparameter des techni schen Systems aufweist.

Bei einem folgenden achten Programmpunkt 10 werden entweder das vom sechsten Programmpunkt 8 ermittelte Steuerverfahren oder das vom siebten Programmpunkt 9 ermittelte weitere Steu erverfahren für die Steuerung des technischen Systems von ei ner Steuereinheit verwendet.

FIG 2 zeigt in einer schematischen Darstellung ein mögliches Verfahren, mit dem beim zweiten Programmpunkt 2 aufgrund der vom ersten Programmpunkt 1 zur Verfügung gestellten Betriebs daten ein Systemmodell 3 für das technische System ermittelt wird .

Die Beschreibung des technischen Systems mithilfe eines Zu standsraums S, eines Aktionsraums A und einer stochastischen Übergangsfunktion P entspricht dem bekannten Markov- Entscheidungsprozess . Es wird davon ausgegangen, dass das technische System mit einem solchen Prozess beschrieben wer den kann. Für diesen Prozess existiert eine Belohnungsfunkti on c: S x A x S ^ R, wobei R den Raum der Belohnungen in Form von reellen Zahlen r t darstellt, welche das System für die Wahl einer Aktion a t im Zustand s t erhält, und wobei das Sys tem in den Zustand s t+i überführt wird.

Das beschriebene Verfahren ist auf jede Art von technischem System anwendbar, dessen dynamisches Verhalten sich durch ei nen Zustandsraum S und einen Aktionsraum A mit einer stochas tischen Übergangsfunktion P(s t , a t , s t+i ) beschreiben lässt. Hierbei sind s t , s t+i Zustände des technischen Systems zu den Zeitpunkten t beziehungsweise t+1. Zudem bezeichnet a t eine Steueraktion, die auf das technische System zum Zeitpunkt t einwirkt. Zudem bezeichnet a t+i eine Steueraktion, die auf das technische System zum Zeitpunkt t+1 einwirkt.

Jeder Zustand des technischen Systems wird durch eine Mehr zahl von Zustandsvariablen beziehungsweise Umgebungsvariablen charakterisiert. Die Umgebungsvariablen sind messbare Zu standsgrößen des technischen Systems, beispielsweise der Gas druck, die Gastemperatur, eine Brennkammerbeschleunigung und dergleichen für eine Gasturbine. In analoger Weise sind die Zustandsgrößen beispielsweise eine Windgeschwindigkeit, eine Drehzahl des Rotorblattes, eine Drehgeschwindigkeit des Ro torblattes, eine Beschleunigung des Rotorblattes und derglei chen bei einer Windanlage.

Die Aktionen a t sind Steuerparameter, d.h. Stellgrößen des technischen Systems zum Zeitpunkt t, die wiederum einen Ein fluss auf spätere Zustände des technischen Systems haben. Ein Zustand s t kann mehrere Zustandsvariablen aufweisen bzw.

durch mehrere Zustandsvariablen gekennzeichnet sein. Analog zum Zustand s t kann auch eine Aktion a t eine Mehrzahl von Ak tionsvariablen umfassen, und eine Aktion kann somit durch die Veränderung von mehreren Stellgrößen charakterisiert sein.

Ein Beispiel von einer an einem technischen System veränder baren Stellgröße ist die Einstellung von Ventilen in einer Gasturbine. Bei einer Windturbine kann es beispielsweise die Winkelposition der Rotorblätter oder die Ausrichtung des Ro tors an sich sein. Es können jedoch auch alle anderen Steuer parameter des technischen Systems, insbesondere der Windtur bine oder der Gasturbine als Aktionsvariable verwendet wer den. Oftmals sind die technischen Systeme auch so ausgelegt, dass sich der Zustandsraum und der Aktionsraum überschneiden, das heißt, dass eine Stellgröße im technischen System auch den Zustand des technischen Systems charakterisiert.

Es ist nunmehr das Ziel, eine optimale Regel für alle Aktio nen in einem vorgegebenen zukünftigen Zeitraum zu bestimmen, welche die erwartete kumulierte Belohnungsfunktion oder die durchschnittliche Belohnungsfunktion c für jeden Zustand des vorgegebenen Zeitraums maximiert. Das Maximieren der Beloh nungsfunktion c entspricht dabei einer möglichen Ausgestal tung einer Aktionsauswahlregel. Die Belohnungsfunktion wird insbesondere so festgelegt, dass sie erwünschte Eigenschaften des technischen Systems wiederspiegelt. Im einfachsten Fall könnte die Belohnungsfunktion beispielsweise für einen ge wünschten Zustand des technischen Systems oder für eine ge wünschte Abfolge von Zuständen des technischen Systems in dem festgelegten zukünftigen Zeitraum einen Maximalwert aufwei sen. Im Folgenden wird davon ausgegangen, dass das technische System durch einen Markov-Entscheidungsprozess mit diskreten Zeitschritten beschrieben wird, wobei die Zustandsräume S und A kontinuierlich sind.

FIG 2 zeigt eine schematische Darstellung eines Verfahrens zum Ermitteln eines Systemmodells für ein technisches System. Bei dem Verfahren gemäß FIG 2 ist in Form einer Tabelle 11 ein Betriebsdatensatz dargestellt, der gemäß dem ersten Pro grammpunkt 1 zur Verfügung gestellt wird. Der Betriebsdaten satz wurde z.B. für eine vorgegebene Zeitdauer am technischen System gemessen bzw. erfasst. Dabei sind mit s (t) die Zustän de des technischen Systems, mit a(t) die für den Zustand s (t) festgelegte Aktion und mit r(t) die für die Aktion a(t) beim Zustand s (t) erreichte Belohnung bezeichnet. Mit s(t+l) ist der Zustand dargestellt, der sich aus dem Zustand s (t) nach der Aktion a(t) einstellt.

Aufgrund des vorliegenden Betriebsdatensatzes wird das Sys ¬ temmodell 3 z.B. durch überwachtes Maschinenlernen so lange angepasst, bis die gemessenen Zustände und die mit dem Sys ¬ temmodell 3 berechneten Zustände möglichst übereinstimmen. Jede Aktion a t kann mehrere Aktionsvariablen xo, Xi, ..., Xi-i aufweisen. Die Aktionsvariablen stellen somit wenigstens eine oder mehrere Stellgrößen dar. In dem Verarbeitungsblock 12 wird nun auf den Zustand s t die Aktion a t bei einem ersten Verarbeitungsschritt 13 angewendet. Dabei wird ein Systemmo ¬ dell 3 verwendet. Beim ersten Verarbeitungsschritt 13 wird der sich dann einstellende nächste Zustand s t+i ermittelt. Zu ¬ dem wird für den Übergang zwischen dem Zustand s t und dem Zu ¬ stand S t+i eine Belohnung r t ermittelt. Die Belohnung r t wird an einen Summationsblock 14 weitergegeben.

Zudem wird bei einem zweiten Verarbeitungsschritt 15 auf den Zustand s t+i die Aktion a t+i angewendet. Dabei wird wieder das Systemmodell 3 verwendet. Im zweiten Verarbeitungsschritt 15 wird ein sich auf Basis des Zustandes s t+i und der Aktion a t+i sich einstellender Zustand s t +2 ermittelt. Zudem wird für den zweiten Verarbeitungsschritt 15 eine Belohnung r t+i ermittelt. Die Belohnung r t+i wird dem Summationsblock 14 zugeführt.

Es werden für eine festgelegte Anzahl von Zuständen s t+(T- n die entsprechenden Aktionen a t +2 bis a t +T-i mit entsprechenden Verarbeitungsschritten ausgeführt und die zugehörigen Beloh nungen r t +2 bis r t +T-i ermittelt und an den Summationsblock 14 weitergeleitet. Dabei wird jeweils das Systemmodell 3 verwen ¬ det .

Im Summationsblock 14 werden die Belohnungen r t , r t+i , ..., r t +T-i aufsummiert, wobei vorzugsweise ein Gewichtungsfaktor y k verwendet werden kann. Der Gewichtungsfaktor y k ist für k = 0 gleich 1 und nimmt mit der Größe von k ab . g kann Werte zwi ¬ schen 0 und 1 annehmen. Auf diese Weise wird erreicht, dass ferner in der Zukunft liegende Zustände, die unsicherer sind, einen geringeren Einfluss auf die Summe der Belohnungen ha ben. Die Summe der Belohnungen, die im Summationsblock 14 er mittelt wird, kann für eine Optimierung des Modells, das heißt für die Optimierung der Aktionen a t +k zu den jeweiligen Zuständen s t+ic verwendet werden. Dazu können in iterativen Schritten die einzelnen Aktionen a t verändert werden. Dadurch wird eine Trajektorie optimiert.

Im vierten Programmpunkt 4 der FIG 1 werden der Betriebsda tensatz vom ersten Programmpunkt 1 und das vom zweiten Pro grammpunkt 2 auf Basis des Betriebsdatensatzes ermittelte Systemmodell verarbeitet. Beim vierten Programmpunkt 4 wird auf Basis des Betriebsdatensatzes und des Systemmodells mit hilfe eines insbesondere gradientenfreien Optimierungsverfah rens, insbesondere mithilfe eines Schwarm-

Optimierungsverfahrens ein verbesserter Steuerdatensatz 5 er mittelt. Abhängig von der gewählten Ausführung kann ein Par- tikel-Schwarm-Optimierungsverfahren verwendet werden.

Ein Verfahren zur Ermittlung eines zweiten Steuerdatensatzes auf Basis des ersten Steuerdatensatzes unter Verwendung eines Schwarm-Optimierungsverfahrens ist z.B. aus WO 2015/043806 Al bekannt. Weiterhin ist ein Schwarm-Optimierungsverfahren aus "Reinforcement Learning with Particle Swarm Optimization Policy (PSO-P) in Continuous State and Action Spaces" von Da niel Hein et al . , Volume 7, Issue 3, July-September 2016, In ternational Journal of Swarm Intelligence Research, Seite 23 bis 42 bekannt.

FIG 3 zeigt eine schematische Darstellung eines Schwarm- Optimierungsverfahrens. Es ist eine zweite Tabelle 17 mit ei nem Betriebsdatensatz dargestellt, der z.B. am technischen System erfasst bzw. gemessen wurde. Dabei sind in einer Spal te die Zustände s (t) zum Zeitpunkt t, die Aktionen a(t) für den Zustand s (t) zum Zeitpunkt t, die daraus folgenden Zu stände s(t+l) zum Zeitpunkt t+1 und die Belohnungen r(t) dar gestellt. Abhängig von der gewählten Ausführungsform können die Belohnungen r(t) auch erst mithilfe dieses Verfahrens er mittelt werden.

Weiterhin ist ein zweiter Verarbeitungsblock 12, mit Verar beitungsschritten 13, 15, 16 und mit einem Summationsblock 14 vorgesehen. In den Verarbeitungsschritten 13, 15, 16 wird das bei FIG 2 ermittelte Systemmodell 3 eingesetzt, um aus einem gemessenen Zustand und den möglichen Aktionen sich ergebende Zustände und sich daraus ergebende Belohnungen zu berechnen. Zusätzlich wird eine Fitnessfunktion f st ( x) ermittelt, wobei ein Aktionsvektor x die Aktionen a t , a t+i bis a t+T-i aufweist.

Bei diesem Verfahren wird iterativ gemäß dem Schwarm- Optimierungsverfahren der Vektor x für die Zustandsvariablen verändert, bis ein Vektor x für die Zustandsvariablen ermit telt wird, der eine maximale Belohnungssumme für die festge legte Anzahl von Aktionen, das heißt eine maximale Fitness funktion f st (x) aufweist. Details zu dem beschrieben Verfah ren sind in dem Artikel "Reinforcement Learning with Particle Swarm Optimization Policy (PSO-P) in Continuous State and Ac tion Spaces", Daniel Hein et al . , International Journal of Swarm Intelligence Research, Volume 7, Issue 3, July- September 2016, Seite 23 bis 42 beschrieben.

Beispielsweise werden die Aktionssequenzen x entsprechend in einer dritten Tabelle 18 der Reihenfolge nach mit der zugehö rigen Fitnessfunktion f (x) aufgelistet.

FIG 4 zeigt das Verfahren gemäß FIG 3, wobei nach der Ermitt lung der besten Aktionssequenz x gemäß der dritten Tabelle 18 in einer vierten Tabelle 19 der Zustand s (t) und die zugehö rige Aktion a(t) der besten Aktionssequenz eingeschrieben werden .

Anschließend wird bei Festlegung der Aktion a(t) das Verfah ren gemäß FIG 3 erneut durchlaufen und dabei wieder eine Va riation der Aktionssequenz x durchgeführt, wobei die Aktion a(t) unverändert bleibt. Die sich aufgrund dieser Variation ergebende optimale Aktionssequenz x wird dazu verwendet, um die zweite optimale Aktion a(t+l) festzulegen und in die vierte Tabelle 19 einzuschreiben. Auf diese Weise wird eine vierte Tabelle 19 erstellt, in der für die Zustände s (t) bis s(t+T-l) optimierte Aktionen a(t) bis a(t+T-l) ermittelt wor den sind. Die vierte Tabelle 19 wird anschließend als zweiter Steuerdatensatz 5 an den fünften Programmpunkt 6 übergeben.

Der fünfte Programmpunkt 6 ermittelt auf Basis des zweiten Steuerdatensatzes 5 mithilfe eines Auswahlverfahrens eine festgelegte Anzahl von ausgewählten Parametern, die eine bes sere Steuerung des technischen Systems als die festgelegte Anzahl von anderen Parametern ermöglicht.

Bei dem Auswahlverfahren kann, wie bereits oben ausgeführt, eines von mehreren Verfahren verwendet werden. Beispielsweise können Verfahren mit einer gegenseitigen Information der Pa rameter zur Auswahl der Parameter verwendet werden, wie bei spielsweise von Jorge R. Vergara, Pablo A. Estevez, in "A Re view of Feature Selection Methods Based on Mutual Informati on", beschrieben wird. Vorzugsweise wird ein adaptives gegen seitige Information berücksichtigendes Auswahlverfahren

(AMIFS) verwendet, wie bereits beschrieben wurde.

Somit wird als Ergebnis des fünften Programmpunktes 6 eine vorgegebene Anzahl von relevanteren, das heißt wichtigeren Parametern des technischen Systems für eine optimierte Steue rung ermittelt.

Die relevanteren Parameter 7 werden anschließend entweder mithilfe eines modellbasierten Maschinenlernverfahrens gemäß der im siebten Programmpunkt 8 oder mithilfe eines modell freien Maschinenlernverfahrens gemäß dem achten Programmpunkt 9 verarbeitet, um ein Steuerverfahren zu ermitteln, das beim neunten Programmpunkt 10 zur Steuerung des technischen Sys tems verwendet wird. Beispielsweise kann eine Belohnungsfunktion (r t , r t+i , ...) ein Optimierungskriterium wie zum Beispiel möglichst geringe Emission an Schadstoffen bei Gasturbinen oder möglichst hohe Stromerzeugung bei Windkraftanlagen darstellen. Zudem können jedoch auch andere Optimierungskriterien bei der Ermittlung der Belohnungsfunktion berücksichtigt werden.

Für die Berechnung der gegenseitigen Information können für eine Gasturbine zum Beispiel folgende Parameter als Klassen verwendet werden: Umgebungsdruck, Umgebungstemperatur, Tempe ratur der Gasturbine, Abgastemperatur, Ventilstellungen usw. Für eine Windenergieanlage, das heißt für eine Windturbine, können beispielsweise folgende Parameter als Klassen verwen det: Drehzahl des Rotors, Leistung der Stromerzeugung, An stellwinkel der Rotorblätter, Ausrichtung des Rotors, Tages zeit, Luftdruck usw.

FIG 5 zeigt in einer schematischen Darstellung eine Rechen einheit 20, die über Steuerleitungen mit Aktoren 22 einer An lage zur Stromerzeugung 21 verbunden ist. Zudem ist die Re cheneinheit 20 über Sensorleitungen mit Sensoren 23 verbun den. Die Sensoren 23 sind ausgebildet, um Parameter, insbe sondere Betriebsparamater und Umgebungsparameter der Anlage zur Stromerzeugung 21 zu erfassen. Die Recheneinheit 20 ist ausgebildet, um die Anlage zur Stromerzeugung gemäß dem er mittelten Steuerverfahren gemäß dem neunten Programmpunkt 10 zu steuern beziehungsweise zu regeln.

Obwohl die Erfindung im Detail durch das bevorzugte Ausfüh rungsbeispiel näher illustriert und beschrieben wurde, so ist die Erfindung nicht durch die offenbarten Beispiele einge schränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen .