Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
CONTROL SYSTEM
Document Type and Number:
WIPO Patent Application WO/2010/121695
Kind Code:
A1
Abstract:
The invention relates to a control system (1) for a complex process, particularly for controlling a combustion process in a power plant, a waste incinerator plant, or a cement plant, having a control path (14) and at least one controller (36), wherein the control system (1) is divided hierarchically into various levels (10, 20, 30, 40), wherein the first level (10) represents the complex, real process to be controlled and is implemented by the control path (14), the second level (20) represents an interface to the process and is implemented by a process control system, the third level (30) represents the control of the process and is implemented by the at least one active controller (36), and the fourth level (40) represents a superordinate overview and is implemented by a main controller (44).

Inventors:
WINTRICH FRANZ (DE)
STEPHAN VOLKER (DE)
SCHAFFERNICHT ERICH (DE)
STEEGE FLORIAN (DE)
Application Number:
EP2010/001969
Publication Date:
October 28, 2010
Filing Date:
March 29, 2010
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
POWITEC INTELLIGENT TECH GMBH (DE)
WINTRICH FRANZ (DE)
STEPHAN VOLKER (DE)
SCHAFFERNICHT ERICH (DE)
STEEGE FLORIAN (DE)
International Classes:
G05B13/04; F23G5/50; F23N5/00; G05B13/02; G06N3/08
Foreign References:
DE3024275C21985-07-18
EP2048553A12009-04-15
US6404581B12002-06-11
EP1396770A12004-03-10
EP0554479A11993-08-11
DE102005010477A12006-09-07
EP0777881B11998-05-27
DE3024275C21985-07-18
EP1396770B12007-07-04
EP2048553A12009-04-15
Other References:
KHARE V R ET AL: "Co-evolutionary Modular Neural Networks for Automatic Problem Decomposition", EVOLUTIONARY COMPUTATION, 2005. THE 2005 IEEE CONGRESS ON EDINBURGH, SCOTLAND, UK 02-05 SEPT. 2005, PISCATAWAY, NJ, USA,IEEE LNKD- DOI:10.1109/CEC.2005.1555032, vol. 3, 2 September 2005 (2005-09-02), pages 2691 - 2698, XP010861726, ISBN: 978-0-7803-9363-9
RÖSCHEISEN M ET AL: "Neural control for rolling mills: Incorporating domain theories to overcome data deficiency", 19930101, 1 January 1993 (1993-01-01), pages 1 - 8, XP007914225, Retrieved from the Internet
Attorney, Agent or Firm:
HELD, THOMAS (DE)
Download PDF:
Claims:
Patentansprüche

1. Regelsystem für einen komplexen Prozess, insbesondere zur Regelung eines Verbrennungsprozesses in einem Kraftwerk, einer Müllverbrennungsanlage oder einem Zementwerk, mit einer Regelstrecke (14) und wenigstens einem Regler (36), dadurch gekennzeichnet, dass das Regelsystem (1) hierarchisch in verschiedene Ebenen (10, 20, 30, 40) aufgeteilt ist, wobei die erste Ebene (10) den zu regelnden, komplexen, realen Prozess. repräsentiert und durch die Regelstrecke (14) verwirklicht wird, die zweite Ebene (20) ein Interface zum Prozess repräsentiert und durch ein Prozessleitsystem realisiert wird, die dritte Ebene (30) die Regelung des Prozesses repräsentiert und durch den wenigstens einen, aktiven Regler (36) realisiert wird, und die vierte Ebene (40) eine übergeordnete Aufsicht repräsentiert und durch einen Hauptregler (44) realisiert wird.

2. Regelsystem nach Anspruch 1, dadurch gekennzeichnet, dass der aktive Regler (36) auf einem rekurrenten neuronalen Netzwerk beruht.

3. Regelsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein Merkmalsextraktor (28) vorgesehen ist, der eine Bildverarbeitung der Regelstrecke (14) vornimmt und daraus Merkmale (x) ermittelt.

4. Regelsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der aktive Regler (36) die Regelabweichung (e) zwischen Istwert (y) der Regelstrecke (14) und Sollwert (w) zur Ermittlung der Stellgröße (u) verwendet.

5. Regelsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Hauptregler (44) die Regelstrecke (14) simulierende Simulatoren (Si, S2, .... Sn) trainiert, eine Menge von Reglern ((Ci, C36)) entwickelt und an den Simulatoren (Si, S2, .... Sn) testet, um den besten Regler (Ci) aufzufinden und mit dem aktiven Regler (36) zu vergleichen und gegebenenfalls zu ersetzen.

6. Regelsystem nach Anspruch 5, dadurch gekennzeichnet, dass die Menge von Reglern ((C, C36)) auch Regler (C36) enthält, die früher aktive Regler (36) waren.

7. Regelsystem nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass der Hauptregler (44) die einzelnen Simulatoren (Si, S2, .... Sn) evolutionär mittels eines rekurrenten neuronalen Netzwerkes trainiert, indem die Abweichung der Prognose (y1) für den Istwert (y) vom realen Istwert (y) eine Fitness definiert, die jeweils zu optimieren ist.

8. Regelsystem nach einem der Ansprüche 5 bis 7, dadurch gekennzeichnet, dass der Hauptregler (44) die Menge von Reglern ({C„ C36)) an den Simulatoren (Si, S2, .... Sn) testet, wobei derjenige Regler (C1, C36) gesucht wird, der im Mittel über alle verwendeten Simulatoren (Si, S2, .... Sn) deren Prognosen (y1) im Zeitverlauf am besten mit den Verläufen der Sollwerte (w) in Übereinstimmung bringt.

9. Regelsystem nach Anspruch 8, dadurch gekennzeichnet, dass die Fitness eines Regler (C1, C36) aus der Menge von Reglern ({C„ C36)) sich aus den simulierten Regelabweichungen (e) des Reglers (C, C36) in geschlossenen Regelkreisen an allen Simulatoren (Si, S2, .... Sn) ergibt.

10. Regelsystem nach einem der Ansprüche 5 bis 9, dadurch gekennzeichnet, dass die Regler (C36), die früher aktive Regler (36) waren, von den evolutionären Suchstrategien für neue Regler (C1) in der Menge von Reglern ((C1, C36)) ausgenommen sind.

11. Regelsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Hauptregler (44) in bestimmten Zyklen die Simulatoren (Si, S2, .... Sn) trainiert und daran die Menge von Reglern ((C1, C36)) testet.

12. Regelsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Regelung in der dritten Ebene (30) unter mehrere aktive Regler (36, 36', 36", 36'", 36"") in Teilbereiche aufgeteilt ist, welchen Teilprozesse des komplexen Prozesses zugeordnet sind.

13. Regelsystem nach Anspruch 12, dadurch gekennzeichnet, dass die Aufteilung der Regelung unter den mehreren aktiven Reglern (36, 36', 36", 36'", 36"") sich dynamisch ändert mittels einer automatischen Problemdekomposition.

14. Regelsystem nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass im Datenraum (I; II) der Zustände der Regelstrecke (14) in nicht oder schwach besetzten Regionen künstliche Datenpunkte eingefügt sind.

15. Regelsystem nach Anspruch 14, dadurch gekennzeichnet, dass auch in Regionen nicht getesteter Stellaktionen im Datenraum-Gebiet (I) mit bekannten Prozesssituationen und/oder in Datenraum-Gebieten (II) mit gänzlich unbekannten Prozesssituationen künstliche Datenpunkte eingefügt sind.

Description:
Regelsystem

Die Erfindung betrifft ein Regelsystem mit den Merkmalen des Oberbegriffs des Anspruches 1.

Komplexe Realwelt-Prozesse zeichnen sich durch verschiedene Eigenschaften aus, die eine Regelung bzw. Optimierung erschweren. Die Prozesse sind zunächst allein durch die Anzahl der verfügbaren Mess-, Regel- und Stellgrößen sehr komplex. Darüber hinaus sind diese Prozesse meist zeitvariant, d.h., aufgrund externer und interner Einflüsse (Jahreszeiten, Materialqualitäten, Betriebszustände) entstehen zeitlich wechselnde Zusammenhänge in den Prozessdaten. Ein Regelsystem muss daher adaptiv sein und ständig angepasst werden.

Bei einem aus der EP 1 396 770 Bl bekannten Regelsystem werden im Hintergrund Prozessmodelle der Regelstrecke (Simulatoren) entwickelt und dabei trainiert. Sofern das beste neue Prozessmodell eine höherer Genauigkeit der Prognosen als das im aktiven Regler eingesetzte Prozessmodell liefert, wird letzteres durch das beste neue Prozessmodell ersetzt, wodurch ein neuer aktiver Regler entsteht. Das bisher eingesetzte und die anderen neuen Prozessmodelle werden verworfen.

Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Regelsystem der eingangs genannten Art zu verbessern. Diese Aufgabe wird durch ein Regelsystem mit den Merkmalen des Anspruches 1 gelöst. Weitere vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche. Ausgangspunkt ist der komplexe, also durch verschiedenste Wechselwirkungen äußerst nicht-triviale Zusammenhang zwischen Ursache und Wirkung im Prozess. Die hierarchische Aufteilung des Regelsystems in verschiedene Ebenen erlaubt ein besseres Verständnis des Prozesses und eine optimierte Adaption des Regelsystems an den aktuelle Zustand des Prozesses.

Zum Einen können dadurch aktive Regler schneller adaptiert werden, indem der Hauptregler im Hintergrund verschiedene Regler prüft und dabei früher aktive Regler berücksichtigt. Damit wird vermieden, dass durch ein langes Nachtraining des aktiven Reglers dieser erst zur Verfügung steht, wenn er schon nicht mehr wegen einer Änderung des Prozesses genutzt werden kann. Für die Regelung wird vorzugsweise ein rekurrentes neuronales Netzwerk (bzw. mehrere miteinander verknüpfte Netzwerke) verwendet, welches mittels eines evolutionären Ansatzes trainiert wird, der als Optimierungskriterium die mittlere Regelabweichung minimiert.

Bei einer entsprechenden Betriebsdauer des Regelsystems liegen ausreichend viele Daten vor, um ausreichend gute Simulatoren zu schaffen, welche die Regelstrecke mit unterschiedlich konfigurierten Prozessmodelle simulieren. Mit dem Einsatz von Simulatoren kann eine Menge von alten und neuen Reglern getestet werden, bevor ein Einsatz an der Regelstrecke erfolgt. Eine Störung des laufenden Betriebs des Regelkreises wird dadurch vermieden. Die Verwendung mehrerer Simulatoren reduziert Fehler und Abweichungen vom realen Verhalten der Regelstrecke und berücksichtigt unterschiedliche Situationen besser. Ein entsprechend entwickelter Regler beruht somit auf mehreren Prozessmodellen. Es wird vorzugsweise derjenige Regler gesucht, mit dem die Sollwerte am besten zu erreichen sind. Die Beibehaltung früher aktiver Regler erleichtert bei einer Wiederkehr bestimmter Zustände und Zeitverläufe die Entwicklung des besten Reglers. Zudem werden Rechenzeiten und -leistungen gespart. Das Training der Simulatoren und die Entwicklung eine Menge von Reglern wird von einem Hauptregler vorgenommen und überwacht, vorzugsweise in bestimmten Zyklen, die auf die Dynamik der Regelstrecke abgestimmt sind. Optimierungen des Regelkreises sind durch zusätzliche Informationen, insbe- sondere Bildverarbeitung, möglich und gehen beispielsweise in die Simulatoren und/oder in die Entwicklung der Regler und/oder in die Sollwerte ein.

Zum Zweiten kann die Regelung unter verschiedene aktive Regler aufgeteilt werden, welchen Teilprozesse des komplexen Prozesses zugeordnet sind. Die Aufteilung der Regelung ändert sich vorzugsweise dynamisch mittels einer automatischen Problemdekomposition. Der Hauptregler analysiert den Datenraum des Prozesses und bildet Regler für Teilbereiche, die in sich stärkere Zusammenhänge zeigen.

Zum Dritten können, wenn bei geringen Prozesserfahrungen schwach oder gar nicht vertretene Regionen im Datenraum auftreten, diese Regionen mit künstlichen Datenpunkten gefüllt oder abgegrenzt werden.

Die Erfindung kann bei verschiedenen stationären thermodynamischen Anlagen, insbesondere Kraftwerken, Müllverbrennungsanlagen und Zementwerken, eingesetzt werden. Ein Einsatz des erfindungsgemäßen Regelsystems ist auch in anderen technischen Gebieten denkbar. So die Erfindung nicht auf thermische Prozesse beschränkt, sondern kann auch allgemein in der mechanischen oder chemischen Verfahrenstechnik angewendet werden, beispielsweise in Raffinerien oder Spaltöfen. Prinzipiell kann auch bei fehlender oder abgeschalteter Rückkopplung der enthaltenen Regelkreis der verbliebene Teil des Regelsystems für eine Systemidentifikation und Systembeschreibung eingesetzt werden, d.h. zur Informationsgewinnung.

Im folgenden ist die Erfindung anhand eines in der Zeichnung dargestellten Ausführungsbeispiels näher erläutert. Es zeigen

Fig. 1 eine schematische Darstellung des hierarchischen Aufbaus des Regelsystems,

Fig. 2 eine schematische Darstellung des Regelsystems während des Trainings der Simulatoren, Fig. 3 eine schematische Darstellung des Regelsystems während der Entwicklung der Menge von Reglern,

Fig. 4 eine schematische Darstellung der Aufteilung der Teilbereiche der Regelung,

Fig. 5 A eine schematische Darstellung der Mutual-Information basierten Problemzerlegung bei der Berechnung der gegenseitige Informationsgehalte (mutual information),

Fig. 5B eine schematische Darstellung der Mutual-Information basierten Problemzerlegung bei der Problemdekomposition,

Fig. 6 eine schematische Darstellung der Dynamik-orientierte Problemzerlegung,

Fig. 7 eine schematische Darstellung der Co-Evolutionäre bottom-up-Struktursu- che,

Fig. 8 eine schematische Darstellung der Problemdekomposition durch Netzwerk- pruning,

Fig. 9 eine schematische Darstellung des unvollständigen Datenraums, und

Fig. 10 eine schematische Darstellung des Datenraums mit künstlichen Datenpunkten.

Ein lernfähiges, selbstorganisierendes, hierarchisches Regelsystem 1 zur Führung und Optimierung komplexer Prozesse ist in vier verschiedene Ebenen aufgeteilt (Fig. 1), um die komplexen Zusammenhänge von Ursache und Wirkung auf den verschiedenen Zeitskalen wenigstens näherungsweise zu beherrschen. Die erste Ebene 10 repräsentiert den zu regelnden, komplexen, realen Prozess und wird durch eine Regelstrecke 14 verwirklicht. Die Regelstrecke 14 umfasst vorzugsweise einen Ofen (oder ein Rost) eines Kohle-, Öl- oder Gaskraftwerks, einer Müllverbrennungsanlage oder eines Zementwerks, dessen zu regelnder Verbrennungs- prozess als komplexer Prozess geführt und optimiert werden soll. Die Regelstrecke 14 umfasst auch die zugehörigen Stellvorrichtungen, insbesondere für die Zufuhr von Brennstoff oder anderem umzusetzenden Material, beispielsweise Kohle, Öl, Gas, Müll, Kalk oder dergleichen, sowie von Primärluft (bzw. -Sauerstoff) und Sekundärluft (bzw. -Sauerstoff). Die Regelstrecke 14 umfasst ferner verschiedene Messvorrichtungen, beispielsweise für Emissionsparameter und die Zufuhrraten der Stellvorrichtungen. Wenigstens eine zusätzliche Beobachtungsvorrichtung erfasst laufend bildlich den Verbrennungsprozess in der Regelstrecke 14, insbesondere den Flammenkörper. Die B eobachtungs Vorrichtung umfasst neben einem die Wand des Ofens durchdringenden optischen Zugang, wie beispielsweise einer Lanze oder einer in der EP 1 621 813 Al (deren diesbezüglicher Offenbarungsgehalt ausdrücklich einbezogen wird) offenbarten Vorrichtung, noch eine Kamera oder dergleichen, welche im optischen Bereich oder benachbarten Bereichen elektromagnetischer Wellen arbeitet. Bevorzugt wird eine zeitlich, örtlich und spektral hochauflösende Kamera, wie sie beispielsweise in der WO 02/070953 Al beschrieben ist, deren diesbezüglicher Offenbarungsgehalt ausdrücklich einbezogen wird.

Die zweite Ebene 20 repräsentiert ein Interface zum Prozess und wird durch ein Prozessleitsystem realisiert. Sie steuert die Stellvorrichtungen mittels der (vektoriel- len) Stellgröße u an und fragt die Informationen der verschiedenen Messvorrichtungen und der wenigstens einen zusätzlichen Beobachtungsvorrichtung ab. Die Messungen der verschiedenen Messvorrichtungen liefern den (vektoriellen) Istwert y, welcher (zeitabhängig) den aktuellen Zustand der Regelstrecke 14 beschreibt (d.h. die Zustandsvariablen). Die Daten der zusätzlichen B eobachtungs Vorrichtung, also die Bilder des Flammenkörpers und der eventuellen Emissionen der Wände des Ofens werden in einem Merkmalsextraktor 28 mittels Bildverarbeitung ausgewertet, beispielsweise nach einem Eigenwert- Verfahren, das in der WO 2004/018940 Al beschrieben ist, deren diesbezüglicher Offenbarungsgehalt ausdrücklich einbezogen wird, und/oder mittels eines Informationsmaßes, wie in der EP 1 967 792 Al beschrieben ist, deren diesbezüglicher Offenbarungsgehalt ebenfalls ausdrücklich einbezogen wird. Der Merkmalsextraktor 28 liefert dann die daraus ermittelten Merkmale x (vektoriell zusammengefasst). Die durch das Prozessleitsystem realisierte zweite Ebene 20 stellt den Istwert y und die Merkmale x der dritten Ebene 30 bereit und empfängt die Stellgröße u.

Die dritte Ebene 30 repräsentiert die Führung bzw. Regelung verschiedener Zielgrößen des Prozesses. Aufgrund der Komplexität des Prozesses ist jedoch eine monolithische MIMO-Regelung technisch und praktisch nicht möglich. Aus diesem Grunde wird die dritte Ebene vorzugsweise - im Unterschied zu einem monolithischen Regler - in mehrere kleinere besser realisierbare Funktionseinheiten aufgeteilt, die Teilbereichen der Regelung definieren und jeweils durch ein separates System von Reglern {36, C 36 , C 1 ) realisiert werden, bestehend aus einem aktiven Regler 36 und gegebenenfalls weiteren, inaktiven Reglern in einem Depot. Vorzugsweise sind die Regler als rekurrente neuronale Netzwerke implementiert, da der Istwert y, die Merkmale x und die Stellgröße u hinsichtlich Ursache und Wirkung komplex miteinander verknüpft sind. Jeder aktive Regler 36 vergleicht - für seinen Bereich - den Istwert y mit einem (vektoriellen) Sollwert w, welcher den gewünschten Zustand der Regelstrecke 4 beschreibt. Aus der Regelabweichung e, also der (vektorielle) Differenz des Istwertes y vom Sollwert w, und vorzugsweise weiteren Informationen ermittelt der aktive Regler 36 die (vektorielle) Stellgröße u. Der aktive Regler 36 kann außer auf diese Sollwerte w alternativ auf einen stabilen Prozess (d.h. einen ruhigen, quasistationären Betrieb der Regelstrecke 14) hin regeln oder auf eine Kombination. Die mit der Stellgröße u vorzunehmenden Stelleingriffe sowie etwaige Störungen können gemeinsam als Aktionen (gewollte und ungewollte Aktionen) behandelt werden, mit welcher die zweite Ebene 20 auf die Regelstrecke 14 einwirkt Die aktiven Regler 36 arbeiten adaptiv, d.h., sie nutzen jeweils aktuelle Daten x, y, um ihre Strategie den aktuellen Prozessgegebenheiten anzupassen. Mit der Umsetzung dieser dritten Ebene 30 ist es möglich, den Prozess entsprechend der Zielvorgaben zu fuhren, wobei die Adaptivität dafür sorgt, dass sich die aktiven Regler 36 den aktuellen Randbedingungen des Prozesses durch ein Nachtraining an- passen können. Ein Regelkreis wird durch den aktiven Regler 36 in der dritten Ebene 30, das Prozessleitsystem in der zweiten Ebene 20 und die Regelstrecke 14 in der ersten Ebene 10 definiert.

Die vierte Ebene 40, welche vorliegend durch einen Hauptregler 44 realisiert wird, repräsentiert eine übergeordnete Aufsicht, welche durch Beobachtung der darunter liegenden Ebenen 20 und 30 verschiedene Aktionen auslöst. Dabei arbeiten die Ebenen 10, 20, 30, also die eigentliche Regelung, auch ohne einen Eingriff der vierten Ebene 40, aber nicht optimal. Beispielsweise werden vom der vierten Ebene 40 die Güte ("Fitness") der aktiven Regler 36 und auch die Prozesseigenschaften dauerhaft beobachtet. Bei entsprechend großen Abweichungen oder Veränderungen werden Kopien der aktiven Regler 36 erzeugt und in dem Depot der inaktiven Regler verwahrt. Die im Depot verbleibenden Kopien werden nicht weiter adaptiert und stehen zur späteren erneuten Anwendung zur Verfügung. Die aktiven Regler 36 werden jedoch im Zuge der Adaptivität permanent weiter den aktuellen Prozessgegebenheiten angepasst. Auf diese Weise füllt sich das Depot mit verschiedenen inaktiven Regler, die jeweils für unterschiedliche Prozesssituationen geeignet sind. Die vierte Ebene 40 prüft nun durch Analyse der aktuellen Prozesseigenschaften oder durch Offlinetests in einem geeigneten Takt, ob nicht im Depot ein Regler bereit liegt, der für den aktuellen Prozesszustand besser geeignet wäre als der aktuell arbeitende, aktive Regler 36. Ist dies der Fall, wird dieser bislang inaktive Regler aktiviert und genutzt und der bislang aktive Regler 36 wird inaktiv und im Depot eingelagert. Auf diese Weise kann sich das Regelsystem 1 ein Gedächtnis verschiedener Zustände (der Regelstrecke 14) mit den zugehörigen Reglerstrategien anlegen und jederzeit abrufen. Somit ist man nicht auf die begrenzte Geschwindigkeit der Adaptivität angewiesen und kann deutlich schneller auf Wechsel im Prozess reagieren.

Neben der Prüfung der Eignung von Reglern ist es eine weitere Aufgabe der vierten Ebene 40, durch Prozessbeobachtung geeignete Parameter für die Regler der dritten Ebene 30 zu finden und zu aktivieren. Das dazu erforderliche Prozesswissen wird einerseits in Form von bekanntem Expertenwissen ursprünglich eingebracht und andererseits durch eigene aktive Prozesserfahrungen ergänzt. Mit zunehmender Dauer des Prozesses wächst die Prozesserfahrung an und dominiert schließlich das Prozesswissen. Mit Hilfe des Prozesswissens kann die vierte Ebene 40 nun zum Beispiel geeignete Sollwerte oder Arbeitsbereiche der Regler in der dritten Ebene 30 definieren und den Prozess so führen, wie es nach dem vorliegenden Prozesswissen am besten funktioniert. Letztendlich definieren der Hauptregler 44 in der vierten Ebene 40, die aktiven Regler 36 in der dritten Ebene 30, das Prozessleitsystem in der zweiten Ebene 20 und die Regelstrecke 14 in der ersten Ebene 10 einen komplexen Regelkreis, d.h. mehrere miteinander gekoppelte Regelkreise.

Im folgenden sind nun Teilaspekte des Regelsystems 1 genauer beschrieben.

Ein Teilaspekt ist die Prüfung von Reglern, welche nun anhand eines Teilbereichs mit einem Regler 36 erläutert werden soll. Der Hauptregler 44 verwaltet nicht nur das Depot mit den Reglern, sondern auch mehrere Simulatoren Si, S 2 , .... S n , die jeweils ein (Prozess-)Modell der Regelstrecke 14 darstellen und diese simulieren. Die Simulatoren Si, S 2 , .... S n beruhen auf - insbesondere in Hinblick auf unterschiedliche Situationen - unterschiedlich konfigurierten Modellen für den (Verbrennungs-) Prozess der Regelstrecke 14. Die Simulatoren Si, S 2 , .... S n sind vorzugsweise als rekurrente neuronale Netzwerke implementiert. Es ist jederzeit möglich, weitere Simulatoren Si hinzuzufügen oder zu entfernen. Ganz am Anfang, wenn noch keine Prozesserfahrungen vorhanden sind, verwaltet der Hauptregler 44 nur wenige Simulatoren Si, S 2 , .... S n vorhanden, beispielsweise ein einziger Simulator Si, welche allein auf dem Expertenwissen als einzigem Prozesswissen beruhen. Mit zunehmender Prozesserfahrung erstellt der Hauptregler 44 dann vorzugsweise weitere Simulatoren Si, S 2 , .... S n .

Der Hauptregler 44 trainiert zunächst (Fig. 2) die einzelnen Simulatoren Si, S 2 , .... S n evolutionär, indem die Abweichung der Prognose y 1 für den Istwert y vom realen Istwert y eine "Fitness" definiert, die jeweils zu optimieren ist. Die Simulatoren Si, S 2 , .... S n erhalten dabei außer dem realen Istwert y auch die weiteren Merkmale x. Bei diesem evolutionären Ansatz werden Simulatoren Si, S 2 , .... S n , die nur eine geringe Fitness erreichen, vom Hauptregler 44 wieder verworfen. Sind alle Simulato- ren Si, S 2 , .... S n ausreichend trainiert, können sie das Verhalten der Regelstrecke 14 für unterschiedliche Verläufe der Stellgrößen u approximieren. Aufgrund der unterschiedlichen Konfiguration ist davon auszugehen, dass nicht alle Simulatoren Si, S 2 , .... S n die gleichen Fehler machen, sondern dass die Gesamtheit der Simulatoren Si, S 2 , .... S n ein besseres Modell der Regelstrecke 14 darstellt als jeder einzelne Simulator S 1 .

Der Hauptregler 44 entwickelt nun (Fig. 3) eine Menge von (inaktiven) Reglern {C„ C 3 ό}, bestehend aus neuen Reglern C 1 , welche evolutionären Suchstrategien unterworfen werden (also vom Hauptregler 44 erstellte und bei zu geringer Fitness wieder von ihm verworfene Elemente dieser Menge), und aus allen Reglern C 36 , die früher aktive Regler 36 waren und die von den evolutionären Suchstrategien für neue Regler C 1 ausgenommen sind. Ganz am Anfang, wenn noch keine Prozesserfahrungen vorhanden sind, oder wenn die Aufteilung der Regelung zwischen den aktiven Reglern 36, 36', 36", 36'", 36"" geändert worden ist, wird es noch keine solchen Regler C36 geben, die früher aktive Regler 36 waren. Der Hauptregler 10 testet die Menge von Reglern {C„ C 36 ) an den Simulatoren Si, S 2 , .... S n . Es wird derjenige Regler C 1 oder C 36 gesucht, der im Mittel über alle verwendeten Simulatoren Si, S 2 , .... S n deren Prognosen y' im Zeitverlauf am besten mit den Verläufen der Sollwerte w in Übereinstimmung bringt (d.h derjenige Regler, mit dem die Sollwerte w am besten zu erreichen sind). Die "Fitness" eines solchen Reglers C 1 oder C 36 ergibt sich daher aus den (simulierten) Regelabweichungen e des Reglers C 1 oder C 36 in geschlossenen Regelkreisen an allen Simulatoren Si, S 2 , .... S n . Auch hierbei werden die Merkmale x berücksichtigt. Der so aufgefundene Regler C 1 oder C 3 6 sei als bester Regler Ci bezeichnet. Da die verschiedenen Simulatoren Si, S 2 , .... S n . auf verschiedenen Prozessmodellen beruhen und der beste Regler Ci im Mittel über alle verwendeten , Simulatoren Si, S 2 , .... S n aufgefunden wurde, enthält der beste Regler Ci Eigenschaften verschiedener Prozessmodelle.

Der beste (inaktive) Regler Ci wird nun vom Hauptregler 44 mit dem in der dritten Ebene 30 aktiven Regler 36 verglichen, beispielsweise hinsichtlich der mittleren Regelabweichung e. Je nach zeitlicher Entwicklung des Zustandes der Regelstrecke 14 (d.h. je nach Prozesssituation und Prozesshistorie) kann es sein, dass der beste Regler Ci auch besser als der aktive Regler 36 ist. Der Hauptregler 44 ersetzt dann den aktiven Regler 36 durch den besten Regler Ci. Der bisherige aktive Regler 36 kehrt in die Menge von inaktiven Reglern (C 1 , C 36 ) zurück. Sofern irgendwann wieder ein Zustand der Regelstrecke 14 erreicht wird, für den dieser früher aktive Regler C 36 bereits gut war, wird er auch im Test an den Simulatoren Si, S 2 , .... S n eine sehr hohe "Fitness" erhalten und wieder zum aktiven Regler 36 werden.

Der Hauptregler 44 nimmt das Training (Fig. 2) der Simulatoren Si, S 2 , .... S n und das Testen (Fig. 3) der Menge von Reglern {C„ C 36 ) in bestimmten Zyklen mit dem jeweils aktuellen Istwert y (und den aktuellen Merkmalen x) vor, beispielsweise alle acht Stunden, um einen an die mittelfristigen zeitlichen Änderungen des Zustandes der Regelstrecke 14 angepassten aktiven Regler 36 zu erhalten. Demgegenüber haben Regelsystemen mit nur einem (aktiven) Regler den Nachteil, dass bei einer größeren Änderung des Prozesses das Nachtraining des Reglers zu zeitintensiv wird.

Ein weiterer Teilaspekt ist die Definition der Teilbereiche der Regelung und Aufteilung unter den aktiven Reglern 36, 36', 36", 36'", 36"". Die Teilbereiche der Regelung sind kleineren und einfacher regelbaren und modellierbaren Teilprozessen des komplexen Prozesses zugeordnet (Fig. 4). Die Aufteilung ist vorzugsweise nicht statisch, sondern ändert sich dynamisch mittels einer automatischen Problemdekompo- sition (APD). Hierzu analysiert das lernfähige, selbstorganisierende System zur automatischen Problemdekomposition (auf dem Hauptregler 44) die Problemstruktur des komplexen hochdimensionalen Prozesses automatisch und entwirft eine geeignete Struktur von Reglern 36, 36', 36", 36'", 36"". Im Gegensatz zum monolithischen Regler zeichnet sich dieses Konzept durch eine höhere Transparenz und Leistungsfähigkeit aus und ist schneller erlern- und adaptierbar. Diese Strukturierung des Prozesses erfolgt anhand der vorliegenden möglichst umfangreichen und informativen Prozessdaten aus einer Datenbank parallel mittels wenigstens eines, vorzugsweise aller fünf nachfolgend beschriebener Verfahren. Bei der Mutual -Information basierten Problemzerlegung (Fig. 5A, Fig. 5B)wird ähnlich wie beim oben genannten Merkmalsextraktor 28 und in der EP 1 967 792 Al beschrieben vorgegangen. Zunächst werden zwischen allen im Datensatz verfügbaren Kanälen (x, y, u ....) paarweise der gegenseitige Informationsgehalte (mutual information) berechnet. Die dabei entstehenden Werte dienen als Kantengewichte in einem voll verschalteten Graphen, bei dem jedem Kanal ein Knoten A, B, C, D, E, F, G, H zugeordnet wird (Fig. 5A). In einem anschließenden Relaxationsprozess üben diese Kantengewichte je nach Stärke Anziehungs- bzw. Abstoßungskräfte zwischen den Knoten A, B, C, D, E, F, G, H aus, so dass sich diese in einem entsprechend hochdimensionalen Raum frei verschieben können. Das Ergebnis dieses Relaxationsprozesses wird nun als Problemdekomposition interpretiert, wobei die aus voneinander abhängigen Knoten gebildeten Cluster A 5 E 5 F sowie C 5 D 5 G 5 H und B jeweils einem Teilproblem entsprechen (Fig. 5B).

Bei der Dynamik-orientierte Problemzerlegung (Fig. 6) wird der Umstand genutzt, dass in strukturierten komplexen realen Prozessen nicht alle Teilprozesse auf der gleichen Zeitskala ablaufen. Dazu werden zunächst alle Signale (der Kanäle A 5 B 5 C, D, E, F) aus dem Zeitraum in den Frequenzraum transformiert und anschließend anhand ihrer Spektren in verschiedene Teilprobleme eingeteilt, so dass Kanäle mit ähnlicher Dynamik jeweils zu einem Teilsystem A 5 C sowie B 5 E und D 5 F gruppiert werden.

Bei der Co-Evolutionäre bottom-up-Struktursuche (Fig. 7) wird, im Gegensatz zu den vorherigen Verfahren, durch Kombination zahlreicher kleiner Funktionseinheiten das komplexe Gesamtsystem modelliert. Dazu werden Co-evolutionäre Algorithmen eingesetzt, die anhand des Abbildungsfehlers vordefϊnierter Zielkanäle eine geeignete Kombination der Teilsysteme erzeugen. Die somit gefundene Modellstruktur entspricht der Problemdekomposition. In Fig. 7 ist beispielhaft von unten nach oben die Eingabeschicht L 1 , zwei verdeckten Schichten L 2 mit einfachen lernfähigen Approximatoren und die Ausgabeschicht L 3 dargestellt. Die verdeckten Schichten L 2 können in anderer Anzahl vorhanden sein. Bei der Problemdekomposition durch Rewarddekomposition werden werden zunächst hypothetische Problemzerlegungen konstruiert. Anschließend wird ein Verfahren zur automatischen Rewarddekomposition zur Lösung des Credit Assignment Problemes genutzt, um die Güte der hypothetischen Problemzerlegung zu bewerten. Diese Bewertung wird anschließend von einem stochastischen Suchverfahren genutzt, um die optimale Problemzerlegungen zu finden.

Schließlich schließlich modelliert die Problemdekomposition durch Netzwerkpru- ning (Fig. 8) zunächst den komplexen Prozess mittels geeigneter adaptiver Funkti- onsapproximatoren, wie z.B. Neuronaler Netzwerke, ähnlich wie in der EP 2 080 953 Al beschrieben. Durch Analyse der internen Modellstruktur (Stärke der Gewichtung symbolisiert durch Strichstärke) kann anschließend auf die zu Grunde liegende Problemstruktur des Prozesses geschlossen werden. In Fig. 8 ist von unten nach oben die Eingabeschicht Li, die verdeckte Schicht L 2 und die Ausgabeschicht L 3 dargestellt.

Jedes dieser Verfahren liefert eine Hypothese für die Problemzerlegung. In einem anschließenden Schritt werden diese Dekompositionsvorschläge miteinander verglichen und eine gemeinsame Lösung abgeleitet, welche die Aufteilung in Teilbereiche vornimmt und den Reglern 36, 36', 36", 36'", 36"" zuordnet. Hierzu können verschiedene Ansätze genutzt werden, wie beispielsweise eine automatisierte Mehrheitsentscheidung. Wenn der Prozess schon länger läuft, also Prozesserfahrung vorliegt, erfolgt die automatische Problemdekomposition sinnvollerweise auf einer größeren Zeitskala als die oben beschriebene Prüfung der Regler durch den Hauptregler 44.

Ein Teilaspekt ist auch die Problematik, dass das Prozesswissen, welches anfänglich nur aus Expertenwissen besteht, nur langsam durch Prozesserfahrung angereichert wird und diese nicht gleichmäßig über die möglichen Zustände (der Regelstrecke 14), d.h. im Datenraum des Prozesses, verteilt ist. So liegen nur für den normalen Arbeitsbereich entsprechend informative Daten - in ungleichmäßiger Verteilung - vor, jedoch keine oder viel zu wenige Daten zu den abnormalen Störungsbereichen. In Folge dessen kann ein Regler keine adäquate Strategie erlernen und wird sich im Onlinebetrieb unvorhersehbar verhalten. Daher wird ein adaptiver Regler (NFQ) vorgeschlagen, welcher auf Grundlage der im Datenraum vorhandenen, gemessenen Prozessdaten trainiert wird, und bei welchem künstliche Datenpunkte in den Datenraum eingeführt werden, um zu verhindern, dass der Regler beliebige Strategien für Regionen mit schlechter Datenstützung entwickelt. Vorhandenes Expertenwissen kann explizit integriert werden. Der adaptive Regler ist auch zum Training auf clo- sed-loop-Datensätzen geeignet.

Der adaptive Regler wird durch ein lernfähiges neuronales mehrschichtiges Netzwerk realisiert, welches durch ein gradientenabstiegsbasiertes oder evolutionäres Verfahren trainiert wird. Es sind dabei mehrere Eingabevariablen und mehrere Stellgrößen (MIMO- System), einfache SISO-Systeme und auch Mischformen (MISO, SIMO) möglich. Der adaptive Regler basiert auf dem Reinforcement-Learning und bildet nicht direkt die Regelstrategie ab, sondern ermittelt zunächst den Wert (Va- lue) von Stelleingriffen in verschiedenen Prozesssituationen. Der Wert eines Stelleingriffes wird anhand einer vom Betreiber definierten Rewardfunktion ermittelt. Diese Rewardfunktion ist die mathematische Notation des Regelzieles, z.B. minimale Regelabweichung einer Zielgröße e = - abs(w-y). Durch Vergleich der Werte unterschiedlicher Stelleingriffe in der gleichen Prozesssituation kann der Regler herausfinden, welche Strategie (Policy) besser ist, und kann diese dann auch praktisch anwenden.

Das Training des Reglers basiert zunächst nur auf den im Datenraum vorhandenen Messungen verschiedener Prozessgrößen. Typischerweise ist der Datenraum nicht vollständig in dem Sinne, dass einerseits alle denkbaren Prozesssituationen enthalten sind (seltene Störungen oder Ausnahmesituationen fehlen meist). Andererseits werden normalerweise auch nicht in allen Prozesssituationen alle möglichen Stelleingriffe enthalten sein, da diese industriellen Prozesse meist geregelt sind. Die Zeichnung (Fig. 9) veranschaulicht die zwei Kategorien fehlender Daten für einen einfachen SISO-FaIl mit einer Stellgröße u und einer Eingangsgröße e. Wie hierbei zu erkennen ist, sind die vorhandenen Messdaten (Kreise in Fig. 9 und Fig. 10) im Datenraum-Gebiet I mit bekannten Prozesssituationen (d.h. vorhandenem Prozess- wissen) nicht gleich gut verteilt. Dies kann beim Training zu Problemen fuhren, da unterrepräsentierte Regionen des Datenraums auch beim Trainingsprozess weniger Berücksichtigung finden. Um diesen Effekt zu minimieren, werden künstliche Datenpunkte in diese schwach besetzten Regionen des Datenraums eingefügt (Vierecke in Fig. 9). Somit findet ein Histogrammausgleich der Trainingsdaten in allen bekannten Regionen des Datenraumes statt.

Um sicherzustellen, dass in den unbekannten Regionen keine unerwünschten Extrapolationen des Reglerverhaltens auftreten, werden nun auch dort künstliche Daten eingefügt. Dies erfolgt einerseits in der Region nicht getesteter Stellaktionen im Datenraum-Gebiet I mit bekannten Prozesssituationen (Kreuze in Datenraum-Gebiet I in Fig. 10). Diese Datenpunkte erhalten einen geringen Wert als die real erlebten Datenpunkte und verhindern somit das Wegdriften der Handlungsstrategie in Bereiche ohne reale Prozesserfahrung, d.h. sie grenzen die Region ab. In den Datenraum- Gebieten II mit gänzlich unbekannten Prozesssituationen werden ebenfalls künstliche Datenpunkte eingefügt (Dreiecke und Kreuze in Datenraum-Gebiet II in Fig. 10). Die Dreiecke in Fig. 10 repräsentieren hierbei das vorhandene Expertenwissen und die Kreuze mit geringerem Wert verhindern ungewollte Extrapolationen, d.h. sie grenzen diese Regionen ebenfalls ab.

Auf diese Weise kann sichergestellt werden, dass der adaptive Regler in Regionen, die durch reale Erfahrungen gestützt werden, diese auch genutzt werden. In bislang nicht explorierten Regionen stützt sich der Regler auf das aufgeprägte Expertenwissen. Ergeben sich während des laufenden Betriebes mit dem Regler reale Prozesser- fahrungen, werden diese ganz normal in das Training einbezogen und dominieren zunehmend das Expertenwissen. Somit wird sichergestellt, dass reale Prozesserfahrungen sich mit der Zeit auch gegenüber dem Expertenwissen durchsetzen. Bezugszeichenliste

1 Regelsystem

10 erste Ebene

14 Regelstrecke

20 zweite Ebene

28 Merkmalsextraktor

30 dritte Ebene

36, 36', 36", 36"', 36"" aktiver Regler

40 vierte Ebene

44 Hauptregler

A 5 B 5 C , D 5 E, F, G, H Kanal, Knoten

C 1 , C 36 , Cl Regler e Regelabweichung

I, II Datenraum-Gebiet

Li Eingabeschicht

U . verdeckte Schicht

L 3 Ausgabeschicht

S 1 Simulator

U Stellgröße

W Sollwert

X Merkmal y Istwert y 1 Prognose des Istwertes

{ } Menge