Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR TRAINING AN ENERGY MANAGEMENT SYSTEM IN AN ON-BOARD ENERGY SUPPLY SYSTEM SIMULATION
Document Type and Number:
WIPO Patent Application WO/2021/094076
Kind Code:
A1
Abstract:
The present invention relates to a method and a device for training an energy management system (500) in an on-board energy supply system simulation. The method comprises: simulating a driving cycle having defined recuperation; plotting state variables (710) of the on-board energy supply system (700); calculating a recuperation power from a recuperation current and a battery voltage; producing input vectors for a neural network (510); producing a reward function (610); and training the neural network (510).

Inventors:
HEIMRATH ANDREAS (DE)
GRAF FABIAN (DE)
Application Number:
PCT/EP2020/079942
Publication Date:
May 20, 2021
Filing Date:
October 23, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BAYERISCHE MOTOREN WERKE AG (DE)
International Classes:
G06F30/27; G06N3/04; G06F113/04; G06F119/06
Foreign References:
US20050007049A12005-01-13
DE102017214384A12019-02-21
DE102016200854A12017-07-27
Other References:
HEIMRATH ANDREAS ET AL: "Reflex-Augmented Reinforcement Learning for Operating Strategies in Automotive Electrical Energy Management", 2019 INTERNATIONAL CONFERENCE ON COMPUTING, ELECTRONICS & COMMUNICATIONS ENGINEERING (ICCECE), IEEE, 22 August 2019 (2019-08-22), pages 62 - 67, XP033679345
XIAOYU HUANG ET AL: "Nonlinear model predictive control for improving energy recovery for electric vehicles during regenerative braking", DECISION AND CONTROL AND EUROPEAN CONTROL CONFERENCE (CDC-ECC), 2011 50TH IEEE CONFERENCE ON, IEEE, 12 December 2011 (2011-12-12), pages 7458 - 7463, XP032122465, ISBN: 978-1-61284-800-6, DOI: 10.1109/CDC.2011.6160619
DANIEL AMBUHL ET AL: "Predictive Reference Signal Generator for Hybrid Electric Vehicles", IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 58, no. 9, 1 November 2009 (2009-11-01), pages 4730 - 4740, XP011277462, ISSN: 0018-9545, DOI: 10.1109/TVT.2009.2027709
A. HEIMRATHJ. FROESCHLU. BAUMGARTEN: "Proceedings of the 2018 International Conference on Artificial Intelligence", 2018, CSREA PRESS, article "Reflex-augmented reinforcement learning for electrical energy management in vehicles", pages: 429 - 430
A. HEIMRATHJ. FROESCHLR. REZAEIM. LAMPRECHTU. BAUMGARTEN: "Proceedings of the 2019 International Conference on Computing, Electronics & Communications Engineering (iCCECE", 2019, IEEE, article "Reflex-augmented reinforcement learning for operating strategies in automotive electrical energy management", pages: 62 - 67
A. HEIMRATHJ. FROESCHLK. BARBEHOENU. BAUMGARTEN: "Künstliche Intelligenz für das elektrische Energiemanagement: Zukunft kybernetischer Managementsysteme", ELEKTRONIK AUTOMOTIVE, 2019, pages 42 - 46
Download PDF:
Claims:
Patentansprüche

1. Verfahren zum Trainieren eines Energiemanagementsystems (500) in einer Energiebordnetzsimulation, insbesondere in einer Simulation eines

Energiebordnetzes (700) eines Kraftfahrzeugs, wobei das Verfahren umfasst: a. Simulieren eines Fahrzyklus mit definierter Rekuperation; b. Aufzeichnen von Zustandsgrößen des Energiebordnetzes (700); c. Berechnen einer Rekuperationsleistung Preku aus einem Rekuperationsstrom /reku und einer Batteriespannung Ubat gemäß folgender Formel: Preku = Ubat · /reku ; d. Erzeugen von Eingangsvektoren eines neuronalen Netzes (510); e. Erzeugen einer Belohnungsfunktion (610); f. Trainieren des neuronalen Netzes (510).

2. Verfahren nach Anspruch 1 , wobei das Bestimmen des Rekuperationsstroms /reku (100) umfasst: a. Extrahieren sämtlicher Stützstellen eines Batteriestromverlaufs /bat, die auf Entscheidungen des Energiemanagementsystems zurückzuführen sind und dem Energiebordnetz nicht von außen aufgeprägt worden sind

(110); b. Glätten des Batteriestromverlaufs /bat zwischen den verbleibenden Stützstellen (120); c. Approximieren des Batteriestrom Verlaufs /bat durch einen approximierten Batteriestromverlauf /approx zwischen den verbleibenden Stützstellen (130); d. Berechnen des Rekuperationsstroms /reku aus den Batteriestrom /bat und dem approximierten Batteriestrom /approx gemäß folgender Formel:

/reku = /bat - /approx .

3. Verfahren nach Anspruch 1 , wobei der Rekuperationsstrom /reku dem Batteriestrom /bat entspricht.

4. Verfahren nach einem der voranstehenden Ansprüche, wobei das Erzeugen von Eingangsvektoren S eines neuronalen Netzes (510) umfasst: a. Erzeugen eines Zustandseingangsvektors Snormal eines neuronalen Netzes (510), weicherfolgende Gestalt aufweist: b. Erweitern eines Zustandseingangsvektor Snormal eines neuronalen Netzes (510) um einen Zustandsvektor Serweitert , so dass ein Gesamtvektor S folgende Gestalt aufweist:

5. Verfahren nach Anspruch 4, wobei das Erzeugen des Zustandsvektors Serweitert folgende Schritte umfasst: a. Berechnen von Rekuperationsenergiewerten Ereku,x durch Integration einer Rekuperationsleistung Preku(t) über die Zeit t, von einem aktuellen Zeitpunkt t0 innerhalb des Fahrzyklus, bis zu einem Zeitpunkt t0 + x · tvs, wobei x ein prozentualer Anteil an einer Vorausschauzeit tvs für eine begrenzt vorausschauende Berücksichtigung von

Rekuperationsleistungen Preku(t) ist, gemäß folgendem Integral: b. Erzeugen eines Zustandsvektors Serweitert, welcher wenigstens die Rekuperationsenergiewerte Ereku, 25% , Ereku, 50% , Ereku, 75% und Ereku, 100% umfasst und folgende Gestalt aufweist:

6. Verfahren nach Anspruch 4, wobei das Erzeugen des Zustandsvektors Serweitert folgende Schritte umfasst: a. Berechnen eines Schwerpunkts tsp einer Leistungsverteilung sowie eines prädizierten Rekuperationsenergiewertes Ereku,100% innerhalb einer Vorausschauzeit tvs, wobei der Schwerpunkt derjenige Punkt ist, bei dem das Integral über die Rekuperationsleistung innerhalb der Vorausschauzeit tvs die Hälfte der gesamten Rekuperationsenergie annimmt, gemäß folgender Gleichung: b. Erzeugen eines Zustandsvektors Serweitert , welcher den prädizierten Rekuperationsenergiewert Ereku,100% sowie den Schwerpunkt tsp der Leistungsverteilung umfasst und folgende Gestalt aufweist:

7. Verfahren nach Anspruch 4, wobei das Erzeugen des Zustandsvektors Serweitert folgende Schritte umfasst: a. Berechnen eines gewichteten Rekuperationsenergiewertes Ereku,gewichtet durch Integration einer Rekuperationsleistung Preku(t) über die Zeit t von einem aktuellen Zeitpunkt t0 innerhalb des Fahrzyklus zum Ende des Fahrzyklus tende , wobei die Rekuperationsleistung Preku(t) mit einem Gewichtungsfaktor a(t) zeitlich gewichtet wird, gemäß folgendem Integral: b. Erzeugen eines Zustandsvektors Serweitert , der den gewichteten

Rekuperationsenergiewert Ereku, gewichtet umfasst, und folgende Gestalt aufweist:

8. Verfahren nach einem der voranstehenden Ansprüche, wobei die Belohnungsfunktion (610) einen positiven Wert annimmt, wenn der Batterieladezustand a. verbessert wird und einen zulässigen Bereich nicht überschreitet, und b. eine prädizierte Rekuperationsenergie eingespeichert werden kann, ohne dass der zulässige Bereich des Batterieladezustandes dabei überschritten wird, und c. ein Reflex (600) nicht eingegriffen hat. 9. Verfahren nach einem der voranstehenden Ansprüche, wobei das Trainieren des neuronalen Netzes (510) gemäß einem Q-Learning-Algorithmus erfolgt.

10. Vorrichtung zur Durchführung des Verfahrens nach einem der voranstehenden Ansprüche.

Description:
Verfahren und Vorrichtung zum Trainieren eines Energiemanagementsystems in einer Energiebordnetzsimulation

Die vorliegende Erfindung betrifft ein Verfahren und eine Vorrichtung zum Trainieren eines Energiemanagementsystems in einer Energiebordnetzsimulation.

Das elektrische Energiebordnetz in Kraftfahrzeugen hat aufgrund stetig steigender Funktionsumfänge und einer immer größeren Zahl von elektronischen Komponenten und Teilsystemen erheblich an Komplexität gewonnen. Nicht nur die Anforderungen an Komfort und Sicherheit eines Fahrzeugs sind deutlich gestiegen, es werden auch weitaus höhere Anforderungen an Energieeffizienz und Klimaverträglichkeit gestellt, die sich nur mit komplexen elektronischen Regelungs- und Steuerungssystemen, beispielsweise im Bereich der Motorsteuerung und der Abgasbehandlung erreichen lassen. Darüber hinaus etablieren sich neuartige Fahrerassistenzsysteme für die verschiedensten Fahrsituationen, von einem elektronischen Notbremsassistenten über automatische Einparksysteme, bis hin zu einem vollständig autonomen Fahren.

Diese Systeme sind mit zusätzlichen Steuergeräten und auch mit höheren Effizienz- Zuverlässigkeitsanforderungen an das Energiebordnetz verbunden. Flinzu kommen Mehrspannungs-Bordnetze in unterschiedlichen Ausprägungen, Hochvolt-Systeme im Bereich des elektrischen Antriebs, redundante Versorgungsarchitekturen für das automatische Fahren und eine enorme Zahl an möglichen Ausstattungsvarianten bei Premiumfahrzeugen, die einer aufwendigen Architektur und individuellen Auslegung des Bordnetzes bedarf. Das Zusammenwirken der Teilsysteme und Bordnetze wird zu einer komplexen Koordinierungsaufgabe. Der Einsatz einfacher, regelbasierter Betriebsstrategien für das elektrische Energiemanagement stößt deshalb immer häufiger an seine Grenzen.

Maschinelles Lernen ist ein wichtiger Ansatz zur Beherrschung von Komplexität und Variantenvielfalt, weil eine explizite Beschreibung sämtlicher Systemzustände und der zugehörigen Regeln nicht erforderlich ist, sondern anhand von Trainingsdaten und Lernprozessen die grundlegenden Modelle generalisiert und Vorhersagen für bisher unbekannte Systemzustände getroffen werden können. Ein solcher Ansatz ist Reflex-Augmented Reinforcement-Learning, der es ermöglicht, Betriebsstrategien für das elektrische Energiemanagement im Fahrzeug zu erlernen und komplexe und bisher nicht bekannte Systemzustände mit Mitteln der künstlichen Intelligenz zu beherrschen. Bei diesem Konzept werden Entscheidungen betreffend das Energiemanagement im Fahrzeug durch einen sogenannten Agenten gemäß einer Betriebsstrategie getroffen, die dieser erlernt. Ein sogenannter Reflex sichert und stabilisiert das System, indem eine von Agenten vorgeschlagene Entscheidung betreffend das Energiemanagement nur dann ausgeführt wird, wenn sie von dem Reflex akzeptiert wird. Gleichzeitig erhält der Agent eine Rückmeldung in Form einer sogenannten Belohnung gemäß einer Belohnungsfunktion, deren Funktionswert von den Auswirkungen der vorgeschlagenen Entscheidung und gegebenenfalls von dem Eingreifen des Reflexes abhängt. Die Belohnungsfunktion kommt während des Lernvorgangs zum Einsatz, um die Betriebsstrategie an den gewünschten

Optimierungszielen auszurichten. Die Erweiterung durch den Reflex ermöglicht einen Einsatz von Reinforcement-Learning in sicherheitsrelevanten Systemen.

Das Konzept des Reflex-Augmented Reinforcement Learning ist aus folgenden Dokumenten bekannt: A. Heimrath, J. Froeschl, and U. Baumgarten, “Reflex-augmented reinforcement learning for electrical energy management in vehicles”, Proceedings of the 2018 International Conference on Artificial Intelligence, H. R. Arabnia, D. de La Fuente, E. B. Kozerenko, J. A. Olivas, and F. G. Tinetti, Eds. CSREA Press, 2018, pp. 429-430;

A. Heimrath, J. Froeschl, R. Rezaei, M. Lamprecht, and U. Baumgarten, “ Reflex- augmented reinforcement learning for operating strategies in automotive electrical energy management“, Proceedings of the 2019 International Conference on Computing, Electronics & Communications Engineering (iCCECE), IEEE, 2019, pp. 62-67;

A. Heimrath, J. Froeschl, K. Barbehoen, and U. Baumgarten, “Künstliche Intelligenz für das elektrische Energiemanagement: Zukunft kybernetischer Managementsysteme”, Elektronik Automotive, pp. 42-46, 2019. Aus dem Dokument DE 102017214384 A1 ist bekannt, wie durch das Übermitteln von Fahrstreckendaten ein Betriebsstrategieprofil für den Betrieb eines Fahrzeugs festzulegen ist und wie mit Hilfe einer zentralen Datenbankvorrichtung ein globales, georeferenziertes Betriebsstrategieprofil bezüglich einer Fahrstrecke festzulegen ist.

Aus dem Dokument DE 102016200854 A1 ist bekannt, wie ein Klassifikator dimensioniert wird, der eingerichtet ist, einen Wert eines Merkmalsvektors auf Basis einer Ermittlung von Stichprobenwerten und daraus erzeugten synthetischen Werten einer Klasse aus mindestens zwei unterschiedlichen Klassen zuzuweisen.

Es ist eine Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zum Trainieren eines Energiemanagementsystems in einer Energiebordnetzsimulation zur Verfügung zu stellen.

Die Aufgabe wird gelöst durch Verfahren und Vorrichtungen gemäß den unabhängigen Ansprüchen.

Ein erster Aspekt der Erfindung betrifft ein Verfahren zum Trainieren eines Energiemanagementsystems in einer Energiebordnetzsimulation, insbesondere in einer Simulation eines Energiebordnetzes eines Kraftfahrzeugs, umfassend (a) Simulieren eines Fahrzyklus mit definierter Rekuperation; (b) Aufzeichnen von Zustandsgrößen des Energiebordnetzes; (c) Berechnen einer Rekuperationsleistung P reku aus einem Rekuperationsstrom / reku und einer Batteriespannung U/ bat gemäß der Formel P reku = U/ bat · / reku ; (d) Erzeugen von Eingangsvektoren S eines neuronalen Netzes N; (e) Erzeugen einer Belohnungsfunktion; und (f) Trainieren des neuronalen Netzes.

Ein Vorteil der Erfindung ist, dass ein Energiemanagementsystem vor Auslieferung eines Fahrzeugs durch ein initiales Training in einer Energiebordnetzsimulation eine initiale Betriebsstrategie für eine Standardausstattungsvariante erhalten kann. Ausgehend von diesem funktionsfähigen Stand kann die Betriebsstrategie gemäß den Optimierungskriterien an zusätzliche Verbraucher adaptiert werden.

Für das initiale Trainieren des Energiemanagementsystems wird bevorzugt ein WLTP-Fahrzyklus mit definierter Rekuperation verwendet. In einer bevorzugten Ausführung wird der Rekuperationsstrom / reku bestimmt unter Verwendung einer folgenden Vorgehensweise, umfassend (a) Extrahieren sämtlicher Stützstellen eines Batteriestromverlaufs / bat , die auf Entscheidungen des Energiemanagementsystems zurückzuführen sind und dem Energiebordnetz nicht von außen aufgeprägt worden sind; (b) Glätten des Batteriestromverlaufs / bat zwischen den verbleibenden Stützstellen; (c) Approximieren des Batteriestrom Verlaufs / bat durch einen approximierten Batteriestrom verlauf / approx zwischen den verbleibenden Stützstellen; und (d) Berechnen des Rekuperationsstroms / reku aus den Batteriestrom / bat und dem approximierten Batteriestrom / approx gemäß der Formel / reku = / bat - / approx .

Die Berechnung des Rekuperationsstroms in Relation zum bisherigen Systemverhalten des Energiebordnetzes hat Einfluss auf das Lernverhalten des neuronalen Netzes.

Einfacher zu implementieren ist hingegen eine weitere bevorzugte Ausführung, in welcher der Rekuperationsstrom / reku unmittelbar dem Batteriestrom / bat entspricht.

In einerweiteren bevorzugten Ausführung werden Eingangsvektoren S eines neuronalen Netzes N erzeugt unter Verwendung einer folgenden Vorgehensweise, umfassend (a) Erzeugen eines Zustandseingangsvektors S normal eines neuronalen Netzes N; und (b) Erweitern eines Zustandseingangsvektor S normal eines neuronalen Netzes N um einen Zustandsvektor S erweitert .

In einerweiteren bevorzugten Ausführung umfasst das Erzeugen des Zustandsvektors S erweitert (a) Berechnen von Rekuperationsenergiewerten E reku,x durch Integration einer Rekuperationsleistung P reku (t) über die Zeit t, von einem aktuellen Zeitpunkt t 0 innerhalb des Fahrzyklus, bis zu einem Zeitpunkt t 0 + x · t vs , wobei x ein prozentualer Anteil an einer Vorausschauzeit t vs für eine begrenzt vorausschauende Berücksichtigung von Rekuperationsleistungen P reku (t) ist; und (b) Erzeugen eines Zustandsvektors S erweitert , welcher wenigstens die Rekuperationsenergiewerte E reku, 25% , E reku, 50% , E reku, 75% und E reku, 100% umfasst.

In einer weiteren bevorzugten Ausführung umfasst das Erzeugen des Zustandsvektors S erweitert (a) Berechnen eines Schwerpunkts t sp einer

Leistungsverteilung sowie eines prädizierten Rekuperationsenergiewertes E reku,100% innerhalb einer Vorausschauzeit t vs , wobei der Schwerpunkt derjenige Punkt ist, bei dem das Integral über die Rekuperationsleistung innerhalb der Vorausschauzeit t vs die Hälfte der gesamten Rekuperationsenergie annimmt; und (b) Erzeugen eines Zustandsvektors S erweitert , welcher den prädizierten Rekuperationsenergiewert E reku,100% sowie den Schwerpunkt t sp der Leistungsverteilung umfasst.

In einer weiteren bevorzugten Ausführung umfasst das Erzeugen des Zustandsvektors S erweitert (a) Berechnen eines gewichteten Rekuperationsenergiewertes E reku,gewichtet durch Integration einer

Rekuperationsleistung P reku(t) über die Zeit t von einem aktuellen Zeitpunkt to innerhalb des Fahrzyklus zum Ende des Fahrzyklus t ende , wobei die Rekuperationsleistung P reku(t) mit einem Gewichtungsfaktor α(t) zeitlich gewichtet wird; und (b) Erzeugen eines Zustandsvektors S erweitert , der den gewichteten Rekuperationsenergiewert E reku,gewichtet umfasst. Die bevorzugten Ausführungen einer Erweiterung des Zustandsvektors ermöglichen unterschiedliche Gewichtungen der prädizierten Rekuperationsleistungen über den Fahrzyklus. Die zuletzt genannte Ausführung hat den Vorteil, dass durch die Wahl eines abfallendes Gewichtungsfaktor a(t) solche Rekuperationsleistungen, die weiter in der Zukunft liegen schwächer gewichtet werden können, da deren Eintreten mit einer höheren Unsicherheit verbunden ist. Insbesondere kann ein exponentiell abfallender Gewichtungsfaktor a(t) verwendet werden.

In einerweiteren bevorzugten Ausführung nimmt die Belohnungsfunktion einen positiven Wert an, wenn der Batterieladezustand (a) verbessert wird und einen zulässigen Bereich nicht überschreitet; und (b) eine prädizierte Rekuperationsenergie eingespeichert werden kann, ohne dass der zulässige Bereich des Batterieladezustandes dabei überschritten wird; und (c) ein Reflex nicht eingegriffen hat. Entscheidungen des Reinforcement Learning werden dadurch nur in einem von dem Reflex als sicher beurteilten Bereich des Zustandsraumes ausgeführt. Weiter wird der Batterieladezustand in einem oberen zulässigen Bereich gehalten.

In einerweiteren bevorzugten Ausführung erfolgt das Trainieren des neuronalen Netzes gemäß einem Q-Learning-Algorithmus. Der Q-Learning Algorithmus hat sich für die vorliegende Aufgabe als besonders geeignet erwiesen.

Ein zweiter Aspekt der Erfindung betrifft eine Vorrichtung zur Durchführung des Verfahrens nach dem ersten Aspekt der Erfindung.

Die in Bezug auf den ersten Aspekt der Erfindung und dessen vorteilhafte Ausgestaltung beschriebenen Merkmale und Vorteile gelten, wo technisch sinnvoll, auch für den zweiten Aspekt der Erfindung und dessen vorteilhafte Ausgestaltung.

Weitere Merkmale, Vorteile und Anwendungsmöglichkeiten der Erfindung ergeben sich aus der nachfolgenden Beschreibung im Zusammenhang mit den Figuren.

Es zeigen wenigstens teilweise schematisch:

Fig. 1 ein Ausführungsbeispiel eines Verfahrens zum Berechnen einer Rekuperationsleistung in einer Energiebordnetzsimulation; Fig. 2 ein Ausführungsbeispiel eines Verfahrens zur Integration einer Prädiktion von Rekuperation in einem Energiemanagementsystem;

Fig. 3 ein Ausführungsbeispiel eines Verfahrens des Reflex-Augmented Reinforcement Learning in einer Energiebordnetzsimulation.

Fig. 1 zeigt ein Ausführungsbeispiel eines Verfahrens 100 zum Berechnen einer Rekuperationsleistung P reku in einer Energiebordnetzsimulation.

Eingangsgrößen sind der Generatorzustand S gen , der Batteriestrom / bat und die Batteriespannung U bat . In einem Verfahrensschritt 110 werden durch die Betriebsstrategie des Energiemanagementsystems beeinflusste Stützstellen des Batteriestromverlaufs identifiziert und extrahiert. Weitere Stützstellenpeaks werden in Verfahrensschritt 120 entfernt, um den Batteriestromverlauf zu glätten. Anschließend wird in Verfahrensschritt 130 der Batteriestromverlauf mit den verbliebenen Stützstellen approximiert. Mit dem approximierten Batteriestromverlauf / approx wird gemäß / reku = / bat - / approx der Rekuperationsstrom /reku und gemäß P reku = U bat · / reku die Rekuperationsleistung P reku berechnet.

Fig. 2 zeigt ein Ausführungsbeispiel eines Verfahrens 200 zur Integration einer Prädiktion von Rekuperation in einem Energiemanagementsystem.

Eine Prädiktion von Rekuperation 300 kann aus Sensordaten 240 des Bordnetzes 400 sowie aus Streckendaten einer Streckendatenbank bestimmt und an das Energiemanagementsystem 250 übertragen werden. Dieses ist in der Lage, strategische Entscheidungen auf der Grundlage von Systemzustandsdaten 220 und einer Prädiktion von Rekuperation 230 beispielsweise durch Reinforcement Learning zu treffen.

Fig. 3 zeigt ein Ausführungsbeispiel eines Verfahrens 500 zum Reflex-Augmented Reinforcement Learning in einer Energiebordnetzsimulation.

Ein Reflex 600 stabilisiert und sichert das Energiemanagementsystem, indem er alle von einem lernenden Agenten 510 vorgeschlagenen Aktionen 550 prüft und gegebenenfalls modifiziert. Nur eine von dem Reflex 600 akzeptierte und gegebenenfalls modifizierte Aktion 650 kann einen direkten Einfluss auf den Zustand eines Energiebordnetzes 700 gewinnen. Der lernende Agent 510 bekommt daraufhin eine Rückmeldung, wie sich die von ihm vorgeschlagene Aktion 550 auf das Energiebordnetz ausgewirkt hat, in Form einer Belohnung 610, gemäß einer Belohnungsfunktion. Dadurch wird die Betriebsstrategie in Abhängigkeit von einem Systemzustand 710 während eines Lernvorgangs an gewünschten Optimierungszielen ausgerichtet. Ein Eingreifen des Reflexes 600 wird in der Belohnungsfunktion berücksichtigt.

Ein Ausführungsbeispiel zum Entwurf einer geeigneten Belohnungsfunktion für das Trainieren eines Energiemanagementsystems zeigt der folgende Algorithmus.

WENN Reflex eingegriffen hat DANN R = 0 SONST

WENN SOC > SOC_krit_max ODER SOC < SOC_krit_min DANN WENN SOC < SOC_krit_min DANN WENN Batterie laden DANN R > 0 SONST

R = 0

WENN SOC > SOC_krit_max DANN WENN Batterie entladen DANN R > 0 SONST

R = 0

SONST

WENN SOC > SOC_ziel + Delta

WENN Batterie entladen DANN R > 0 SONST

R = 0

WENN SOC < SOC_ziel - Delta

WENN Batterie laden DANN

R > 0 SONST

R = 0

WENN SOC_ziel - Delta < SOC < SOC_ziel + Delta DANN

WENN erwartete Rekuperationenergie > E_Schwellwert DANN WENN Batterie entladen DANN

R > 0 SONST

R = 0

SONST WENN Batterie SOC halten DANN

R > 0 SONST

R = 0 Hierbei bezeichnet die Konstante Delta eine Abweichung des Ladezustandes SOC von einem angestrebten Zielwert. Die Abweichung kann beispielsweise 2% betragen. SOC bezeichnet einen aktuellen Ladezustand, und SOC_ziel einen angetrebten optimalen Ladezustand. Dieser kann beispielsweise 80% des maximalen Ladezustandes betragen. Die Konstante E_Schwellwert kann folgendermaßen berechnet werden:

SOC + SOC_durch_reku = SOC_ziel + Delta SOC_durch_reku = SOC_ziel - SOC + Delta

SOC: Aktueller SOC-Wert SOC_durch_reku: SOC-Anstieg, der durch Reku verursacht wird SOC_ziel: Ziel SOC z.B. 80%

Delta: Delta wie weit der SOC vom Ziel SOC abweichen darf Das bedeutet, dass die Batterie bei erwarteter Rekuperationsenergie nur dann entladen werden soll, wenn sonst ohne Entladen der geforderte SOC Bereich (SOC_ziel - Delta < SOC < SOC_ziel+Delta) überschritten werden würde. E_Schwellwert = SOC_durch_reku * Q_batterie * U_batt_durchschnitt

E_Schwellwert: Energieschwellwert Q_batterie: Nennkapazizät der Batterie

U_batt_durchschnitt: Durchschnittsbatteriespannung über den Zyklus hinweg