Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR TRAINING AT LEAST ONE ALGORITHM FOR A CONTROL DEVICE OF A MOTOR VEHICLE, COMPUTER PROGRAM PRODUCT, AND MOTOR VEHICLE
Document Type and Number:
WIPO Patent Application WO/2021/170580
Kind Code:
A1
Abstract:
The invention relates to a method for training at least one algorithm for a control device of a motor vehicle using a self-learning neural network, having the steps of: providing a simulation environment with simulation parameters, said simulation environment containing map data of an actual existing area of operation and the motor vehicle, the behavior of said motor vehicle being determined by a set of rules; providing a mission for the motor vehicle; providing real-time traffic data of the actual existing area of operation and readjusting the traffic situation in the simulation environment; determining a drive duration for the mission using the real-time traffic data; carrying out a simulation of the mission in the simulation environment and determining a simulation drive duration for completing the mission; and comparing the simulation drive duration with the drive duration, wherein if the simulation drive duration lasts longer than the drive duration by more than a specified time interval, the at least one algorithm and/or the at least one set of rules is modified and the mission is repeated.

Inventors:
THIEM CHRISTOPH (DE)
EBERLE ULRICH (DE)
Application Number:
PCT/EP2021/054442
Publication Date:
September 02, 2021
Filing Date:
February 23, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
PSA AUTOMOBILES SA (FR)
International Classes:
G08G1/16; G01C21/34; G05D1/02; G06F30/20; G06N3/00; G06N3/08; G07C5/00
Foreign References:
DE102017216202A12019-03-14
EP3418996A12018-12-26
US20190113918A12019-04-18
US20190318267A12019-10-17
DE102017007136A12019-01-31
DE102018217004A12019-04-18
US20190318267A12019-10-17
Attorney, Agent or Firm:
SPITZFADEN, Ralf (DE)
Download PDF:
Claims:
Patentansprüche

1. Verfahren zum Trainieren wenigstens eines Algorithmus (34) für ein Steuergerät (4) eines Kraftfahrzeugs (2), wobei das Steuergerät (4) zur Umsetzung einer automati sierten bzw. autonomen Fahrfunktion unter Eingriff in Aggregate (22, 24, 26) des Kraftfahrzeugs (2) auf der Grundlage von Eingangsdaten unter Verwendung des wenigstens einen Algorithmus (34) vorgesehen ist, wobei der Algorithmus (34) durch ein selbstlernendes neuronales Netz (32) trainiert wird, umfassend folgende Schritte: a) Bereitstellen eines Computerprogrammproduktmoduls (30) für die automatisierte bzw. autonome Fahrfunktion, wobei das Computerprogrammproduktmodul (30) den zu trainierenden Algorithmus (34) und das selbstlernende neuronale Netz (32) ent hält, b) Bereitstellen einer Simulationsumgebung (36) mit Simulationsparametern, wobei die Simulationsumgebung (36) Kartendaten eines real existierenden Einsatzgebiets (37), das Kraftfahrzeug (2) enthält, wobei ein Verhalten des Kraftfahrzeugs (2) durch einen Regelsatz bestimmt ist, c) Bereitstellen einer Mission für das Kraftfahrzeug (2), d) Bereitstellen von Echtzeit-Verkehrsdaten des real existierenden Einsatzgebiets (37) sowie Nachstellen der Verkehrssituation in der Simulationsumgebung (36,); e) Bestimmen einer Fahrdauer für die Mission anhand der Echtzeit-Verkehrsdaten; f) Durchführen einer Simulation der Mission in der Simulationsumgebung und Be stimmen einer Simulationsfahrdauer für das Absolvieren der Mission; g) Vergleichen der Simulationsfahrdauer (ts) mit der Fahrdauer, wobei,

(i) wenn die Simulationsfahrdauer (ts) länger als einen vorgegebenen Zeitabstand länger dauert als die Fahrdauer, Modifizieren des wenigstens einen Algorithmus (34) und/oder des wenigstens einen Regelsatzes und Wiederholen der Mission, o- der

(ii) wenn die Simulationsfahrdauer (ts) nicht länger als einen vorgegebenen Zeitab stand länger dauert als die Fahrdauer, Klassifizieren der Mission als erfolgreich.

2. Verfahren nach Anspruch 1 , wobei, wenn Schritt g) (i) erreicht ist, eine andere Mis sion ausgewählt und das Verfahren mit der anderen Mission wiederholt wird.

3. Verfahren nach Anspruch 1 oder 2, wobei als Echtzeit-Verkehrsdaten Fahrdaten und Routen von bestimmten Verkehrsteilnehmern gewählt werden, wobei Missionen anhand von Orten auf den Routen der Verkehrsteilnehmer gewählt werden.

4. Verfahren nach einem der vorangegangenen Ansprüche, wobei die Echtzeit-Ver kehrsdaten Infrastrukturinformationen beinhalten.

5. Verfahren nach einem der vorangegangenen Ansprüche, wobei beim Nachstellen der Verkehrssituation in der Simulationsumgebung ein Optimierungsalgorithmus verwendet wird, um Abweichungen zwischen der Simulationsumgebung und den Echtzeit-Verkehrsdaten zu minimieren.

6. Verfahren nach einem der vorangegangenen Ansprüche, wobei die Mission durch Änderung von Parametern der Verkehrssituation in der Simulationsumgebung vari iert wird und das Verfahren mit der modifizierten Mission durchgeführt wird.

7. Verfahren nach Anspruch 6, wobei die Änderung der Parameter randomisiert durch geführt wird.

8. Verfahren nach einem der vorangegangenen Ansprüche, wobei als Fahrzeit die Fahrzeit eines Verkehrsteilnehmers für die Durchführung der Mission aus den Echt zeit-Verkehrsdaten oder eine Fahrzeit des Verkehrsteilnehmers mithilfe eines Agen ten in der Simulationsumgebung ermittelt wird.

9. Verfahren nach einem der vorangegangenen Ansprüche, wobei der Algorithmus (34) und/oder der wenigstens eine Regelsatz mittels eines verstärkenden Lernen- Algorithmus trainiert wird.

10. Verfahren nach einem der vorangegangenen Ansprüche, wobei die Fahrdauer ein Erwartungswert ist, der aus Fahrdauern von mehrmaligen Iterationen der Simulation der Mission bestimmt ist.

11. Verfahren nach einem der vorangegangenen Ansprüche, wobei die Fahrdauer ein Erwartungswert ist, der aus Fahrdauern von mehreren realen Verkehrsteilnehmern darstellt, die die Mission in dem Einsatzgebiet (37) durchführen.

12. Verfahren nach einem der vorangegangenen Ansprüche, wobei das selbstlernende neuronale Netz den Regelsatz über vorgegebene Regelsatzgrenzen hinweg modifi ziert.

13. Verfahren nach einem der vorangegangenen Ansprüche, wobei eine Mission das Abfahren einer Route von wenigstens einem Startpunkt zu wenigstens einem Ziel punkt darstellt.

14. Computerprogrammprodukt, mit einem computerlesbaren Speichermedium (8), auf dem Befehle eingebettet sind, die, wenn sie von wenigstens einer Recheneinheit (6) ausgeführt werden, bewirken, dass die wenigstens eine Recheneinheit (6) dazu ein gerichtet ist, das Verfahren nach einem der vorangegangenen Ansprüche auszufüh ren.

15. Kraftfahrzeug mit einem Computerprogrammprodukt nach Anspruch 14.

Description:
VERFAHREN ZUM TRAINIEREN WENIGSTENS EINES ALGORITHMUS FÜR EIN STEUERGERÄT EINES KRAFTFAHRZEUGS, COMPUTERPROGRAMMPRODUKT SOWIE KRAFTFAHRZEUG

Vorliegend werden ein Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, ein Computerprogrammprodukt sowie ein Kraftfahrzeug beschrieben. Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraft fahrzeugs, Computerprogrammprodukte sowie Kraftfahrzeuge der eingangs genannten Art sind im Stand der Technik bekannt. Die ersten teilautomatisiert fahrenden Kraftfahr zeuge (entspricht SAE Level 2 gemäß SAE J3016) sind in den vergangenen Jahren zur Serienreife gelangt. Automatisiert (entspricht SAE Level >=3 gemäß SAE J3016) bzw., autonom (entspricht SAE Level 4/5 gemäß SAE J3016) fahrende Kraftfahrzeuge müssen anhand vielfältiger Vorgaben, zum Beispiel Fahrziel und Einhaltung gängiger Verkehrsre geln, mit maximaler Sicherheit auf unbekannte Verkehrssituationen selbständig reagieren können. Da die Verkehrswirklichkeit aufgrund der Unvorhersehbarkeit des Verhaltens an derer Verkehrsteilnehmer, insbesondere menschlicher Verkehrsteilnehmer, hoch komplex ist, gilt es als nahezu unmöglich, entsprechende Steuergeräte von Kraftfahrzeugen mit herkömmlichen Methoden und auf der Grundlage von menschengemachten Regeln zu programmieren.

Zur Bewältigung komplexer Probleme mittels Computern ist es darüber hinaus bekannt, mit Methoden des maschinellen Lernens bzw. der künstlichen Intelligenz Algorithmen zu entwickeln bzw. sich durch selbstlernende neuronale Netze entwickeln zu lassen. Solche Algorithmen können einerseits maßvoller auf komplexe Verkehrssituationen reagieren als traditionelle Algorithmen. Andererseits ist es mithilfe künstlicher Intelligenz prinzipiell mög lich, die Algorithmen während des Entwicklungsprozesses und im Alltag durch ständiges Lernen weiterzuentwickeln und kontinuierlich zu verbessern. Alternativ kann ein Stand des Algorithmus nach der Beendigung einer Trainingsphase im Entwicklungsprozess und einer Validierung durch den Hersteller eingefroren werden.

Des Weiteren gibt es Situationen, in denen der Verkehrsfluss verbessert und ggf. sogar das Unfallrisiko reduziert werden können, wenn das Ego-Fahrzeug sich selbst nicht zu vollständig regelkonform verhält, z.B. wenn es eine durchgezogene Linie überfährt, um ei nem Hindernis auszuweichen, solange dies gefahrlos möglich ist, z.B. wenn kein Gegen verkehr herrscht. Ein Abbremsen des autonom fahrenden Kraftfahrzeugs in einer solchen Situation könnte zur Folge haben, dass nachfolgend fahrende, unvorbereitete menschli che Fahrer durch die plötzliche Unterbrechung des Verkehrsflusses einen Auffahrunfall verursachen.

Aus der US 2019/0318267 A1 sind ein System und ein Verfahren zum Trainieren eines maschinenlernenden Modells auf einer Simulationsplattform zum Betreiben eines autono men Fahrzeugs bekannt. Während der Fahrt werden mit einem menschlichen Fahrer Fahrtstatistiken und Umgebungsdaten für eine Mehrzahl von Fahrtszenarien gesammelt, damit das Modell fortlaufend den Fahrstil und die Präferenzen des Fahrers erlernt.

Somit stellt sich die Aufgabe, Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, Computerprogrammprodukte sowie Kraftfahrzeuge der eingangs genannten Art dahingehend weiterzubilden, dass autonom fahrende Kraft fahrzeuge sich besser an einen Verkehrsfluss anpassen können.

Die Aufgabe wird gelöst durch ein Verfahren zum Trainieren wenigstens eines Algorith mus für ein Steuergerät eines Kraftfahrzeugs gemäß Anspruch 1, ein Computerpro grammprodukt gemäß dem nebengeordneten Anspruch 14 sowie ein Kraftfahrzeug ge mäß dem nebengeordneten Anspruch 15. Weiterführende Ausgestaltungen und Weiterbil dungen sind Gegenstand der abhängigen Ansprüche.

Nachfolgend wird ein Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs beschrieben, wobei das Steuergerät zur Umsetzung ei ner automatisierten bzw. autonomen Fahrfunktion unter Eingriff in Aggregate des Kraft fahrzeugs auf der Grundlage von Eingangsdaten unter Verwendung des wenigstens einen Algorithmus vorgesehen ist, wobei der Algorithmus durch ein selbstlernendes neuronales Netz trainiert wird, umfassend folgende Schritte: a) Bereitstellen eines Computerprogrammproduktmoduls für die automatisierte bzw. autonome Fahrfunktion, wobei das Computerprogrammproduktmodul den zu trai nierenden Algorithmus und das selbstlernende neuronale Netz enthält, b) Bereitstellen einer Simulationsumgebung mit Simulationsparametern, wobei die Si mulationsumgebung Kartendaten eines real existierenden Einsatzgebiets, das Kraftfahrzeug enthält, wobei ein Verhalten des Kraftfahrzeugs durch einen Regel satz bestimmt ist, c) Bereitstellen einer Mission für das Kraftfahrzeug, d) Bereitstellen von Echtzeit-Verkehrsdaten des real existierenden Einsatzgebiets so wie Nachstellen der Verkehrssituation in der Simulationsumgebung; e) Bestimmen einer Fahrdauer für die Mission anhand der Echtzeit-Verkehrsdaten; f) Durchführen einer Simulation der Mission in der Simulationsumgebung und Be stimmen einer Simulationsfahrdauer für das Absolvieren der Mission; g) Vergleichen der Simulationsfahrdauer mit der Fahrdauer, wobei,

(i) wenn die Simulationsfahrdauer länger als einen vorgegebenen Zeitabstand länger dauert als die Fahrdauer, Modifizieren des wenigstens einen Algo rithmus und/oder des wenigstens einen Regelsatzes und Wiederholen der Mission, oder

(ii) wenn die Simulationsfahrdauer nicht länger als einen vorgegebenen Zeit abstand länger dauert als die Fahrdauer, Klassifizieren der Mission als er folgreich. Dadurch, dass anhand der Echtzeit-Verkehrsdaten eine Fahrdauer für eine vorgegebene Mission bestimmt wird und die mit der Zeitdauer für das Absolvieren der Mission durch das von dem Algorithmus gesteuerte Kraftfahrzeug in der Simulationsumgebung vergli chen wird, ist es möglich, die Fahrdauer des simulierten Kraftfahrzeugs mit echten Fahr dauern zu vergleichen. Stellt sich dabei heraus, dass das simulierte Kraftfahrzeug wesent- lieh länger braucht als ein reales Kraftfahrzeug, lässt dies auf ein zu defensives Fahrver halten des autonom fahrenden Kraftfahrzeugs schließen. Der Algorithmus kann so somit anhand der Metrik darauf trainiert werden, weniger defensiv zu fahren, um sich einem Fahrverhalten von menschlichen Fahrern anzupassen. Erst, wenn das simulierte Kraft fahrzeug in einem vorgegebenen Bereich rund um eine Fahrdauer anhand der Echtzeit- Verkehrsdaten herankommt, kann der Algorithmus als nicht zu defensives fahrend ange sehen werden.

In einer ersten weiterführenden Ausgestaltung kann vorgesehen sein, dass, wenn Schritt g) (i) erreicht ist, eine andere Mission ausgewählt und das Verfahren mit der anderen Mis- sion wiederholt wird. Durch das Trainieren des Algorithmus mit einerweiteren Mission kann erreicht werden, dass der Algorithmus sich nicht zu sehr auf ein eine Mission spezialisiert.

In einerweiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass als Echtzeit- Verkehrsdaten Fahrdaten und Routen von bestimmten Verkehrsteilnehmern gewählt wer den, wobei Missionen anhand von Orten auf den Routen der Verkehrsteilnehmer gewählt werden.

Echtzeit-Verkehrsdaten können statistische Daten zum Verkehrsfluss, aber auch Fahrda ten spezifischer Verkehrsteilnehmer enthalten. Statistische Daten können beispielsweise Daten sein, die von einem Routenberechnungsalgorithmus anhand von Umgebungspara metern wie zulässigen Höchstgeschwindigkeiten, Ampelanlagen und Verkehrsaufkommen enthalten können. Fahrdaten spezifischer Verkehrsteilnehmer erlauben den Vergleich mit individuellen Fahrleistungen. Verschiedene Fahrer haben unterschiedliche Fahrstile, man che fahren defensiver, manche weniger defensiv. Des Weiteren fahren diese spezifischen Verkehrsteilnehmer ggf. individuelle Routen vom Start- zum Zielpunkt. Diese Routen kön nen Grundlage für die Auswahl entsprechender Missionen sein und Start- und Zielpunkte sowie Zwischenziele können anhand der individuellen Routen festgelegt werden. Die Start- und Zielpunkte sowie Zwischenziele können bestimmte charakteristische Punkte entlang der entsprechenden Routen sein, zum Beispiel Kreuzungen.

In einerweiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Echt zeit-Verkehrsdaten Infrastrukturinformationen beinhalten.

Infrastrukturinformationen können beispielsweise Informationen zu Ampelschaltungen, Straßensperren, Spurführungen und dergleichen sein. Das Einbeziehen dieser Informatio nen steigert den Realitätsgrades der Simulation und erlaubt die Bewertung der Fahrdauer für die Mission. So kann beispielsweise eine Fahrdauer disqualifiziert werden, bei der ein Fahrer ausschließlich grüne Ampeln hatte.

In einerweiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass beim Nach stellen der Verkehrssituation in der Simulationsumgebung ein Optimierungsalgorithmus verwendet wird, um Abweichungen zwischen der Simulationsumgebung und den Echtzeit- Verkehrsdaten zu minimieren. Durch Verwendung des Optimierungsalgorithmus kann ein besonders realistisches Ver kehrsszenario in der Simulationsumgebung erzeugt werden, die die Echtzeit-Verkehrsda ten besonders gut nachstellt, was die Vergleichbarkeit der Fahrdauer und der Simulati onsfahrdauer verbessert.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Mission durch Änderung von Parametern der Verkehrssituation in der Simulationsumgebung vari iert wird und das Verfahren mit der modifizierten Mission durchgeführt wird.

Durch Variation der Parameter der Verkehrssituation ist es möglich, eine Überspezialisie rung des Algorithmus auf die spezifische Verkehrssituation und Mission zu vermeiden.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Ände rung der Parameter randomisiert durchgeführt wird.

Auch durch Randomisieren kann eine Überspezialisierung des Algorithmus verhindert werden.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass als Fahrzeit eine Fahrzeit eines Verkehrsteilnehmers für die Durchführung der Mission aus den Echt zeit-Verkehrsdaten verwendet wird oder wobei eine Fahrzeit des Verkehrsteilnehmers mit hilfe eines Agenten in der Simulationsumgebung ermittelt wird.

Durch Vergleich mit individuellen Fahrern können menschliche Fahrweisen unmittelbar untersucht werden.

Wenn die Fahrzeit mithilfe eines Agenten in der Simulationsumgebung ermittelt wird, kann die Leistungsfähigkeit eines Algorithmus mit der eines anderen Algorithmus verglichen werden.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass der Algorith mus und/oder der wenigstens eine Regelsatz mittels eines verstärkenden Lernen-Algorith mus trainiert wird. Das Verwenden eines verstärkenden Lernen-Algorithmus erlaubt das Verbessern des Al gorithmus durch eine Belohnungsfunktion. Die Belohnungsfunktion kann ausgelöst wer den durch eine Annäherung der Simulationsfahrdauer an die Fahrdauer.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Fahr dauer ein Erwartungswert ist, der aus Fahrdauern von mehrmaligen Iterationen der Simu lation der Mission bestimmt ist.

Durch Definition des Erwartungswertes anhand mehrmaliger Iterationen der Simulation der Mission ist es möglich, Unterschiede zwischen der Simulation der Echtzeit-Verkehrs- daten und der Situation im real existierenden Einsatzgebiet auszugleichen.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Fahr dauer ein Erwartungswert ist, der aus Fahrdauern von mehreren realen Verkehrsteilneh mern darstellt, die die Mission in dem Einsatzgebiet durchführen.

Wenn ein Erwartungswert für die Durchführung der Mission verwendet wird, liegt die Re ferenzfahrzeit aus der realen Verkehrsumgebung näher an einer durchschnittlichen Fahr zeit, wodurch statistische Abweichungen einzelner Fahrzeiten und Einflüsse unterschied lich defensiv bzw. aggressiv fahrender menschlicher Fahrer reduziert werden können.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass das selbst lernende neuronale Netz den Regelsatz über vorgegebene Regelsatzgrenzen hinweg mo difiziert.

Entsprechende Regelsatzgrenzen sind beispielsweise zulässige Höchstgeschwindigkeiten auf einer bestimmten Strecke oder zulässige Zeitdauern beim Überfahren von auf Rot um springende Ampeln, Zulässigkeit von Überfahren durchgezogener Linien und dergleichen mehr.

Durch Modifikation des Regelsatzes über vorgegebene Regelsatzgrenzen hinaus kann ein realistisches Fahrverhalten erreicht werden. So ist es beispielsweise möglich, statt ei ner Höchstgeschwindigkeit von 50 km/h eine zulässige Höchstgeschwindigkeit von 55 km/h oder 60 km/h einzustellen, sodass ein besseres Mitfließen im Verkehr möglich ist. Auch, wenn im Fall einer Blockade einer Spur durch ein regelwidrig parkendes Kraftfahr zeug durchgezogene Linien überfahren werden, solange dadurch keine Gefahr für den Gegenverkehr entsteht, kann der Verkehrsfluss verbessert werden und ein realistisches Fahrverhalten der autonomen Fahrfunktion erreicht werden.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass beim Ver gleich von Simulationsfahrdauer und Fahrzeit eine Standardabweichung berücksichtigt wird.

Mission können allgemein als Erreichen eines Zielpunktes ausgehend von einem Start punkt definiert sein. Hierbei ist es möglich, dass mehrere verschiedene Routen zwischen Startpunkt und Zielpunkt gefahren werden dürfen oder eine spezifische Route. Bei ver schiedenen Routen leidet die Vergleichbarkeit der Fahrzeiten. Wenn die Route fest vorge geben ist, kann die Vergleichbarkeit der Simulationsfahrdauer mit der Fahrdauer erhöht werden.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass eine Mis sion das Abfahren einer Route von wenigstens einem Startpunkt zu wenigstens einem Zielpunkt darstellt.

Ein erster unabhängiger Gegenstand betrifft eine Vorrichtung zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, wobei das Steuergerät zur Umsetzung einer automatisierten bzw. autonomen Fahrfunktion unter Eingriff in Aggre gate des Kraftfahrzeugs auf der Grundlage von Eingangsdaten unter Verwendung des wenigstens einen Algorithmus vorgesehen ist, wobei selbstlernendes neuronales Netz zum Trainieren des Algorithmus vorgesehen ist, wobei die Vorrichtung zum Ausführen fol gender Schritte ausgebildet ist: a) Bereitstellen eines Computerprogrammproduktmoduls für die automatisierte bzw. autonome Fahrfunktion, wobei das Computerprogrammproduktmodul den zu trai nierenden Algorithmus und das selbstlernende neuronale Netz enthält, b) Bereitstellen einer Simulationsumgebung mit Simulationsparametern, wobei die Si mulationsumgebung Kartendaten eines real existierenden Einsatzgebiets, das Kraftfahrzeug enthält, wobei ein Verhalten des Kraftfahrzeugs durch einen Regel satz bestimmt ist, c) Bereitstellen einer Mission für das Kraftfahrzeug, d) Bereitstellen von Echtzeit-Verkehrsdaten des real existierenden Einsatzgebiets so wie Nachstellen der Verkehrssituation in der Simulationsumgebung; e) Bestimmen einer Fahrdauer für die Mission anhand der Echtzeit-Verkehrsdaten; f) Durchführen einer Simulation der Mission in der Simulationsumgebung und Be stimmen einer Simulationsfahrdauer für das Absolvieren der Mission; g) Vergleichen der Simulationsfahrdauer mit der Fahrdauer, wobei,

(i) wenn die Simulationsfahrdauer länger als einen vorgegebenen Zeitabstand länger dauert als die Fahrdauer, Modifizieren des wenigstens einen Algo rithmus und/oder des wenigstens einen Regelsatzes und Wiederholen der Mission, oder

(ii) wenn die Simulationsfahrdauer nicht länger als einen vorgegebenen Zeit abstand länger dauert als die Fahrdauer, Klassifizieren der Mission als er folgreich.

In einer ersten weiterführenden Ausgestaltung kann vorgesehen sein, dass, wenn Schritt g) (i) erreicht ist, eine andere Mission ausgewählt und das Verfahren mit der anderen Mis sion wiederholt wird.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass als Echtzeit- Verkehrsdaten Fahrdaten und Routen von bestimmten Verkehrsteilnehmern ausgewählt sind, wobei Missionen anhand von Orten auf den Routen der Verkehrsteilnehmer ausge wählt sind.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Echt zeit-Verkehrsdaten Infrastrukturinformationen beinhalten.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Vorrich tung zur Verwendung eines Optimierungsalgorithmus beim Nachstellen der Verkehrssitu ation in der Simulationsumgebung ausgebildet ist, um Abweichungen zwischen der Simu lationsumgebung und den Echtzeit-Verkehrsdaten zu minimieren.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Vorrich tung dazu eingerichtet ist, die Mission durch Änderung von Parametern der Verkehrssitua tion in der Simulationsumgebung zu variieren und das Verfahren mit der modifizierten Mission durchzuführen.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Vorrich tung dazu eingerichtet ist, die Änderung der Parameter randomisiert durchzuführen.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass als Erwar tungswert eine Fahrzeit eines Verkehrsteilnehmers für die Durchführung der Mission aus den Echtzeit-Verkehrsdaten vorgesehen ist oder wobei die Vorrichtung dazu eingerichtet ist, eine Fahrzeit des Verkehrsteilnehmers mithilfe eines Agenten in der Simulationsumge bung zu ermitteln.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Vorrich tung dazu eingerichtet ist, den Algorithmus und/oder den wenigstens einen Regelsatz mit tels eines verstärkenden Lernen-Algorithmus zu trainieren.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Fahr dauer ein Erwartungswert ist, der aus Fahrdauern von mehrmaligen Iterationen der Simu lation der Mission bestimmt ist.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Fahr dauer ein Erwartungswert ist, der aus Fahrdauern von mehreren realen Verkehrsteilneh mern darstellt, die die Mission in dem Einsatzgebiet durchführen.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Vorrich tung dazu eingerichtet ist, mittels des selbstlernenden neuronalen Netzes den Regelsatz über vorgegebene Regelsatzgrenzen hinweg zu modifizieren.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass die Vorrich tung dazu ausgebildet ist, beim Vergleich von Simulationsfahrdauer und Fahrzeit eine Standardabweichung zu berücksichtigen.

In einer weiteren weiterführenden Ausgestaltung kann vorgesehen sein, dass eine Mis sion das Abfahren einer Route von wenigstens einem Startpunkt zu wenigstens einem Zielpunkt darstellt. Ein weiterer unabhängiger Gegenstand betrifft ein Computerprogrammprodukt, mit einem computerlesbaren Speichermedium, auf dem Befehle eingebettet sind, die, wenn sie von wenigstens einer Recheneinheit ausgeführt werden, bewirken, dass die wenigstens Re cheneinheit dazu eingerichtet ist, das Verfahren der vorgenannten Art auszuführen.

Das Verfahren kann auf einer oder auf mehreren Recheneinheiten verteilt ausgeführt wer den, sodass bestimmte Verfahrensschritte auf der einen Recheneinheit und andere Ver fahrensschritte auf wenigstens einerweiteren Recheneinheit ausgeführt werden, wobei berechnete Daten sofern notwendig zwischen den Recheneinheiten übermittelt werden können.

Ein weiterer unabhängiger Gegenstand betrifft ein Kraftfahrzeug mit einem Computerpro grammprodukt der zuvor beschriebenen Art. Weitere Merkmale und Einzelheiten ergeben sich aus der nachfolgenden Beschreibung, in der - gegebenenfalls unter Bezug auf die Zeichnung - zumindest ein Ausführungsbei spiel im Einzelnen beschrieben ist. Beschriebene und/oder bildlich dargestellte Merkmale bilden für sich oder in beliebiger, sinnvoller Kombination den Gegenstand, gegebenenfalls auch unabhängig von den Ansprüchen, und können insbesondere zusätzlich auch Gegen- stand einer oder mehrerer separater Anmeldung/en sein. Gleiche, ähnliche und/oder funk tionsgleiche Teile sind mit gleichen Bezugszeichen versehen. Dabei zeigen schematisch:

Fig. 1 eine Draufsicht auf ein Kraftfahrzeug; Fig. 2 ein Computerprogrammproduktmodul; Fig. 3 eine Straßenkarte eines real existierenden Einsatzgebiets mit Verkehrsfluss Informationen; Fig. 4 die Straßenkarte aus Fig. 3 mit einer Mission, sowie

Fig. 5 ein Ablaufdiagramm eines Trainingsverfahrens. Fig. 1 zeigt ein Kraftfahrzeug 2, das zum automatisierten bzw. autonomen Fahren einge richtet ist.

Das Kraftfahrzeug 2 weist ein Steuergerät 4 mit einer Recheneinheit 6 und einem Spei cher 8 auf. Im Speicher 8 ist ein Computerprogrammprodukt gespeichert, das im Nachfol genden im Zusammenhang mit den Fig. 2 bis 4 noch eingehender beschrieben wird.

Das Steuergerät 4 ist einerseits mit einer Reihe von Umgebungssensoren verbunden, die eine Erfassung der aktuellen Lage des Kraftfahrzeugs 2 sowie der jeweiligen Verkehrssi tuation erlauben. Hierzu zählen Umgebungssensoren 10, 11 an der Front des Kraftfahr zeugs 2, Umgebungssensoren 12, 13 am Heck des Kraftfahrzeugs 2, eine Kamera 14 so wie ein GPS-Modul 16. Die Umgebungssensoren 10 bis 13 können z.B. Radar-, Lidar- und/oder Ultraschallsensoren umfassen.

Des Weiteren sind Sensoren zur Erfassung des Zustands des Kraftfahrzeugs 2 vorgese hen, unter anderem Raddrehzahlsensoren 16, Beschleunigungssensoren 18 und Pe dalsensoren 20, die mit dem Steuergerät 4 verbunden sind. Mithilfe dieser Kraftfahr zeugsensorik kann der momentane Zustand des Kraftfahrzeuges 2 zuverlässig erfasst werden.

Während des Betriebs des Kraftfahrzeugs 2 hat die Recheneinheit 6 das im Speicher 8 abgelegte Computerprogrammprodukt geladen und führt dieses aus. Auf der Grundlage eines Algorithmus und der Eingangssignale entscheidet die Recheneinheit 6 über die Steuerung des Kraftfahrzeugs 2, die die Recheneinheit 6 über Eingriff in die Lenkung 22, Motorsteuerung 24 sowie Bremsen 26 erreichen würde, die jeweils mit dem Steuergerät 4 verbunden sind.

Daten der Sensoren 10 bis 20 werden fortlaufend im Speicher 8 zwischengespeichert und nach einer vorgegebenen Zeitdauer verworfen, damit diese Umgebungsdaten zur weite ren Auswertung zur Verfügung stehen können.

Der Algorithmus wurde nach dem nachfolgend beschriebenen Verfahren trainiert.

Fig. 2 zeigt ein Computerprogrammprodukt 28 mit einem Computerprogrammproduktmo dul 30. Das Computerprogrammproduktmodul 30 weist ein selbstlernendes neuronales Netz 32 auf, das einen Algorithmus 34 trainiert. Das selbstlernende neuronale Netz 32 lernt nach Methoden des bestärkenden Lernens, d. h. das neuronale Netz 32 versucht durch Varia tion des Algorithmus 34, Belohnungen für ein verbessertes Verhalten entsprechend einer oder mehrerer Metriken oder Maßstäbe, also für Verbesserungen des Algorithmus 34 zu erhalten. Alternativ können auch bekannte Lernverfahren des überwachten und unüber- wachten Lernens, sowie Kombinationen dieser Lernverfahren verwendet werden.

Der Algorithmus 34 kann im Wesentlichen ein komplexer Filter mit einer Matrix aus Wer ten, in der Regel von Fachmännern Gewichte genannt, bestehen, die eine Filterfunktion definieren, die das Verhalten des Algorithmus 34 abhängig von Eingangsgrößen, welche vorliegend über die Umgebungssensoren 10 bis 20 aufgenommen werden, bestimmt und Steuersignale zur Steuerung des Kraftfahrzeugs 2 generiert.

Das Computerprogrammproduktmodul 30 kann sowohl im Kraftfahrzeug 2 als auch au ßerhalb des Kraftfahrzeugs 2 zum Einsatz gebracht werden. Somit ist es möglich, das Computerprogrammproduktmodul 30 sowohl in einer realen Umgebung als auch in einer Simulationsumgebung zu trainieren. Insbesondere findet das Training gemäß der hier be schriebenen Lehre in einer Simulationsumgebung statt, da dies sicherer ist als ein Trai ning in einer realen Umgebung.

Das Computerprogrammproduktmodul 30 ist dazu eingerichtet, eine Metrik aufzustellen, die verbessert werden soll. Die Metrik ist im vorliegenden Fall eine Zeit bis zum Erreichen einer vorgegebenen Mission (nachfolgend Simulationsfahrzeit bezeichnet), beispielsweise die Fahrzeit von einem Startort zu einem Zielort, im Vergleich zu Erwartungswerten von real existierenden Fahrzeiten.

Wenn die Metrik eine gewisse Schwelle überschritten hat, z.B. eine Zeit kleiner als eine Grenzzeit, die sich anhand des Erwartungswertes bestimmt, kann die Metrik als erfüllt gel ten. Dann kann der Algorithmus 34 entweder hinsichtlich einer anderen Mission optimiert und weiter trainiert werden oder der Algorithmus kann in einer realen Umgebung getestet werden.

Fig. 3 zeigt eine Simulationsumgebung 36, die eine Straßenkarte eines real existierenden Einsatzgebiets 37 abbildet.

Die Straßenkarte des Einsatzgebiets 37 dient als Simulationsumgebung 36 zum Trainie ren des Algorithmus 34. Die Straßenkarte des Einsatzgebiets 37 weist Verkehrsflussinfor mationen betreffend den Verkehrsfluss auf verschiedenen Straßen auf. Diese Verkehrs flussinformationen sind Echtzeitinformationen, die über verschiedene Dienste bereitge stellt werden können. Solche Echtzeitinformationen können beispielsweise aus Handyor- tungdaten, Fahrzeugnavigationsdaten, Kameraaufnahmen von Verkehrsüberwachungska meras und dergleichen ermittelt werden.

In den Echtzeit-Verkehrsdaten werden einzelne Straßen auf der Straßenkarte des Ein satzgebiets 37 mit stockendem Verkehr 38 (gestrichelt dargestellt) oder stark stockendem Verkehr 40 (durchgezogen dargestellt) gekennzeichnet. Stockender Verkehr kann defi niert sein als Verkehr, der mit einer Durchschnittsgeschwindigkeit von unter 20 km/h fließt, stark stockender Verkehr solcher, der mit einer Durchschnittsgeschwindigkeit von unter 5 km/h fließt.

Es ist bekannt, entsprechende Echtzeit-Verkehrsdaten zur Routenplanung zu verwenden, um einerseits den Verkehr zu entlasten und andererseits in bestmöglicher Zeit zum Ziel zu gelangen.

Fig. 4 zeigt die Simulationsumgebung 36 der Straßenkarte des Einsatzgebiets 37 sowie eine Mission für den Algorithmus 34.

Die vorliegenden Mission ist, das simulierte Kraftfahrzeug 2 entlang einer bestimmten Route von einem Startpunkt S zu einem Zielpunkt Z zu fahren.

Das Computerprogrammproduktmodul 30 berechnet anhand der Echtzeit-Verkehrsdaten unter Berücksichtigung des vorherrschenden stockenden Verkehrs 38 und des vorherr schenden stark stockenden Verkehrs 40 einen Erwartungswert einer Fahrzeug zum Ab solvieren der Mission. Dieser Erwartungswert ist der Referenzwert für eine Fahrzeit TS, die zum Absolvieren der Mission durch simulierte Kraftfahrzeug 2 erforderlich ist.

Fig. 5 zeigt ein Ablaufdiagramm des Verfahrens. Zunächst wird nach dem Start das Computerprogrammproduktmodul bereitgestellt. Das Computerprogrammproduktmodul beinhaltet den zu trainierenden Algorithmus und ein selbstlernendes neuronales Netz.

Anschließend wird auf der Basis von realen Kartendaten eine Simulationsumgebung be reitgestellt. Die Simulationsumgebung kann neben Straßen und bestimmten Regeln auch andere Verkehrsteilnehmer nebst deren Missionen enthalten.

In einem weiteren Schritt wird eine Mission in der Simulationsumgebung bestimmt. Die Mission kann, wie im Zusammenhang mit Fig. 4 gezeigt, das Abfahren einer bestimmten Route von einem Startpunkt zu einem Zielpunkt sein.

In einem nächsten Schritt kann ein Erwartungswert für eine Fahrdauer anhand der realen Verkehrsdaten für das zu simulieren. Einsatzgebiet berechnet werden.

In einem weiteren Schritt wird die Simulation durchgeführt, und einer Simulationsfahr dauer bestimmt. Zum Durchführen der Simulation kann es erforderlich sein, Agenten in der Simulationsumgebung zu platzieren, die eine vergleichbare Verkehrssituation schaf fen, wie sie in der realen Umgebung vorliegen. Hierzu können auch Infrastrukturinformati onen, beispielsweise Ampelschaltungen zählen.

Sodann wird ein Vergleich der Simulationsfahrdauer mit dem Erwartungswert vorgenom men. Liegt die Simulationsfahrdauer hin nicht hinreichend nahe an dem Erwartungswert, wird der Algorithmus und/oder der Regelsatz variiert und die Simulation wird wiederholt. Dieser Schritt entspricht dem Prinzip des bestärkenden Lernens mit einer Belohnungs metrik, die der Algorithmus erreichen möchte.

Hat der Algorithmus eine Simulationsahrdauer erzielt, die hinreichend nahe an dem Er wartungswert liegt, gilt die Mission als erfolgreich absolviert.

Der Algorithmus kann durch verschiedene Missionen trainiert werden, beispielsweise ei ner Mission mit gleichem Start- und Zielpunkt, aber anderer Verkehrslage oder mit einer neuen Mission, die einen anderen Start- und/oder einen anderen Zielpunkt aufweist. Erst wenn alle Metriken erreicht sind, kann der Algorithmus eingefroren werden. Obwohl der Gegenstand im Detail durch Ausführungsbeispiele näher illustriert und erläu tert wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden. Es ist daher klar, dass eine Vielzahl von Variationsmöglichkeiten existiert. Es ist ebenfalls klar, dass bei- spielhaft genannte Ausführungsformen nur Beispiele darstellen, die nicht in irgendeiner Weise als Begrenzung etwa des Schutzbereichs, der Anwendungsmöglichkeiten oder der Konfiguration der Erfindung aufzufassen sind. Vielmehr versetzen die vorhergehende Be schreibung und die Figurenbeschreibung den Fachmann in die Lage, die beispielhaften Ausführungsformen konkret umzusetzen, wobei der Fachmann in Kenntnis des offenbar- ten Erfindungsgedankens vielfältige Änderungen beispielsweise hinsichtlich der Funktion oder der Anordnung einzelner, in einer beispielhaften Ausführungsform genannter Ele mente vornehmen kann, ohne den Schutzbereich zu verlassen, der durch die Ansprüche und deren rechtliche Entsprechungen, wie etwa einer weitergehenden Erläuterung in der Beschreibung, definiert wird.

Bezugszeichenliste 2 Kraftfahrzeug

4 Steuergerät

6 Recheneinheit

8 Speicher

10 Umgebungssensor 11 Umgebungssensor

12 Umgebungssensor

13 Umgebungssensor

14 Kamera

15 GPS-Modul 16 Raddrehzahlsensor

18 Beschleunigungssensor

20 Pedalsensor

22 Lenkung

24 Motorsteuerung 26 Bremsen

28 Computerprogrammprodukt

30 Computerprogrammproduktmodul

32 neuronales Netz

34 Algorithmus 36 Simulationsumgebung

37 Einsatzgebiet

38 stockender Verkehr

40 stark stockender Verkehr ts Simulationsfahrzeit

M Mission

5 Startpunkt

Z Zielpunkt