Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
COMPUTER-IMPLEMENTED METHOD AND SYSTEM FOR TRAINING A MACHINE LEARNING PROCESS
Document Type and Number:
WIPO Patent Application WO/2022/214416
Kind Code:
A1
Abstract:
The invention relates to a computer-implemented method for training a machine learning process for recognition of future trajectories of objects in relation to an ego vehicle, comprising the steps of: − providing temporally successive global traffic scenarios as temporally successive frames in a global coordinate system, − marking all objects in the global traffic scenarios with different markers, − identifying the ego position of the ego vehicle in the temporally successive frames, − transforming each of the frames having the marked objects on the basis of the determined ego position into a local coordinate system as local traffic scenario, so that the frame in question has the same orientation as the ego vehicle in the frame in question and the coordinates of the ego vehicle are the origin of the co-ordinates, so that the local traffic scenarios have the same orientation as the ego vehicle, the transformed frames being used as historic frames until a first time, and the transformed frames being used as ground truth frames from the first time to a second time, − training the machine learning process on the basis of the historic frames (1a,..,1e), for determination of future local traffic scenarios until a second time as future frames and synchronisation of the future frames generated by the machine learning process with the corresponding ground truth frames (2a,..,2e). The invention further relates to a corresponding system.

Inventors:
KANNAIAH SAIKIRAN (DE)
RIEBEL JONAS (DE)
WAGNER BENJAMIN (DE)
Application Number:
PCT/EP2022/058835
Publication Date:
October 13, 2022
Filing Date:
April 04, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZAHNRADFABRIK FRIEDRICHSHAFEN (DE)
International Classes:
G06V10/24; G06V10/766; G06V10/776; G06V10/82; G06V20/58
Foreign References:
DE102020100685A12020-09-17
DE102018222542A12020-06-25
Other References:
EILBRECHT JAN ET AL: "Model-predictive planning for autonomous vehicles anticipating intentions of vulnerable road users by artificial neural networks", 2017 IEEE SYMPOSIUM SERIES ON COMPUTATIONAL INTELLIGENCE (SSCI), IEEE, 27 November 2017 (2017-11-27), pages 1 - 8, XP033314110, DOI: 10.1109/SSCI.2017.8285249
Download PDF:
Claims:
Patentansprüche

1. Computerimplementiertes Verfahren zum Trainieren eines maschinellen Lernver fahrens zur Erkennung zukünftiger Trajektorien von Objekten in Bezug auf ein Ego- Fahrzeug gekennzeichnet, durch die Schritte:

- Bereitstellen von zeitlich aufeinanderfolgenden globalen Verkehrsszenarien als zeitlich aufeinanderfolgenden Frames in einem globalen Koordinatensys tem,

- Kennzeichnen aller Objekte in den globalen Verkehrsszenarien mit verschie denen Markern,

- Bestimmen der Ego-Pose des Ego-Fahrzeugs in den zeitlich aufeinanderfol genden Frames,

- Transformieren der Frames mit den markierten Objekten anhand der bestimm ten Ego-Pose jeweils in ein lokales Koordinatensystem als lokales Verkehrs szenario, so dass der jeweilige Frame die gleiche Orientierung wie das Ego- Fahrzeug im jeweiligen Frame aufweist und die Koordinaten des Ego-Fahr zeuges der Koordinatenursprung sind, so dass die lokalen Verkehrsszenarien die gleiche Orientierung wie das Ego-Fahrzeug aufweisen, wobei die transfor mierten Frames bis zu einem ersten Zeitpunkt als historische Frames

(1 a, .. , 1 e) verwendet werden und die transformierten Frames von dem ersten Zeitpunkt bis zu einem zweiten Zeitpunkt als Ground Truth Frames (2a,..,2e) verwendet werden,

- Trainieren des maschinellen Lernverfahrens anhand der historischen Frames (1a,.., 1 e), zur Bestimmung von zukünftigen lokalen Verkehrsszenarien bis zu einem zweiten Zeitpunkt als zukünftige Frames und Abgleich der durch das maschinelle Lernverfahren erzeugten zukünftigen Frames mit den korrespon dierenden Ground Truth Frames (2a,..,2e).

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die Objekte als statische Objekte als auch bewegte Objekte ausgebildet sind und zu mindest durch ihre Größe und Form als Marker gekennzeichnet werden.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die statischen Objekte und die bewegten Objekte durch unterschiedliche Farben als Marker gekennzeichnet werden.

4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die historischen Frames (1a,.., 1 e) als auch die Ground Truth Frames (2a,..,2e) und die durch das maschinelle Lernverfahren erzeugten zukünftigen Frames einen Zeit stempel aufweisen.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Frames als ein Bildausschnitt aus einem jeweiligen Verkehrsszenario ausgestal tet sind, wobei jeweils ein Bildausschnitt durch einen vorgegebenen Radius um die Koordinaten des Ego-Fahrzeugs ausgebildet werden, so dass sich das Ego-Fahr zeug zentriert in der Mitte des Bildausschnitts befindet.

6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass anhand der historischen Frames (1a,..,1e) eine historische Trajektorie von sich bewe gender Objekte bestimmt werden und anhand der zukünftigen Frames die zu erwar tenden durch das maschinelle Lernverfahren erzeugten zukünftigen Trajektorien be stimmt werden.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass anhand der Ground Truth Frames (2a,.., 2e) eine Ground Truth Trajektorie (4) von sich bewegender Objekte bestimmt wird und das maschinelle Lernverfahren anhand der historischen Trajektorie (3) und der Ground Truth Trajektorie (4) angelernt wird.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass eine Güte des maschinellen Lernverfahrens bestimmt wird durch Bestimmung der Differenz zwischen den Ground Truth Trajektorien (4) und die zu erwartenden durch das maschinelle Lernverfahren erzeugten zukünftigen Trajektorien als mittlerer abso luter Fehler MAE: (Ground Truth Trajektorien); — (zukünftigen Trajektorien); | wobei n die Anzahl der Frames ist.

9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verkehrsszenarien im virtuellen Raum in Vogelperspektive simuliert werden.

10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das maschinelle Lernverfahren ein deep learning Verfahren ist, welches mittels eines Gradientenverfahrens trainiert wird.

11 . Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass das deep learning Verfahren einen Encoder und einen Decoder aufweist.

12. System zum Trainieren eines maschinellen Lernverfahrens zur Erkennung zu künftiger Trajektorien von Objekten in Bezug auf ein Ego-Fahrzeug umfassend:

- eine Speichereinheit zum Bereitstellen von zeitlich aufeinanderfolgenden glo balen Verkehrsszenarien als zeitlich aufeinanderfolgenden Frames in einem globalen Koordinatensystem, wobei die globalen Verkehrsszenarien Objekte aufweisen und alle Objekte in den globalen Verkehrsszenarien mit verschiede nen Markern gekennzeichnet sind,

- einen Prozessor zum Bestimmen der Ego-Pose des Ego-Fahrzeugs in den zeitlich aufeinanderfolgenden Frames und zum Transformieren der Frames mit den markierten Objekten anhand der bestimmten Ego-Pose jeweils in ein lokales Koordinatensystem als lokales Verkehrsszenario, so dass der jeweilige Frame die gleiche Orientierung wie das Ego-Fahrzeug im jeweiligen Frame aufweist und die Koordinaten des Ego-Fahrzeuges der Koordinatenursprung sind, so dass die lokalen Verkehrsszenarien die gleiche Orientierung wie das Ego-Fahrzeug aufweisen, wobei die transformierten Frames bis zu einem ersten Zeitpunkt als historisches Frame (1 a, . 1 e) verwendet werden und die transformierten Frames von dem ersten Zeitpunkt bis zu einem zweiten Zeit punkt als Ground Truth Frames (2a,..,2e) verwendet werden,

- den Prozessor zum Trainieren des maschinellen Lernverfahrens anhand der historischen Frames (1 a, , 1 e), zur Bestimmung von zukünftigen lokalen Ver kehrsszenarien bis zu einem zweiten Zeitpunkt als zukünftige Frames und Ab gleich der durch das maschinelle Lernverfahren erzeugten zukünftigen Fra mes mit den korrespondierenden Ground Truth Frames (2a,..,2e).

13. Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Pro gramms durch einen Computer diesen veranlassen, das Verfahren nach Anspruch 1 auszuführen.

14. Computerlesbares Medium, umfassend Befehle, die bei der Ausführung durch ei nen Computer diesen veranlassen, die Schritte des Verfahrens nach Anspruch 1 auszuführen.

15. Datenträgersignal, das das Computerprogrammprodukt nach Anspruch 13 über trägt.

Description:
Computerimplementiertes Verfahren und System zum Trainieren eines maschinellen

Lernverfahrens

Die Erfindung betrifft ein computerimplementiertes Verfahren zum Trainieren eines maschinellen Lernverfahrens zur Erkennung zukünftiger Trajektorien von Objekten in Bezug auf ein Ego-Fahrzeug. Ferner betrifft die Erfindung ein System.

Ein autonomes oder vollautonomes Fahrzeug ist ein Fahrzeug, das in der Lage ist, seine Umgebung zu erfassen und mit wenig oder keiner Benutzereingabe zu navigie ren. Dies geschieht durch den Einsatz von Sensorvorrichtungen wie Radar, Lidarsys- teme, Kamera, Ultraschall und dergleichen.

Das Fahrzeug analysiert die Sensordaten hinsichtlich Straßenverlauf, anderen Ver kehrsteilnehmer sowie deren Trajektorie. Ferner muss das Fahrzeug entsprechend auf die erfassten Daten reagieren und entsprechend den erfassten Daten Steuerbe fehle berechnen und diese an Aktuatoren im Fahrzeug weiterleiten.

Damit ein autonomes Fahrzeug sein Ziel erreichen kann, muss es seine Umgebung d.h. sein Umfeld jedoch nicht nur wahrnehmen und interpretieren, sondern auch Vor hersagen, was in der Zukunft passieren könnte. Diese Vorhersagen liegen dabei etwa in der Größenordnung von ein bis drei Sekunden, beispielsweise wenn ein Ver kehrsteilnehmer abbiegt oder ein Fußgänger die Straße überquert, damit das auto nome Fahrzeug sicher und kollisionsfrei seinen zukünftigen Weg planen/umplanen kann.

Den zukünftigen Weg oder die Trajektorie von Verkehrsteilnehmern in der Umgebung des autonomen Fahrzeugs Vorhersagen zu können, stellt derzeit eine Herausforde rung für den Betrieb autonomer Fahrzeuge dar. Dies stellt insbesondere bei immer steigenden Verkehr und einer immer größeren Sensordatendichte eine besondere Schwierigkeit dar.

Die DE 10 2018222 542 A1 offenbart ein Verfahren zur Vorhersage der Trajektorie mindestens eines gesteuerten Objekts, wobei eine durch physikalische Messung ermittelte aktuelle Position des Objekts bereitgestellt wird, mindestens ein voraus sichtliches Ziel der Bewegung des Objekts bereitgestellt wird; unter Heranziehung von physikalischen Beobachtungen des Objekts, und/oder der Umgebung, in der sich das Objekt bewegt. Es wird mindestens eine voraussichtliche Präferenz ermittelt, die bei der Steuerung des Objekts in Richtung auf das mindestens eine voraussichtliche Ziel erfolgt.

Es ist daher eine Aufgabe der Erfindung ein Verfahren und ein System anzugeben, mit welchem die Trajektorie von Verkehrsteilnehmern besser vorhergesagt werden kann.

Die Aufgabe wird gelöst durch ein computerimplementiertes Verfahren zum Trainie ren eines maschinellen Lernverfahrens zur Erkennung zukünftiger Trajektorien von Objekten in Bezug auf ein Ego-Fahrzeug mit den Merkmalen des Anspruchs 1. Fer ner wird die Aufgabe gelöst durch ein System mit den Merkmalen des Anspruchs 12.

Vorteilhafte Weiterbildungen, welche einzeln oder in Kombination miteinander einge setzt werden können, sind in den abhängigen Ansprüchen sowie in der Beschreibung angegeben.

Die Aufgabe wird gelöst durch ein computerimplementiertes Verfahren zum Trainie ren eines maschinellen Lernverfahrens zur Erkennung zukünftiger Trajektorien von Objekten in Bezug auf ein Ego-Fahrzeug umfassend der Schritte:

- Bereitstellen von zeitlich aufeinanderfolgenden globalen Verkehrsszenarien als zeitlich aufeinanderfolgende Frames in einem globalen Koordinatensys tem,

- Kennzeichnen aller Objekte in den globalen Verkehrsszenarien mit verschie denen Markern,

- Bestimmen der Ego-Pose des Ego-Fahrzeugs in den zeitlich aufeinanderfol genden Frames,

- Transformieren der Frames mit den markierten Objekten anhand der bestimm ten Ego-Pose jeweils in ein lokales Koordinatensystem als lokales Verkehrs szenario, so dass der jeweilige Frame die gleiche Orientierung wie das Ego- Fahrzeug im jeweiligen Frame aufweist und die Koordinaten des Ego-Fahr zeuges der Koordinatenursprung sind, so dass die lokalen Verkehrsszenarien die gleiche Orientierung wie das Ego-Fahrzeug aufweisen, wobei die transfor mierten Frames bis zu einem ersten Zeitpunkt als historische Frames verwen det werden und die transformierten Frames von dem ersten Zeitpunkt bis zu einem zweiten Zeitpunkt als Ground Truth Frames verwendet werden,

- Trainieren des maschinellen Lernverfahrens anhand der historischen Frames, zur Bestimmung von zukünftigen lokalen Verkehrsszenarien bis zu einem zweiten Zeitpunkt als zukünftige Frames und Abgleich der durch das maschi nelle Lernverfahren erzeugten zukünftigen Frames mit den korrespondieren den Ground Truth Frames.

Frames sind sozusagen Verkehrsszenarien (ein einzelnes Verkehrsszenario) zu ei nem gewissen Zeitpunkt. Die Frames können als Einzelbilder der zeitlich aufeinan derfolgenden Verkehrsszenarien betrachtet werden. Verkehrsszenarien können da her aus zeitlich aufeinanderfolgenden Frames von Verkehrsszenarios aufgebaut sein.

Die Ego-Pose ist dabei im Wesentlichen zumindest die Orientierung des Ego-Fahr zeugs.

Ground Truth Verkehrsszenarien (Frames) sind die sich tatsächlich einstellenden Verkehrsszenarien; d.h. die Verkehrsszenarien die sich nach dem ersten Zeitpunkt bis zu dem zweiten Zeitpunkt real einstellen mit den tatsächlich gefahrenen Trajekto- rien durch die Verkehrsteilnehmer nach dem ersten Zeitpunkt.

Ein Verkehrsszenario kann dabei aus einer Anzahl / Menge unterschiedlicher beweg ter (Fahrrad/PKW/Fußgänger) und/oder feststehender Objekte (AmpelA/erkehrs- schild) in der Umgebung des Ego-Fahrzeugs sein. Feststehende Objekte wie Ver kehrszeichen, Straßenmarkierungen, Lichtzeichenanlagen, Fußgänger-Überwege, Hindernisse sind an einer genau bestimmten Position. Bewegliche Objekte wie Fahr rad, PKWs etc. weisen ein dynamisches Verhalten (Trajektorie) wie Geschwindigkeit, BeschleunigungA/erzögerung, Abstand zur Straßenmittellinie etc. auf. Der Begriff „Ego-Fahrzeug“ kann als dasjenige Fahrzeug verstanden werden, dessen Umfeld zu überwachen ist. Das Ego-Fahrzeug kann insbesondere ein voll- oder teil autonom fahrendes Kraftfahrzeug für den Verkehr auf Straßen sein, welches zumin dest teilweise unabhängig lenken soll. Hierfür sind zumeist Sensoren etc. an dem Ego-Fahrzeug angeordnet, welche das Umfeld sensorisch erfassen können.

Eine Trajektorie bezeichnet eine Menge aus zeitlich und räumlich miteinander ver knüpften Positionen und Orientierungen, d.h. eine Fahrstrecke eines Verkehrsteil nehmers entlang bzw. in der Frames.

Erfindungsgemäß werden alle Frames anhand der Ego-Pose orientiert, so dass die Ego-Bewegung und Ego-Drehung nur dadurch abgebildet wird das Ego-Fahrzeug selber nicht angegeben ist. Vorzugsweise werden die letzten zwei Sekunden der Ver kehrsszenarien als historische Frames ausgewählt und stellen die Eingabetrainings daten mit den Ground Truth Frames dar.

Durch das mittels des erfindungsgemäßen Verfahrens antrainierte maschinelle Lern verfahren ist es möglich, eine Vorhersage der Objekttrajektorien aufgrund des kom pletten Frames als Eingabe zu erstellen.

Durch das erfindungsgemäße Verfahren wird ferner ein maschinelles Lernverfahren, beispielsweise ein künstliches neuronales Netz vereinfacht antrainiert. Das maschi nelle Lernverfahren wird unter Verwendung des kompletten Wissens über beispiels weise die Fahrspuren und Verkehrsregeln (statische Objekte) als Trainingsdaten an trainiert. Das so angelernte Lernverfahren kann dieses Wissen nun in die Vorhersage miteinbeziehen.

In dem so erfindungsgemäß trainierten maschinellen Lernverfahren wird zudem das gesamte Vorwissen über Verkehrsteilnehmer verwendet. Dadurch kann das ange lernte maschinelle Lernverfahren auch dieses in die späteren Vorhersagen miteinbe ziehen. Weiterhin können in dem so erfindungsgemäß angelernten Lernverfahren die vergangenen Bewegungen der Verkehrsteilnehmer und die Kategorie, zu der dieser Verkehrsteilnehmer gehört, wie z. B. Fußgänger, Pkw, Lkw, Fahrräder, etc., durch Eingabe der kompletten Frames in das damit antrainierte Lernverfahren berücksich tigt werden. Basierend darauf ist es dem damit trainierten maschinellen Lernverfah ren möglich, später alle Verkehrsteilnehmer zu berücksichtigen, ohne dass die Re chenzeit davon beeinflusst wird.

Durch Eingabe der erfindungsgemäß ausgestalteten Frames in dem durch das erfin dungsgemäße Verfahren so antrainierte maschinelle Lernverfahren können die sozi alen Interaktionen berücksichtigt werden. Basierend darauf ist es dem damit trainier ten maschinellen Lernverfahren möglich, später diese sozialen Interaktionen bei der Vorhersage der zukünftigen Bewegung der Verkehrsteilnehmer zu berücksichtigen.

Durch das erfindungsgemäße Verfahren kann ein maschinelles Lernverfahren zum Erzeugen vorausschauender Verkehrsszenarien anhand von historischen Frames und Ground Truth Frames trainiert, werden. Dadurch kann ein verbessertes maschi nelles Lernverfahren generiert werden, welches eine verbesserte Vorhersage der Trajektorien beweglicher Objekte in seinem Umfeld liefert.

Durch das erfindungsgemäße Verfahren wird ein maschinelles Lernverfahren anhand der kompletten Frames und damit der gesamten Karteninformationen und der ge samten sozialen Interaktionen als auch durch die Historie der historischen Trajektorie als Eingabe angelernt und kann dementsprechend nach anlernen bessere Ergeb nisse erzielen.

Das mittels des Verfahrens trainierte maschinelle Lernverfahren ist somit in der Lage alle Trajektorien in den Verkehrsszenarien um das Ego- Fahrzeug auf einmal im Vo raus zu bestimmen. Dadurch wird lediglich eine konstante Zeit für die Vorhersage be nötigt, welche unabhängig von der Anzahl der Verkehrsteilnehmer ist, indem bei spielsweise die soziale Interaktion der jeweiligen Verkehrsteilnehmer in die Vorher sage als auch beispielsweise das historische Vorwissen über die Verkehrsteilnehmer mit in die zu bestimmenden zukünftigen Verkehrsszenarien mit einbezogen werden.

In einer Ausführungsform sind die Objekte als statische Objekte als auch bewegte Objekte ausgebildet, wobei die statischen Objekte als auch die bewegten Objekte zumindest durch ihre Größe und Form als Marker gekennzeichnet werden. Jedes Objekt wird vorzugsweise durch seine originale Größe und Länge und Breite darge stellt. Weiterhin können statische Objekte und bewegte Objekte durch unterschiedli che Farben als Marker gekennzeichnet werden. Dazu wird eine RGB-Farbpalette ge nutzt, die alle verfügbaren Karteninformationen wie Fahrspurmitten und Fahrspur grenzen darstellt. So können Verkehrsteilnehmer beispielsweise in grau dargestellt werden.

In weiterer Ausführungsform weisen die historischen Frames als auch die Ground Truth Frames und die durch das maschinelle Lernverfahren erzeugten zukünftigen Frames einen Zeitstempel auf. Bei Transformation der historischen Frames in einen einzelnen Frame stellt jedes bewegte graue Objekt (Verkehrsteilnehmer) einen Zeit punkt dar zu dem der Frame erstellt wurde. Dadurch können die Zeitschritte in Zu sammenhang mit den Objekten zusammen in einem Frame dargestellt werden. Die Dekodierung der Objekte in Bezug auf ihre Historie und des dazu gehöhrendes Zeit schrittes ist also in der Datenstruktur selbst gegeben.

In weiterer Ausführung sind die Frames als ein Bildausschnitt aus einem jeweiligen Verkehrsszenario ausgestaltet, wobei jeweils ein Bildausschnitt durch einen vorgege benen Radius um die Koordinaten des Ego-Fahrzeugs ausgebildet wird, so dass sich das Ego-Fahrzeug zentriert in der Mitte des Bildausschnitts befindet. Dadurch ist eine bessere Verfolgung der beweglichen Objekte aus Sicht des Ego-Fahrzeuges möglich sowie eine schnellere Verarbeitung. Da alle Frames die Verfolgung aller Objekte so wie deren Posen beinhalten, sind zur Bestimmung relevanter Trajektorien lediglich diejenigen Objekte notwendig, welche aus der Sicht des Ego-Fahrzeuges wahrge nommen werden können. Die individuell generierten, durch den Bildausschnitt redu zierten Frames enthalten somit nur noch Objekte, die für dieses spezifische Ego- Fahrzeug in seinem Sichtfeld sichtbar sind. Dabei kann der Radius frei gewählt wer den. Insbesondere kann ein solcher als 50 m gewählt werden.

Durch Wahl dieses Radius wird sichergestellt, dass alle beweglichen und unbewegli chen Objekte erfasst werden, welche notwendig sind, um das Ego-Fahrzeug für die nächsten Sekunden / Minuten autonom zu steuern. Alle Frames sind anhand der Ego-Koordinaten, d.h. der Koordinaten des Ego-Fahrzeuges und der Richtung zentriert und orientiert, so dass die Ego-Bewegung und Ego-Drehung nur dadurch abgebildet wird und das Ego-Fahrzeug selber nicht angegeben ist. Dabei befindet sich das Ego-Fahrzeug immer in der Mitte eines Frames als Koordinatenursprung.

In weiterer Ausgestaltung wird anhand der historischen Frames die historische Trajektorie von sich bewegender Objekte, d.h. Verkehrsteilnehmer bestimmt und an hand der zukünftigen Frames die zu erwartenden durch das maschinelle Lernverfah ren erzeugten zukünftigen Trajektorien bestimmt.

Hierzu werden die zukünftigen Trajektorien aus den, durch das maschinelle Lernver fahren, erzeugten zukünftigen Frames extrahiert und dem dazugehörigen Objekt (Verkehrsteilnehmer) zugeordnet.

Zunächst werden dazu vorzugsweise die zukünftigen Frames entsprechend der Ego- Pose rotiert, um dieselbe Orientierung wie das Ego-Fahrzeug bzw. der historischen Frames zu erhalten; d.h. die historischen und zukünftigen Frames sind zueinander gleich ausgerichtet. Dabei bedeutet Ego-Pose die Position und die Orientierung des Ego-Fahrzeugs. Anschließend werden in den gedrehten zukünftigen Frames bevor zugt weiter die Konturen und damit die Objekte (Verkehrsteilnehmer) und deren Trajektorien erkannt und deren Pose, d.h. Orientierung und Koordinaten, bestimmt und mit der Pose der einzelnen Verkehrsteilnehmer in den historischen Frames ver glichen. Dadurch kann eine Zuordnung erfolgen. Ist dadurch die Zuordnung erhalten worden, können die zukünftigen Trajektorien zu den bekannten Verkehrsteilnehmern zugeordnet werden.

In weiterer Ausführungsform werden anhand der Ground Truth Frames die zukünfti gen Trajektorien von sich bewegender Objekte (Verkehrsteilnehmer) bestimmt. Das maschinelle Lernverfahren kann anschließend anhand der historischen Trajektorien aus den historischen Frames und der durch das maschinelle Lernverfahren ermittel ten zukünftigen Trajektorien angelernt werden. Dadurch kann ein gezieltes Anlernen eines maschinellen Lernverfahrens, beispielsweise mittels iterativen Gradientenver fahren, bewerkstelligt werden. In weiterer Ausgestaltung wird eine Güte des maschinellen Lernverfahrens bestimmt durch Bestimmung der Differenz zwischen den Ground Truth Trajektorien und den zu erwartenden durch das maschinelle Lernverfahren erzeugten zukünftigen Trajekto rien als mittlerer absoluter Fehler MAE:

MAE (Ground Truth Trajektorien) ; — (zukünftigen Trajektorien) ; | wobei n die Anzahl der Frames ist.

Dies bedeutet, dass dadurch die Differenz zwischen Ground Truth Trajektorien und den zukünftigen Trajektorien berechnet wird. Dadurch kann die Güte des maschinel len Lernverfahrens sehr schnell erkannt werden.

In weiterer Ausgestaltung können die Verkehrsszenarien im virtuellen Raum in Vo gelperspektive simuliert werden. Dadurch sind die historischen Frames als auch die Ground Truth Frames einfach zu erzeugen.

In weiterer Ausgestaltung ist das maschinelle Lernverfahren ein Deep Learning Ver fahren, welches mittels eines Gradientenverfahren trainiert wird. Dieses Lernverfah ren kann beispielsweise als tiefes neuronales Netz ausgestaltet sein. Anhand der Trajektorien oder der Frames kann das Netz iterativ mittels Gradientenabstiegs ange lernt werden. Als Architektur des künstlichen neuronalen Netzes kann eine Decoder- Encoder Struktur verwendet werden.

Das künstliche neuronale Netz kann ein Faltungsnetz, insbesondere ein Deep Con- volutional Neural Network sein. Der Encoder ist für die Komprimierung des Eingangs signals mittels Faltung verantwortlich und transformiert die Eingabe in einen niedrig dimensionalen Vektor. Der Decoder ist für die Wiederherstellung zuständig. Der De coder transformiert anschließend den niedrigdimensionalen Vektor in die gewünschte Ausgabe. Ferner wird die Aufgabe gelöst durch ein System zum Trainieren eines maschinellen Lernverfahrens zur Erkennung zukünftiger Trajektorien von Objekten in Bezug auf ein Ego-Fahrzeug umfassend:

- eine Speichereinheit zum Bereitstellen von zeitlich aufeinanderfolgenden glo balen Verkehrsszenarien als zeitlich aufeinanderfolgenden Frames in einem globalen Koordinatensystem, wobei die globalen Verkehrsszenarien Objekte aufweisen und alle Objekte in den globalen Verkehrsszenarien mit verschiede nen Markern gekennzeichnet sind,

- einen Prozessor zum Bestimmen der Ego-Pose des Ego-Fahrzeugs in den zeitlich aufeinanderfolgenden Frames und zum Transformieren der Frames mit den markierten Objekten anhand der bestimmten Ego-Pose jeweils in ein lokales Koordinatensystem als lokales Verkehrsszenario, so dass der jeweilige Frame die gleiche Orientierung wie das Ego-Fahrzeug aufweist, wobei die transformierten Frames bis zu einem ersten Zeitpunkt als historische Frames verwendet werden und die transformierten Frames von dem ersten Zeitpunkt bis zu einem zweiten Zeitpunkt als Ground Truth Frames verwendet werden,

- den Prozessor zum Trainieren des maschinellen Lernverfahrens anhand der historischen Frames, zur Bestimmung von zukünftigen lokalen Verkehrsszena rien bis zu einem zweiten Zeitpunkt als zukünftige Frames und Abgleich der durch das maschinelle Lernverfahren erzeugten zukünftigen Frames mit den korrespondierenden Ground Truth Frames.

Die Vorteile des Verfahrens können auch auf das System übertragen werden.

Die einzelnen Ausführungsformen des Verfahrens können ebenfalls auf das System angewendet werden.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Computerprogramm produkt, umfassend Befehle, die bei der Ausführung des Programms durch den Computer diesen veranlassen, die Schritte des Verfahrens gemäß den Ausführungs formen auszuführen.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein computerlesbares Speichermedium, umfassend Befehle, z.B. in Form des Computerprogrammprodukts, die bei der Ausführung durch den Computer diesen veranlassen, die Schritte des Verfahrens gemäß den Ausführungsformen auszuführen.

Weitere bevorzugte Ausführungsformen beziehen sich auf ein Datenträgersignal, dass das Computerprogramm gemäß den Ausführungsformen überträgt und/oder charakterisiert. Mittels des Datenträgersignals kann das Computerprogramm bei spielsweise von einer externen Einheit an das System übertragen werden. Das Sys tem kann z.B. eine bevorzugt bidirektionale Datenschnittstelle u.a. zum Empfang des Datenträgersignals aufweisen.

Weitere Eigenschaften und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung unter Bezugnahme auf die beiliegenden Figuren. Darin zeigen schematisch:

FIG 1: verschiedene historische Frames,

FIG 2: unbewegliche Objekte in einem Frame,

FIG 3: die Ground Truth Frames,

FIG 4: die historischen Frames und Ground Truth Frames als Tabelle,

FIG 5: gestapelte Frames als einen einzigen Frame,

FIG 6: Encoder und Decoder des neuronalen Netzes,

FIG 7: eine berechnete zukünftige Trajektorie.

Damit ein autonomes Fahrzeug sein Ziel erreichen kann, muss es seine Umgebung wahrnehmen, sie interpretieren und Vorhersagen, was in der Zukunft passieren könnte. Dazu werden Sensoren, mit denen das autonome Fahrzeug ausgestattet ist, verwendet, welche die Umgebung erfassen. Die erfassten Sensordaten müssen ver arbeitet und interpretiert werden.

Dabei ist es eine wesentliche Voraussetzung für den Betrieb eines autonomen Fahr zeugs (Ego-Fahrzeug) für jeden Verkehrsteilnehmer die zukünftigen Positionen (Trajektorien) der Verkehrsteilnehmer aus solchen Sensordaten zuverlässig zu be stimmen. Dazu kann ein maschinelles Lernverfahren beispielsweise ein neuronales Netz herangezogen werden. Dieses muss jedoch zuverlässig angelernt werden, um die erhaltenden Sensordaten richtig zu interpretieren.

Erfindungsgemäß kann das computerimplementierte Verfahren zum Trainieren des maschinellen Lernverfahrens zur Erkennung zukünftiger Trajektorien von Objekten in Bezug auf ein Ego-Fahrzeug herangezogen werden. Hierfür können die aktuellen und vorherigen Positionen eines Verkehrsteilnehmers in kartesischen Koordinaten herangezogen werden.

Zunächst werden zeitlich aufeinanderfolgende globale Verkehrsszenarien als zeitlich aufeinanderfolgenden Frames in einem globalen Koordinatensystem bereitgestellt. Die Trajektorien bzw. Trajektoriedaten sind daher inhärente Zeitreihendaten. Die Ver kehrsszenarien werden dabei vorzugsweise durch Objekte dargestellt. Die Objekte können im Wesentlichen in statische und bewegliche Objekte (Verkehrsteilnehmer) unterteilt werden.

Statische Objekte sind beispielsweise Fahrbahnen und Fahrbahnberandungen, Am peln, Verkehrsschilder etc. Bewegliche Objekte sind hier vor allem die Verkehrsteil nehmer wie PKW, Fußgänger, Fahrradfahrer. Diese erzeugen eine sogenannte Trajektorie. Trajektorie bezeichnet eine Menge auszeitlich und räumlich miteinander verknüpften Positionen und Orientierungen, d.h. die Fahrtstrecke des beweglichen Objektes.

Diese Verkehrsszenarien werden vorzugsweise anhand eines Datensatzes auf Basis von Simulationsdaten erstellt/simuliert. Ferner werden die Verkehrsszenarien vor zugsweise in Bezug auf verschiedene Städte simuliert um eine ausreichende Güte der Simulationsdaten sicherzustellen. Somit können große Mengen an verschiede nen Verkehrsszenarien erzeugt werden, anhand dessen das maschinelle Lernverfah ren angelernt werden kann.

Die Verkehrsteilnehmer, insbesondere deren Trajektorien werden in Draufsicht, das heißt Vogelperspektive ( Bird-eye-view manner) dargestellt. Jedes Verkehrsszenario wird dabei als ein Frame dargestellt.

Dabei werden sogenannte historische Frames 1 a, .1e(FIG 1 ) erzeugt, welche sich von einem in der Vergangenheit liegenden Zeitpunkt t=-2 Sekunden bis zu einem ak tuellen ersten Zeitpunkt t=0 erstrecken, sowie Ground Truth Frames 2a . 2e (FIG

3), welche sich von dem ersten Zeitpunkt bis zu einem zukünftigen zweiten Zeitpunkt erstrecken. Diese können als Eingabedaten in das maschinelle Lernverfahren die nen.

Die historischen Frames geben dabei die Historie an, das heißt bei bewegten Objek ten die bereits gefahrene Trajektorie.

Jedes Objekt wird vorzugsweise durch seine originale Größe und Länge und Breite dargestellt. Ferner können statische Objekte und bewegte Objekte durch unter schiedliche Farben als Marker (RGB-Farbpalette) in der Simulation gekennzeichnet werden. Dabei wird die RGB-Farbpalette genutzt, alle verfügbaren Karteninformatio nen wie Fahrspurmitten und Fahrspurgrenzen darzustellen.

So können Verkehrsteilnehmer bzw. deren historische Trajektorien 3 in grau in jedem der simulierten historischen Frames 1a,..,1e und Ground Truth Frames 2a,..., 2e dargestellt werden.

Die Dekodierung der Historie und des Zeitschrittes ist daher durch diese Darstellung selbst gegeben.

FIG 1 zeigt verschiedene historische Frames 1 a, .. , 1 e, die die Trajektorien 3 aller Ob jekte beinhalten. Zur Eingabe in das maschinelle Lernverfahren werden die Frames und damit die Objekte um die Ego-Pose gedreht, so dass sie der Sichtweise aus dem Ego-Fahrzeug heraus entsprechen.

Die Trajektorie 3, hier eines einzelnen Objektes, wird quasi dadurch erkannt, indem die historische Frames 1 a, , 1 e als Bildsequenz dargestellt /wahrgenommen werden können. Dabei sind die historischen Frames bis zu einem ersten Zeitpunkt tO aufgenommen, ausgehend von einem dem Zeitpunkt tO vorangegangenen Zeitpunkt t=-2. Dies be deutet, dass die letzten 2 Sekunden als historische Frames für einen Eingabeinput zum Anlernen für das maschinelle Lernverfahren herangezogen werden.

Ferner vorzugsweise sind die Frames 1a, ... ,1e als ein Bildausschnitt aus einem je weiligen Verkehrsszenario ausgestaltet, wobei jeweils ein Bildausschnitt durch einen vorgegebenen Radius um die Koordinaten des Ego-Fahrzeugs ausgebildet wird. So mit werden lediglich diejenigen Objekte dargestellt, welche aus der Sicht des Ego- Fahrzeuges wahrgenommen werden können, d.h. welche aus der "Ego-Sicht" wahr genommen werden würden.

Das Ego-Fahrzeug bzw. dessen Koordinaten befinden sich somit zentriert in der Mitte des Bildausschnitts (Koordinatenursprung). Dadurch ist eine bessere Verfol gung der Objekte aus Sicht des Ego-Fahrzeuges möglich sowie eine schnellere Ver arbeitung. Da alle Frames die Verfolgung aller Objekte sowie deren Posen beinhal ten kann auf die Darstellung des Ego-Fahrzeugs selber in den Frames verzichtet werden.

Die individuell generierten im Bildausschnitt reduzierten Frames enthalten dann nur noch Objekte, die für dieses spezifische Ego-Fahrzeug in seinem Sichtfeld sichtbar sind. Dabei kann der Radius frei gewählt werden. Insbesondere kann ein solcher als 50 m gewählt werden. Dadurch wird sichergestellt, dass alle beweglichen und unbe weglichen Objekte erfasst werden, welche notwendig sind, um das Ego-Fahrzeug für die nächsten Sekunden / Minuten autonom zu steuern. Ferner werden die Objekte in Richtung Ego-Fahrzeug zentriert, so dass sich das Ego-Fahrzeug mit den Ego-Koor dinaten im Zentrum, d.h. hier der Koordinatenursprung befindet, so dass die Ego-Be wegung und Ego-Drehung lediglich dadurch abgebildet wird und das Ego-Fahrzeug selber nicht angegeben ist. Dadurch befindet sich das Ego-Fahrzeug immer in der Mitte des jeweiligen Frames 1 a, , 1 e, und wird nicht dargestellt.

Ferner können unbewegliche Objekte dargestellt werden, welche ebenfalls um die Pose des Ego-Fahrzeugs gedreht, dargestellt sind. In FIG 2 sind als unbewegliche Objekte beispielhaft die verschiedenen Fahrbahnen 5 in Grün (hier gestrichelt) dargestellt.

Zudem werden durch die Simulation noch die Ground Truth Frames 2a . 2e (FIG

3) mit den dazugehörigen Ground Truth Trajektorien 4 erzeugt. FIG 3 zeigt die Ground Truth Frames 2a .... ,2e mit den dazugehörigen Ground Truth Trajektorien 4. FIG 4 zeigt die Darstellung der historischen Frames 1 a, .1 ,e und Ground Truth Fra mes 2a ,2e als Tabelle.

Die historischen Frames 1a,..,1e können dabei aufeinander abgebildet (gemappt) und jeweils in einem einzelnen Frame angezeigt werden. FIG 5 zeigt eine solche Ab bildung, in der einzelne Frames quasi als Bildsequenz aufeinander gelegt worden sind, zur Erkennung verschiedener Objekte und Objekttrajektorien, hier beispiels weise an einer Objekttrajektorie 6 gezeigt.

Anschließend wird bevorzugt mithilfe der historischen Frames 1a,..., 1e und der Ground Truth Frames 2a,..., 2e ein maschinelles Lernverfahren antrainiert.

Ein solches Lernverfahren ist vorzugsweise als künstliches tiefes neuronales Netz ausgestaltet, welches in FIG 6 näher beschrieben wird. Dieses ist vorzugsweise als Encoder und Decoder ausgestaltet, welche iterativ mittels eines Gradientenverfah rens trainiert werden. Dabei kann das künstliche neuronale Netz anhand der Trajek torien 3,4, aus den historischen Frames 1a,... 1e, und den Ground Truth Frames 2a,... 2e und/oder der Frames 1a,... 1e, 2a,... 2e selber iterativ mittels des Gradien tenabstiegs angelernt werden.

Das neuronale Netz kann ein Faltungsnetz, insbesondere ein Deep Convolutional Neural Network sein. Der Encoder ist für die Komprimierung des Eingangssignals mittels Faltung verantwortlich. Der Decoder ist für die Wiederherstellung von Einga ben verantwortlich. Der Encoder transformiert die Eingabe in einen niedrigdimensio nalen Vektor. Der Decoder transformiert dann den niedrigdimensionalen Vektor in die gewünschte Ausgabe. Ferner kann auch ein GNA Netz (Generative Adversarial Networks) Verwendung fin den.

Das neuronale Netz errechnet anhand den historischen Frames 1a, ...1e die zukünftigen Frames.

Anschließend können die Trajektorien aus den, durch das neuronale Netz errechne- ten, zukünftigen Frames extrahiert werden und dem dazugehörigen Objekt (Ver kehrsteilnehmer) zugeordnet werden.

Dazu werden zunächst vorzugsweise die zukünftigen Frames entsprechend der Ego- Pose rotiert, um dieselbe Orientierung wie das Ego-Fahrzeug bzw. der historischen Frames zu erhalten; d.h. die historischen Frames 1 a, .. , 1 e und zukünftigen Frames sind zueinander gleich ausgerichtet. Anschließend werden in den gedrehten zukünfti gen Frames bevorzugt weiter die Konturen und damit die Objekte (Verkehrsteilneh mer) erkannt und deren Pose, d.h. Orientierung und Koordinaten bestimmt und mit der Pose der einzelnen bekannten Objekte zum Zeitpunkt tO verglichen. Ist dadurch eine Zuordnung erhalten worden, können die zukünftigen Trajektorien zu den be kannten Verkehrsteilnehmer bzw. Objekte zugeordnet werden.

FIG 7 zeigt eine berechnete zukünftige Trajektorie, wobei die letzten sechs Schritte in der FIG 7 zusammengefasst sind als „Prediction (rechts) Trajektorie“ und eine Ground Truth Trajektorie (links).

Das maschinelle Lernverfahren kann anhand der Methode des soft-dice-loss (Ähn lichkeitsmaßfunktion) bewertet werden. Dieses gibt den Grad der Überlappung zwi schen den zukünftigen Frames in Vogelperspektive und den Ground Truth Frames in Vogelperspektive in Bezug auf die ursprüngliche Objektgröße an.

Ferner kann eine Güte des maschinellen Lernverfahrens bestimmt werden durch Be stimmung der Differenz zwischen der Ground Truth Trajektorien 4 und die zu erwar tenden durch das maschinelle Lernverfahren erzeugten zukünftigen Trajektorien als mittlerer absoluter Fehler MAE: (Ground Truth Trajektorien) ; — (zukünftigen Trajektorien) ; | wobei n die Anzahl der Frames ist.

Das neuronale Netz kann durch das erfindungsgemäße Verfahren so angelernt wer den, dass es somit Karteninformationen und Fahrkontext bei der Vorhersage der zu künftigen Trajektorien der Verkehrsteilnehmer sowie das Vorwissen über die Ver kehrsteilnehmer bei der Vorhersage der zukünftigen Trajektorien der Verkehrsteil nehmer als auch soziale Interaktionen bei der Vorhersage der zukünftigen Trajekto rien zwischen den Verkehrsteilnehmern berücksichtigt.

Bezuqszeichen a,..,1e historischen Frames a . 2e Ground Truth Frames historische Trajektorien Ground Truth Trajektorien Fahrbahnen Objekttrajektorie