Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SYSTEM FOR DETECTING THE FUTURE WALKING INTENTION OF A PEDESTRIAN IN AN ENVIRONMENT, VEHICLE AND TRAFFIC MONITORING SYSTEM
Document Type and Number:
WIPO Patent Application WO/2024/056698
Kind Code:
A1
Abstract:
The invention relates to a system (1) for detecting the future walking intention of a pedestrian in an environment of the system (1), comprising a sensor system (3) for capturing 3D environment data of objects in the environment as a single image, and an extraction module (4) designed to extract pedestrians from the 3D environment data as 3D object data, wherein a processing unit (5) is provided, which is designed to generate a simulation of a respective pedestrian as a skeleton model from the 3D object data, and a determination unit (14) is provided, which is designed to determine at least the body posture of a respective pedestrian from the skeleton model, and a behaviour estimator (6) is provided, which is designed to determine a future walking intention on the basis of the body posture.

Inventors:
AMANN ROLAND (DE)
Application Number:
PCT/EP2023/075082
Publication Date:
March 21, 2024
Filing Date:
September 13, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZAHNRADFABRIK FRIEDRICHSHAFEN (DE)
International Classes:
G06V20/58; G06V20/64; G06V40/10; G06V40/20
Foreign References:
US20200167954A12020-05-28
US20210118303A12021-04-22
US20200394393A12020-12-17
DE102013203239A12014-08-28
DE102014207802B32015-10-29
DE102016212700A12018-01-18
Other References:
ALIAKBARIAN SADEGH ET AL: "Contextually Plausible and Diverse 3D Human Motion Prediction", 2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), IEEE, 10 October 2021 (2021-10-10), pages 11313 - 11322, XP034093231, DOI: 10.1109/ICCV48922.2021.01114
Download PDF:
Claims:
Patentansprüche

1. System (1 ) zur Erkennung der vorausliegenden Fußgängerintension eines Fußgängers in einem Umfeld des Systems (1 ) umfassend ein Sensorsystem (3) zum Erfassen von 3D-Umfelddaten von Objekten in dem Umfeld als Einzelaufnahme, und einem Extraktionsmodul (4), welches zum Extrahieren von Fußgängern aus den 3D-Umfelddaten als 3D-Objektdaten ausgebildet ist, dadurch gekennzeichnet, dass eine Verarbeitungseinheit (5) vorgesehen ist, welche dazu ausgebildet ist, eine Simulation eines jeweiligen Fußgängers als Skelettmodell aus den 3D-Objektdaten zu generieren, und wobei die Verarbeitungseinheit (5) ferner dazu ausgebildet ist, dem Skelettmodell eine Skelettmodellgröße mitzuliefern, und wobei das System (1) dazu ausgebildet ist, verschiedene Skelettmodellgrößen einem unterschiedlichen Alter der Fußgänger zuzuordnen sowie eine Bestimmungseinheit (14) vorgesehen ist, welche dazu ausgebildet ist, zumindest die Körperhaltung eines jeweiligen Fußgängers aus dem Skelettmodell zu bestimmen, und ein Verhaltensschätzer (6) vorgesehen ist, welcher dazu ausgebildet ist, anhand der Körperhaltung eine vorausliegende Fußgängerintension zu bestimmen und wobei das System (1 ) zur Übermittlung der Fußgängerintention und der Skelettmodellgröße zur Weiterverarbeitung ausgebildet ist.

2. System (1 ) nach Anspruch 1 , dadurch gekennzeichnet, dass der Verhaltensschätzer (6) als ein künstliches maschinelles Lernverfahren ausgebildet ist, welches dazu ausgebildet ist, anhand der erkannten Körperhaltung eine Fußgängerintension eines jeweiligen Fußgängers zu ermitteln.

3. System (1 ) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der Verhaltensschätzer (6) ferner eine Speichereinheit umfasst, in der zu verschiedenen Referenzkörperhaltungen verschiedene Referenzfußgängerintensionen gespeichert sind, wobei die Referenzfußgängerintensionen zumindest beabsichtigte Fußgängerpositionswechsel umfassen, wobei der Verhaltensschätzer (6) ferner eine Auswerteeinheit umfasst, welche dazu ausgebildet ist, die Körperhaltung des Fußgängers mit der Referenzkörperhaltung abzugleichen, zur Bestimmung vorausliegender Fußgängerintensionen.

4. System (1 ) nach einem der vorhergehenden Ansprüche 2 oder 3, dadurch gekennzeichnet, dass die Referenzkörperhaltung zumindest eine Handy-Haltung (9) umfasst und/oder das maschinelle Lernverfahren dazu ausgebildet ist, anhand der erkannten Körperhaltung eine solche Handy-Haltung (9) zu identifizieren.

5. System (1 ) nach Anspruch 4, dadurch gekennzeichnet, dass das System (1 ) dazu ausgebildet ist, bei Bestimmung einer Handy-Haltung (9) dem entsprechenden Fußgänger eine verminderte Aufmerksamkeit zuzuordnen.

6. System (1 ) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Skelettmodell zumindest verschiedene Skelettmodellmerkmale umfasst, wobei als Skelettmodellmerkmale zumindest die Beine, die Arme, der Rumpf und der Kopf und der Hals umfasst sind, und wobei der Verhaltensschätzer (6) dazu ausgebildet ist, die Körperhaltung eines jeweiligen Fußgängers anhand der Skelettmodellmerkmale zu bestimmen.

7. System (1 ) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Verarbeitungseinheit (5) dazu ausgebildet ist, eine Skelettmodellerkennung durchzuführen, die robust gegenüber Messfehlern/Messungenauigkeiten ist.

8. System (1 ) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Sensorsystem (3) zum Erfassen einer Sequenz von 3D-Umfelddaten von Objekten in dem Umfeld als Sequenz von Einzelaufnahmen ausgebildet ist, und wobei das Extraktionsmodul (4) zum Extrahieren eines jeweiligen Fußgängers als eine Sequenz der entsprechenden 3D-Objektdaten aus den 3D-Umfelddaten ausgebildet ist, und wobei die Verarbeitungseinheit (5) dazu ausgebildet ist, eine Sequenz von Skelettmodellen aus der Sequenz der 3D-Objektdaten zu generieren, und wobei die Bestimmungseinheit (14) dazu ausgebildet ist, eine Sequenz von Körperhaltungen aus der Sequenz von Skelettmodellen zu bestimmen, und wobei der Verhaltensschätzer (6) dazu ausgebildet ist, anhand der Sequenz von Körperhaltungen eine vorausliegende Fußgängerintension zu bestimmen.

9. Fahrzeug (2) mit einem System (1 ) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Fahrzeug (2) als autonom oder teilautonom betreibbares Fahrzeug (2) ausgebildet ist.

10. Fahrzeug (2) nach Anspruch 9, dadurch gekennzeichnet, dass das Fahrzeug (2) ein Fahrerassistenzsystem und/oder ein Assisted Driving(AD)-System (7) aufweist, welches dazu ausgebildet ist, durch das System (1) erkannte Fußgängerintensionen hinsichtlich einer möglichen Kollision mit dem Fahrzeug (2) zu bewerten.

11. Fahrzeug (2) nach Anspruch 10, dadurch gekennzeichnet, dass das Fahrerassistenzsystem und/oder das Assisted Driving-System (7) dazu ausgebildet ist, bei einer erkannten Kollisionsgefahr einen Warnton auszugeben und/oder kollisionsvermeidende Maßnahmen einzuleiten.

12. Verkehrsüberwachungssystem (8) zur Verkehrsüberwachung in einem vorgegebenen Verkehrsbereich mit einem System (1 ) nach einem der vorhergehenden Ansprüche 1 bis 8, dadurch gekennzeichnet, dass das Verkehrsüberwachungssystem (8) zur Detektion von Fahrzeugen (2) in dem Verkehrsbereich ausgebildet ist, und wobei das Verkehrsüberwachungssystem (8) ferner dazu ausgebildet ist, durch das System (1 ) erkannte Fußgängerintensionen hinsichtlich einer möglichen Kollision mit einem der detektierten Fahrzeuge zu bewerten.

13. Verkehrsüberwachungssystem (8) nach Anspruch 12, dadurch gekennzeichnet, dass das Verkehrsüberwachungssystem (8) dazu ausgebildet ist, Signale von Verkehrsleitsystemen im vorgegebenen Verkehrsbereich bei der Bewertung einer durch das System (1 ) erkannten Fußgängerintension hinsichtlich einer möglichen Kollision mit einem der detektierten Fahrzeuge zu berücksichtigen.

14. Verfahren zur Erkennung der vorausliegenden Fußgängerintension eines

Fußgängers in einem Umfeld gekennzeichnet durch die Schritte:

- Erfassen von 3D-Umfelddaten von Objekten in dem Umfeld als Einzelaufnahme durch ein Sensorsystem (3),

- Extrahieren von Fußgängern aus den 3D-Umfelddaten als 3D-Objektdaten durch ein Extraktionsmodul (4),

- Generieren einer Simulation eines jeweiligen Fußgängers als Skelettmodell aus den 3D-Objektdaten durch eine Verarbeitungseinheit (5), und Zuordnen einer Skelettmodellgröße zu dem Skelettmodell,

- Zuordnen verschiedener Skelettmodellgrößen zu einem unterschiedlichen Alter der Fußgänger

- Bestimmen zumindest der Körperhaltung eines jeweiligen Fußgängers aus dem Skelettmodell,

- Bestimmen einer vorausliegenden Fußgängerintension anhand der Körperhaltung durch einen Verhaltensschätzer (6),

- Übermitteln der Fußgängerintention und der Skelettmodellgröße zur Weiterverarbeitung.

Description:
System zur Erkennung der vorauslieqenden Fußqänqerintension eines Fußgängers in einem Umfeld, Fahrzeug und Verkehrsüberwachungssystem

Die Erfindung betrifft ein System zur Erkennung der vorausliegenden Fußgängerintension eines Fußgängers in einem Umfeld des Systems umfassend ein Sensorsystem zum Erfassen von 3D-Umfelddaten von Objekten in dem Umfeld als Einzelaufnahme, und ein Extraktionsmodul, welches zum Extrahieren von Fußgängern aus den 3D-Umfelddaten als 3D-Objektdaten ausgebildet ist. Ferner betrifft die Erfindung ein Fahrzeug und ein Verkehrsüberwachungssystem mit einem solchen System sowie ein Verfahren.

Die Vermeidung von Zusammenstößen zwischen Fahrzeugen und Fußgängern ist eine wichtige Voraussetzung für automatisierte Fahrerassistenzsysteme (ADAS) und zukünftige selbstfahrende Fahrzeuge. Dazu werden in der Regel entsprechende Sensoren vorgesehen, mit denen der Verkehrsteilnehmer messtechnisch erfasst wird.

Autonomes Fahren hat jedoch die Herausforderung, dass es verlässlich und konstant Vorhersagen muss, wie sich die Straßenverkehrssituationen in den nächsten 1 bis 2 Sekunden entwickeln. Insbesondere bei der Vorhersage von Fußgängerintensionen stellt sich diese Aufgabe als nicht trivial dar.

Viele bisherige Studien und Lösungsansätze zu dieser Problematik nehmen Vergangenheitsdaten, wie Geschwindigkeit und Trajektorie eines Fußgängers anhand von einer Sequenz von Bildern über die letzten Sekunden auf, um eine Prädiktion über die nahe Zukunft vorherzusagen. Wertet man die Simulationswerte mit den Echtdaten aus, so kommen diese Ansätze auf eine Verlässlichkeit von ca. 70-80%. Dies erfordert jedoch eine Sequenz von Bildern und benötigt eine entsprechend lange Auswertung. Für eine Verwendung in einem System eines autonom betreibbaren Fahrzeugs ist jedoch eine sehr viel höhere Verlässlichkeit der Vorhersage in Verbindung mit einer schnellen Auswertung notwendig.

Die DE 10 2013 203239A1 offenbart ein gridbasiertes Verfahren und eine Vorrichtung zur Vorhersage der Position eines Objekts im Umfeld eines Fahrzeugs, umfassend: Bereitstellen eines ersten Rasters, umfassend Zellen, die jeweils einen Abschnitt des Umfelds repräsentieren; Bestimmen der Wahrscheinlichkeit für jede Zelle des ersten Rasters, dass sich das Objekt oder ein Teil davon in dem Abschnitt des Umfelds befindet, der durch die jeweilige Zelle repräsentiert wird; Bereitstellen eines zweiten Rasters, umfassend Zellen, die jeweils einen Abschnitt des Umfelds repräsentieren; Bestimmen der Wahrscheinlichkeit für jede Zelle des zweiten Rasters, dass sich das Objekt oder ein Teil davon zu einem vorbestimmten Zeitpunkt in der Zukunft in dem Abschnitt des Umfelds befinden wird, der durch die jeweilige Zelle repräsentiert wird.

Die DE102014207802B3 offenbart ein proaktives Erkennen einer Aktion eines Verkehrsteilnehmers im Straßenverkehr. Dabei werden mittels zumindest einer Kamera ein bildpunktweise strukturiertes Bild des Verkehrsteilnehmers erfasst und entsprechende Bilddaten erzeugt, Bilddaten mehrerer Bildpunkte jeweils zeilenweise gruppiert, wobei das Bild mehrere Zellen umfasst, anhand der Bilddaten innerhalb einer Zelle jeweils ein Schwerpunkt bestimmt wird, zu jedem der Bildpunkte jeweils der Abstand zu den Schwerpunkten von einer Vielzahl der Zellen ermittelt wird, wobei anhand von Koordinaten des jeweiligen Bildpunkts und der Schwerpunkte ein dem Bildpunkt zugeordneter Eigenschafts-Vektor gebildet wird und der Eigenschafts- Vektor mit mindestens einem Referenz-Vektorcluster verglichen und basierend auf dem Vergleich dem Verkehrsteilnehmer eine Pose zugeordnet wird, die repräsentativ dafür ist, dass der Verkehrsteilnehmer die Aktion ausführen wird.

Die DE102016212700A1 offenbart die Erkennung spielender und damit unaufmerksamer Kinder durch kurz aufeinanderfolgende Richtungsänderungen und Geschwindigkeitsänderungen. Es ist eine Aufgabe der Erfindung ein verbessertes und schnelleres System zur Erkennung der vorausliegenden Fußgängerintension eines Fußgängers anzugeben. Eine weitere Aufgabe ist es ein Fahrzeug und ein Verkehrsüberwachungssystem mit einem solchen System sowie ein Verfahren anzugeben.

Die Aufgabe wird gelöst durch ein System mit den Merkmalen des Anspruchs 1 sowie ein Fahrzeug mit den Merkmalen des Anspruchs 9 und ein Verkehrsüberwachungssystem mit den Merkmalen des Anspruchs 12 und ein Verfahren mit den Merkmalen des Anspruchs 14.

In den Unteransprüchen sind weitere vorteilhafte Maßnahmen aufgelistet, die geeignet miteinander kombiniert werden können, um weitere Vorteile zu erzielen.

Die Aufgabe wird gelöst durch ein System zur Erkennung der vorausliegenden Fußgängerintension eines Fußgängers in einem Umfeld des Systems umfassend ein Sensorsystem zum Erfassen von 3D-Umfelddaten von Objekten in dem Umfeld als Einzelaufnahme, und ferner umfassend ein Extraktionsmodul, welches zum Extrahieren von Fußgängern aus den 3D-Umfelddaten als 3D-Objektdaten ausgebildet ist, wobei eine Verarbeitungseinheit vorgesehen ist, welche dazu ausgebildet ist, eine Simulation eines jeweiligen Fußgängers als Skelettmodell aus den 3D-Objektdaten zu generieren, und wobei die Verarbeitungseinheit ferner dazu ausgebildet ist, dem Skelettmodell eine Skelettmodellgröße mitzuliefern, und wobei das System dazu ausgebildet ist, verschiedene Skelettmodellgrößen einem unterschiedlichen Alter der Fußgänger zuzuordnen sowie eine Bestimmungseinheit vorgesehen ist, welche dazu ausgebildet ist, zumindest die Körperhaltung eines jeweiligen Fußgängers aus dem Skelettmodell zu bestimmen, und ein Verhaltensschätzer vorgesehen ist, welcher dazu ausgebildet ist, anhand der Körperhaltung eine vorausliegende Fußgängerintension zu bestimmen und wobei das System zur Übermittlung der Fußgängerintention und der Skelettmodellgröße zur Weiterverarbeitung ausgebildet ist Dabei kann die Weiterverarbeitung beispielsweise in einem Modul, welches Modul sich beispielsweise einem Fahrzeug befinden zur Ermittlung einer geeigneten Fahrstrategie oder beispielsweise in einem Verkehrsüberwachungssystem wie einer Ampel zur Generierung von Maßnahmen bei erkannter drohender Kollision angeordnet sein.

Dabei kann ein solches Sensorsystem beispielsweise in einem autonomen oder hoch-assistierten Fahrzeug mindestens zwei Monokameras und ein Radar umfassen, welche die Bilddaten und die notwendigen Tiefen als 3D-Objektdaten als Einzelbild bereitstellen.

Eine Einzelaufnahme ist ein Einzelbild beispielsweise eine einzelne Gesamtaufnahme der vorhandenen Sensoren von dem Umfeld; wobei im Gegensatz dazu die Sequenz von Aufnahmen steht.

Durch die 3D-Objektdaten kann eine Simulation des Fußgängers als Skelettmodell generiert werden. Anhand dieser bestimmt die Bestimmungseinheit die Körperhaltung aus dem Skelettmodell.

Ferner wird mittels des Verhaltensschätzers, anhand der Körperhaltung eine vorausliegende Fußgängerintension, beispielsweise geradeaus gehen, stehen bleiben, abbiegen, generiert.

Dabei kann es sich bei dem Skelettmodell insbesondere nicht um ein genaues anatomisches Modell handeln, sondern eher um ein schematisches Skelettmodell handeln.

Durch die Bestimmung lediglich eines Skelettmodells anhand eines Einzelbildes ist eine schnelle Auswertung der 3D-Objektdaten möglich. Erfindungsgemäß kann nun aus der Körperhaltung als empirischer biomechanischer Wert mit sehr hoher Wahrscheinlichkeit vorhergesagt werden, welche Bewegungen ein Fußgänger in naher Zukunft ausführt. So ist beispielsweise aus der Biomechanik bekannt, dass bei gewissen Körperhaltungen, beispielsweise einem bestimmten Winkel des Überkörpers oder bestimmten Positionen des Beines eine Vorwärtsbewegung unvermeidbar ist und somit eineindeutig bestimmt werden kann. Durch die aktuelle Körperhaltung aller Fußgänger in der Umgebung können nun die vorausliegenden Bewegungen / vorausliegenden Intentionen der Fußgänger verlässlich mit der notwendigen Schnelligkeit erkannt werden. Dies ist beispielsweise wichtig, wenn das System in einem autonom fahrenden Fahrzeug, insbesondere einem Fahrzeug ab Autonom ielevel vier, zum Einsatz kommt.

Durch das erfindungsgemäße System ist eine Aufnahme einer Bewegungssequenz eines Fußgängers zur Bestimmung der Fußgängerintension nicht notwendig. Insbesondere kann das System bei vorhandenen Sensorsystem auch nachgerüstet werden, d.h. dass das Extraktionsmodul, die Verarbeitungseinheit, die Bestimmungseinheit und der Verhaltensschätzer als Softwaremodul ausgebildet sein können, welche leicht nachzurüsten sind.

Erfindungsgemäß ist die Verarbeitungseinheit ferner dazu ausgebildet, dem Skelettmodell eine Skelettmodellgröße mitzuliefern, wobei das System dazu ausgebildet ist, verschiedene erkannte Skelettmodellgrößen einem unterschiedlichen Alter der Fußgänger zuzuordnen. Dabei können solche Skelettmodellgrößen durch die Verarbeitungseinheit bei Generierung der Skelettmodelle aus den 3D- Objektdaten automatisch mitgeliefert werden. Insbesondere kann ein Schwellenwert festgelegt werden, beispielsweise eine geringe Größe bis 1 ,20m, anhand dessen dem Fußgänger der Status „Kind“ zugeordnet wird.

So kann beispielsweise ein autonomes Fahrzeug mit einem solchen integrierten System bei Rücklieferung eines solchen Status „Kind“ entsprechend reagieren, beispielsweise die Geschwindigkeit herabsenken, Bremsvorbereitungen treffen etc.

In weiterer Ausgestaltung kann das Skelettmodell mittels eines neuronalen Netzes aus den 3D-0bjektdaten generiert werden, beispielsweise eines Convolutional Neural Network, welches häufig zur Bildverarbeitung eingesetzt wird.

In weiterer Ausbildung ist der Verhaltensschätzer als ein künstliches maschinelles Lernverfahren ausgebildet, welches dazu ausgebildet ist, anhand der erkannten Körperhaltung eine Fußgängerintension eines jeweiligen Fußgängers zu ermitteln. Dabei kann ein solches künstliches maschinelles Lernverfahren beispielsweise ein künstliches neuronales Netz sein, welches mit entsprechenden Trainingsdaten antrainiert wurde. Diese sind beispielsweise mittels Simulation leicht zu erstellen. In weiterer Ausbildung kann ein solches neuronales Netz während beispielsweise der Fahrt weiter trainiert werden und damit ständig verbessert werden.

In weiterer Ausbildung umfasst der Verhaltensschätzer ferner eine Speichereinheit, in der zu verschiedenen Referenzkörperhaltungen verschiedene Referenzfußgängerintensionen gespeichert sind, wobei die Referenzfußgängerintensionen zumindest beabsichtigte Fußgängerpositionswechsel umfassen, und wobei der Verhaltensschätzer eine Auswerteeinheit umfasst, welche dazu ausgebildet ist, die Körperhaltung des Fußgängers mit der Referenzkörperhaltung abzugleichen zur Bestimmung vorausliegender Fußgängerintensionen.

Dadurch ist ein schneller Abgleich beispielsweise durch einen einfachen Soll/Ist Vergleich mit der erkannten Körperhaltung mit einer Referenzkörperhaltung möglich. Insbesondere können das maschinelle Lernverfahren und ein solcher Verhaltensschätzer mit einer Speichereinheit und einer Auswerteeinheit auch Zusammenwirken, so dass beispielsweise nicht gespeicherte Referenzkörperhaltungen anhand des beispielsweise neuronalen Netzes erkannt werden, oder dass Körperhaltungen anhand des neuronalen Netzes zu einer gespeicherten Referenzkörperhaltung zugeordnet werden, bei beispielsweise unscharfer Erfassung.

In weiterer Ausbildung umfasst die Referenzkörperhaltung zumindest eine Handy- Haltung oder das maschinelle Lernverfahren ist dazu ausgebildet, anhand der erkannten Körperhaltung eine solche Handy-Haltung zu identifizieren. Eine solche Handy-Haltung umfasst meistens einen gebeugten Rücken/geneigten Kopf und einen erhobenen Unterarm. Dabei ist mit Handy-Haltung eine Haltung gemeint, mit der der Fußgänger beim Gehen oder Stehen auf das Display eines mobilen Endgerätes schaut. In weiterer Ausbildung ist das System dazu ausgebildet, bei Bestimmung einer Handy-Haltung dem entsprechenden Fußgänger eine verminderte Aufmerksamkeit zuzuordnen. Insbesondere kann ein Fahrzeug bzw. ein Fahrerassistenzsystem oder Perzeptionssystem eines zumindest teilweise autonom betreibbaren Fahrzeugs entsprechend auf die verminderte Aufmerksamkeit reagieren, beispielsweise die Fahrgeschwindigkeit reduzieren / (Not)Bremsmanöver vorbereiten oder mittels Warnton auf sich aufmerksam machen.

In weiterer Ausbildung umfasst das Skelettmodell zumindest verschiedene Skelettmodellmerkmale, wobei als Skelettmodellmerkmale zumindest die Beine, die Arme, der Rumpf und der Kopf und der Hals schematisch umfasst sind, und wobei der Verhaltensschätzer dazu ausgebildet ist, die Körperhaltung eines jeweiligen Fußgängers anhand der Skelettmodellmerkmale zu bestimmen. Dabei können solche Skelettmodellmerkmale herangezogen werden, um eine schnelle Körperhaltung zu identifizieren; auf eine genaue anatomische Darstellung wie Hände oder eine genaue Darstellung aller Körperelemente etc. kann beispielsweise verzichtet werden, was wiederum zur Schnelligkeit des Systems beiträgt.

Insbesondere kann ein dem System zugewandtes oder abgewandtes Gesicht erfasst werden. Anhand eines solchen zugewandten Gesichtes kann beispielsweise, wenn das System in einem Fahrzeug integriert ist, erkannt werden, ob der Fußgänger das Fahrzeug realisiert / wahrgenommen hat. Diese Information kann beispielsweise bei einem autonom fahrenden Fahrzeug zur Generierung der Trajektorie herangezogen werden, beispielsweise hinsichtlich der Geschwindigkeit an Bushaltestellen/S-Bahn- Stationen, an welchen Fußgänger öfters unaufmerksam die Straße überqueren, um beispielsweise den Bus noch zu erreichen.

In einer weiteren Ausgestaltung ist die Verarbeitungseinheit dazu ausgebildet, eine Skelettmodellerkennung durchzuführen, die robust gegenüber Messfehlern/Messungenauigkeiten, beispielsweise in Form eines unscharfen Bildes ist. Zu den Messfehlern können Rauschen in den Messdaten, sowie Ausreißer zählen. Dazu können spezielle Filter wie ein Reduktionsfilter oder Medianfilter, welche in Echtzeit arbeiten oder Verarbeitungsalgorithmen wie Faltungen verwendet werden, welche in Echtzeit arbeiten. Solche Messfehler können aufgrund von Ungenauigkeiten bei der Aufnahme beispielsweise mit der Entfernung zum Sensorsystem zunehmen. Dadurch kann eine Simulation des Fußgängers als Skelettmodell aus den 3D-Objektdaten zuverlässig auch aus unscharfen 3D- Umfelddaten und 3D-Objektdaten generiert werden.

In einer weiteren Ausbildung ist das Sensorsystem zum Erfassen einer Sequenz von 3D-Umfelddaten von Objekten in dem Umfeld als Sequenz von Einzelaufnahmen ausgebildet, und wobei das Extraktionsmodul zum Extrahieren eines jeweiligen Fußgängers als eine Sequenz der entsprechenden 3D-Objektdaten aus den 3D- Umfelddaten ausgebildet ist, und wobei die Verarbeitungseinheit dazu ausgebildet ist, eine Sequenz von Skelettmodellen aus der Sequenz der 3D-Objektdaten zu generieren und wobei die Bestimmungseinheit dazu ausgebildet ist, eine Sequenz von Körperhaltungen aus der Sequenz von Skelettmodellen zu bestimmen, und wobei der Verhaltensschätzer dazu ausgebildet ist, anhand der Sequenz von Körperhaltungen eine vorausliegende Fußgängerintension zu bestimmen.

Dadurch kann beispielsweise die Genauigkeit der Vorhersage weiter erhöht werden, beispielsweise hinsichtlich einer Vorhersage auf längeren Zeitraum.

Weiterhin wird die Aufgabe gelöst durch ein Fahrzeug mit einem wie oben beschriebenen System, wobei das Fahrzeug als autonom oder teilautonom betreibbares Fahrzeug ausgebildet ist. Insbesondere weist das Fahrzeug ein Autonom ielevel gleich oder höher vier auf. Dabei kann das System für ein gesamthaften Perzeptionsrahmen eines AD (Automated Driving )-Systems fungieren und anderen Modulen Input für die optimale Fahrstrategie des autonom oder teilautonom betreibbaren Fahrzeugs liefern.

Die Integration eines solchen Systems in die Perzeption und Fahrfunktion eines autonom betriebenen Fahrzeugs ermöglicht neben der reinen biomechanischen Auswertung der Intension des Fußgängers auch eine Interaktion des Fußgängers mit dem Fahrzeug. Somit kann das autonom betriebene Fahrzeug in Situationen, wo auch ein menschlicher Fahrer eine Interaktion braucht, die erkannte Körperhaltung des Fußgängers nutzen, um ein sicheres Fahrmanöver auszuüben. Beispielhaft sind Situationen eines stehenden Fußgängers an einem Zebrastreifen/Bushaltestellen/S- Bahn-Stationen. Hier könnte anhand des im Fahrzeug integrierten Systems zum einen durch Erkennung des abgewandten Gesichtes, beispielsweise davon ausgegangen werden, dass das Fahrzeug nicht wahrgenommen wurde oder zum anderen bei Erkennung der Handy-Haltung eine sichere Fahrstrategie generiert werden.

In weiterer Ausbildung kann das Fahrzeug ein Fahrerassistenzsystem und/oder ein Assisted Driving -System aufweisen, welches dazu ausgebildet ist, durch das System erkannte Fußgängerintensionen hinsichtlich einer möglichen Kollision mit dem Fahrzeug zu bewerten.

Insbesondere kann das Fahrerassistenzsystem und/ oder das Assisted Driving- System dazu ausgebildet sein, bei einer erkannten Kollisionsgefahr einen Warnton auszugeben und/oder kollisionsvermeidende Maßnahmen wie beispielsweise eine Bremsung oder ein Ausweichmanöver einzuleiten. Daher erhöht ein solches System in einem autonom/teilautonom betriebenen Fahrzeug insbesondere die Sicherheit für Fußgänger als auch Fahrer / andere Verkehrsteilnehmer.

Ferner wird die Aufgabe gelöst durch ein Verkehrsüberwachungssystem zur Verkehrsüberwachung in einem vorgegebenen Verkehrsbereich mit einem wie oben beschriebenen System, wobei das Verkehrsüberwachungssystem zur Detektion von Fahrzeugen in dem Verkehrsbereich ausgebildet ist, und wobei das Verkehrsüberwachungssystem ferner dazu ausgebildet ist, durch das System erkannte Fußgängerintensionen hinsichtlich einer möglichen Kollision mit einem der detektierten Fahrzeuge zu bewerten.

Straßen mit dicht parkenden Fahrzeugen in Wohnsiedlungen oder unübersichtliche Kreuzungen stellen heute schon hohe Risiken für Fußgänger dar. Spielende Kinder können immer wieder unerwartet zwischen den parkenden Autos auf die Straße springen oder plötzlich eine Straße überqueren. Durch ein solches bereitgestelltes System, beispielsweise in Ampeln/Laternenmasten kann beispielsweise das Verkehrsüberwachungssystem Maßnahmen bei einer erkannten Kollisionsgefahr durchführen, beispielsweise einen Warnton ausgeben/Lichtzeichen geben etc. oder ein V2X-Signal aussenden.

Ferner kann das Verkehrsüberwachungssystem dazu ausgebildet sein, Signale von Verkehrsleitsystemen im vorgegebenen Verkehrsbereich, beispielsweise Ampeln bei der Bewertung einer durch das System erkannten Fußgängerintension hinsichtlich einer möglichen Kollision mit einem der detektierten Fahrzeuge zu berücksichtigen. So kann beispielsweise gerade beim Umschalten von Grün auf Rot bei einer Fußgängerampel, eine als Fußgängerintention erkannte Bewegung nach vorne, beispielsweise ein „Loslaufen“ als Gefahr, erkannt werden.

Ferner kann diese Information einem abbiegenden Fahrzeug, beispielsweise einem LKW als Information übermittelt werden, so dass Fußgänger an gefährlichen Verkehrspunkten besser geschützt werden.

Ferner wird die Aufgabe gelöst durch ein Verfahren zur Erkennung der vorausliegenden Fußgängerintension eines Fußgängers in einem Umfeld umfassend der Schritte:

- Erfassen von 3D-Umfelddaten von Objekten in dem Umfeld als Einzelaufnahme durch ein Sensorsystem,

- Extrahieren von Fußgängern aus den 3D-Umfelddaten als 3D-0bjektdaten durch ein Extraktionsmodul,

- Generieren einer Simulation eines jeweiligen Fußgängers als Skelettmodell aus den 3D-0bjektdaten durch eine Verarbeitungseinheit, und Zuordnen einer Skelettmodellgröße zu dem Skelettmodell,

- Zuordnen verschiedener Skelettmodellgrößen zu einem unterschiedlichen Alter der Fußgänger

- Bestimmen zumindest der Körperhaltung eines jeweiligen Fußgängers aus dem Skelettmodell, - Bestimmen einer vorausliegenden Fußgängerintension anhand der Körperhaltung durch einen Verhaltensschätzer, Übermitteln der Fußgängerintention und der Skelettmodellgröße zur Weiterverarbeitung.

Dabei können die Vorteile und vorteilhafte Ausgestaltungen des Systems auch auf das Verfahren übertragen werden. Insbesondere ist das Verfahren dazu ausgebildet, auf dem erfindungsgemäßen System ausgeführt zu werden.

Weitere Eigenschaften und Vorteile der vorliegenden Erfindung ergeben sich aus der nachfolgenden Beschreibung unter Bezugnahme auf die beiliegenden Figuren. Darin zeigen schematisch:

FIG 1 : ein erfindungsgemäßes Fahrzeug mit einem erfindungsgemäßen System,

FIG 2: eine Handy-Haltung,

FIG 3: verschiedene Skelettmodellgrößen und deren Zuordnung,

FIG 4: ein erfindungsgemäßes Verkehrsüberwachungssystem,

FIG 1 zeigt ein erfindungsgemäßes Fahrzeug 2 mit einem erfindungsgemäßen System 1.

Das System 1 weist ein Sensorsystem 3 auf, welches dazu ausgebildet ist, Tiefeninformationen und 3D/lnformationen aufzunehmen. Beispielsweise kann das Sensorsystem 3 zwei Monokameras und ein Radar umfassen, welche in autonomen oder hoch-assistierten Fahrzeugen 2 zur Aufnahme von Tiefen/3D-Informationen bereits verbaut sind.

Das Sensorsystem 3 erfasst dabei 3D-Umfelddaten von Objekten in einem Umfeld des Fahrzeugs 2 als Einzelaufnahme. Solche Objekte können Fahrzeuge/ Fußgänger/ Häuser etc. sein. Ferner ist ein Extraktionsmodul 4 vorhanden, welches zum Extrahieren von Fußgängern aus den 3D-Umfelddaten als 3D-Objektdaten ausgebildet ist. Hierfür kann das Extraktionsmodul 4 als Softwaremodul ausgebildet sein, welches auf einem entsprechenden Rechner ausgeführt wird.

Ferner ist eine Verarbeitungseinheit 5 vorgesehen, welche dazu ausgebildet ist, eine Simulation des Fußgängers als Skelettmodell aus den 3D-Objektdaten zu generieren. Insbesondere kann die Verarbeitungseinheit 5 als Softwaremodul ausgebildet sein.

Ferner kann die Verarbeitungseinheit 5 dazu ausgebildet sein, eine Skelettmodellerkennung durchzuführen, die robust gegenüber Messfehlern/Messungenauigkeiten ist. Zu den Messfehlern können Rauschen/Unschärfe in den Messdaten, sowie Ausreißer zählen. Dazu kann die Verarbeitungseinheit 5 spezielle Filter wie einen Reduktionsfilter oder einen Medianfilter, welche in Echtzeit arbeiten oder Verarbeitungsalgorithmen, wie Faltungen, welche in Echtzeit arbeiten, verwenden. Solche Messfehler/Unschärfe können aufgrund von Ungenauigkeiten bei der Aufnahme beispielsweise mit der Entfernung zum Sensorsystem 3 zunehmen. Durch solche FilterA/erarbeitungsalgorithmen kann eine Simulation eines jeweiligen Fußgängers als Skelettmodell aus den 3D-Objektdaten auch aus verrauschten Daten zuverlässig generiert werden.

Dabei kann das Skelettmodell sehr schematisch sein, beispielsweise lediglich aus einfachen Skelettmodellmerkmalen bestehen, wie Rumpf, Arme, Beine, Kopf und Nacken aus denen eine Körperhaltung verlässlich erkennbar ist. Eine genaue anatomische Darstellung wie Hände etc. ist nicht erforderlich. Auch Gesichtszüge wie beispielsweise die Augen müssen nicht als Skelettmodell simuliert werden. So genügt es zu erkennen, ob der Fußgänger das Gesicht zum Fahrzeug 2 hingewandt oder abgewandt hat. Ferner ist eine Bestimmungseinheit 14 vorhanden. Diese extrahiert die Körperhaltung aus dem Skelettmodell. Insbesondere kann die Bestimmungseinheit 14 als Softwaremodul ausgebildet sein, welche beispielsweise mittels eines Extraktionsalgorithmus die Körperhaltung aus dem Skelettmodell erkennt.

Durch eine einzige Einzelaufnahme und das Skelettmodell ist eine Bestimmung der aktuellen Körperhaltung des einzelnen Fußgängers in Echtzeit möglich.

Anhand der aktuellen Körperhaltung kann nun mittels eines Verhaltensschätzers 6 eine vorausliegende Fußgängerintension bestimmt werden.

Dazu kann der Verhaltensschätzer 6 als ein künstliches maschinelles Lernverfahren ausgebildet sein. Insbesondere kann dieses ein künstliches neuronales Netz, bevorzugt ein Deep Neuronales Netz oder CNN Netz sein, welches vorab trainiert wurde, anhand der Körperhaltung eine vorausliegende Fußgängerintension zu bestimmen.

Das eingesetzte künstliche neuronale Netz kann anhand der empirischen biomechanischen Werte „Körperhaltung“ mit sehr hohen Wahrscheinlichkeiten Vorhersagen, welche Intention ein Fußgänger in naher Zukunft hat. So ist beispielsweise bekannt, dass bei gewissen Körperhaltungen, beispielsweise einem bestimmten Winkel des Überkörpers eine Vorwärtsbewegung unvermeidbar ist so dass eineindeutig die unmittelbar vorausliegende Intention in Echtzeit bestimmt werden kann.

Ferner kann ein solches neuronales Netz, on-bord, also im Betrieb ständig weiter verbessert werden, beispielsweise anhand einer späteren Überprüfung, ob die vorausgesagte Fußgängerintension eingetroffen ist, so dass immer bessere Fußgängerintensionen vorhergesagt werden können.

Auch kann zusätzlich oder alternativ der Verhaltensschätzer 6 ferner eine Speichereinheit umfassen, in der zu verschiedenen Referenzkörperhaltungen verschiedene Referenzfußgängerintensionen gespeichert sind. Dabei können die Referenzfußgängerintensionen beabsichtigte Fußgängerpositionswechsel, wie Vorwärtsbewegungen, umfassen.

Ferner kann der Verhaltensschätzer 6 eine Auswerteeinheit zum Abgleich der erkannten aktuellen Körperhaltung des Fußgängers mit der Referenzkörperhaltung zur Bestimmung vorausliegender Fußgängerintensionen aufweisen. Dieser Abgleich kann beispielsweise ein einfacher Soll-Ist-Vergleich sein. Dadurch kann schnell eine Fußgängerintension erkannt werden. Dabei kann eine solche Speichereinheit und eine Auswerteeinheit auch mit einem neuronalen Netz Zusammenwirken, beispielsweise zur Validierung oder Ergänzung.

Dabei kann die Referenzkörperhaltung zumindest eine Handy-Haltung 9 umfassen und/oder das maschinelle Lernverfahren dazu ausgebildet sein, anhand der erkannten Körperhaltung eine solche Handy-Haltung 9 zu identifizieren.

Die in FIG 1 dargestellten Module können teilweise auch in anderen Modulen integriert werden.

FIG 2 zeigt eine solche Handy-Haltung 9. Eine solche Handy-Haltung 9 umfasst einen gebeugten Rücken 10 und einen zum Teil stark geneigten Kopf 11 und einen erhobenen Unterarm 12. Dabei ist mit Handy-Haltung 9 eine Haltung umfasst, mit der beim Gehen/oder Stehen auf ein Display eines mobilen Endgerätes geschaut wird.

Das System 1 kann dabei ausgebildet sein, einen solchen identifizierten Fußgänger eine verminderte Aufmerksamkeit zuzuordnen. Basierend auf dieser Erkenntnis kann nun beispielsweise das autonom /teilautonom betreibbare Fahrzeug 2 seine Fahrstrategie anpassen, wie Geschwindigkeit reduzieren, Bremsvorbereitungen treffen, um eine mögliche Kollision unter Berücksichtigung der erkannten verminderten Aufmerksamkeit zu verhindern. Ist beispielsweise eine Kollisionsgefahr zu hoch, können weitere Maßnahmen getroffen werden, beispielsweise ein Warnsignal vom System 1 oder Fahrzeug 2 ausgegeben werden. Ferner kann das System 1 dazu ausgebildet sein, verschiedene Skelettmodellgrößen einem unterschiedlichen Alter der Fußgänger zuzuordnen. So können beispielsweise Skelettmodellgrößen unter 1 m oder 1 ,20 m Kindern zugeordnet werden, welchen ebenfalls eine verminderte Aufmerksamkeit zugeordnet werden kann.

FIG 3 zeigt eine solche Zuordnung. Diese zeigt ein Kind K, links im Bild, und eine erwachsene Frau F mit einer typischen Vorwärtsbewegung. Ferner können aus dem Skelettmodell beispielsweise noch typische Körperhaltungen mit Rollator erkannt werden, welche auf eine langsame Fortbewegung eines älteren Menschen M hindeuten, was insbesondere für Fahrzeuge 2 bei Kreuzungen mit Ampeln von Interesse ist, da beispielsweise die Kreuzung nicht rechtzeitig bei Grün von älteren Menschen M mit Rollator überquert werden kann.

Insbesondere an dicht befahrenen Straßen/Kreuzungen kann das System 1 alle Informationen auch über beispielsweise eine V2V-Verbindung an andere Fahrzeuge übermitteln und so effizient zur Verkehrssicherheit beitragen.

Auch kann anhand der erkannten Körperhaltung bestimmt werden, ob das Gesicht des Fußgängers dem Fahrzeug 2 zugewandt ist oder abgewandt ist. Gerade an Übergängen weist ein zugewandtes Gesicht auf ein Registrieren des Fahrzeugs 2 hin, während ein abgewandtes Gesicht oder eine Handy-Haltung 9 eher für ein Nicht- Registrieren des Fahrzeugs 2 sprechen.

Insbesondere kann das System 1 in einem gesamthaften Perzeptionsrahmen eines AD-Systems 7 (FIG 1 ) in dem Fahrzeug 2 integriert sein und anderen Modulen des Fahrzeugs 2 Input für eine optimale Fahrstrategie liefern.

Ferner kann das Assisted Driving -System 7 (FIG 1 ) anhand der durch das System 1 erkannten Fußgängerintensionen, diese hinsichtlich einer möglichen Kollision mit dem Fahrzeug 2 bewerten und bei Kollisionsgefahr einen Warnton ausgeben und/oder das Fahrzeug 2 dazu veranlassen, kollisionsvermeidende Maßnahmen wie Bremsvorbereitungen einleiten, zu treffen. Durch ein solches System 1 kann dauerhaft eine bessere höhere Verlässlichkeit der Vorhersage der Fußgängerintensionen getroffen werden. Dadurch kann die Sicherheit eines autonom oder teilautonom betriebenen Fahrzeugs 2 wesentlich erhöht werden, gerade im Stadtverkehr beispielsweise vor Kreuzungen, Zebrastreifen, Schulen etc.

FIG 4 zeigt ein Verkehrsüberwachungssystem 8 zur Verkehrsüberwachung in einem vorgegebenen Verkehrsbereich mit einem erfindungsgemäßen System 1 , wobei das Verkehrsüberwachungssystem 8 an einem Ampelmasten 13 angeordnet ist. Dabei ist das Verkehrsüberwachungssystem 8 zur Detektion von Fahrzeugen in dem Verkehrsbereich ausgebildet, beispielsweise einer Kreuzung. Dabei kann ein solches Verkehrsüberwachungssystem 8 beispielsweise an stark befahrenen oder unübersichtlichen Kreuzungen angeordnet sein.

Dabei kann ein solches Verkehrsüberwachungssystem 8 dazu ausgebildet sein, die durch das System 1 erkannten Fußgängerintensionen hinsichtlich einer möglichen Kollision mit einem der detektierten Fahrzeuge zu bewerten. Droht eine solche Kollision, können beispielsweise geeignete Maßnahmen durchgeführt werden; so kann beispielsweise das Verkehrsüberwachungssystem 8 mittels V2X- Kommunikation eine Kollisionswarnung an das autonom oder teilautonom betriebene Fahrzeug 2 übermitteln, welches zur Kollisionsverhinderung dementsprechende Maßnahmen ergreifen kann.

Ferner kann das Verkehrsüberwachungssystem 8 dazu ausgebildet sein, Signale von Verkehrsleitsystemen, beispielsweise Ampeln, im vorgegebenen Verkehrsbereich bei der Bewertung einer durch das System 1 erkannten Fußgängerintension hinsichtlich einer möglichen Kollision mit einem der detektierten Fahrzeuge zu berücksichtigen. So kann beispielsweise verhindert werden, dass Kinder unerwartet bei Rot auf die Kreuzung laufen. Auch kann das Verkehrsüberwachungssystem 8 die Fußgängerintension an abbiegende Fahrzeuge übermitteln. Bezuqszeichenliste

System Fahrzeug Sensorsystem Extraktionsmodul Verarbeitungseinheit Verhaltensschätzer

AD-System

Verkehrsüberwachungssystem Handy-Haltung gebeugter Rücken geneigter Kopf erhobener Unterarm Ampelmasten

Bestimmungseinheit