Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR TRAINING A NEURAL NETWORK FOR DETECTING AN OBJECT AND METHOD FOR DETECTING AN OBJECT BY MEANS OF A NEURAL NETWORK
Document Type and Number:
WIPO Patent Application WO/2024/056261
Kind Code:
A1
Abstract:
The invention relates to a method for training a neural network (7) for detecting an object, wherein geometric dimensions of a test object from an object class are captured, and during a time period, recordings of the test object are generated by a plurality of cameras (21); from the captured geometric dimensions and the generated recordings, occupancy maps are generated; by a radar device (25), a radar signal is transmitted and a radar signal reflected by the test object is received; the transmitted radar signal and the received radar are mixed into a complex baseband to form a mixed signal; a complex four-dimensional mixed spectrum of the mixed signal is calculated; from the complex four-dimensional mixed spectrum a first complex two-dimensional partial spectrum and a second complex two-dimensional partial spectrum are calculated; the occupancy maps and the partial spectra are fusioned to form training data; and the training data are fed to the neural network (7). The invention also relates to a method for detecting an object by means of a neural network (7) to which training data were previously fed.

Inventors:
SCHÄFER THOMAS (DE)
SCHÖNFELD LEON RAFAEL (DE)
Application Number:
PCT/EP2023/070868
Publication Date:
March 21, 2024
Filing Date:
July 27, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SEW EURODRIVE GMBH & CO KG (DE)
International Classes:
G01S7/41; G01S13/86
Foreign References:
US20200175315A12020-06-04
DE102019200141A12020-07-09
DE102018105140A12018-09-13
US11393097B22022-07-19
US10408939B12019-09-10
EP3690727A12020-08-05
DE102018203684A12019-09-12
DE112021000135T52022-06-30
DE102019219894A12021-06-17
EP3832341A12021-06-09
Download PDF:
Claims:
Patentansprüche:

1. Verfahren zum Trainieren eines neuronalen Netzes (7) zur Detektion eines Objekts, wobei geometrische Abmessungen eines Testobjekts aus einer Objektklasse erfasst werden, und während einer Zeitdauer von einer Mehrzahl von Kameras (21) Aufnahmen von dem Testobjekt erzeugt werden; aus den erfassten geometrischen Abmessungen und den erzeugten Aufnahmen Belegungskarten generiert werden; von einem Radargerät (25) ein Radarsignal ausgesendet und ein von dem Testobjekt reflektiertes Radarsignal empfangen werden; das ausgesendete Radarsignal und das empfangene Radarsignal in ein komplexes Basisband zu einem Mischsignal gemischt werden; ein komplexes vierdimensionales Mischspektrum des Mischsignals berechnet wird; aus dem komplexen vierdimensionalen Mischspektrum ein erstes komplexes zweidimensionales Teilspektrum und ein zweites komplexes zweidimensionales Teilspektrum berechnet werden; die Belegungskarten und die Teilspektren zu Trainingsdaten fusioniert werden; und die Trainingsdaten dem neuronalen Netz (7) zugeführt werden. 2. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das Mischspektrum Informationen über eine Entfernung, einen Azimutwinkel, einen Elevationswinkel sowie eine Radialgeschwindigkeit des Testobjekts enthält.

3. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das erste Teilspektrum Informationen über eine Entfernung und einen Azimutwinkel des Testobjekts enthält, und dass das zweite Teilspektrum Informationen über eine Entfernung und eine Radialgeschwindigkeit des Testobjekts enthält.

4. Verfahren Anspruch 3, dadurch gekennzeichnet, dass das erste Teilspektrum ein erstes Radarbild mit Informationen über einen Betrag der Entfernung und des Azimutwinkels des Testobjekts enthält; und dass das erste Teilspektrum ein zweites Radarbild mit Informationen über eine Phase der Entfernung und des Azimutwinkels des Testobjekts enthält; und dass das zweite Teilspektrum ein drittes Radarbild mit Informationen über einen Betrag der Entfernung und der Radialgeschwindigkeit des Testobjekts enthält; und dass das zweite Teilspektrum ein viertes Radarbild mit Informationen über eine Phase der Entfernung und der Radialgeschwindigkeit des Testobjekts enthält.

5. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das Testobjekt während der Zeitdauer bewegt wird.

6. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Belegungskarten in kartesischen Koordinaten generiert werden, und dass die kartesischen Koordinaten in Polarkoordinaten transformiert werden;

7. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass vor Erzeugung der Aufnahmen Markierungen derart an dem Testobjekt angebracht werden, dass die Markierungen in den erzeugten Aufnahmen sichtbar sind.

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die Kameras (21) als Infrarot-Kameras ausgebildet sind, und/oder dass die Markierungen als Infrarot-Marker ausgebildet sind. 9. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass aus den Aufnahmen jeweils eine Pose des Testobjekts berechnet wird, welche jeweils eine Position des Testobjekts und eine Ausrichtung des Testobjekts umfasst, und dass die berechneten Posen in die Belegungskarten integriert werden.

10. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass die Verfahrensschritte für mindestens ein weiteres Testobjekt aus einer weiteren Objektklasse wiederholt werden, und dass die Belegungskarten und/oder die Trainingsdaten der jeweiligen Objektklasse zugeordnet werden

11. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das neuronale Netz (7) als Faltungsnetz ausgebildet ist, welches eine Eingangsschicht (6), eine Ausgangsschicht (9) und eine Mehrzahl von Faltungsschichten (11, 12, 13, 14, 15, 16, 17) aufweist.

12. Verfahren zur Detektion eines Objekts mittels eines neuronalen Netzes (7), welchem zuvor Trainingsdaten mit dem Verfahren nach einem der vorangegangenen Ansprüche zugeführt wurden, wobei von einem Radarsensor ein Radarsignal ausgesendet und ein von dem Objekt reflektiertes Radarsignal empfangen werden; das ausgesendete Radarsignal und das empfangene Radarsignal zu einem Mischsignal gemischt werden; ein Mischspektrum des Mischsignals berechnet wird; dem neuronalen Netz (7) Eingangsdaten (1, 2, 3, 4) zugeführt werden, welche das Mischspektrum enthalten; in dem neuronalen Netz (7) die Eingangsdaten (1 , 2, 3, 4) verarbeitet werden; von dem neuronalen Netz (7) das Objekt und eine Position des Objekts detektiert werden; von dem neuronalen Netz (7) eine Objektklasse des detektierten Objekts und die detektierte Position des Objekts als Ausgangsdaten (51 , 52, 53, 54) ausgegeben werden. 13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass das neuronale Netz (7) als Faltungsnetz ausgebildet ist, welches eine Eingangsschicht (6), eine Ausgangsschicht (9) und eine Mehrzahl von Faltungsschichten

(11, 12, 13, 14, 15, 16, 17) aufweist, und dass von einer Schicht zu der nachfolgenden Schicht wird jeweils eine Faltungsoperation durchgeführt wird.

14. Verfahren nach einem der Ansprüche 12 bis 13, dadurch gekennzeichnet, dass das berechnete Mischspektrum mindestens eine Entfernung und einen Azimutwinkel einer Radarmessung umfasst, und dass dem neuronalen Netz (7) erste Eingangsdaten (1) zugeführt werden, welche die Entfernung der Radarmessung enthalten, und dass dem neuronalen Netz (7) zweite Eingangsdaten (2) zugeführt werden, welche den Azimutwinkel der Radarmessung enthalten.

15. Verfahren nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass das berechnete Mischspektrum mindestens eine Entfernung und eine Radialgeschwindigkeit einer Radarmessung umfasst, und dass dem neuronalen Netz (7) dritte Eingangsdaten (3) zugeführt werden, welche die Entfernung der Radarmessung enthalten, und dass dem neuronalen Netz (7) vierte Eingangsdaten (4) zugeführt werden, welche die Radialgeschwindigkeit der Radarmessung enthalten.

Description:
Verfahren zum Trainieren eines neuronalen Netzes zur Detektion eines Objekts und Verfahren zur Detektion eines Objekts mittels eines neuronalen Netzes

Beschreibung:

Die Erfindung betrifft ein Verfahren zum Trainieren eines neuronalen Netzes zur Detektion eines Objekts. Dabei werden Trainingsdaten erzeugt und dem neuronalen Netz zugeführt. Die Erfindung betrifft auch ein Verfahren zur Detektion eines Objekts mittels eines neuronalen Netzes.

In der Bildverarbeitung für Kamerasysteme gehört der Einsatz von neuronalen Netzen für die Erkennung von Objekten in Bildern bereits zur gängigen Praxis und liefert hervorragende Ergebnisse. Der Stand der Technik im Bereich der neuronalen Netze, die zur Lokalisierung von Objekten in Bildern verwendet werden, sind insbesondere Faltungsnetze, kurz CNN (Convolutional Neural Networks) in Autoencoder Struktur. Voraussetzung für eine erfolgreiche Lokalisierung und Klassifizierung eines Objekts mittels eines neuronalen Netzes ist, dass das neuronale Netz entsprechend trainiert wurde.

Ein Faltungsnetz umfasst verschiedene Faltungsschichten, die insgesamt die Intelligenz des neuronalen Netzes darstellen. Dazu gehören eine Eingangsschicht und eine Ausgangsschicht. Die Schichten sind untereinander über mathematische Faltungsoperationen miteinander verknüpft. In der Bildverarbeitung wird ein Bild der Eingangsschicht zugeführt und an der Ausgangsschicht wird eine Karte mit den Objektpositionen, von den Objekten auf dem Bild ausgegeben.

Zur Erkennung von Objekten mittels Radardaten werden meist Algorithmen verwendet, wie beispielsweise CFAR (Constant False Alarm Rate), welche unter vielen Bedingungen nur unzureichende Ergebnisse liefern. Algorithmen wie CFAR folgen strikten Mustern anhand derer sie ihre Ausgabe erzeugen und sind dabei abhängig von voreingestellten Parametern. Sind diese Parameter ungünstig gewählt kann das Ergebnis deutlich schlechter ausfallen als ursprünglich angenommen. Der aktuelle Stand von Bildverarbeitung mit neuronalen Netzen zeigt, dass diese unabhängiger vom Zustand der vorhandenen Bilder Objekte lokalisieren und klassifizieren können. Aus der EP 3 690 727 A1 ist ein Verfahren zum Trainieren eines neuronalen Netzes bekannt.

Dabei werden eine Kamera und ein Radar gemeinsam eingesetzt.

Aus der DE 10 2018 203 684 A1 sind eine Auswerteeinrichtung, ein Trainingssystem und ein Trainingsverfahren zum Erhalten einer Segmentierung einer Radaraufnahme eines Umfeldes bekannt.

Aus der DE 11 2021 000 135 T5 sind ein System und ein Verfahren bekannt, welche eine auf maschinellem Lernen basierende Sensorfusion für Anwendungen autonomer Maschinen betreffen.

Aus der DE 10 2019 219 894 A1 sind eine Vorrichtung und ein Verfahren zur Erzeugung von verifizierten Trainingsdaten für ein selbstlernendes System bekannt.

Aus der EP 3 832 341 A1 ist ein neuronales Netzwerk zur Detektion von Hindernissen zur Anwendung in autonomen Fahrzeugen bekannt. Dabei werden Radarsensoren eingesetzt.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum Trainieren eines neuronalen Netzes zur Detektion eines Objekts, sowie ein Verfahren zur Detektion eines Objekts mittels eines neuronalen Netzes weiterzubilden.

Die Aufgabe wird durch ein Verfahren zum Trainieren eines neuronalen Netzes zur Detektion eines Objekts mit den in Anspruch 1 angegebenen Merkmalen gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen sind Gegenstand der Unteransprüche. Die Aufgabe wird auch durch ein Verfahren zur Detektion eines Objekts mittels eines neuronalen Netzes mit den in Anspruch 12 angegebenen Merkmalen gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen sind Gegenstand der Unteransprüche.

Es wird ein Verfahren zum Trainieren eines neuronalen Netzes zur Detektion eines Objekts vorgeschlagen. Dabei werden geometrische Abmessungen eines Testobjekts aus einer Objektklasse erfasst. Während einer Zeitdauer werden von einer Mehrzahl von Kameras Aufnahmen von dem Testobjekt erzeugt. Aus den erfassten geometrischen Abmessungen und den erzeugten Aufnahmen werden Belegungskarten generiert. Von einem Radargerät werden ein Radarsignal ausgesendet und ein von dem Testobjekt reflektiertes Radarsignal empfangen. Das ausgesendete Radarsignal und das empfangene Radarsignal werden in ein komplexes Basisband zu einem Mischsignal gemischt, und ein komplexes vierdimensionales Mischspektrum des Mischsignals wird berechnet. Aus dem komplexen vierdimensionalen Mischspektrum werden ein erstes komplexes zweidimensionales Teilspektrum und ein zweites komplexes zweidimensionales Teilspektrum berechnet. Die Belegungskarten und die Teilspektren werden zu Trainingsdaten fusioniert, und die Trainingsdaten werden dem neuronalen Netz zugeführt.

Die Trainingsdaten enthalten ausreichend viele Mischspektren, welche Radarbilder enthalten, verknüpft mit der Information, an welcher Stelle sich ein Testobjekt befindet, und welcher Objektklasse das Testobjekt zugeordnet ist. Diese Information wird als Ground Truth bezeichnet. Bei der Erzeugung der Belegungskarten wird Zellen, die das Testobjekt enthalten, ein hoher Wert zugeordnet, und Zellen, die frei sind, wird ein niedriger Wert zugeordnet. Die Wahrscheinlichkeit, dass ein Testobjekt einer bestimmte Objektklasse einen Ort im Sichtfeld des Radargeräts belegt, ist den jeweiligen Belegungskarten entnehmbar. Über eine harte Entscheidungsschwelle ist das wahrscheinlichste Testobjekt extrahierbar.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung enthält das Mischspektrum Informationen über eine Entfernung, einen Azimutwinkel, einen Elevationswinkel sowie eine Radialgeschwindigkeit des Testobjekts. Die Radialgeschwindigkeit wird dabei über eine Frequenzverschiebung zwischen dem ausgesendeten Radarsignal und dem reflektierten Radarsignal ermittelt. Die besagte Frequenzverschiebung resultiert aus dem Doppler Effekt bei bewegten Objekten.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung enthält das erste Teilspektrum Informationen über eine Entfernung und einen Azimutwinkel des Testobjekts, und das zweite Teilspektrum enthält Informationen über eine Entfernung und eine Radialgeschwindigkeit des Testobjekts.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung enthält das erste Teilspektrum ein erstes Radarbild mit Informationen über einen Betrag der Entfernung und des Azimutwinkels des Testobjekts. Das erste Teilspektrum enthält auch ein zweites Radarbild mit Informationen über eine Phase der Entfernung und des Azimutwinkels des Testobjekts. Das zweite Teilspektrum enthält ein drittes Radarbild mit Informationen über einen Betrag der Entfernung und der Radialgeschwindigkeit des Testobjekts. Das zweite Teilspektrum enthält auch ein viertes Radarbild mit Informationen über eine Phase der Entfernung und der Radialgeschwindigkeit des Testobjekts. Die Radarbilder liegen dabei vorzugsweise in Polarkoordinaten vor.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung wird das Testobjekt während der Zeitdauer bewegt. Somit werden mehrere unterschiedliche Aufnahmen des Testobjekts an unterschiedlichen Orten und mit unterschiedlicher Ausrichtung erzeugt, und entsprechende Mischspektren werden berechnet. Durch eine höhere Anzahl von unterschiedlichen Aufnahmen mit entsprechenden Mischspektren wird die Qualität der Trainingsdaten verbessert.

Gemäß einer bevorzugten Ausgestaltung der Erfindung werden die Belegungskarten zunächst in kartesischen Koordinaten generiert, und die kartesischen Koordinaten werden anschließend in Polarkoordinaten transformiert. Die Transformation der kartesischen Koordinaten in Polarkoordinaten wird dabei durchgeführt, bevor die Belegungskarten und die Teilspektren zu den Trainingsdaten fusioniert werden. Somit wird eine Kompatibilität der Belegungskarten mit den Teilspektren erreicht, deren Radarbilder ebenfalls in Polarkoordinaten vorliegen.

Gemäß einer vorteilhaften Weiterbildung der Erfindung werden vor Erzeugung der Aufnahmen Markierungen derart an dem Testobjekt angebracht, dass die Markierungen in den erzeugten Aufnahmen sichtbar sind. Wenn solche Markierungen an einem Testobjekt angebracht sind, ist eine sechsdimensionale Pose des Testobjekts berechenbar, welche eine Position des Testobjekts und eine Ausrichtung des Testobjekts umfasst.

Gemäß einer vorteilhaften Ausgestaltung der Erfindung sind die Kameras als Infrarot-Kameras ausgebildet, und/oder die Markierungen sind als Infrarot-Marker ausgebildet. Die Kameras sowie die Markierungen sind dabei Teil eines Positionserfassungssystems Insbesondere derartige Markierungen an dem Testobjekt gestatten eine exakte Berechnung einer sechsdimensionalen Pose des Testobjekts, welche eine Position des Testobjekts und eine Ausrichtung des Testobjekts umfasst.

Gemäß einer bevorzugten Ausgestaltung der Erfindung wird aus den Aufnahmen jeweils eine Pose des Testobjekts berechnet, welche jeweils eine Position des Testobjekts und eine Ausrichtung des Testobjekts umfasst. Die berechneten Posen werden dabei diskretisiert und in die Belegungskarten integriert. Gemäß einer bevorzugten Weiterbildung der Erfindung werden die Verfahrensschritte für mindestens ein weiteres Testobjekt aus einer weiteren Objektklasse wiederholt. Dabei werden die Belegungskarten und/oder die Trainingsdaten der jeweiligen Objektklasse zugeordnet. Derartige Objektklassen sind beispielsweise Personen, Gabelstapler oder autonom fahrende T ransportfahrzeuge.

Gemäß einer bevorzugten Ausgestaltung der Erfindung ist das neuronale Netz als Faltungsnetz ausgebildet, welches eine Eingangsschicht, eine Ausgangsschicht und eine Mehrzahl von Faltungsschichten aufweist. Insbesondere ist das neuronale Netz bevorzugt als CNN (Convolutional Neural Networks) in Autoencoder Struktur ausgebildet. Die Schichten sind dabei seriell hintereinander angeordnet und über mathematische Faltungsoperationen miteinander verknüpft. Von einer Schicht zu der nachfolgenden Schicht wird jeweils eine Faltungsoperation durchgeführt. Die Faltungsoperatoren, mit welchen die besagten Faltungsoperationen durchgeführt werden, werden durch Verarbeitung der dem neuronalen Netz zugeführten Trainingsdaten ermittelt.

Es wird auch ein Verfahren zur Detektion eines Objekts mittels eines neuronalen Netzes vorgeschlagen, wobei dem neuronalen Netz zuvor Trainingsdaten zugeführt wurden. Die Trainingsdaten wurden dem neuronalen Netz dabei mit dem erfindungsgemäßen Verfahren zum Trainieren eines neuronalen Netzes zugeführt. Dabei werden von einem Radarsensor ein Radarsignal ausgesendet und ein von dem Objekt reflektiertes Radarsignal empfangen. Das ausgesendete Radarsignal und das empfangene Radarsignal werden zu einem Mischsignal gemischt, und ein Mischspektrum des Mischsignals wird berechnet. Dem neuronalen Netz werden Eingangsdaten zugeführt, welche das Mischspektrum enthalten. In dem neuronalen Netz werden die Eingangsdaten verarbeitet. Von dem neuronalen Netz werden das Objekt und eine Position des Objekts detektiert. Von dem neuronalen Netz werden eine Objektklasse des detektierten Objekts und die detektierte Position des Objekts als Ausgangsdaten ausgegeben.

Je mehr unabhängige Dimensionen dem neuronalen Netz als Eingangsdaten zur Verfügung stehen, desto effektiver ist die Klassifizierung des Objekts über eindeutige Merkmale. Eine eindeutige Signatur im Mischspektrum ermöglicht eine robuste Klassifizierung.

Gemäß einer bevorzugten Ausgestaltung der Erfindung ist das neuronale Netz als Faltungsnetz ausgebildet, welches eine Eingangsschicht, eine Ausgangsschicht und eine Mehrzahl von Faltungsschichten aufweist. Dabei wird von einer Schicht zu der nachfolgenden Schicht jeweils eine Faltungsoperation durchgeführt. Die Schichten sind dabei seriell hintereinander angeordnet und über mathematische Faltungsoperationen miteinander verknüpft. Von einer Schicht zu der nachfolgenden Schicht wird jeweils eine Faltungsoperation durchgeführt.

Gemäß einer bevorzugten Ausgestaltung der Erfindung umfasst das berechnete Mischspektrum mindestens eine Entfernung und einen Azimutwinkel einer Radarmessung. Dem neuronalen Netz werden erste Eingangsdaten zugeführt, welche die Entfernung der Radarmessung enthalten. Dem neuronalen Netz werden zweite Eingangsdaten zugeführt, welche den Azimutwinkel der Radarmessung enthalten. Die ersten Eingangsdaten und die zweiten Eingangsdaten stellen ein erstes komplexes Bild aus komplexen Daten dar. Das erste komplexe Bild umfasst somit zwei einfache Bilder, welche Betrag und Phase enthalten.

Gemäß einer vorteilhaften Weiterbildung der Erfindung umfasst das berechnete Mischspektrum mindestens eine Entfernung und eine Radialgeschwindigkeit einer Radarmessung. Dem neuronalen Netz werden dritte Eingangsdaten zugeführt, welche die Entfernung der Radarmessung enthalten. Dem neuronalen Netz werden vierte Eingangsdaten zugeführt, welche die Radialgeschwindigkeit der Radarmessung enthalten. Die dritten Eingangsdaten und die vierten Eingangsdaten stellen ein zweites komplexes Bild aus komplexen Daten dar. Das zweite komplexe Bild umfasst somit zwei einfache Bilder, welche Betrag und Phase enthalten.

Die Erfindung ist nicht auf die Merkmalskombination der Ansprüche beschränkt. Für den Fachmann ergeben sich weitere sinnvolle Kombinationsmöglichkeiten von Ansprüchen und/oder einzelnen Anspruchsmerkmalen und/oder Merkmalen der Beschreibung und/oder der Figuren, insbesondere aus der Aufgabenstellung und/oder der sich durch Vergleich mit dem Stand der Technik stellenden Aufgabe.

Die Erfindung wird nun anhand von Abbildungen näher erläutert. Die Erfindung ist nicht auf die in den Abbildungen dargestellten Ausführungsbeispiele beschränkt. Die Abbildungen stellen den Gegenstand der Erfindung nur schematisch dar. Es zeigen:

Figur 1 : eine schematische Darstellung einer Anordnung zur Gewinnung von Trainingsdaten,

Figur 2: eine schematische Darstellung eines neuronalen Netzes,

Figur 3: eine schematische Darstellung von Eingangsdaten eines neuronalen Netzes und

Figur 4: eine schematische Darstellung von Ausgangsdaten eines neuronalen Netzes.

Figur 1 zeigt eine schematische Darstellung einer Anordnung zur Gewinnung von Trainingsdaten für ein neuronales Netz 7. Die Anordnung weist einen Messbereich 40 und einen Radarbereich 42 auf. Der Messbereich 40 und der Radarbereich 42 überlagern sich weitgehend. Ein hier nicht dargestelltes Testobjekt befindet sich innerhalb des Messbereichs 40 und innerhalb des Radarbereichs 42.

Die Anordnung umfasst ein Radargerät 25. Das Radargerät 25 ist derart angeordnet, dass ein Testobjekt, welches sich innerhalb des Radarbereichs 42 befindet, von dem Radargerät 25 erfassbar ist. Der Radarbereich 42 ist in Form eines Kreissektors ausgebildet. Das Radargerät 25 ist an der Spitze des Kreissektors angeordnet.

Das Radargerät 25 sendet ein Radarsignal aus und empfängt ein Radarsignal, welches von dem Testobjekt reflektiert wird. Das Radargerät 25 weist einen Multiplizierer auf. Das ausgesendete Radarsignal und das empfangene Radarsignal werden von dem Multiplizierer in ein komplexes Basisband zu einem Mischsignal gemischt. In dem Radargerät 25 wird auch ein komplexes vierdimensionales Mischspektrum des Mischsignals berechnet. Das Mischspektrum wird über eine diskrete Fourier Transformation aus abgetasteten Rohdaten des Mischsignals berechnet.

Das Radargerät 25 weist ein 2-D MIMO-Antennenarray (Multiple Input Multiple Output) auf. Das ausgesendete Radarsignal weist eine FMCW-Modulation (Frequency-Modulated Continuous Wave) auf. Das berechnete Mischspektrum ist daher vierdimensional und enthält Informationen über eine Entfernung, einen Azimutwinkel, einen Elevationswinkel sowie eine Radialgeschwindigkeit des Testobjekts, von welchem das Radarsignal reflektiert wird.

Aus dem komplexen vierdimensionalen Mi sch Spektrum werden ein erstes komplexes zweidimensionales Teilspektrum und ein zweites komplexes zweidimensionales Teilspektrum berechnet. Das erste Teilspektrum enthält dabei Informationen über eine Entfernung und einen Azimutwinkel des Testobjekts, und das zweite Teilspektrum enthält Informationen über eine Entfernung und eine Radialgeschwindigkeit des Testobjekts.

Das erste Teilspektrum enthält ein erstes Radarbild mit Informationen über einen Betrag der Entfernung und des Azimutwinkels des Testobjekts. Das erste Teilspektrum enthält auch ein zweites Radarbild mit Informationen über eine Phase der Entfernung und des Azimutwinkels des Testobjekts. Das zweite Teilspektrum enthält ein drittes Radarbild mit Informationen über einen Betrag der Entfernung und der Radialgeschwindigkeit des Testobjekts. Das zweite Teilspektrum enthält auch ein viertes Radarbild mit Informationen über eine Phase der Entfernung und der Radialgeschwindigkeit des Testobjekts. Die Radarbilder liegen dabei in Polarkoordinaten vor.

Die Anordnung umfasst eine Mehrzahl von Kameras 21 zur Erzeugung von Aufnahmen. Vorliegend sind sechs Kameras 21 vorgesehen. Die Kameras 21 sind derart angeordnet, dass ein Testobjekt, welches sich innerhalb des Messbereichs 40 befindet, von allen Kameras 21 erfassbar ist. Der Messbereich 40 ist in Form eines Rechtecks ausgebildet. Die Kameras 21 sind an den Ecken sowie an Seitenlinien des Rechtecks angeordnet. Die Kameras 21 sind als Infrarot-Kameras ausgebildet und sind Teil eines Positionserfassungssystems.

Die Anordnung umfasst ferner einen Digitalrechner 32 und eine Verarbeitungseinheit 34. Die Kameras 21 sind mit der Verarbeitungseinheit 34 verbunden und übermitteln erzeugte Aufnahmen zu der Verarbeitungseinheit 34. Auch das Radargerät 25 ist mit der Verarbeitungseinheit 34 verbunden und übermittelt Daten an die Verarbeitungseinheit 34. Die Verarbeitungseinheit 34 ist mit dem Digitalrechner 32 verbunden und übermittelt Daten an den Digitalrechner 32.

Zur Gewinnung der Trainingsdaten für das neuronale Netz 7 wird zunächst ein Testobjekt aus einer Objektklasse ausgewählt. Objektklassen sind beispielsweise Personen, Gabelstapler oder autonom fahrende Transportfahrzeuge. Bei dem ausgewählten Testobjekt handelt es sich also beispielsweise um eine Person, um einen Gabelstapler oder um ein autonom fahrendes Transportfahrzeug.

Zunächst werden geometrische Abmessungen des Testobjekts erfasst. Insbesondere werden dabei Länge, Breite und Höhe des Testobjekts gemessen. Ferner werden Markierungen an dem Testobjekt angebracht. Die besagten Markierungen sind als Infrarot-Marker ausgebildet. Die Kameras 21 sind, wie bereits erwähnt, als Infrarot-Kameras ausgebildet. Die Markierungen werden derart an dem Testobjekt angebracht, dass die Markierungen in später von den Kameras 21 erzeugten Aufnahmen sichtbar sind.

Die Gewinnung der Trainingsdaten für das neuronale Netz 7 mithilfe des ausgewählten Testobjekts findet während einer zuvor definierten Zeitdauer statt. Während der besagten Zeitdauer wird das Testobjekt in einem Bereich, welcher innerhalb des Messbereichs 40 und innerhalb des Radarbereichs 42 liegt, bewegt. Gegebenenfalls bewegt sich das Testobjekt während der Zeitdauer selbstständig in dem besagten Bereich.

Während der besagten Zeitdauer werden von den Kameras 21 Aufnahmen dem Testobjekt erzeugt. Aus den Aufnahmen wird jeweils eine Pose des Testobjekts berechnet. Die besagte Pose ist sechsdimensional und umfasst jeweils eine Position des Testobjekts und eine Ausrichtung des Testobjekts.

Aus den zuvor erfassten geometrischen Abmessungen des Testobjekts und den erzeugten Aufnahmen werden Belegungskarten generiert. Die berechneten Posen werden dabei in die Belegungskarten integriert. Die Belegungskarten werden der Objektklasse des ausgewählten Testobjekts zugeordnet. Die Belegungskarten werden dabei zunächst in kartesischen Koordinaten generiert, und die kartesischen Koordinaten werden anschließend in Polarkoordinaten transformiert.

Während der besagten Zeitdauer werden gleichzeitig von dem Radargerät 25 ein Radarsignal ausgesendet und ein von dem Testobjekt reflektiertes Radarsignal empfangen. Das ausgesendete Radarsignal und das empfangene Radarsignal werden zu einem Mischsignal gemischt. Auch wird ein komplexes vierdimensionales Mischspektrum des Mischsignals berechnet. Aus dem komplexen vierdimensionalen Mischspektrum werden ein erstes komplexes zweidimensionales Teilspektrum und ein zweites komplexes zweidimensionales Teilspektrum berechnet. Die Teilspektren enthalten Radarbilder welche in Polarkoordinaten vorliegen.

Die Belegungskarten und die Teilspektren werden anschließend zu Trainingsdaten fusioniert. Die Trainingsdaten werden der jeweiligen Objektklasse des ausgewählten Testobjekts zugeordnet. Die so erhaltenen Trainingsdaten werden dem neuronalen Netz 7 zugeführt.

Die beschriebenen Verfahrensschritte zur Gewinnung der Trainingsdaten für das neuronale Netz 7 werden für weitere Testobjekte aus weiteren Objektklassen wiederholt. Dabei werden Testobjekte aus anderen Objektklassen ausgewählt. Ferner werden die beschriebenen Verfahrensschritte zur Gewinnung der Trainingsdaten für das neuronale Netz 7 einmal ohne ein reales Testobjekt, sondern mit einem freien Raum durchgeführt. Die Belegungskarten sowie die Trainingsdaten werden dabei der jeweiligen Objektklasse, beziehungsweise dem freien Raum, zugeordnet.

Figur 2 zeigt eine schematische Darstellung eines neuronalen Netzes 7. Das neuronale Netz 7 ist als Faltungsnetz ausgebildet. Das neuronale Netz 7 weist vorliegend eine Eingangsschicht 6, eine erste Faltungsschicht 11 , eine zweite Faltungsschicht 12, eine dritte Faltungsschicht 13, eine vierte Faltungsschicht 14, eine fünfte Faltungsschicht 15, eine sechste Faltungsschicht 16, eine siebte Faltungsschicht 17 und eine Ausgangsschicht 9 auf.

Der Eingangsschicht e des neuronalen Netzes 7 werden Eingangsdaten 1 , 2, 3, 4 zugeführt. Die Eingangsschicht e, die Faltungsschichten 11 , 12, 13, 14, 15, 16, 17 und die Ausgangsschicht 9 sind seriell nacheinander angeordnet. Von einer Schicht zu der nachfolgenden Schicht wird jeweils eine Faltungsoperation durchgeführt. Von der Ausgangsschicht 9 des neuronalen Netzes 7 werden Ausgangsdaten 51 , 52, 53, 54 ausgegeben.

Ferner ist eine Zwischenverbindung 8 zwischen der ersten Faltungsschicht 11 und der siebten Faltungsschicht 17 vorgesehen. Auch ist eine Zwischenverbindung 8 zwischen der zweiten Faltungsschicht 12 und der sechsten Faltungsschicht 16 vorgesehen. Auch ist eine Zwischenverbindung 8 zwischen der dritte Faltungsschicht 13 und der fünften Faltungsschicht 15 vorgesehen. Die Zwischenverbindungen 8 stellen direkte Überführungen zwischen zwei Schichten dar, wobei über die Zwischenverbindung 8 keine Faltungsoperation durchgeführt wird. Die Zwischenverbindungen 8 werden verwendet um die Trainingsphase zu beschleunigen.

Es handelt sich dabei um eine Heuristik.

Jede der Schichten stellt eine dreidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weist die Eingangsschicht 6 eine Größe von 4x128x128 Pixeln auf. Die erste Faltungsschicht 11 weist eine Größe von 16x64x64 Pixeln auf. Die zweite Faltungsschicht 12 weist eine Größe von 32x32x32 Pixeln auf. Die dritte Faltungsschicht 13 weist eine Größe von 64x16x16 Pixeln auf. Die vierte Faltungsschicht 14 weist eine Größe von 128x8x8 Pixeln auf. Die fünfte Faltungsschicht 15 weist eine Größe von 64x16x16 Pixeln auf. Die sechste Faltungsschicht 16 weist eine Größe von 32x32x32 Pixeln auf. Die siebte Faltungsschicht 17 weist eine Größe von 16x64x64 Pixeln auf. Die Ausgangsschicht 9 weist eine Größe von 4x64x64 Pixeln auf.

Zur Detektion eines Objekts mittels des neuronalen Netzes 7, welchem zuvor die Trainingsdaten zugeführt wurden, wird eine Radarmessung durchgeführt. Dabei werden von einem Radarsensor ein Radarsignal ausgesendet und ein von dem Objekt reflektiertes Radarsignal empfangen. Das ausgesendete Radarsignal und das empfangene Radarsignal werden zu einem Mischsignal gemischt. Ein Mischspektrum des Mischsignals wird berechnet.

Das berechnete Mischspektrum umfasst eine Entfernung der Radarmessung und einen Azimutwinkel der Radarmessung. Das berechnete Mischspektrum umfasst ferner eine Entfernung der Radarmessung und eine Radialgeschwindigkeit der Radarmessung.

Der Eingangsschicht 6 des neuronalen Netzes 7 werden Eingangsdaten 1 , 2, 3, 4 zugeführt, welche das Mischspektrum enthalten. Figur 3 zeigt eine schematische Darstellung von Eingangsdaten 1 , 2, 3, 4 des neuronalen Netzes 7.

Der Eingangsschicht 6 des neuronalen Netzes 7 werden die ersten Eingangsdaten 1 zugeführt, welche die Entfernung der Radarmessung enthalten. Die ersten Eingangsdaten 1 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die ersten Eingangsdaten

1 eine Größe von 128x128 Pixeln auf.

Der Eingangsschicht 6 des neuronalen Netzes 7 werden die zweiten Eingangsdaten 2 zugeführt, welche den Azimutwinkel der Radarmessung enthalten. Die zweiten Eingangsdaten

2 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die zweiten Eingangsdaten 2 eine Größe von 128x128 Pixeln auf. Der Eingangsschicht 6 des neuronalen Netzes 7 werden die dritten Eingangsdaten 3 zugeführt, welche die Entfernung der Radarmessung enthalten. Die dritten Eingangsdaten 3 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die dritten Eingangsdaten 3 eine Größe von 128x128 Pixeln auf.

Der Eingangsschicht 6 des neuronalen Netzes 7 werden die vierten Eingangsdaten 4 zugeführt, welche die Radialgeschwindigkeit der Radarmessung enthalten. Die vierten Eingangsdaten 4 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die vierten Eingangsdaten 4 eine Größe von 128x128 Pixeln auf.

In dem neuronalen Netz 7 werden die Eingangsdaten 1, 2, 3, 4 verarbeitet. Dabei wird von einer Schicht zu der nachfolgenden Schicht jeweils eine Faltungsoperation durchgeführt. Durch die nacheinander durchgeführten Faltungsoperationen werden von dem neuronalen Netz 7 das Objekt und eine Position des Objekts detektiert. Durch die nacheinander durchgeführten Faltungsoperationen wird von dem neuronalen Netz 7 auch eine Objektklasse des Objekts detektiert.

Von der Ausgangsschicht 9 des neuronalen Netzes 7 werden Ausgangsdaten 51 , 52, 53, 54 ausgegeben. Figur 4 zeigt eine schematische Darstellung von Ausgangsdaten 51 , 52, 53, 54 des neuronalen Netzes 7.

Die ersten Ausgangsdaten 51 sind dabei einem Objekt aus einer ersten Objektklasse, beispielsweise Person, zugeordnet. Die ersten Ausgangsdaten 51 enthalten die detektierte Position des Objekts. Die ersten Ausgangsdaten 51 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die ersten Ausgangsdaten 51 eine Größe von 64x64 Pixeln auf.

Die zweiten Ausgangsdaten 52 sind dabei einem Objekt aus einer zweiten Objektklasse, beispielsweise Gabelstapler, zugeordnet. Die zweiten Ausgangsdaten 52 enthalten die detektierte Position des Objekts. Die zweiten Ausgangsdaten 52 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die zweiten Ausgangsdaten 52 eine Größe von 64x64 Pixeln auf. Die dritten Ausgangsdaten 53 sind dabei einem Objekt aus einer dritten Objektklasse, beispielsweise autonom fahrendes Transportfahrzeug, zugeordnet. Die dritten Ausgangsdaten 53 enthalten die detektierte Position des Objekts. Die dritten Ausgangsdaten 53 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die dritten Ausgangsdaten 53 eine Größe von 64x64 Pixeln auf.

Die vierten Ausgangsdaten 54 sind dabei einem Objekt aus einer vierten Objektklasse, beispielsweise freier Raum, zugeordnet. Die vierten Ausgangsdaten 54 enthalten die detektierte Position des Objekts. Die vierten Ausgangsdaten 54 stellen eine zweidimensionale Matrix aus einzelnen Pixeln dar. Vorliegend weisen die vierten Ausgangsdaten 54 eine Größe von 64x64

Pixeln auf.

Bezugszeichenliste

1 erste Eingangsdaten

2 zweite Eingangsdaten

3 dritte Eingangsdaten

4 vierte Eingangsdaten

6 Eingangsschicht

7 neuronales Netz

8 Zwischenverbindung

9 Ausgangsschicht

11 erste Faltungsschicht

12 zweite Faltungsschicht

13 dritte Faltungsschicht

14 vierte Faltungsschicht

15 fünfte Faltungsschicht

16 sechste Faltungsschicht

17 siebte Faltungsschicht

21 Kamera

25 Radargerät

32 Digitalrechner

34 Verarbeitungseinheit

40 Messbereich

42 Radarbereich

51 erste Ausgangsdaten

52 zweite Ausgangsdaten

53 dritte Ausgangsdaten

54 vierte Ausgangsdaten