Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
VISUAL PERCEPTION USING A VEHICLE ON THE BASIS OF A CAMERA IMAGE AND AN ULTRASONIC MAP
Document Type and Number:
WIPO Patent Application WO/2024/041833
Kind Code:
A1
Abstract:
According to a method for automatic visual perception using a vehicle (1), a camera image (6) depicting a surround of the vehicle (1) is generated, ultrasonic pulses are emitted into the surround, and at least one sensor signal (16) is generated on the basis of reflected components of the emitted ultrasonic pulses. On the basis of the ultrasonic sensor signals (16), a spatial ultrasonic map (7) is generated in a plan view perspective, at least one feature map is generated by the application of at least one encoder module (8, 9, 15) of a trained artificial neural network (12) to input data dependent on the camera image (6) and the ultrasonic map (7), with each of the at least one encoder modules (8, 9, 15) containing at least one convolution layer, and a visual perception task is performed by the neural network (12) on the basis of the at least one feature map.

Inventors:
SCHOLZ NIKO MORITZ (DE)
MALVIYA AKHILESH KUMAR (IN)
SISTU GANESH (IE)
Application Number:
PCT/EP2023/070793
Publication Date:
February 29, 2024
Filing Date:
July 27, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
VALEO SCHALTER & SENSOREN GMBH (DE)
International Classes:
G01S7/527; G01S7/53; G01S7/539; G01S15/00; G01S15/10; G01S15/42; G01S15/46; G01S15/86; G01S15/87; G01S15/931
Domestic Patent References:
WO2021226776A12021-11-18
Foreign References:
DE112021000135T52022-06-30
Other References:
DUTTA PRAMIT ET AL: "ViT-BEVSeg: A Hierarchical Transformer Network for Monocular Birds-Eye-View Segmentation", 2022 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), IEEE, 18 July 2022 (2022-07-18), pages 1 - 7, XP034198914, DOI: 10.1109/IJCNN55064.2022.9891987
T. RODDICKR. CIPOLLA: "Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks", 2020 IEEE / CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2020
T. LIN ET AL.: "Feature Pyramid Networks for Object Detection", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2017
Attorney, Agent or Firm:
ENGE, Sebastian Bernhard (DE)
Download PDF:
Claims:
Patentansprüche Verfahren zur automatischen visuellen Wahrnehmung mit einem Fahrzeug (1), wobei ein Kamerabild (6), das eine Umgebung des Fahrzeugs (1 ) darstellt, von einer Kamera (4) des Fahrzeugs (1) erzeugt wird, dadurch gekennzeichnet, dass durch mindestens einen Ultraschallsender (5a, 5b, 5c, 5d, 5e) des Fahrzeugs (1) Ultraschallimpulse in die Umgebung ausgesendet werden und von mindestens einem Ultraschalldetektor (5a, 5b, 5c, 5d, 5e) des Fahrzeugs (1) in Abhängigkeit von reflektierten Anteilen der ausgesendeten Ultraschallimpulse mindestens ein Ultraschallsensorsignal (16) erzeugt wird; eine Ultraschallkarte (7) in Abhängigkeit von dem mindestens einen Ultraschallsensorsignal (16) in einer Draufsichtperspektive erzeugt wird; mindestens eine Merkmalskarte erzeugt wird, indem mindestens ein Encodermodul (8, 9, 15) eines trainierten künstlichen neuronalen Netzwerks (12) auf Eingabedaten angewendet wird, die von dem Kamerabild (6) und der Ultraschallkarte (7) abhängen, wobei jedes des mindestens einen Encodermoduls (8, 9, 15) mindestens eine Faltungsschicht umfasst; und durch das neuronale Netzwerk (12) eine visuelle Wahrnehmungsaufgabe in Abhängigkeit von der mindestens einen Merkmalskarte ausgeführt wird. Verfahren nach einem der Ansprüche 1 , dadurch gekennzeichnet, dass die Ultraschall karte (7) durch eine Vielzahl von Gitterwerten gegeben ist, wobei jeder Gitterwert einer jeweiligen Gitterzelle eines vordefinierten räumlichen Gitters in der Draufsichtperspektive entspricht, wobei für jede der Gitterzellen und für jedes Sender-Detektor-Paar des mindestens einen Ultraschallsenders (5a, 5b, 5c, 5d, 5e) und des mindestens einen Ultraschalldetektors (5a, 5b, 5c, 5d, 5e) eine entsprechende Wegstrecke von einer Position des Ultraschallsenders (5a, 5b, 5c, 5d, 5e) des Sender-Detektor-Paares über eine Position der Gitterzelle zu einer Position des Ultraschalldetektors (5a, 5b, 5c, 5d, 5e) des Sender-Detektor-Paares berechnet wird; ein Signalwert des Ultraschallsensorsignals (16), das von dem Ultraschalldetektor (5a, 5b, 5c, 5d, 5e) des Sender-Detektor-Paares erzeugt wird, in Abhängigkeit von der Wegstrecke berechnet wird; und der Gitterwert der Gitterzelle in Abhängigkeit von dem Signalwert berechnet wird.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass für jedes Sender-Detektor-Paar jeweils eine Winkelgewichtungsfunktion (17) bereitgestellt wird; für jede Gitterzelle jeder Signalwert mit der jeweiligen Winkelgewichtungsfunktion (17), ausgewertet an der Position der Gitterzelle, multipliziert wird, um einen jeweiligen gewichteten Signalwert zu erhalten; und für jede Gitterzelle wird der Gitterwert in Abhängigkeit von einer Summe der für die jeweilige Gitterzelle erhaltenen gewichteten Signalwerte berechnet.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Winkelgewichtungsfunktion (17) von mindestens einer Beta-Verteilung abhängt.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine erste Merkmalskarte der mindestens einen Merkmalskarte von einem ersten Encodermodul (8) des mindestens einen Encodermoduls (8, 9, 15) in Abhängigkeit von dem Kamerabild (6) erzeugt wird; eine zweite Merkmalskarte der mindestens einen Merkmalskarte durch Anwendung eines zweiten Encodermoduls (9) des mindestens einen Encodermoduls (8, 9, 15) auf die Ultraschallkarte (7) erzeugt wird; eine fusionierte Merkmalskarte in Abhängigkeit von der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt wird; und die visuelle Wahrnehmungsaufgabe von dem neuronalen Netzwerk (12) in Abhängigkeit von der fusionierten Merkmalskarte ausgeführt wird.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die erste Merkmalskarte durch Anwendung des ersten Encodermoduls (8) auf das Kamerabild (6) erzeugt wird; ein Merkmals-T ransformationsmodul (11) des neuronalen Netzes (12) auf die erste Merkmalskarte angewendet wird, um die erste Merkmalskarte von einer Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren; und die fusionierte Merkmalskarte durch Fusionieren der transformierten ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt wird.

7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass ein Kamerabild-Transformationsmodul (13) auf das Kamerabild (6) angewendet wird, um das Kamerabild (6) von einer Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren; die erste Merkmalskarte erzeugt wird, indem das erste Encodermodul (8) auf das transformierte Bild angewendet wird; und die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.

8. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass eine erste Merkmalskarte erzeugt wird, indem ein erstes Encodermodul (8) des mindestens einen Encodermoduls (8, 9, 15) auf das Kamerabild (6) angewendet wird; ein Ultraschallkarten-Transformationsmodul (14) auf die Ultraschall karte (7) angewendet wird, um die Ultraschallkarte (7) von der Draufsichtperspektive in eine Kamerabildebenenperspektive der Kamera (4) zu transformieren; eine zweite Merkmalskarte wird erzeugt, indem ein zweites Encodermodul (9) des mindestens einen Encodermoduls (8, 9, 15) auf die transformierte Ultraschallkarte angewendet wird; die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.

9. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass ein Eingabebild durch Kombination des Kamerabildes (6) und der Ultraschallkarte (7) erzeugt wird; und die mindestens eine Merkmalskarte erzeugt wird, indem das mindestens eine Encodermodul (8, 9, 15) auf das Eingabebild angewendet wird.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Kombinieren des Kamerabildes (6) und der Ultraschallkarte (7) umfasst Verketten des Kamerabildes (6) und der Ultraschallkarte (7) oder Ersetzen eines oder mehrerer Kanäle des Kamerabildes (6) durch die Ultraschall karte (7); oder Transformieren der Ultraschallkarte (7) von der Draufsichtperspektive in eine Kamerabildebenenperspektive der Kamera (4) und Verketten des Kamerabildes (6) und der transformierten Ultraschall karte oder Ersetzen eines oder mehrerer Kanäle des Kamerabildes (6) durch die transformierte Ultraschallkarte.

11 . Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Kombinieren des Kamerabildes (6) und der Ultraschallkarte (7) umfasst Transformieren des Kamerabildes (6) aus einer Kamerabildebenenperspektive der Kamera (4) in die Draufsichtperspektive; und

Verketten des transformierten Kamerabildes (6) und der Ultraschall karte (7) oder Ersetzen eines oder mehrerer Kanäle des transformierten Kamerabildes (6) durch die Ultraschall karte (7).

12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die visuelle Wahrnehmungsaufgabe eine Objekthöhenregressionsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine Höhenkarte in der Draufsichtperspektive umfasst, die eine vorhergesagte Objekthöhe von einem oder mehreren Objekten in der Umgebung enthält; oder die visuelle Wahrnehmungsaufgabe eine Objektpositionsregressionsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine vorhergesagte Objektposition von einem oder mehreren Objekten in der Umgebung umfasst; oder die visuelle Wahrnehmungsaufgabe eine semantische Segmentierungsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) ein semantisch segmentiertes Bild umfasst; oder die visuelle Wahrnehmungsaufgabe eine Begrenzungsbox-Erkennungsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine jeweilige Position und Größe mindestens einer Begrenzungsbox für mindestens ein Objekt in der Umgebung umfasst; oder die visuelle Wahrnehmungsaufgabe eine Objekterkennungsaufgabe umfasst und eine Ausgabe des neuronalen Netzes (12) eine jeweilige Position und Größe mindestens einer Begrenzungsbox für mindestens ein Objekt in der Umgebung sowie eine vorhergesagte Objektklasse für jedes der mindestens einen Objekts umfasst. Elektronisches Fahrzeugführungssystem (2) für ein Fahrzeug (1) aufweisend mindestens eine Recheneinheit (3), eine Speichervorrichtung, die ein trainiertes künstliches neuronales Netzwerk (12) speichert, und eine Kamera (4), die dazu eingerichtet ist, ein Kamerabild (6) zu erzeugen, das eine Umgebung des Fahrzeugs (1) darstellt, dadurch gekennzeichnet, dass das elektronische Fahrzeugführungssystem (2) mindestens einen Ultraschallsender (5a, 5b, 5c, 5d, 5e) umfasst, der dazu eingerichtet ist, Ultraschallimpulse in die Umgebung des Fahrzeugs (1) auszusenden, und mindestens einen Ultraschalldetektor (5a, 5b, 5c, 5d, 5e), der dazu eingerichtet ist, mindestens ein Ultraschallsensorsignal (16) in Abhängigkeit von reflektierten Anteilen der ausgesendeten Ultraschallimpulse zu erzeugen; die mindestens eine Recheneinheit (3) dazu eingerichtet ist, eine Ultraschallkarte (7) in einer Draufsichtperspektive in Abhängigkeit von dem mindestens einen Ultraschallsensorsignal (16) zu erzeugen; die mindestens eine Recheneinheit (3) dazu eingerichtet ist, mindestens eine Merkmalskarte zu erzeugen, indem mindestens ein Encodermodul (8, 9, 15) des trainierten künstlichen neuronalen Netzes (12) auf Eingabedaten angewendet wird, die von dem Kamerabild (6) und der Ultraschall karte (7) abhängen, wobei jedes des mindestens einen Encodermoduls (8, 9, 15) mindestens eine Faltungsschicht umfasst; die mindestens eine Recheneinheit (3) dazu eingerichtet ist, das neuronale Netzwerk (12) zu verwenden, um eine visuelle Wahrnehmungsaufgabe in Abhängigkeit von der mindestens einen Merkmalskarte auszuführen; und die mindestens eine Recheneinheit (3) dazu eingerichtet ist, mindestens ein Steuersignal zum zumindest teilweise automatischen Führen des Fahrzeugs (1) in Abhängigkeit von einem Ergebnis der visuellen Wahrnehmungsaufgabe zu erzeugen. Fahrzeug (1 ) mit einem elektronischen Fahrzeugführungssystem (2) nach Anspruch 13, wobei die Kamera (4), der mindestens eine Ultraschallsender (5a, 5b, 5c, 5d,

5e) und der mindestens eine Ultraschalldetektor (5a, 5b, 5c, 5d, 5e) an dem Fahrzeug (1 ) montiert sind. Computerprogrammprodukt mit Befehlen, die bei Ausführung durch ein elektronisches Fahrzeugführungssystem (2) nach Anspruch 13 das elektronische Fahrzeugführungssystem (2) veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.

Description:
Visuelle Wahrnehmung mit einem Fahrzeug basierend auf einem Kamerabild und einer Ultraschallkarte

Die vorliegende Erfindung ist auf ein Verfahren zur automatischen visuellen Wahrnehmung mit einem Fahrzeug gerichtet, wobei ein Kamerabild, das eine Umgebung des Fahrzeugs darstellt, durch eine Kamera des Fahrzeugs erzeugt wird. Die Erfindung ist ferner auf ein elektronisches Fahrzeugführungssystem für ein Fahrzeug gerichtet, das wenigstens eine Recheneinheit, ein Speichergerät, das ein trainiertes künstliches neuronales Netzwerk speichert, und eine Kamera, die dazu eingerichtet ist, ein Kamerabild, das die Umgebung des Fahrzeugs darstellt, zu erzeugen, beinhaltet. Die Erfindung ist ferner auf ein Fahrzeug gerichtet, das ein solches elektronisches Fahrzeugführungssystem aufweist und auf ein Computerprogrammprodukt.

Für teilweise automatische oder vollautomatische Fahrfunktionen ist die zuverlässige automatische Erkennung von Objekten in der Umgebung eines Egofahrzeugs sehr wichtig. Es ist bekannt, Algorithmen zur automatischen visuellen Wahrnehmung, auch als Computer-Vision-Algorithmen, basierend auf Kamerabildern der Kameras des Egofahrzeugs zum Detektieren, Lokalisieren und/oder Charakterisieren von Objekten in der Umgebung des Egofahrzeugs zu verwenden. Typische visuelle Wahrnehmungsaufgaben beinhalten Objekterkennungsaufgaben, die Erkennung von Begrenzungsboxen für Objekte, semantische Segmentierungsaufgaben, Größenregression von Objekten, Höhenregression von Objekten et cetera.

Für bestimmte Umweltbedingungen ist die zuverlässige Wahrnehmung und Charakterisierung von Objekten jedoch eine schwierige Aufgabe für bekannte Algorithmen zur automatischen visuellen Wahrnehmung, was in einer reduzierten Zuverlässigkeit und/oder Genauigkeit der entsprechenden Ausgaben resultiert. Solche Umweltbedingungen beinhalten beispielsweise Szenarien mit wenig Licht sowie Dämmerungs- oder Nachtszenarien, wo die Information, die in den Kamerabildern beinhaltet ist, sehr begrenzt ist. Darüber hinaus können die Detektion und Charakterisierung von Objekten in der Umgebung des Fahrzeugs, die eine besonders geringe Höhe vom Untergrund aufweisen, so wie Randsteine, niedrige Wände, Pfosten oder unklassifizierte oder unbekannte Objekte besonders herausfordernd sein. Dies gilt umso mehr, falls solche Objekte bei Szenarien mit wenig Licht charakterisiert und erkannt werden sollen.

Algorithmen zur automatischen visuellen Wahrnehmungen können beispielsweise auf trainierten künstlichen neuronalen Netzwerken, insbesondere faltenden neuronalen Netzwerken, CNN, basieren. Im Dokument T. Roddick und R. Cipolla “Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks“, 2020 IEEE / CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020 oder in dem entsprechenden Vorabdruck arXiv:2003.13402v1 (im Folgenden "Roddick und Cipolla") beschreiben die Autoren eine Methode zum Schätzen von Vogelperspektivenkarten des Umfeldes von autonomen Fahrzeugen direkt aus monokularen Bildern unter Verwendung einer einzelnen Ende-zu-Ende Architektur zum tiefen Lernen. Die Architektur besteht aus einem Basisnetzwerk, einem Merkmalspyramidennetzwerk, einem Vogelperspektiventransformationsnetzwerk und einem Abwärtsnetzwerk. Das Basisnetzwerk, das beispielsweise auf ResNet-50 basieren kann, extrahiert Bildmerkmale mit mehreren Auflösungen aus dem Eingabebild und das Merkmalspyramidennetzwerk fügt Merkmale mit hoher Auflösung mit dem räumlichen Kontext von niedrigeren Pyramidenschichten hinzu. Ein Stapel von dichten Transformationsschichten des Vogelperspektiventransformationsnetzwerks bildet die Merkmale auf Bildbasis in die Vogelperspektive ab und das Abwärtsnetzwerk verarbeitet die Vogelperspektivenmerkmale und sagt die finalen semantischen Belegungswahrscheinlichkeiten vorher.

Das Merkmalspyramidennetzwerk basiert auf der Veröffentlichung T. Lin et al.: “Feature Pyramid Networks for Object Detection”, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017 oder dem entsprechenden Vorabdruck arXiv:1612.03144v2 (im Folgenden "Lin et al.").

Es ist ein Ziel der vorliegenden Erfindung, die Zuverlässigkeit und/oder Genauigkeit der automatischen visuellen Wahrnehmung mit einem Fahrzeug zu verbessern.

Dieses Ziel wird durch den jeweiligen Gegenstand der unabhängigen Ansprüche erreicht. Weitere Implementierungen und bevorzugte Ausführungsformen sind ein Gegenstand der abhängigen Ansprüche.

Die Erfindung beruht auf der Idee, ein trainiertes künstliches neuronales Netzwerk zu verwenden, um Merkmale aus einem Kamerabild und aus einer Ultraschallkarte der Umgebung zu extrahieren und eine visuelle Wahrnehmungsaufgabe abhängig von den extrahierten Merkmalen durchzuführen.

Gemäß einem Aspekt der Erfindung wird ein Verfahren zur automatischen visuellen Wahrnehmung mit einem Fahrzeug angegeben. Dabei wird ein Kamerabild, das eine Umgebung des Fahrzeugs darstellt, mittels einer Kamera des Fahrzeugs erzeugt. Ultraschallimpulse werden in die Umgebung durch wenigstens einen Ultraschallsender des Fahrzeugs ausgesendet und wenigstens ein Ultraschallsensorsignal wird von wenigstens einem Ultraschalldetektor des Fahrzeugs abhängig von reflektierten Anteilen der ausgesendeten Ultraschallimpulse erzeugt. Eine Ultraschallkarte, insbesondere eine räumliche Ultraschallkarte, wird in einer Draufsichtperspektive abhängig von dem wenigstens einen Ultraschallsensorsignal erzeugt. Wenigstens eine Merkmalskarte wird durch Anwendung wenigstens eines Encodermoduls eines trainierten künstlichen neuronalen Netzwerks auf Eingabedaten, die von dem Kamerabild und der

Ultraschall karte abhängen, erzeugt, wobei jedes des wenigstens einen Encodermoduls mindestens eine Faltungsschicht aufweist. Eine visuelle Wahrnehmungsaufgabe wird durch das neuronale Netzwerk abhängig von der wenigstens einen Merkmalskarte ausgeführt.

Das Verfahren zur automatischen visuellen Wahrnehmung gemäß der Erfindung kann auch als Verfahren erachtet werden, das die beschriebenen Schritte des Erzeugens des Kamerabilds und des wenigstens einen Ultraschallsensorsignals beinhaltet sowie das Anwenden eines Algorithmus zur automatischen visuellen Wahrnehmung auf die Eingabedaten. Der Algorithmus zur visuellen Wahrnehmung, der auch als Computer- Vision-Algorithmus oder Maschinen-Vision-Algorithmus bezeichnet werden kann, beinhaltet das trainierte künstliche neuronale Netzwerk. Der Algorithmus zur automatischen visuellen Wahrnehmung und, im Allgemeinen, alle Rechenschritte des Verfahrens zur automatischen visuellen Wahrnehmung, können durch wenigstens eine Recheneinheit, insbesondere des Fahrzeugs, ausgeführt werden. Ein Algorithmus zur automatischen visuellen Wahrnehmung kann als computerimplementierter Algorithmus zur automatischen Durchführung einer oder mehrerer visueller Wahrnehmungsaufgaben betrachtet werden. Eine visuelle Wahrnehmungsaufgabe, die auch als Computer- Vision- Aufgabe bezeichnet wird, kann beispielsweise als Aufgabe zur Extraktion visuell wahrnehmbarer Informationen aus Bilddaten verstanden werden. Insbesondere kann die visuelle Wahrnehmungsaufgabe in vielen Fällen prinzipiell durch einen Menschen ausgeführt werden, der in der Lage dazu ist, ein Bild entsprechend der Bilddaten visuell wahrzunehmen. Im vorliegenden Kontext werden visuelle Wahrnehmungsaufgaben jedoch automatisch ohne die Notwendigkeit einer Unterstützung durch einen Menschen durchgeführt.

Im Kontext der vorliegenden Erfindung werden das Verfahren und der Algorithmus zur automatischen visuellen Wahrnehmung nicht ausschließlich basierend auf dem Kamerabild als Sensoreingabe ausgeführt, sondern auch basierend auf dem wenigstens einen Ultraschallsensorsignal beziehungsweise der Ultraschallkarte. Ultraschallwellen sind für Menschen nicht sichtbar. Nichtsdestotrotz wird der vorliegend verwendete Algorithmus als Algorithmus zur visuellen automatischen Wahrnehmung bezeichnet und folglich das Verfahren als Verfahren zur automatischen visuellen Wahrnehmung bezeichnet.

Da die involvierten Sensoreingaben, insbesondere das Kamerabild und das wenigstens eine Ultraschallsensorsignal, durch Sensorsysteme des Fahrzeugs erzeugt werden, insbesondere die Kamera- und die Ultraschallsender und -detektoren, kann das Verfahren als Verfahren zur automatischen visuellen Wahrnehmung mit dem Fahrzeug aufgefasst werden.

Beispielsweise kann das trainierte künstliche neuronale Netzwerk in einer computerlesbaren Weise bereitgestellt werden, beispielsweise gespeichert auf einem Speichermedium des Fahrzeugs, insbesondere der wenigstens einen Recheneinheit.

Das neuronale Netzwerk beinhaltet mehrere Module inklusive des wenigstens einen Encodermoduls und ein oder mehrere Module, die auf die wenigstens eine Merkmalskarte angewendet werden, um die visuelle Wahrnehmungsaufgabe abhängig von der wenigstens einen Merkmalskarte durchzuführen, beispielsweise eines oder mehrere Decodermodule, Regressionsmodule oder sonstige visuelle Wahrnehmungsmodule et cetera. Module können als Softwaremodule oder Teile des neuronalen Netzwerks verstanden werden. Ein Softwaremodul kann als Softwarecode verstanden werden, der funktional verbunden und zu einer Einheit kombiniert ist. Ein Softwaremodul kann mehrere Verarbeitungsschritte und/oder Datenstrukturen beinhalten oder implementieren.

Die Module können insbesondere selbst neuronale Netzwerke oder Unternetzwerke darstellen. Sofern nicht anders angegeben, kann ein Modul des neuronalen Netzwerks als trainierbares und insbesondere trainiertes Modul des neuronalen Netzwerks verstanden werden. Beispielsweise kann das neuronale Netzwerk und folglich alle seine trainierbaren Module in einer Ende-zu-Ende-Weise trainiert werden, bevor das Verfahren zur automatischen visuellen Wahrnehmung ausgeführt wird. In anderen Implementierungen können jedoch verschiedene Module individuell trainiert oder vortrainiert werden. Mit anderen Worten entspricht das Verfahren gemäß der Erfindung einer Anwendungsphase des neuronalen Netzwerks.

Das Training selbst kann durch Verwendung konventioneller Methoden zum Trainieren neuronaler Netzwerke, insbesondere faltender neuronaler Netzwerke, CNN (englisch: „Convolutional Neuronal Networks“), wie etwa überwachte Trainingsverfahren, durchgeführt werden.

Zum Erzeugen der Ultraschall karte abhängig von dem wenigstens einen Ultraschallsensorsignal kann ein weiteres Softwaremodul auf das wenigstens eine Ultraschallsensorsignal angewendet werden, wobei das weitere Softwaremodul nicht notwendigerweise ein Teil des neuronalen Netzwerks ist. Insbesondere ist das weitere Softwaremodul nicht notwendigerweise ein trainiertes oder trainierbares Modul. In anderen Implementierungen kann das weitere Softwaremodul jedoch auch ein trainierbares oder trainiertes Modul des neuronalen Netzwerks sein.

Das wenigstens eine Encodermodul kann eine oder mehrere Faltungsschichten beinhalten, die die Merkmale der wenigstens einen ersten Merkmalskarte aus dem Kamerabild extrahieren. Die räumlichen Dimensionen der wenigstens einen ersten Merkmalskarte können sich im Allgemeinen von den räumlichen Dimensionen des Kamerabildes in Abhängigkeit von der Architektur des wenigstens einen Encoders und insbesondere den Faltungsschichten, beispielsweise den beteiligten oder verwendeten Faltungskernen, unterscheiden. Im Allgemeinen kann das Kamerabild als dreidimensionaler Tensor der Größe H x W x C betrachtet werden. Dabei bezeichnet H x W die räumliche Größe des Kamerabildes, nämlich seine Höhe H und Breite W hinsichtlich Bildpunkten des Kamerabildes. C ist die Kanaldimension und kann im Fall des Kamerabildes beispielsweise verschiedenen Farbkanälen entsprechen. Es ist jedoch auch möglich, dass C für das Kamerabild gleich 1 ist. Jede Merkmalskarte i der wenigstens einen ersten Merkmalskarte ist auch durch eine jeweilige räumliche Größe Hi x Wi und eine Kanalzahl Ci charakterisiert, die sich jedoch von den Größen und Kanalzahlen des Kamerabildes unterscheiden können. Die exakte Höhe Hi und Breite Wi sowie die Kanalzahl Ci von einer der ersten Merkmalskarten hängt von der Anzahl von Faltungsschichten, die durch das Encodermodul verwendet werden, und der Größe und Anzahl von verwendeten Faltungskernen ab. Die Merkmale der wenigstens einen Merkmalskarte können jedoch immer noch als in derselben Kamerabildebenenperspektive wie das Kamerabild gegeben betrachtet werden. Mit anderen Worten, Richtungen, die der Höhe und Breite der Merkmalskarten der wenigstens einen ersten Merkmalskarte entsprechen, entsprechen den Höhen- und Breitenrichtungen im ursprünglichen Kamerabild, selbst wenn keine Eins-zu-Eins-Bildpunktentsprechung zwischen den Merkmalen und den Bildpunkten des Kamerabildes bestehen kann.

Das Kamerabild wird in der Kamerabildebene erzeugt und bereitgestellt. Die Kamerabildebene ist beispielsweise senkrecht zu einer vordefinierten Längsrichtung des Kamerakoordinatensystems, die beispielsweise parallel zu einer optischen Achse der Kamera sein kann. Die Draufsichtperspektive entspricht einer Perspektive gemäß einer Draufsichtebene, die senkrecht auf eine vordefinierte Höhenachse ist. Die Höhenachse kann beispielsweise senkrecht zu einer Straßenoberfläche einer Straße sein, auf der das Fahrzeug positioniert ist oder, mit anderen Worten, parallel zu einer Fahrzeughochachse des Fahrzeugs. Diese kann in manchen Fällen parallel zu einer weiteren Koordinatenachse des Kamerakoordinatensystems sein. Im Allgemeinen kann das Kamerakoordinatensystem jedoch auch gekippt oder gedreht sein.

Alle der Ultraschallimpulse können beispielsweise mit dem wenigstens einen Ultraschallsender gemäß einem vordefinierten Wellenlängenspektrum der involvierten Ultraschallwellen ausgesendet werden oder, in anderen Worten, gemäß einem vordefinierten Sendeband. Insbesondere arbeiten alle Ultraschallsender des wenigstens einen Ultraschallsenders mit demselben Sendeband. Analog können alle Detektoren des wenigstens einen Ultraschalldetektors derart angepasst sein, dass sie Ultraschallwellen gemäß demselben vordefinierten Detektionsband detektieren können, wobei das Detektionsband zu dem Sendeband passt. Mit anderen Worten sind alle der Ultraschalldetektoren im Prinzip dazu in der Lage, Ultraschallwellen, die von irgendeinem der Ultraschallsender erzeugt werden, zu detektieren.

Dies schließt es jedoch nicht aus, dass das Fahrzeug weitere Ultraschallsender aufweist, die bei unterschiedlichen Sendebändern arbeiten sowie zugehörige weitere Ultraschalldetektoren. In diesem Fall können weitere Ultraschallsensorsignale von den weiteren Ultraschalldetektoren basierend auf reflektierten Anteilen von Ultraschallimpulsen, die von den weiteren Ultraschallsendern ausgesendet wurden, erzeugt werden. Die Ultraschallkarte kann in diesem Fall auch abhängig von den weiteren Ultraschallsensorsignalen erzeugt werden. Im Folgenden wird die Diskussion, sofern nichts anderes angegeben, auf den wenigstens einen Ultraschallsender und den wenigstens einen Ultraschalldetektor, die in dem genannten passenden Sendeband beziehungsweise Detektionsband arbeiten, begrenzt. Alle der Ausführungen können jedoch auf die weiteren Ultraschallsender und die weiteren Ultraschalldetektoren entsprechend übertragen werden.

Es wird darüber hinaus festgehalten, dass jeder der wenigstens einen Ultraschallsender entsprechende Ultraschallimpulse wiederholt, insbesondere in einer periodischen Weise, aussenden kann, und das wenigstens eine Ultraschallsensorsignal als wenigstens eine Zeitreihe von Messungen betrachtet werden kann. Beispielsweise kann jedes Ultraschallsensorsignal als eine Einhüllende einer Ultraschallwelle darstellend aufgefasst werden, die den reflektierten Anteilen der entsprechend ausgesendeten Ultraschallimpulse entspricht. Jedes Ultraschallsensorsignal ist dann durch eine Amplitude der entsprechenden Einhüllenden als Funktion der Zeit gegeben. Da die Schallgeschwindigkeit bekannt ist oder abgeschätzt werden kann, insbesondere für eine gegebene Lufttemperatur oder eine geschätzte Lufttemperatur in der Umgebung, kann die Amplitude als Funktion der Zeit direkt in eine Amplitude als Funktion einer Wegstrecke konvertiert werden, die einer Summe der Entfernungen von dem entsprechenden Ultraschallsender zu einem reflektierten Objekt in der Umgebung und zurück zu dem entsprechenden Ultraschalldetektor entspricht.

Der wenigstens eine Ultraschallsender und der wenigstens eine Ultraschalldetektor können als Ultraschallsendeempfänger kombiniert sein oder sie können separat voneinander implementiert sein. Insbesondere können reflektierte Anteile eines Ultraschallimpulses, der von einem Ultraschallsendeempfänger ausgesendet wurde, von demselben Ultraschallsendeempfänger detektiert werden, was als direkter Signalpfad bezeichnet wird, oder von einem anderen Ultraschallsendeempfänger, was als indirekter Signalpfad bezeichnet wird.

Insbesondere kann ein Sichtfeld der Kamera teilweise mit einem Sichtfeld des wenigstens einen Ultraschalldetektors beziehungsweise des wenigstens einen Ultraschallsenders überlappen. Folglich stellen das Kamerabild und das wenigstens eine Ultraschallsensorsignal wenigstens teilweise dieselbe räumliche Region in der Umgebung des Fahrzeugs dar.

Die Ultraschallkarte kann beispielsweise als Ultraschallbild verstanden werden. Insbesondere kann die Ultraschallkarte durch eine Vielzahl von Gitterwerten gegeben sein, wobei jeder Gitterwert einer entsprechenden Gitterzelle eines vordefinierten räumlichen Gitters in der Draufsichtperspektive entspricht. Jede Gitterzelle entspricht dann einem entsprechenden Pixel in der Ultraschallkarte, wobei der Gitterwert als entsprechender Pixelwert interpretiert werden kann. Folglich kann die Ultraschall karte analog wie für Kamerabilder von dem neuronalen Netzwerk behandelt werden, beispielsweise indem es durch eine oder mehrere Faltungsschichten des wenigstens einen Encodermoduls gereicht wird. Obwohl der Inhalt der Ultraschallkarte nicht unmittelbar für einen Menschen interpretierbar sein kann, ist das trainierte neuronale Netzwerk dazu in der Lage, die codierte Information automatisch zu interpretieren, ähnlich wie für Kamerabilder. Da die wenigstens eine Merkmalskarte basierend auf beiden, der Ultraschall karte sowie dem Kamerabild, erzeugt wird, kann die Zuverlässigkeit der visuellen Wahrnehmungsaufgabe und ihre Ausgabe signifikant verbessert werden, insbesondere für Szenarios mit wenig Licht. Insbesondere stellen die Ultraschallsensorsignale reflektierende Objekte in der Umgebung des Fahrzeugs unabhängig von den Beleuchtungsbedingungen dar.

Gemäß verschiedener Implementierungen des Verfahrens zur automatischen visuellen Wahrnehmung ist die Ultraschall karte durch eine Vielzahl von Gitterwerten gegeben, wobei jeder Gitterwert einer entsprechenden Gitterzelle eines vordefinierten räumlichen Gitters in der Draufsichtperspektive entspricht, wobei für jede der Gitterzellen und für jedes Sender-Detektor-Paar des wenigstens einen Ultraschallsenders und des wenigstens einen Ultraschalldetektors eine entsprechende Wegstrecke berechnet wird und ein Signalwert abhängig von der Wegstrecke berechnet wird. Der Gitterwert der entsprechenden Gitterzelle wird abhängig von dem Signalwert berechnet. Dabei ist die Wegstrecke eine Wegstrecke von einer Position des Ultraschalls im Sender des Sender- Detektor-Paars über die Position der Gitterzelle zu einer Position des Ultraschalldetektors des Sender-Detektor-Paars. Der Signalwert ist ein Signalwert des Ultraschallsensorsignals, welches durch den Ultraschalldetektor des Sender-Detektor- Paars erzeugt wird.

Die Sender-Detektor-Paare können beispielsweise so verstanden werden, dass jeder Detektor des wenigstens einen Ultraschalldetektors mit jedem des mindestens einen Ultraschallsenders ein Sender-Detektor-Paar bildet, unabhängig davon, ob sie einen gemeinsamen Ultraschallsendeempfänger bilden. Bei n Ultraschallsendern und m Ultraschalldetektoren ergeben sich n*m Sender-Detektor-Paare.

Das Gitter ist insbesondere ein zweidimensionales Gitter. Beispielsweise können die Gitterzellen in einem Array von Zeilen und Spalten angeordnet sein und demzufolge als kartesisches oder rechteckiges Gitter aufgefasst werden. Es sind jedoch auch andere Umsetzungen möglich, zum Beispiel die Verwendung eines Polargitters, wobei jede Gitterzelle durch ein Intervall eines radialen Abstands und ein Winkelintervall gegeben ist.

Insbesondere entspricht, wie oben beschrieben, jeder Wert der Ultraschallsensorsignale einer bestimmten zurückgelegten Zeit und folglich einer bestimmten Wegstrecke. Daher kann das Ultraschallsignal bei der berechneten Wegstrecke von der Position des Ultraschallsenders zu der Gitterzelle zurück zu dem Ultraschalldetektor ausgewertet werden. Da die Auflösung der Ultraschallsensorsignale endlich ist, kann eine Interpolation der entsprechenden Werte durchgeführt werden, um das Ultraschallsensorsignal bei der berechneten Wegstrecke auszuwerten. Es wird angemerkt, dass das räumliche Gitter in der Draufsichtperspektive in einem Real-Welt-Koordinatensystem, beispielsweise einem Koordinatensystem der Kamera oder des Fahrzeugs, definiert ist. Der Signalwert, der abhängig von der Wegstrecke berechnet wurde, kann daher derart verstanden werden, dass er das Vorhandensein oder die Abwesenheit eines Objekts an der Position in der Umgebung des Fahrzeugs, die durch die Gitterzelle gegeben ist, anzeigt. Dass die beschriebenen Schritte für jede Gitterzelle und jedes Sender-Detektor-Paar durchgeführt werden, kann derart verstanden werden, dass eine bestimmte Gitterzelle ausgewählt wird und ein bestimmter Ultraschalldetektor des wenigstens einen Ultraschalldetektors ausgewählt wird. Die Wegstrecke wird dann für die ausgewählte Gitterzelle und den ausgewählten Ultraschalldetektor für jeden des wenigstens einen Ultraschallsenders berechnet und dann wird der entsprechende Signalwert berechnet. Diese Schritte werden dann für dieselbe Gitterzelle und alle anderen Ultraschalldetektoren des wenigstens einen Ultraschalldetektors wiederholt. Sodann werden diese Schritte erneut für alle anderen Gitterzellen wiederholt.

Falls weitere Ultraschallsender und weitere Ultraschalldetektoren involviert sind, die bei weiteren Sende- und Detektionsbändern arbeiten, können dieselben Schritte auch für diese ausgeführt werden. Ultraschalldetektoren und Ultraschallsender mit nicht passenden Sende- und Empfangsbändern werden jedoch nicht gepaart.

Gemäß mehrerer Implementierungen wird für jedes Sender-Detektor-Paar eine entsprechende Winkelgewichtungsfunktion bereitgestellt. Für jede Gitterzelle wird jeder Signalwert mit der entsprechenden Winkelgewichtungsfunktion ausgewertet an der Position der Gitterzelle multipliziert, um einen entsprechenden gewichteten Signalwert zu erhalten. Für jede Gitterzelle wird der Gitterwert abhängig von einer Summe der gewichteten Signalwerte, die für die entsprechende Gitterzelle erhalten wurden, berechnet. Falls beispielsweise, abgesehen von dem wenigstens einen Ultraschallsender und dem wenigstens einen Ultraschalldetektor, mit passenden Sende- beziehungsweise Detektionsbändern keine weiteren Ultraschallsender und Ultraschalldetektoren involviert sind, kann der Gitterwert für eine gegebene Gitterzelle durch die Summe der gewichteten Signalwerte wie oben beschrieben gegeben sein. Andererseits, wenn weitere Ultraschallsender und Ultraschalldetektoren mit anderen Sende- beziehungsweise Detektionsbändern involviert sind, können weitere gewichtete Signalwerte für jeden Satz von weiteren Ultraschallsendern und weiteren Ultraschalldetektoren mit passenden Sende- beziehungsweise Detektionsbändern analog berechnet werden. Der Gitterwert ist dann durch eine Summe aller gewichteten Signalwerte und aller weiteren gewichteten Signalwerte gegeben, die für diese Gitterzelle berechnet wurden.

Die Winkelgewichtungsfunktion beschreibt zum Beispiel, wie sich die Amplitude des wenigstens einen Ultraschallsensorsignals typischerweise für verschiedene Winkel, insbesondere Polarwinkel in der Draufsichtperspektive, unterscheidet. Empirisches, experimentelles oder heuristisches Wissen kann verwendet werden, um die entsprechenden Winkelgewichtungsfunktionen zu definieren. Auf diese Weise kann die zweidimensionale Information der Ultraschallkarte aus dem wenigstens einen Ultraschallsensorsignal mit erhöhter Genauigkeit erhalten werden. Im Allgemeinen können die Winkelgewichtungsfunktionen für unterschiedliche Ultraschallsensorsignale und dementsprechend für unterschiedliche Ultraschalldetektoren verschieden sein. Die Winkelgewichtungsfunktion kann beispielsweise von wenigstens einer Beta-Verteilung abhängen.

Beispielsweise für einen direkten Signalpfad kann die entsprechende Winkelgewichtungsfunktion durch eine einzelne Beta-Verteilung gegeben sein, die bei dem zugehörigen Ultraschallsendeempfänger zentriert ist. Im Falle eines indirekten Signalpfads können zwei solche Beta-Verteilungen, die an unterschiedlichen Positionen entsprechend der zwei verschiedenen involvierten Ultraschallsendeempfängern zentriert sind, miteinander kombiniert werden, um die Winkelgewichtungsfunktion zu erhalten. Beispielsweise kann das Minimum der beiden Beta-Verteilungen an der entsprechenden Position verwendet werden oder ein Durchschnittswert und so weiter.

Die Beta-Verteilung kann beispielsweise gegeben sein durch Insbesondere mit p = q = 2, sodass f 2 , 2 M ~ (l - x), mit einem geeigneten Normierungsfaktor. Dabei stellt x eine Größe dar, die von dem Polarwinkel in der Draufsichtperspektive, insbesondere bezüglich einer Längsachse des entsprechenden Ultraschallsendeempfängers, abhängt, insbesondere dazu proportional ist. Es wurde herausgefunden, dass auf diese Weise die tatsächliche Charakteristik von Ultraschallsendeempfängern gut modelliert werden kann.

Gemäß verschiedener Implementierungen wird eine erste Merkmalskarte der wenigstens einen Merkmalskarte durch ein erstes Encodermodul des wenigstens einen Encodermoduls abhängig von dem Kamerabild erzeugt. Eine zweite Merkmalskarte der wenigstens einen Merkmalskarte wird durch Anwendung eines zweiten Encodermoduls des wenigstens einen Encodermoduls auf die Ultraschall karte erzeugt. Eine fusionierte Merkmalskarte wird abhängig von der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt. Die visuelle Wahrnehmungsaufgabe wird von dem neuronalen Netzwerk abhängig von der fusionierten Merkmalskarte durchgeführt.

Mit anderen Worten wird die erste Merkmalskarte durch Anwendung des ersten Encodermoduls auf das Kamerabild oder auf eine modifizierte oder vorverarbeitete Version des Kamerabilds erzeugt. Folglich beinhalten die Eingabedaten die Ultraschall karte und das Kamerabild oder das modifizierte oder vorverarbeitete Kamerabild.

Das Erzeugen der fusionierten Merkmalskarte kann das Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte beinhalten. Alternativ können die erste Mekrmalskarte und/oder die zweite Merkmalskarte durch eines oder mehrere Module oder Schritte des neuronalen Netzwerks weiter verarbeitet werden, bevor sie entsprechend fusioniert werden.

Fusionieren kann die Anwendung eines bekannten Mechanismus zum Fusionieren von Merkmalskarten beinhalten, sowie das Verketten der entsprechenden Merkmalskarten. In manchen Implementierungen können die Merkmalskarten auch upgesampelt oder downgesampelt werden, um die erwünschten räumlichen Dimensionen zur weiteren Verarbeitung zu erhalten. Die Erzeugung der fusionierten Merkmalskarte kann durch ein Fusionierungsmodul des neuronalen Netzwerks durchgeführt werden, das beispielsweise nicht trainierbar oder nicht trainiert ist.

Zum Ausführen der wenigstens einen visuellen Wahrnehmungsaufgabe können eines oder mehrere Decodermodule und/oder eines oder mehrere Regressionsmodule des neuronalen Netzwerks auf die fusionierte Merkmalskarte angewendet werden. In anderen Implementierungen können eines oder mehrere weitere Netzwerkmodule des neuronalen Netzwerks auf die fusionierte Merkmalskarte angwendet werden und das eine oder die mehreren Decodermodule und das eine oder die mehreren Regressionsmodule können dann auf eine entsprechende Ausgabe des einen oder der mehreren weiteren Netzwerkmodule angewendet werden.

Gemäß verschiedener Implementierungen wird die erste Merkmalskarte durch Anwendung des ersten Encodermoduls auf das Kamerabild erzeugt und ein Merkmals- Transformationsmodul des neuronalen Netzwerks wird auf die erste Merkmalskarte angewendet, um die erste Merkmalskarte von der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren. Die fusionierte Merkmalskarte wird durch Fusionieren der transformierten ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.

Algorithmen zur Konversion eines Kamerabilds aus der Kamerabildebenenperspektive in eine Draufsichtperspektive sind an sich bekannt. Gemäß der genannten Implementierungen wird jedoch nicht das Kamerabild von der Kamerabildebenenperspektive in die Draufsichtperspektive transformiert, sondern die erste Merkmalskarte. Auf diese Weise wird es erreicht, dass die transformierte erste Merkmalskarte und die zweite Merkmalskarte in derselben Perspektive gegeben sind, was die Leistungsfähigkeit oder Trainingseffizienz des Netzwerks verbessern kann.

Das Merkmalstransformationsmodul kann beispielsweise ausgestaltet sein, wie es in der Veröffentlichung von Roddick und Cipolla bezüglich der Multiskalen dichten Transformatoren beziehungsweise des Stapels dichter Transformatorschichten beschrieben wird.

In alternativen Implementierungen wird die erste Merkmalskarte durch Anwendung des ersten Encodermoduls auf das Kamerabild erzeugt und ein weiteres Merkmalstransformationsmodul des neuronalen Netzwerks wird auf die zweite Merkmalskarte angewendet, um die zweite Merkmalskarte aus der Draufsichtperspektive in die Kamerabildebenenperspektive der Kamera zu tranformieren. Die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der transformierten zweiten Merkmalskarte erzeugt.

In noch anderen Implementierungen wird ein Kamerabild-Transformationsmodul, das Teil des neuronalen Netzwerks sein kann oder ein Vorverarbeitungsmodul sein kann, insbesondere ein untrainiertes Vorverarbeitungsmodul, auf das Kamerabild angewendet, um das Kamerabild aus der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren. Die erste Merkmalskarte wird durch Anwendung des ersten Encodermoduls auf das transformierte Kamerabild erzeugt und die fusionierte Merkmalskarte wird erzeugt, indem die erste Merkmalskarte und die zweite Merkmalskarte fusioniert werden.

Während das Merkmalstransformationsmodul ein trainierbares Modul ist, kann das Kamerabildtransformationsmodul auf einer vordefinierten projektiven Transformation basieren. Dies hat den Vorteil, dass das Trainieren des neuronalen Netzwerks vereinfacht wird. Auf der anderen Seite hat die Verwendung des trainierbaren und trainierten Merkmalstransformationsmodul in den oben genannten alternativen Implementierungen den Vorteil, dass die exakte Projektion, die im Allgemeinen von dem Typ oder Modell der Kamera abhängen kann, nicht bekannt sein muss.

Gemäß mehrerer Implementierungen wird eine Zwischenmerkmalskarte durch Anwendung eines Top-Down-Netzwerkmoduls des neuronalen Netzwerks auf die fusionierte Merkmalskarte erzeugt. Die visuelle Wahrnehmungsaufgabe wird durch Anwendung des einen oder der mehreren Decodermoduls und/oder des einen oder der mehreren Regressionsmodule auf die Zwischenmerkmalskarte erzeugt.

Beispielsweise kann die Architektur des Top-Down-Netzwerks, das in der Veröffentlichung von Roddick und Cipolla beschrieben ist, verwendet werden. Gemäß entsprechender Implementierungen der Erfindung führt das Top-Down-Netzwerkmodul jedoch die visuelle Wahrnehmungsaufgabe nicht vollständig aus. Stattdessen kann das Top-Down- Netzwerkmodul als ein aufgabenunabhängiger Verarbeitungsblock oder aufgabenunabhängiger Decoderblock betrachtet werden, während das eine oder die mehreren Decodermodule und/oder das eine oder die mehreren Regressionsmodule aufgabenabhängige Module sein können. Gemäß verschiedener Implementierungen beinhaltet die visuelle Wahrnehmungsaufgabe eine Objekthöhenregressionsaufgabe, eine semantische Segmentierungsaufgabe, eine Begrenzungsboxerkennungsaufgabe und/oder eine Objekterkennungsaufgabe. Wenn die visuelle Wahrnehmungsaufgabe die Objekthöhenregressionsaufgabe beinhaltet, beinhaltet eine Ausgabe eines entsprechenden Regressionsmoduls zur Ausführung der Objekthöhenregressionsaufgabe eine Höhenkarte, beispielsweise in der Draufsichtperspektive. Die Höhenkarte beinhaltet eine vorhergesagte Objekthöhe eines oder mehrerer Objekte in der Umgebung.

Beispielsweise kann die Höhenkarte einem Höhengitter entsprechen, wobei jede Gitterzelle des Höhengitters einer entsprechenden zweidimensionalen räumlichen Position in der Draufsichtperspektive entspricht und die Höhenkarte einen vorhergesagten oder geschätzten Höhenwert für jede der Gitterzellen der Höhenkarte beinhaltet.

Durch die Fusionierung der Informationen, die aus dem wenigstens einen Ultraschallsensorsignal erhalten werden und der Informationen, die aus dem Kamerabild erhalten werden, kann die Höhenkarte in einer besonders zuverlässigen und genauen Art und Weise berechnet werden. Die Höhenkarte kann als wertvolle Eingabe für Fahrerassistenzfunktionen oder andere automatische oder halbautomatische Fahrfunktionen für das Fahrzeug verwendet werden.

Falls die visuelle Wahrnehmungsaufgabe die semantische Segmentierungsaufgabe enthält, beinhaltet die Ausgabe des entsprechenden Decodermoduls ein semantisch segmentiertes Bild, beispielsweise in der Draufsichtperspektive oder in der Kamerabildebenenperspektive.

Das semantisch segmentierte Bild kann als rechteckiges Array von Pixeln verstanden werden, wobei eine Objektklasse einer Vielzahl vordefinierter Objektklassen jedem der Pixel zugeordnet ist.

Durch die Fusionierung der Informationen, die von dem wenigstens einen Ultraschallsensorsignal erhalten werden, und den Informationen, die von dem Kamerabild erhalten werden, kann das semantisch segmentierte Bild in einer besonders zuverlässigen und genauen Weise berechnet werden. Das semantisch segmentierte Bild kann als wertvolle Eingabe für Fahrerassistenzfunktionen oder sonstige automatische oder halbautomatische Fahrfunktionen des Fahrzeugs verwendet werden. Falls die visuelle Wahrnehmungsaufgabe die Objekterkennungsaufgabe beinhaltet, beinhaltet die Ausgabe des entsprechenden Decodermoduls eine entsprechende Postiioni und Größe von wenigstens einer Begrenzungsbox für eines oder mehrere Objekte in der Umgebung des Fahrzeugs sowie eine entsprechende Objektklasse, die jeder der Begrenzungsboxen zugeordnet ist.

Durch die Fusionierung der Informationen, die aus dem wenigstens einen Ultraschallsensorsignal erhalten werden und der Informationen, die aus dem Kamerabild erhalten werden, können die Position und Größe und Objektklasse der entsprechenden Begrenzungsboxen in einer besonders zuverlässigen und genauen Weise berechnet werden. Die Objektklassen und die Begrenzungsboxen können als wertvolle Eingabe für Fahrerassistenzfunktionen oder sonstige automatische oder halbautomatische Fahrfunktionen des Fahrzeugs verwendet werden.

Gemäß mehrerer Implementierungen ist das erste Encodermodul ausgestaltet, wie es in der Veröffentlichung von Roddick und Cipolla beschrieben ist.

Gemäß verschiedener Implementierungen beinhaltet das Merkmalstransformationsmodul zur Transformation der ersten Merkmalskarte aus der Kamerabildebenenperspektive in die Draufsichtperspektive ein Transformator-Pyramidennetzwerk, wie es beispielsweise in der Veröffentlichung von Roddick und Cipolla beschrieben ist.

Gemäß mehrerer Implementierungen wird die Merkmalskarte durch Anwendung des ersten Endocermoduls des wenigstens einen Encodermoduls auf das Kamerabild erzeugt und ein Ultraschallkarten-Transformationsmodul wird auf die Ultraschallkarte angwendet, um die Ultraschallkarte von der Draufsichtperspektive in die Kamerabildebenenperspektive der Kamera zu transformieren. Eine zweite Merkmalskarte wird durch Anwendung eines zweiten Encodermoduls des wenigstens einen Encodermoduls auf die transformierte Ultraschall karte erzeugt und die fusionierte Merkmalskarte wird durch Fusionieren der ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt.

In solchen Implementierungen beinhalten die Eingabedaten daher das Kamerabild und die transformierte Ultraschall karte. Das Ultraschallkartentransformationsmodul kann ein nicht trainierbares Vorverarbeitungsmodul sein und beispielsweise nicht Teil des neuronalen Netzwerks. Um die Ultraschall karte von der Draufsichtperspektive in die Kamerabildebenenperspektive zu transformieren, kann ein vordefiniertes Kameramodell für die Kamera verwendet werden. Entsprechende Funktionen sind in der Bildverarbeitung bekannt. Beispielsweise können entsprechende Funktionen der openCV-Bibliothek, wie beispielsweise die Fisheyefunktion der openCV-Bibliothek, verwendet werden.

Entsprechende Modelle für verschiedene Arten von Fisheyekameras oder Lochkameras oder andere Arten von Kameras sind verfügbar.

Gemäß zumindest einer Implementierung wird ein Eingabebild erzeugt, in dem das Kamerabild und die Ultraschallkarte kombiniert werden und die wenigstens eine Merkmalskarte wird durch Anwendung des wenigstens einen Encodermoduls auf das Eingabebild erzeugt.

In diesem Fall stellt das Eingabebild die Eingabedaten dar. Die Kombination des Kamerabilds und der Ultraschallkarte kann auf verschiedene Weisen bewerkstelligt werden. Beispielsweise können das Kamerabild und die Ultraschallkarte verkettet werden oder einer oder mehrere Kanäle des Kamerabilds kann durch die Ultraschall karte ersetzt werden.

Alternativ kann die Ultraschallkarte aus der Draufsichtperspektive in die Kamerabildebenenperspektive transformiert werden, insbesondere durch Anwendung des Ultraschallkartentransformationsmoduls auf die Ultraschallkarte, und das Kamerabild kann mit der transformierten Ultraschallkarte verkettet werden oder einer oder mehrere Kanäle des Kamerabilds können durch die transformierte Ultraschallkarte ersetzt werden.

In wieder anderen Implementierungen kann das Kamerabild aus der Kamerabildebenenperspektive in die Draufsichtperspektive transformiert werden und zum Kombinieren des Kamerabilds und der Ultraschallkarte kann das transformierte Kamerabild mit der Ultraschall karte verkettet werden oder einer oder mehrere Kanäle des transformierten Kamerabilds können durch die Ultraschall karte ersetzt werden.

Gemäß einem weiteren Aspekt der Erfindung wird ein Verfahren zur wenigstens teilweise automatischen Führung eines Fahrzeugs, insbesondere eines Kraftfahrzeugs, angegeben. Das Verfahren beinhaltet das Ausführen eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung. Das Verfahren beinhaltet ferner das Erzeugen wenigstens eines Steuersignals zur wenigstens teilweise automatischen Führung des Fahrzeugs abhängig von dem Ergebnis der visuellen Wahrnehmungsaufgabe.

Das wenigstens eine Steuersignal kann beispielsweise einem oder mehreren Aktuatoren des Fahrzeugs bereitgestellt werden, der eine Quer- und/oder Längssteuerung des Fahrzeugs automatisch oder teilweise automatisch beeinflussen oder ausführen kann.

Für Anwendungsfälle oder Situationen, die in dem Verfahren auftreten können und die nicht ausdrücklich hier beschrieben sind, kann vorgesehen sein, dass gemäß dem Verfahren eine Fehlernachricht und/oder eine Aufforderung für eine Benutzerrückmeldung ausgegeben wird und/oder eine Standardeinstellung und/oder ein vordefinierter Initialzustand eingestellt wird.

Gemäß einem weiteren Aspekt der Erfindung wird ein elektronisches Fahrzeugführungssystem für ein Fahrzeug angegeben. Das elektronische Fahrzeugführungssystem beinhaltet mindestens eine Recheneinheit, ein Speichergerät, das ein trainiertes künstliches neuronales Netzwerk speichert, und eine Kamera, die dazu eingerichtet ist, ein Kamerabild, welches eine Umgebung des Fahrzeugs darstellt, zu erzeugen. Das elektronische Fahrzeugführungssystem beinhaltet wenigstens einen Ultraschallsender, der dazu eingerichtet ist, Ultraschallimpulse in die Umgebung des Fahrzeugs zu senden, und wenigstens einen Ultraschalldetektor, der dazu eingerichtet ist, wenigstens ein Ultraschallsensorsignal abhängig von reflektierten Anteilen der gesendeten Ultraschallimpulse zu erzeugen. Die wenigstens eine Recheneinheit ist dazu eingerichtet, eine räumliche Ultraschallkarte in einer Draufsichtperspektive abhängig von dem wenigstens einen Ultraschallsensorsignal zu erzeugen. Die wenigstens eine Recheneinheit ist dazu eingerichtet, wenigstens eine Merkmalskarte durch Anwendung wenigstens eines Encodermoduls des trainierten künstlichen neuronalen Netzwerks auf Eingabedaten, die von dem Kamerabild und der Ultraschallkarte abhängen, zu erzeugen, wobei jedes des wenigstens einen Encodermoduls mindestens eine Faltungsschicht beinhaltet. Die wenigstens eine Recheneinheit ist dazu eingerichtet, das neuronale Netzwerk zu verwenden, um eine visuelle Wahrnehmungsaufgabe abhängig von der wenigstens einen Merkmalskarte auszuführen. Die wenigstens eine Recheneinheit ist dazu eingerichtet, wenigstens ein Steuersignal zum wenigstens teilweise automatischen Führen des Fahrzeugs abhängig von dem Ergebnis der visuellen Wahrnehmungsaufgabe zu erzeugen. Ein elektronisches Fahrzeugführungssystem kann als elektronisches System verstanden werden, das dazu eingerichtet ist, ein Fahrzeug in einer vollständig automatisierten oder einer vollständig autonomen Weise und insbesondere ohne, dass ein manueller Eingriff oder eine Steuerung durch einen Fahrer oder Benutzer des Fahrzeugs erforderlich ist, zu führen. Das Fahrzeug führt alle erforderlichen Funktionen, wie zum Beispiel Lenkmanöver, Verlangsamungsmanöver und/oder Beschleunigungsmanöver, sowie die Überwachung und Aufzeichnung des Straßenverkehrs und entsprechende Reaktionen automatisch aus. Insbesondere kann das elektronische Fahrzeugführungssystem einen vollständig automatischen oder vollständig autonomen Fahrmodus gemäß der Stufe 5 der Klassifikation SAE J3016 implementieren. Ein elektronisches Fahrzeugführungssystem kann auch als fortschrittliches Fahrerassistenzsystem, ADAS, implementiert sein, das einen Fahrer zum teilweise automatischen oder teilweise autonomen Fahren unterstützt. Insbesondere kann das elektronische Fahrzeugführungssystem einen teilweise automatischen oder teilweise autonomen Fahrmodus gemäß den Stufen 1 bis 4 der Klassifikation SAE J3016 implementieren. Hier und im Folgenden bezieht sich SAE J3016 auf den jeweiligen Standard mit Datum von Juni 2018.

Daher kann das wenigstens teilweise automatische Führen des Fahrzeugs das Führen des Fahrzeugs gemäß einem vollständig automatischen oder vollständig autonomen Fahrmodus gemäß der Stufe 5 der Klassifikation SAE J3016 beinhalten. Das wenigstens teilweise automatische Führen des Fahrzeugs kann auch das Führen des Fahrzeugs gemäß einem teilweise automatischen oder teilweise autonomen Fahrmodus gemäß den Stufen 1 bis 4 der Klassifikation SAE J3016 beinhalten.

Eine Recheneinheit kann insbesondere als Datenverarbeitungsvorrichtung verstanden werden, die einen Verarbeitungsschaltkreis aufweist. Die Recheneinheit kann daher insbesondere Daten verarbeiten, um Rechenoperationen durchzuführen. Dies kann auch Operationen beinhalten, um indizierte Zugriffe auf eine Datenstruktur, beispielsweise eine Nachschlagetabelle, LUT, durchzuführen.

Insbesondere kann die Recheneinheit einen oder mehrere Computer, einen oder mehrere Mikrocontroller und/oder einen oder mehrere integrierte Schaltkreise, beispielsweise einen oder mehrere anwendungsspezifische integrierte Schaltkreise, ASIC, ein oder mehrere feldprogrammierbare Gate-Arrays, FPGA, und/oder ein oder mehrere Ein-Chip- Systeme, SoC, beinhalten. Die Recheneinheit kann auch einen oder mehrere Prozessoren, beispielsweise einen oder mehrere Mikroprozessoren, eine oder mehrere Zentraleinheiten, CPU, eine oder mehrere Graphikverarbeitungseinheiten, GPU und/oder einen oder mehrere Signalprozessoren, insbesondere einen oder mehrere Digitalsignalprozessoren, DSP, beinhalten. Die Recheneinheit kann auch einen physikalischen oder einen virtuellen Cluster von Computern oder anderen der Einheiten beinhalten.

In verschiedenen Ausführungsformen beinhaltet die Recheneinheit eine oder mehrere Hardware- und/oder Softwareschnittstellen und/oder eine oder mehrere Speichereinheiten.

Eine Speichereinheit kann als flüchtiger Datenspeicher, beispielsweise dynamischer Direktzugriffsspeicher, DRAM, oder statischer Direktzugriffsspeicher, SRAM, oder als nichtflüchtiger Datenspeicher, beispielsweise Festwertspeicher, ROM, programmierbarer Festwertspeicher, PROM, löschbarer programmierbarer Festwertspeicher, EPROM, elektrisch löschbarer programmierbarer Festwertspeicher, EEPROM, Flash-Speicher oder Flash-EEPROM, ferroelektrischer Direktzugriffsspeicher, FRAM, magnetoresistiver Direktzugriffsspeicher, MRAM, oder Phasenänderungsdirektzugriffsspeicher, PCRAM, implementiert werden.

Wenn in der vorliegenden Offenbarung erwähnt ist, dass eine Komponente des elektronischen Fahrzeugführungssystems gemäß der Erfindung, insbesondere die wenigstens eine Recheneinheit des elektronischen Fahrzeugführungssystems, dazu ausgelegt, eingerichtet oder entworfen und so weiter ist, eine bestimmte Funktion durchzuführen oder zu realisieren, einen bestimmten Effekt zu erreichen oder einem bestimmten Zweck zu dienen, kann dies derart verstanden werden, dass die Komponente, abgesehen davon, dass sie für diese Funktion, diesen Effekt oder diesen Zweck im Prinzip oder theoretisch verwendbar oder geeignet ist, durch eine entsprechende Anpassung, Programmierung, physikalische Konstruktion und so weiter konkret und tatsächlich in der Lage ist, die Funktion auszuführen oder zu realisieren, den Effekt zu erreichen oder dem Zweck zu dienen.

Weitere Implementierungen des elektronischen Fahrzeugführungssystems gemäß der Erfindung folgen direkt aus den verschiedenen Ausführungsformen des Verfahrens gemäß der Erfindung und umgekehrt. Insbesondere können individuelle Merkmale und entsprechende Erläuterungen sowie Vorteile in Bezug auf die verschiedenen Implementierungen des Verfahrens gemäß der Erfindung analog auf entsprechende Implementierungen des elektronischen Fahrzeugführungssystems gemäß der Erfindung übertragen werden. Insbesondere ist das elektronische Fahrzeugführungssystem gemäß der Erfindung dazu ausgelegt oder programmiert, das Verfahren gemäß der Erfindung auszuführen. Insbesondere führt das elektronische Fahrzeugführungssystem gemäß der Erfindung das Verfahren gemäß der Erfindung aus.

Gemäß einem weiteren Aspekt der Erfindung wird ein Fahrzeug, insbesondere ein Kraftfahrzeug, angegeben, das ein elektronisches Fahrzeugführungssystem gemäß der Erfindung beinhaltet. Dabei sind die Kamera, der wenigstens eine Ultraschallsender und der wenigstens eine Ultraschalldetektor an dem Fahrzeug montiert.

Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogrammprodukt mit Anweisungen bereitgestellt. Wenn die Anweisungen durch ein elektronisches Fahrzeugführungssystem gemäß der Erfindung, insbesondere durch die wenigstens eine Recheneinheit des elektronischen Fahrzeugführungssystems, ausgeführt werden, bewirken die Anweisungen, dass das elektronische Fahrzeugführungssystem ein Verfahren zur automatischen visuellen Wahrnehmung gemäß der Erfindung oder ein Verfahren zum wenigstens teilweise automatischen Führen eines Fahrzeugs gemäß der Erfindung ausführt.

Gemäß einem weiteren Aspekt der Erfindung wird ein computerlesbares Speichermedium bereitgestellt. Das computerlesbare Speichermedium speichert ein Computerprogramm gemäß der Erfindung.

Das Computerprogramm und das computerlesbare Speichermedium können als jeweilige Computerprogrammprodukte mit den Anweisungen bezeichnet werden.

Weitere Merkmale der Erfindung sind aus den Ansprüchen, den Figuren und der Figurenbeschreibung ersichtlich. Die vorstehend in der Beschreibung erwähnten Merkmale und Kombinationen von Merkmalen sowie die nachstehend in der Figurenbeschreibung erwähnten und/oder in den Figuren gezeigten Merkmale und Kombinationen von Merkmalen können von der Erfindung nicht nur in der jeweiligen angegebenen Kombination, sondern auch in anderen Kombinationen enthalten sein. Insbesondere können Ausführungsformen und Kombinationen von Merkmalen, die nicht alle Merkmale eines ursprünglich formulierten Anspruchs aufweisen, auch von der Erfindung enthalten sein. Überdies können Ausführungsformen und Kombinationen von Merkmalen, die über die in den Rezitationen der Ansprüche dargelegten Kombinationen von Merkmalen hinausgehen oder von diesen abweichen, von der Erfindung enthalten sein. Im Folgenden wird die Erfindung mit Bezug auf spezifische beispielhafte Implementierungen und entsprechende schematische Zeichnungen im Einzelnen erläutert. In den Zeichnungen können identische oder funktional identische Elemente mit denselben Bezugszeichen bezeichnet sein. Die Beschreibung von identischen oder funktional identischen Elementen wird mit Bezug auf verschiedene Figuren nicht notwendigerweise wiederholt.

In den Figuren gilt:

Fig. 1 zeigt schematisch eine beispielhafte Ausführungsform eines Fahrzeugs gemäß der Erfindung;

Fig. 2 zeigt ein schematisches Blockdiagramm eines neuronalen Netzwerks zur Verwendung in einer beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;

Fig. 3 zeigt ein schematisches Blockdiagramm eines neuronalen Netzwerks zur Verwendung in einer weiteren beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;

Fig. 4 zeigt ein schematisches Blockdiagramm eines neuronalen Netzwerks zur Verwendung in einer weiteren beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;

Fig. 5 zeigt eine schematische Illustration der Erzeugung einer Ultraschallkarte gemäß einer weiteren beispielhaften Ausführungsform eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung;

Fig. 6 zeigt ein illustratives Beispiel einer Struktur in einer Draufsichtperspektive; und Fig. 7 zeigt eine Illustration der Struktur aus Fig. 6 transformiert in eine Kamerabildebenenperspektive.

Fig. 1 zeigt eine beispielhafte Implementierung eines Fahrzeugs 1 gemäß der Erfindung. Das Fahrzeug 1 beinhaltet eine beispielhafte Implementierung eines elektronischen Fahrzeugführungssystems 2 gemäß der Erfindung.

Das elektronische Fahrzeugführungssystem 2 beinhaltet eine Kamera 4, die an dem Fahrzeug 1 montiert ist, beispielsweise eine rückwärtsgewandte Kamera. Das elektronische Fahrzeugführungssystem 2 beinhaltet ferner ein Ultraschallsensorsystem, das einen oder mehrere Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e beinhaltet. Jeder Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e kann einen Ultraschallsender kann einen Ultraschallsender und einen Ultraschalldetektor beinhalten. Es sind jedoch auch andere Implementierungen denkbar. Die Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e sind beispielsweise an einem rückwärtigen Ende des Fahrzeugs 1 montiert, beispielsweise an oder in einer hinteren Stoßstange des Fahrzeugs 1 . Insbesondere überlappt ein gesamtes Sichtfeld der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e wenigstens teilweise mit dem Sichtfeld der Kamera 4. Das elektronische Fahrzeugführungssystem 2 beinhaltet ferner ein Speichergerät (nicht gezeigt), das ein trainiertes künstliches neuronales Netzwerk 12 speichert. Beispielhafte Blockdiagramme des neuronalen Netzwerks 12 sind in Fig. 2, Fig. 3 beziehungsweise Fig. 4 abgebildet.

Das elektronische Fahrzeugführungssystem beinhaltet auch eine Recheneinheit 3, die das neuronale Netzwerk 12 auf Eingabedaten anwenden kann, die von dem Kamerabild 6 und einer Ultraschall karte 7 abhängen, um eine oder mehrere vordefinierte visuelle Wahrnehmungsaufgaben durchzuführen. Die Recheneinheit 3 kann dann wenigstens ein Steuersignal für einen oder mehrere Aktuatoren (nicht gezeigt) des Fahrzeugs 1 erzeugen, um das Fahrzeug 1 wenigstens teilweise automatisch abhängig von den entsprechenden Ergebnissen oder Ausgaben der wenigstens einen visuellen Wahrnehmungsaufgabe zu führen.

Insbesondere kann das elektronische Fahrzeugführungssystem 2 eine beispielhafte Implementierung eines Verfahrens zur automatischen visuellen Wahrnehmung gemäß der Erfindung durchführen. Gemäß dem Verfahren erzeugt die Kamera 4 das Kamerabild 6, das eine Umgebung des Fahrzeugs 1 darstellt, und die Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e ausgesendeten entsprechende Ultraschallimpulse in die Umgebung und detektieren reflektiere Anteile der ausgesendeten Ultraschallimpulse und erzeugen wenigstens ein Ultraschallsensorsignal 16 (siehe Fig. 5) abhängig von den detektierten reflektierten Anteilen.

Die Recheneinheit 3 erzeugt die Ultraschall karte 7 in einer Draufsichtperspektive abhängig von dem wenigstens einen Ultraschallsensorsignal 16. Die Recheneinheit 3 wendet wenigstens ein Encodermodul 8, 9, 15 (siehe Fig. 2 bis 4) auf die Eingabedaten, um wenigstens eine Merkmalskarte zu erzeugen. Die eine oder die mehreren visuellen Wahrnehmungsaufgaben werden beispielsweise durch Anwendung eines oder mehrerer Decodermodule 10 (siehe Fig. 2 bis 4) des neuronalen Netzwerks 12 auf die wenigstens eine Merkmalskarte oder auf eine oder mehrere weitere Merkmalskarten, die aus bestimmten zwischengeschalteten Verarbeitungsschritten resultieren, die auf die wenigstens eine Merkmalskarte angwendet werden.

Dazu kann die Recheneinheit 3 ein Softwaremodul 10, das auch auf dem Speichergerät gespeichert sein kann, auf das wenigstens eine Sensorsignal 16 anwenden. Für weitere Einzelheiten wird auf die Erläuterungen bezüglich Fig. 5 weiter unten verwiesen.

Fig. 2 bis 4 bilden schematische Blockdiagramme des neuronalen Netzwerks 12 gemäß verschiedener Implementierungen des Verfahrens ab. Die Beispiele von Fig. 2 bis 4 können jedoch nicht als erschöpfende Liste aufgefasst werden.

In dem Beispiel von Fig. 2 wird eine erste Merkmalskarte durch Anwendung eines ersten Encodermoduls 8 auf das Kamerabild 6 erzeugt. Eine zweite Merkmalskarte wird durch Anwenden eines zweiten Encodermoduls 9 auf die Ultraschall karte 7 erzeugt. Ein Merkmalstransformationsmodul 11 des neuronalen Netzwerks 12 wird auf die erste Merkmalskarte angewendet, um die erste Merkmalskarte aus der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren. Eine fusionierte Merkmalskarte wird durch Fusionieren der transformierten ersten Merkmalskarte und der zweiten Merkmalskarte erzeugt und die visuelle Wahrnehmungsaufgabe wird durch Anwendung des Decodermoduls 10 auf die fusionierte Merkmalskarte oder auf Daten, die von der fusionierten Merkmalskarte abhängen, durchgeführt.

Im Allgemeinen kann ein Encodermodul 8, 9, 15 des neuronalen Netzwerks 12 eine Reihe von Faltungsschichten zur Tiefenmerkmalsextraktion beinhalten. Grob gesprochen, umso tiefer der Encoder, umso besser oder detaillierter sind die Merkmale. Die Art des Encoders kann basierend auf den Einschränkungen der eingebetteten Plattform gewählt werden. Standardencoderfamilien wie ResNet, VGG, Inception können zum Beispiel verwendet werden.

Die Ultraschallkarte 7 ist beispielsweise eine Einkanaldraufsichtkarte der näheren Umgebung des Fahrzeugs 1 . Beispielsweise kann es auf einem Gitter mit einer Größe in der Größenordnung von Metern, beispielsweise 6mx12m, einer Zellseitenlänge in der Größenordnung von Zentimetern, beispielsweise ein Zentimeter, gegeben sein. Auf diese Weise kann die maximale Detektionsreichweite der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e, die beispielsweise ungefähr 5m ist, abgedeckt werden, wobei auch deren relative Position zu der Kamera 4 berücksichtigt wird, die den Mittelpunkt des Koordinatensystems durch Projektion auf die Bodenoberfläche definiert. Die Ultraschall karte 7 kann daher vergleichsweise groß und relativ dünn besetzt sein, das heißt dass nur ein kleiner Bereich eine hohe Amplitude hat. Das zweite Encodermodul 9 wird daher verwendet, um die Ultraschall karte 7 in den Merkmalsraum zu bringen, wo es mit der transformierten ersten Merkmalskarte, die aus dem Kamerabild 6 erhalten wurde, zusammengebracht werden kann.

Insbesondere wird die Ultraschallkarte in die zweite Merkmalskarte umgewandelt, indem sie durch die Faltungsschichten des zweiten Encodermoduls 9 durchgereicht wird, in einer Weise, dass es die Merkmale in derselben Dimension ausgibt, nämlich Höhe und Breite, wie die Ausgabe des Merkmalstransformationsmoduls 11 . Die Merkmalskarten werden dann entlang der Tiefen- oder Kanalrichtung übereinander gestapelt. Insbesondere transformiert das zweite Encodermodul 9 die dünn besetzten Ultraschallinformationen, die von der Ultraschallkarte 7 enthalten sind, in Dichteinformationen in der Draufsichtperspektive, nämlich die zweite Merkmalskarte, die dann weiterverarbeitet wird.

Das erste Encodermodul 8 kann eine Sequenz von Faltungsschichten mit verschiedenen Ausgangsskalierungen beinhalten und kann Regularisierungstechniken beinhalten. Es kann als Merkmalspyramidennetzwerk ausgestaltet sein oder ein solches beinhalten. Das erste Encodermodul 8 kann das Kamerabild 6 als Eingabe nehmen und entsprechende Merkmalskarten auf verschiedenen Skalen erzeugen, die dann die erste Merkmalskarte bilden.

In dem Beispiel von Fig. 3 wird, anstatt das Merkmalstransformationsmodul 11 zu verwenden, um die erste Merkmalskarte in die Draufsichtperspektive zu transformieren, ein Kamerabildtransformationsmodul 13 auf das Kamerabild 6 angewendet, um das Kamerabild 6 aus der Kamerabildebenenperspektive in die Draufsichtperspektive zu transformieren, bevor das neuronale Netzwerk 12, insbesondere das erste Encodermodul 8, angewendet wird, um die erste Merkmalskarte zu erzeugen. Die erste Merkmalskarte und die zweite Merkmalskarte werden dann fusioniert.

Im Beispiel der Fig. 3 beinhaltet das neuronale Netzwerk 12 nur ein Encodermodul 15, das auf ein Eingabebild angewendet wird. Das Eingabebild wird durch Kombination des Kamerabilds 6 und der Ultraschallkarte 7 erzeugt. Insbesondere kann die Ultraschall karte 7 aus der Draufsichtperspektive in die Kamerabildebenenperspektive durch Anwendung eines Ultraschallkartentransformationsmoduls 14 auf die Ultraschall karte 7 transformiert werden. Das Kamerabild und die transformierte Ultraschallkarte können verkettet werden oder einer oder mehrere Kanäle des Kamerabilds 6 kann durch die transformierte Ultraschall karte ersetzt werden, um das Eingabebild zu erzeugen.

Die Transformation von der Draufsichtperspektive in die Kamerabildebenenperspektive ist in Fig. 6 und Fig. 7 illustriert. Fig. 6 zeigt ein Muster 18 mit verschiedenen Konturen 19, 20, 21 , 22 in der Draufsichtperspektive. Fig. 7 zeigt ein transformiertes Muster 18‘, wobei die Konturen 19, 20, 21 , 22 in die Kamerabildebenenperspektive einer Fisheyekamera abgebildet werden, was in verzerrten Konturen 19‘, 20‘, 21 ‘, 22‘ resultiert.

Das wenigstens eine Ultraschallsensorsignal 16 kann aus Zeitreihenmessungen stammen und daher die Ultraschallechoamplitude darstellen, die über eine festgelegte Zeitdauer aufgenommen wurde. Für gewöhnlich leiten sich Spitzen in dem wenigstens einen Ultraschallsensorsignal 16 von einem Objekt in der Umgebung des Fahrzeugs ab, welches den Ultraschallimpuls, der von einem Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e ausgesendet wurde, zurück zu demselben oder einem anderen Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e reflektiert. Folglich kann die gesamte Wegstrecke des Ultraschallimpulses berechnet werden, wobei beispielsweise die Umgebungstemperatur berücksichtigt werden kann, um die genaue Schallgeschwindigkeit zu bestimmen.

Um die 1 D-Amplitudendaten als Funktion der Zeit in die räumliche Domäne zu transformieren, kann man die Wegstrecke des Echos berechnen und zusätzlich die Unwissenheit über die Winkelposition des Objekts, welches das Echo reflektiert, berücksichtigen. Es könnte auf der Längssensorachse des Ultraschallsendeempfängers 5a, 5b, 5c, 5d, 5e liegen, aber aufgrund seines großen Sichtfelds könnte es auch um einen großen Winkel abseits von der Längssensorachse liegen. Bis zu 70 Grad können möglich sein, solange das Objekt derart positioniert ist, dass es zu dem Sensor zurückreflektiert, bevor die Echoamplitude so stark abfällt, dass sie nicht weiter von Zufallsrauschen unterscheidbar ist.

Fig. 5 zeigt schematisch, wie die Ultraschallkarte 7, welche die Umgebung des Fahrzeugs 1 darstellt, in der Draufsichtperspektive berechnet wird, insbesondere in einem Fahrzeugkoordinatensystem, wobei der Mittelpunkt der hinteren Achse des Fahrzeugs 1 im Ursprung des Koordinatensystems liegt. Die entsprechenden Positionen und Orientierungen der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e sind vorbestimmt und bekannt.

Ein Gitter mit näherungsweise der Größe des Sichtfelds der Ultraschallsendeempfänger 5a, 5b, 5c, 5d, 5e und mit einer Gitterzellengröße, die klein genug ist, um eine ausreichend hohe Auflösung zu bieten, und noch mit der Abstandsauflösung gemäß dem wenigstens einen Ultraschallsensorsignal 16 vergleichbar ist, erzeugt werden. Beispielsweise können quadratische Gitterzellen mit einer Seitenlänge von einem cm genutzt werden. Für jede der Gitterzellen und für jedes Sender-Detektor-Paar des wenigstens einen Ultraschallsendeempfängers 5a, 5b, 5c, 5d, 5e wird eine entsprechende Wegstrecke von einer Position des entsprechenden Ultraschallsenders über eine Position der Gitterzelle zu einer Position des entsprechenden Ultraschalldetektors berechnet. Ein Signalwert des Ultraschallsensorsignals 16, das von dem entsprechenden Ultraschalldetektor erzeugt wird, wird abhängig von der Wegstrecke berechnet. Für jedes Sender-Emitter-Paar wird eine entsprechende Winkelgewichtungsfunktion 17 bereitgestellt. Für jede Gitterzelle wird jeder Signalwert mit der entsprechenden Winkelgewichtungsfunktion 17 multipliziert, die an der Position der Gitterzelle ausgewertet ist, um einen entsprechenden gewichteten Signalwert zu erhalten. Für jede Gitterzelle wird ein Gitterwert als Summe der gewichteten Signalwerte, welche für diese entsprechende Gitterzelle erhalten wurden, berechnet. Die Gitterwerte aller Gitterzellen liefern die Ultraschallkarte 7.

In einem vereinfachten erläuternden Beispiel kann man annehmen, dass es nur zwei Ultraschallsendeempfänger gibt. Man hat einen ersten Ultraschallempfänger (E1 , D1) mit einem ersten Ultraschallsender E1 und einem ersten Ultraschalldetektor D1 sowie einen zweiten Ultraschallsendeempfänger (E2, D2) mit einem zweiten Ultraschallsender E2 und einem zweiten Ultraschalldetektor D2. Dann erzeugt D1 ein erstes Ultraschallsignal S1 und D2 erzeugt ein zweites Ultraschallsignal S2. Betrachtet man eine Gitterzelle G, hat man im Prinzip vier Wegstrecken, nämlich r11 von E1 zu G zu D1 , r12 von E1 zu G zu D2, r21 von E2 zu G zu D1 und r22 von E2 zu G zu D2.

Dann wird S1 bei r11 und bei r21 ausgewertet, was entsprechende Signalwerte S1 (r11 ),

51 (r21 ) liefert, wobei die verfügbaren Werte von S1 entsprechend interpoliert werden können. Analog wird S2 bei rt 2 und bei r22 ausgewertet, was entsprechende Signalwerte

52 (r12), S2 (r22) liefert, wobei die verfügbaren Werte von S2 entsprechend interpoliert werden können. Weiterhin kann eine erste Winkelgewichtungsfunktion, die dem ersten Ultraschallsendeempfänger (E1 , D1) zugeordnet ist, an der Position G durch F1 gegeben sein und eine zweite Winkelgewichtungsfunktion, die dem zweiten Ultraschallsendeempfänger (E2, D2) zugeordnet ist, an der Position von G durch F2 gegeben sein.

Der Gitterwert bei G kann dann beispielsweise als

S1 (r11 )*F1 + S1 (r21 )*min(F1 ,F2) + S2(r22)*F2 + S2(r12)*min(F1 ,F2), berechnet werden, wobei „min“ den Minimalwert der beiden Winkelgewichtungsfunktionen bezeichnet. Alternativ kann man die Winkelgewichtungsfunktionen in einer anderen Art und Weise kombinieren, beispielsweise resultierend in dem Gitterwert bei G

S1 (r11 )*F1 + S1 (r21 )*F1 1/2 * F2 1/2 + S2(r22)*F2 + S2(r12)* F1 1/2 * F2 1/2 .

Die beschrieben, insbesondere bezüglich der Figuren, kann die Erfindung eine verbesserte Zuverlässigkeit und/oder Genauigkeit der automatischen visuellen Wahrnehmung erreichen, indem ein neuronales Netzwerk auf Eingabedaten angewendet wird, das von einem Kamerabild sowie von Ultraschallsensorsignalen abhängt.