Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
RELIABLE OBSTACLE DETECTION
Document Type and Number:
WIPO Patent Application WO/2024/088483
Kind Code:
A1
Abstract:
The invention relates to a method for detecting an obstacle and to a corresponding computer program and computer program product. The method comprises the following method steps: - providing a first image (11) of a first camera (1) having a first field of view; - providing a second image (I2) of a second camera (2) having a second field of view, the first and second fields of view at least partly overlapping; - determining a disparity map (D) on the basis of the first (I1) and/or second image (I2); - providing the disparity map (D) and at least one of the at least two images (I1, I2) as input for a trained neural network (4) which is designed to use the input to make a statement regarding the presence of an obstacle (H) in the field of view of at least one of the two cameras (1, 2); and - outputting the statement regarding the presence of the obstacle (H) in the field of view to at least one of the two cameras (1, 2).

Inventors:
PFITZER MARTIN (DE)
HEINRICH STEFAN (DE)
FECHNER THOMAS (DE)
Application Number:
PCT/DE2023/200200
Publication Date:
May 02, 2024
Filing Date:
September 25, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
CONTINENTAL AUTONOMOUS MOBILITY GERMANY GMBH (DE)
International Classes:
G06V20/58
Other References:
GUINDEL CARLOS ET AL: "Stereo Vision-Based Convolutional Networks for Object Detection in Driving Environments", 26 January 2018, SAT 2015 18TH INTERNATIONAL CONFERENCE, AUSTIN, TX, USA, SEPTEMBER 24-27, 2015; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], SPRINGER, BERLIN, HEIDELBERG, PAGE(S) 427 - 434, ISBN: 978-3-540-74549-5, XP047460946
XU BIN ET AL: "Multi-level Fusion Based 3D Object Detection from Monocular Images", 2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, IEEE, 18 June 2018 (2018-06-18), pages 2345 - 2353, XP033476200, DOI: 10.1109/CVPR.2018.00249
"SAT 2015 18th International Conference, Austin, TX, USA, September 24-27, 2015", vol. 8695, 1 January 2014, SPRINGER, Berlin, Heidelberg, ISBN: 3540745491, article SAURABH GUPTA ET AL: "Learning Rich Features from RGB-D Images for Object Detection and Segmentation", pages: 345 - 360, XP055445798, 032548, DOI: 10.1007/978-3-319-10584-0_23
WANG LI ET AL: "Multi-Channel Convolutional Neural Network Based 3D Object Detection for Indoor Robot Environmental Perception", SENSORS, vol. 19, no. 4, 21 February 2019 (2019-02-21), pages 893, XP093104918, DOI: 10.3390/s19040893
VON P. PINGGERA ET AL.: "Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles", IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), 2016, pages 1099 - 1106
C. J. HOLDER ET AL.: "Depth Not Needed - An Evaluation of RGB-D Feature Encodings for Off-Road Scene Understanding by Convolutional Neural Network", ARXIV.ORG, 2018, Retrieved from the Internet
Download PDF:
Claims:
Patentansprüche

1. Verfahren, insbesondere computer-implementiertes, Verfahren zur Detektion eines Hindernisses, umfassend die folgenden Verfahrensschritte:

- Bereitstellen eines ersten Bildes (11 ) einer ersten Kamera (1 ) mit einem ersten Sichtfeld,

- Bereitstellen eines zweiten Bildes (I2) einer zweiten Kamera (2) mit einem zweiten Sichtfeld, wobei das erste und das zweite Sichtfeld zumindest teilweise überlappen,

- Ermitteln einer Disparitätskarte (D) anhand des ersten (11 ) und/oder zweiten Bildes (I2),

- Bereitstellen der Disparitätskarte (D) und zumindest eines der zumindest zwei Bilder (11 , I2) als Input für ein trainiertes neuronales Netz (4), welches dazu ausgestaltet ist, anhand des Inputs eine Aussage über das Vorhandensein eines Hindernisses (H) im Sichtfeld zumindest einer der beiden Kameras (1 , 2) zu treffen, und

- Ausgeben der Aussage über das Vorhandensein des Hindernisses (H) im Sichtfeld zumindest einer der beiden Kameras (1 , 2).

2. Verfahren nach Anspruch 1 , wobei es sich bei dem neuronalen Netz (4) um ein faltendes neuronales Netz, ein rekurrentes neuronales Netz, ein Hypernetz oder ein Transformer-Netz handelt.

3. Verfahren nach Anspruch 1 oder 2, wobei das neuronale Netz (4) dazu ausgestaltet ist, eine mit dem ersten (11 ) und/oder zweiten Bild (I2) korrespondierende, Hinderniskarte auszugeben, welche Informationen über das Vorhandensein des Hindernisses (H) in dem ersten (11 ) und/oder zweiten Bild (I2) enthält. 4. Verfahren nach Anspruch 3, wobei die Hinderniskarte für vorgebbare Teilbereiche, insbesondere für jedes Pixel, des ersten und/oder zweiten Bildes angibt, ob der Teilbereich zu einem Hindernis (H) gehört.

5. Verfahren nach Anspruch 3 oder 4, wobei jedem Teilbereich der Hinderniskarte einer von zumindest zwei vorgebbaren Zuordnungswerten zugeordnet wird, wobei ein erster Zuordnungswert zugewiesen wird, wenn der Teilbereich zu einem Hindernis (H) gehört und wobei ein zweiter Zuordnungswert zugewiesen wird, wenn der Teilbereich nicht zu dem Hindernis (H) gehört.

6. Verfahren nach einem der vorherigen Ansprüche, wobei die Disparitätskarte (D) für das zweite Bild (I2) unter Berücksichtigung des ersten Bildes (11 ) und/oder für das erste Bild (11 ) unter Berücksichtigung des zweiten Bildes (I2) ermittelt wird.

7. Verfahren nach einem der vorherigen Ansprüche, wobei die Disparitätskarte (D) mittels einer nichtlinearen Korrelation, insbesondere anhand einer Kreuzkorrelation, insbesondere einer mittelwertfreien, normierten Kreuzkorrelation, mittels eines, insbesondere zweidimensionalen, Block-Matching Algorithmus oder eines Semi-global-Matching Algorithmus ermittelt wird.

8. Verfahren nach einem der vorherigen Ansprüche, wobei die Disparitätskarte (D) mittels eines trainierten neuronalen Netzes ermittelt wird, welches Netz dazu ausgestaltet ist, die Disparitätskarte (D) zumindest anhand des ersten (11 ) und zweiten Bildes (I2) bestimmen.

9. Verfahren nach zumindest einem der vorherigen Ansprüche, wobei eine zweidimensionale Disparitätskarte (D) ermittelt wird. 10. Computerprogramm mit Anweisungen, die, wenn das Computerprogramm von einem Computer ausgeführt wird, den Computer veranlassen, das Verfahren nach einem der vorherigen Ansprüche auszuführen. 11. Computerprogrammprodukt, auf welchem das Computerprogramm nach

Anspruch 10 gespeichert ist.

Description:
Beschreibung

Zuverlässige Hinderniserkennung

Die vorliegende Erfindung betrifft ein Verfahren, insbesondere ein computer-implementiertes, Verfahren zur Detektion eines Hindernisses.

Moderne Fahrzeuge verfügen häufig über Fahrerassistenzsysteme (engl.: advanced driver-assistance systems (ADAS)) zur Unterstützung des Fahrers des Fahrzeugs. In diesem Zusammenhang sind unterschiedlichste ADAS-Funktionen bekannt geworden. Diese können einerseits zur Unterstützung des Fahrers genutzt werden, während die Kontrolle über das Fahren des Fahrzeugs weiterhin beim Fahrer verbleibt. Andererseits kann aber auch ein vollständig automatisiertes Fahren realisiert werden.

Eine ADAS-Funktion, die von zentralem Interesse ist, ist das Erkennen von Hindernissen auf der Fahrbahn. Hindernisse in diesem Zusammenhang können unterschiedlichste Gegenstände auf der Fahrbahn sein, insbesondere Schuttkegel, verlorene Frachtgegenstände oder ähnliches. Aber auch viele andere Hindernisse im Frontbereich des jeweiligen, insbesondere fahrenden Fahrzeuges können problematisch sein.

Um Hindernisse zu detektieren, können verschiedene im Fahrzeug integrierte Sensorsysteme, beispielsweise Radar- oder Lidarsensoren, oder auch Kameras, verwendet werden. Ein Vorteil von Kameras ist darin zu sehen, dass diese über eine hohe räumliche Auflösung bei vergleichsweise geringen Kosten verfügen. Insbesondere Stereo- oder Multikamerasysteme werden zunehmend beliebter in Zusammenhang mit ADAS-Funktionen. Ein Nachteil solcher Kamerasysteme besteht allerdings darin, dass diese eine vergleichsweise geringe Genauigkeit bei der Entfernungsmessung, insbesondere bei großen Entfernungen, aufweisen. Eine Kenntnis der Entfernung ist allerdings entscheidend, um Hindernisse rechtzeitig erkennen und entsprechende Aktionen zum Umfahren herbeiführen zu können. Die Bildauswertung von Kamerabildern zur Hinderniserkennung erfolgt in vielen Fällen anhand von klassischen Objekterkennungsmethoden und trainierbaren neuronalen Netzen. Typische Objekterkennungsmethoden sind aber unterschiedliche genau in Abhängigkeit der zu erkennenden Objekte. So ist es in Zusammenhang mit dem Erkennen von Hindernissen besonders problematisch, wenn es sich bei den Hindernissen nicht um Standardobjekte, wie beispielsweise andere Fahrzeuge, handelt. Auf einer Fahrbahn können, wie bereits beschrieben, unterschiedlichste Gegenstände Hindernisse darstellen, wie verlorene Frachtgegenstände mit unterschiedlichsten Größen und geometrischen Dimensionen. Dies stellt ein grundsätzliches Problem bei der Verwendung von Klassifikatoren, insbesondere bei Verwendung von Methoden des maschinellen Lernens dar. Die Genauigkeit der Bildauswertung hängt hier entscheidend von der Verfügbarkeit von unterschiedlichsten Trainingsdaten ab.

Um unterschiedliche Hindernisse erkennen zu können, wird in dem Artikel „Lost and Found: Detecting Small Road Hazards for Self-Driving Vehicles” von P. Pinggera et al., erschienen in 2016 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2016, pp. 1099-1106 (doi: 10.1109/IROS.2016.7759186) zur Hinderniserkennung eine Fusion einer semantischen Segmentierung mit einem faltenden neuronalen Netzwerk (engl. Convolutional Neural Network (CNN)) und Bildern einer Stereokamera vorgeschlagen. Auf diese Weise können erhabene Strukturen auf der Fahrbahn auf Basis eines Stereokamerabildes ermittelt werden.

C. J. Holder et al. beschreiben in „Depth Not Needed - An Evaluation of RGB-D Feature Encodings for Off-Road Scene Understanding by Convolutional Neural Network”, erschienen auf arxiv.org, 2018 (https://arxiv.org/ftp/arxiv/papers/1801/1801.01235.pdf) dagegen eine Kombination von RGB-Bilddaten und Disparitätsbildern vor. Allerdings werden die Disparitätsbilder bei dieser Methode auf Basis von kalibrierten Kamerabilddaten ermittelt. Somit ist stets eine aufwändige Kamerakalibration notwendig. Darüber hinaus muss eine Rektifizierung der Bilddaten von der jeweiligen Kamera durchgeführt werden, um Hindernisse zuverlässig erkennen zu können. So haben beide genannte Verfahren den Nachteil, dass sie komplexe Algorithmen zur Erkennung der Hindernisse anhand der Kamerabilder benötigen.

Wünschenswert wäre eine einfache, robuste Methode zur Hinderniserkennung. Daher liegt der vorliegenden Erfindung die Aufgabe zugrunde, eine einfache und genaue Hinderniserkennung bereitzustellen, mit welcher beliebige Objekte auf der Fahrbahn anhand von mittels einer oder mehrerer Kameras aufgenommener Bilder erkannt werden können.

Diese Aufgabe wird gelöst durch das Verfahren nach Anspruch 1 , das Computerprogramm nach Anspruch 10 und das Computerprogrammprodukt nach Anspruch 11 .

Hinsichtlich des Verfahrens wird die der Erfindung zugrunde liegende Aufgabe gelöst durch ein, insbesondere computer-implementiertes, Verfahren zur Detektion eines Hindernisses. Das Verfahren umfasst die folgenden Verfahrensschritte:

- Bereitstellen eines ersten Bildes einer ersten Kamera mit einem ersten Sichtfeld,

- Bereitstellen eines zweiten Bildes einer zweiten Kamera mit einem zweiten Sichtfeld, wobei das erste und das zweite Sichtfeld zumindest teilweise überlappen,

- Ermitteln einer Disparitätskarte anhand des ersten und/oder zweiten Bildes,

- Bereitstellen der Disparitätskarte und zumindest eines der zumindest zwei Bilder als Input für ein trainiertes neuronales Netz, welches dazu ausgestaltet ist, anhand des Inputs eine Aussage über das Vorhandensein eines Hindernisses im Sichtfeld zumindest einer der beiden Kameras zu treffen, und

- Ausgeben der Aussage über das Vorhandensein des Hindernisses im Sichtfeld zumindest einer der beiden Kameras.

Die erste und zweite Kamera können Teil eines Kamerasystems umfassend zumindest zwei Kameras, insbesondere eines Stereokamerasystems, sein. Es können aber auch zwei separat an demselben Fahrzeug angebrachte Kameras sein. Vorzugsweise sind die erste und/oder zweite Kamera an einem Fahrzeug befestigt. Die Kameras können Teil eines Fahrerassistenzsystems sein.

Bei dem ersten und/oder zweiten Bild der ersten und/oder zweiten Kamera kann es sich um ein Schwarz-Weiß-Bild oder um ein Farbbild handeln. Im zweiten Fall können unterschiedlichste Farbräume, beispielsweise additive Farbräume, wie der Rot-Grün-Blau-Farbraum (RGB) verwendet werden.

Die Disparitätskarte beschreibt eine Verschiebung zwischen zwei miteinander korrespondierenden Pixeln in dem ersten und zweiten Bild der ersten und zweiten Kamera.

Das neuronale Netz kann beispielsweise anhand von Trainingsdaten mit Bildern trainiert, in welchen Hindernisse markiert sind. Das trainierte Netz ist dann dazu in der Lage, jene Pixel des ersten und/oder zweiten Bildes der ersten und/oder zweiten Kamera zu ermitteln, welche zu einer Hindernis Objektklasse gehören. Vorteilhaft können mit dem erfindungsgemäßen Verfahren beliebige Hindernisse auf der Fahrbahn identifiziert werden.

Bei der Aussage über das Vorhandensein eines Hindernisses im Sichtfeld zumindest einer der beiden Kameras kann es sich um verschiedene Aussagen über ein Hindernis handeln. Beispielsweise kann ermittelt werden, ob Hindernisse im Sichtfeld zumindest einer der beiden Kameras vorhanden sind, es können die Koordinaten der Hindernisse ausgegeben werden, aber es auch denkbar, dass ermittelt wird, um welche Art von Hindernissen es sich handelt, oder welche Größe und/oder Entferndung das Hindernis von der Kamera aufweist. Aber auch andere Aussagen über Hindernisse sind denkbar und fallen unter die vorliegende Erfindung.

Das erfindungsgemäße Verfahren zeichnet sich durch eine geringe algorithmische Komplexität aus. Trotzdem ist eine präzise Hinderniserkennung möglich, weil die Disparitätskarte eine Aussage über die Entfernung und Größe des jeweiligen Hindernisses ermöglicht, obgleich Disparitätsdaten typischerweise nicht zur Bestimmung einer Entfernung eines Objekts herangezogen werden. Insbesondere die Verwendung einer Disparitätskarte senkt die algorithmische Komplexität signifikant.

Ferner ist vorteilhaft für das erfindungsgemäße Verfahren eine Kalibration, insbesondere eine Online-Kalibration der ersten und/oder zweiten Kamera oder eine Rektifizierung der Kamerabilder nicht erforderlich.

In einer Ausgestaltung des Verfahrens handelt es sich bei dem neuronalen Netz um ein faltendes neuronales Netz, ein rekurrentes neuronales Netz, ein Hypernetz oder ein Transformer-Netz.

In einer weiteren Ausgestaltung ist das neuronale Netz dazu ausgestaltet, eine mit dem ersten und/oder zweiten Bild korrespondierende, Hinderniskarte auszugeben, welche Informationen über das Vorhandensein des Hindernisses in dem ersten und/oder zweiten Bild enthält. Auf diese Weise kann die Aussage über das Hindernis geeignet präzisiert werden. Beispielsweise kann anhand der Hinderniskarte die Position eines Hindernisses oder mehrerer Hindernisse, insbesondere relativ zum Fahrzeug, ermittelt werden.

In diesem Zusammenhang ist es von Vorteil, wenn die Hinderniskarte für vorgebbare Teilbereiche, insbesondere für jedes Pixel, des ersten und/oder zweiten Bildes angibt, ob der Teilbereich zu einem Hindernis gehört.

Es ist ferner von Vorteil, wenn jedem Teilbereich der Hinderniskarte einer von zumindest zwei vorgebbaren Zuordnungswerten zugeordnet wird, wobei ein erster Zuordnungswert zugewiesen wird, wenn der Teilbereich zu einem Hindernis gehört und wobei ein zweiter Zuordnungswert zugewiesen wird, wenn der Teilbereich nicht zu dem Hindernis gehört, wenn es sich also beispielsweise um einen Hintergrund, ein Objekt abseits der Fahrbahn, oder ähnliches handelt. Es können aber auch mehr als zwei Zuordnungswerte definiert werden. Beispielsweise kann ein erster Zuordnungswert der Fahrbahn, ein zweiter Zuordnungswert Bereichen abseits der Fahrbahn, und ein dritter Zuordnungswert einem Hindernis im Bereich der Fahrbahn zugeordnet werden. Es ist also auch eine weiterführende Klassifikation anhand der Bilder der ersten und zweiten Kamera möglich, welche über das reine Vorhandensein von Hindernissen im Sichtfeld von zumindest einer Kamera hinausgeht, möglich.

Eine Ausgestaltung des erfindungsgemäßen Verfahrens beinhaltet, dass die Disparitätskarte für das zweite Bild unter Berücksichtigung des ersten Bildes und/oder für das erste Bild unter Berücksichtigung des zweiten Bildes ermittelt wird..

Eine weitere Ausgestaltung beinhaltet, dass die Disparitätskarte mittels einer nichtlinearen Korrelation, insbesondere anhand einer Kreuzkorrelation, vorzugsweise einer mittelwertfreien, normierten Kreuzkorrelation, mittels eines, insbesondere zweidimensionalen, Block-Matching Algorithmus oder eines Semi-global-Matching Algorithmus ermittelt wird.

In einer besonders bevorzugten Ausgestaltung wird die Disparitätskarte mittels eines trainierten neuronalen Netzes ermittelt, welches Netz dazu ausgestaltet ist, die Disparitätskarte zumindest anhand des ersten und zweiten Bildes bestimmen. Vorzugsweise handelt es sich bei dem neuronalen Netz um ein faltendes neuronales Netz, ein rekurrentes neuronales Netz, ein Hypernetz oder ein Transformer-Netz. Die Ermittlung der Disparitätskarte mittels eines neuronalen Netzes ist besonders robust und dicht und damit besonders geeignet zur Bestimmung einer Aussage über das Hindernis.

Es ist insbesondere hinsichtlich der Komplexität des Verfahrens von Vorteil, wenn für die Ermittlung der Disparitätskarte und zur Bestimmung einer Aussage über das Hindernis ein neuronales Netz, insbesondere derselbe Typ für ein neuronales Netz, verwendet wird. Vorteilhaft können in diesem Fall auch für beide Netze ähnliche Architekturen gewählt werden. In einer weiteren besonders bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens wird eine zweidimensionale Disparitätskarte ermittelt wird. In diesem Falle werden jedem Pixel zwei Disparitätswerte, beispielsweise einen für eine laterale und einen für eine vertikale Verschiebung, zugeordnet.

Die der Erfindung zugrunde liegende Aufgabe wird zudem gelöst durch ein Computerprogramm mit Anweisungen, die, wenn das Computerprogramm von einem Computer ausgeführt wird, den Computer veranlassen, das erfindungsgemäße Verfahren nach einer der beschriebenen Ausgestaltungen auszuführen.

Ferner wird die der Erfindung zugrunde liegende Aufgabe gelöst durch ein Computerprogrammprodukt, auf welchem das erfindungsgemäße Computerprogramm gespeichert ist.

Die Erfindung sowie ihre vorteilhaften Eigenschaften werden anhand der nachfolgenden Figur 1 weiter erläutert.

Fig. 1 illustriert das erfindungsgemäße Verfahren. Gezeigt sind zwei Kameras 1 , 2, deren Sichtfelder teilweise überlappen. Um eine Aussage über das Vorhandensein eines Hindernisses H zu ermitteln, werden ein erstes Bild 11 der ersten Kamera 1 und ein zweites Bild I2 der zweiten Kamera einer Einheit 3 zur Ermittlung einer Disparitätskarte D zur Verfügung gestellt.

Zumindest eines der beiden Bilder 11 , I2 - hier das zweite Bild I2 der zweiten Kamera 2 - wird gemeinsam mit der Disparitätskarte als Input für das neuronale Netz 4 zur Verfügung gestellt. Dieses neuronale Netz 4 ist dazu ausgestaltet, anhand des Inputs die Aussage über das Vorhandensein eines Hindernisses H im Sichtfeld zumindest einer der beiden Kameras 1 , 2 - hier der zweiten Kamera 2 - zu treffen und auszugeben. Anstelle des zweiten Bildes I2 kann auch das erste Bild 11 dem neuronalen Netz 4 als Input zur Verfügung gestellt werden (gestrichelte Linie), oder es können beide Bilder 11 und I2 als Input dienen. Eine vorherige Rektifizierung der Bilder 11 und I2 vor der Ermittlung der Disparitätskarte D ist nicht notwendig. Es ist ein zentraler Gedanke der Erfindung, dass mittels einer solchen Disparitätskarte D unter Zuhilfenahme eines neuronalen Netzes 4 eine Hinderniserkennung realisierbar ist. Gemäß Stand der Technik muss dagegen stets zunächst ein Rektifizierungsschritt erfolgen, um eine Hinderniserkennung durchführen zu können.

Zum Ermitteln der Disparitätskarte sind unterschiedliche Methoden denkbar und fallen unter die vorliegende Erfindung. Besonders vorteilhaft ist die Ermittlung einer zweidimensionalen Disparitätskarte. In diesem Zusammenhang kann einerseits jede geeignete mathematische Korrelationsfunktion, insbesondere ein Kreuzkorrelator, herangezogen werden. Es ist aber ebenso denkbar, dass zur Ermittlung der Disparitätskarte D ebenfalls ein neuronales Netz verwendet wird, bei welchem es sich vorzugsweise um ein faltendendes neuronalen Netzes (CNN) handelt. Mit einem faltenden neuronalen Netz lassen sich zweidimensionale Korrelationen besonders gut realisieren. Dann ist es weiterhin vorteilhaft, wenn es sich bei dem neuronalen Netz 4 ebenfalls um ein faltendes neuronales Netz (CNN) handelt. In diesem Falle kann für beide Netze eine ähnliche Architektur gewählt werden.

Zusammenfassend erlauben das erfindungsgemäße Verfahren, sowie das entsprechende Computerprogramm und Computerprogrammprodukt, eine besonders robuste Hinderniserkennung, insbesondere in Zusammenhang mit Fahrerassistenzsystemen für Fahrzeuge. Das Verfahren stellt gegenüber dem Stand der Technik eine Vereinfachung dar, weil eine Vorbearbeitung der Kamerabilder, beispielsweise eine Rektifizierung, entfällt. Es ist vielmehr möglich, die Rohdatenbilder der Kameras 1 und 2 direkt zu verwenden. Die andererseits vorteilhafte, eigentlich aufwändige, zweidimensionale Korrelation lässt sich beispielsweise unter Zuhilfenahme eines neuronalen Netzes, insbesondere eines faltenden neuronalen Netzes (CNN) aber sehr effizient und präzise bewerkstelligen.