METHOD FOR DETECTING AN OBJECT, IMAGE DETECTING DEVICE, COMPUTER PROGRAM, AND STORAGE UNIT

Title:

METHOD FOR DETECTING AN OBJECT, IMAGE DETECTING DEVICE, COMPUTER PROGRAM, AND STORAGE UNIT

Document Type and Number:

WIPO Patent Application WO/2023/147935

Kind Code:

Abstract:

The invention relates to a method (10) for detecting an object (12) using measurement data (14) of at least one point-based sensor (16) which detects the object (12) in that the measurement data (14) which builds a point cloud (20) that has multiple points (22) and corresponding features (24) is processed in that in a point-based first processing step (26) which has at least one processing level (32), features (28) of the point cloud (20) on the input side are transferred as learned features (30) and are enhanced at least with information (50) relating to the relationships between the points (22). The learned features (30) are then transferred to a model grid (74) which has multiple grid cells (72) in a grid-based second processing step (70) which has at least one processing level (68), and cell-related output data (80) is then generated. The invention additionally relates to an image detection device (104), to a computer program, and to a storage unit.

Inventors:

FAION FLORIAN (DE)
KOEHLER DANIEL (DE)
JORDAN RUEDIGER (DE)
ULRICH MICHAEL (DE)
ZIEGLER PATRICK (DE)
BRAUN SASCHA (DE)
QUACH MAURICE (DE)
GLAESER CLAUDIUS (DE)
NIEDERLOEHNER DANIEL (DE)
ARMANIOUS KARIM ADEL DAWOOD (DE)

Application Number:

PCT/EP2022/087940

Publication Date:

August 10, 2023

Filing Date:

December 28, 2022

Export Citation:

Click for automatic bibliography generation Help

Assignee:

BOSCH GMBH ROBERT (DE)

International Classes:

G06V10/82; G06V20/64

Foreign References:

DE102020206990A1

2021-12-09

Other References:

DARIO RETHAGE ET AL: "Fully-Convolutional Point Networks for Large-Scale Point Clouds", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 21 August 2018 (2018-08-21), XP081175288
SIMONOVSKY MARTIN ET AL: "Dynamic Edge-Conditioned Filters in Convolutional Neural Networks on Graphs", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE COMPUTER SOCIETY, US, 21 July 2017 (2017-07-21), pages 29 - 38, XP033249337, ISSN: 1063-6919, [retrieved on 20171106], DOI: 10.1109/CVPR.2017.11

Download PDF:

View/Download PDF PDF Help

Claims:

Patentansprüche

1. Verfahren (10) zur Objekterkennung eines Objekts (12) anhand von Messdaten (14) wenigstens eines das Objekt (12) erfassenden punktbasierten Sensors (16), indem die auf einer mehrere Punkte (22) und zugehörige Merkmale (24) aufweisende Punktewolke (20) aufbauenden Messdaten (14) verarbeitet werden, indem zunächst in einem punktbasierten und wenigstens eine Verarbeitungsebene (32) aufweisenden ersten Verarbeitungsschritt (26) die eingangsseitigen Merkmale (28) der Punktewolke (20) als gelernte Merkmale (30) umgesetzt und um wenigstens Informationen (50) über Beziehungen zwischen den Punkten (22) bereichert werden und die gelernten Merkmale (30) anschließend in einem gitterbasierten und wenigstens eine Verarbeitungsebene (68) aufweisenden zweiten Verarbeitungsschritt (70) auf ein mehrere Gitterzellen (72) aufweisendes Modellgitter (74) überführt und anschließend zellenbezogene Ausgabedaten (80) erzeugt werden.

2. Verfahren (10) zur Objekterkennung nach Anspruch 1 , dadurch gekennzeichnet, dass die eingangsseitigen Merkmale (28) in einem dem einzelnen Punkt (22) zugeordneten eingangsseitigen Merkmalsvektor (34) und die gelernten Merkmale (30) in einem diesem Punkt (22) zugeordneten latenten Merkmalsvektor (77) aufgenommen sind.

3. Verfahren (10) zur Objekterkennung nach Anspruch 2, dadurch gekennzeichnet, dass der eingangsseitige Merkmalsvektor (34) gegenüber dem latenten Merkmalsvektor (77) eine abweichende Dimension aufweist.

4. Verfahren (10) zur Objekterkennung nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die eingangsseitigen Merkmale (28) des einzelnen Punkts (22) Informationen (50) über dessen räumliche Lage, dessen Eigenschaften und/oder dessen benachbarte Punkte (22) umfassen.

5. Verfahren (10) zur Objekterkennung nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der erste Verarbeitungsschritt (26) ein angelerntes künstliches neuronales Netz (36) anwendet. Verfahren (10) zur Objekterkennung nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass aus den zellenbezogenen Ausgabedaten (80) über wenigstens einen weiteren Verarbeitungsschritt (82, 86, 96) objektbezogene Ausgabedaten (80) zur Berechnung einer orientierten Hüllform (102) des Objekts (12) gebildet werden. Bilderkennungsvorrichtung (104) aufweisend wenigstens einen Messdaten (14) zu einem Objekt (12) bereitstellenden punktbasierten Sensor (16) und eine zur Durchführung des Verfahrens (10) nach einem der vorangehenden Ansprüche eingerichtete Verarbeitungseinheit (106). Bilderkennungsvorrichtung (104) nach Anspruch 7, dadurch gekennzeichnet, dass der punktbasierte Sensor (16) eingerichtet ist, wenigstens eine Punktewolke (20) als Messdaten (14) auszugeben. Computerprogramm das maschinenlesbare und auf wenigstens einem Computer ausführbare Anweisungen aufweist, bei deren Ausführung das Verfahren (10) nach einem der Ansprüche 1 bis 6 abläuft. Speichereinheit die maschinenlesbar und durch wenigstens einen Computer zugreifbar ausgeführt ist und auf der das Computerprogramm nach Anspruch 9 gespeichert ist.

Description:

Verfahren zur Objekterkennung, Bilderkennungsvorrichtung, Computerprogramm und Speichereinheit

Die Erfindung betrifft ein Verfahren zur Objekterkennung nach Anspruch 1. Weiterhin betrifft die Erfindung eine Bilderkennungsvorrichtung, ein Computerprogramm und eine Speichereinheit.

Stand der Technik

In DE 102020206 990 A1 ist ein Verfahren zur Verarbeitung von Messdaten von Sensoren beschrieben, das die Messdaten eines ersten Sensors in einem ersten Encoder und die Messdaten eines zweiten Sensors in einem zweiten Encoder in einen jeweiligen latenten Raum überführt. Aus den Merkmalen in dem latenten Raum leitet ein erster Decoder rekonstruierte Messdaten des ersten Sensors und ein zweiter Decoder rekonstruierte Messdaten des zweiten Sensors ab.

Offenbarung der Erfindung

Gemäß der vorliegenden Erfindung wird ein Verfahren zur Objekterkennung mit den Merkmalen nach Anspruch 1 vorgeschlagen. Dadurch kann der Zusammenhang zwischen den Punkten genauer und zuverlässiger erfasst und bei der Verarbeitung besser mit einbezogen werden. Der Merkmalskontext der Punkte kann besser berücksichtigt werden. Der Informationsverlust bei der Verarbeitung kann verringert werden und die Erkennungsleistung kann steigen.

Das Objekt kann ein Fahrzeug, ein Lebewesen, insbesondere eine Person, ein Gebäude und/oder ein Gegenstand sein.

Die Objekterkennung (object detection) kann eine Erkennung wenigstens einer Objekteigenschaft (object regression), eine Objektklassifikation (object classification) und/oder eine Erkennung eines Objektbewegungspfads (object tracking) einbeziehen.

Der punktbasierte Sensor kann die Messdaten in Form wenigstens einer Punktewolke ausgeben. Die Messdaten können von wenigstens zwei derartiger Sensoren bereitgestellt sein. Der punktbasierte Sensor kann eine Kamera, insbesondere eine Stereokamera oder eine Monokamera, bevorzugt mit Tiefeninformation und/oder Anwendung von Bildverarbeitungsalgorithmen, eine Time-of-Flight Kamera, ein Lidarsensor, ein Ultraschallsensor, ein Mikrofon oder ein Radarsensor sein.

Der erste Verarbeitungsschritt kann die eingangsseitigen Merkmale über mehrere Verarbeitungsebenen in die gelernten Merkmale überführen. Der erste Verarbeitungsschritt kann PointNet, Pointnet++, Graph Neural Network, Continuous Convolutions, Kernel-Point Convolutions oder andere neuronale Netze, die eine Punktwolke als Eingabe und als Ausgabe haben, anwenden.

Der zweite Verarbeitungsschritt kann die gelernten Merkmale auf ein zweidimensionales Modellgitter, beispielsweise auf Grundlage einer Vogelperspektive (BEV, birds eye view) überführen. Liegt nur ein Punkt der Punktewolke in einer Gitterzelle, dann können die gelernten Merkmale des Punkts die Merkmale der Gitterzelle bilden. Liegen mehrere Punkte der Punktewolke in einer Gitterzelle, dann können die gelernten Merkmale dieser Punkte der Gitterzelle als Merkmale der Gitterzelle zusammengeführt werden. Diese Zusammenführung kann durch Anwendung eines Pooling-Algorithmus oder eines PointNet erfolgen.

Das Modellgitter kann durch eine vorgegebene Gitterauflösung festgelegt sein. Je höher die Gitterauflösung, desto mehr Gitterzellen pro Raum- oder Flächeneinheit bestehen. Je kleiner die Gitterauflösung ist, desto höher kann die Erkennungswahrscheinlichkeit des Objekts sein. Je größer die Gitterauflösung ist, desto genauer kann das Objekt gekennzeichnet werden.

Bei einer bevorzugten Ausführung der Erfindung ist es vorteilhaft, wenn die eingangsseitigen Merkmale in einem dem einzelnen Punkt zugeordneten eingangsseitigen Merkmalsvektor und die gelernten Merkmale in einem diesem Punkt zugeordneten latenten Merkmalsvektor aufgenommen sind. Die eingangsseitigen Merkmale können ungeordnet und unabhängig von deren Reihenfolge dem ersten Verarbeitungsschritt übergeben werden.

Eine bevorzugte Ausgestaltung der Erfindung ist vorteilhaft, bei der der eingangsseitige Merkmalsvektor gegenüber dem latenten Merkmalsvektor eine abweichende Dimension aufweist. Der latente Merkmalsvektor kann eine höhere oder niedrigere Dimension als der eingangsseitige Merkmalsvektor aufweisen.

Bei einer bevorzugten Ausführung der Erfindung ist es vorteilhaft, wenn die eingangsseitigen Merkmale des einzelnen Punkts Informationen über dessen räumliche Lage, dessen Eigenschaften und/oder dessen benachbarte Punkte umfassen. Die räumliche Lage kann durch Koordinaten in einem dreidimensionalen Koordinatensystem beschrieben sein. Die Eigenschaften können eine Rückstreusignalintensität oder Eingangsintensität, einen Rückstrahlquerschnitt, einen Elevationswinkel und/oder eine Radialgeschwindigkeit sein. Die Informationen über dessen benachbarte Punkte können eine Anzahl an benachbarten Punkten in einem vorgegebenen Umkreis einschließen.

Bei einer vorzugsweisen Ausführung der Erfindung ist vorgesehen, dass der erste Verarbeitungsschritt ein angelerntes künstliches neuronales Netz anwendet. Das Anlernen kann als mehrschichtiges Lernen (Deep Learning) umgesetzt sein. Die Verarbeitungsebene kann eine Zwischenschicht (hidden layer) in dem künstlichen neuronalen Netz sein.

Der zweite Verarbeitungsschritt kann ein angelerntes künstliches neuronales Netz anwenden. Die gelernten Merkmale des ersten Verarbeitungsschritts können in dem zweiten Verarbeitungsschritt weiterverwendet werden. Ein Training des Netzes in dem zweiten Verarbeitungsschritt kann abhängig oder unabhängig von einem Training des Netzes in dem ersten Verarbeitungsschritt sein.

Eine bevorzugte Ausgestaltung der Erfindung ist vorteilhaft, bei der aus den zellenbezogenen Ausgabedaten über wenigstens einen weiteren Verarbeitungsschritt objektbezogene Ausgabedaten zur Berechnung einer orientierten Hüllform des Objekts gebildet werden. Die orientierte Hüllform kann eine orientierte quaderförmige Hüllform (oriented bounding box) sein. Die orientierte Hüllform kann wenigstens einen dem Objekt zugeordneten Boxparameter aufweisen. Der Boxparameter kann eine Pose, wenigstens eine Abmessung, eine Objekttypklasse und/oder eine Existenzwahrscheinlichkeit sein. Über die Objekttypklasse kann eine Zugehörigkeit zu einem Objekt gekennzeichnet werden.

Die orientierte Hüllform kann mit dem punktbasierten ersten Verarbeitungsschritt genauer gekennzeichnet werden. Der nachgelagerte gitterbezogene zweite Verarbeitungsschritt ermöglicht eine Verbesserung der Erkennungswahrscheinlichkeit des Objekts und eine niedrigere Fehlerkennungsrate.

Die objektbezogenen Ausgabedaten können eine Liste mit Objekthypothesen umfassen. Für jede Objekthypothese können Objekteigenschaften, insbesondere eine Objekttypklasse und die orientierte Hüllform berechnet werden.

Die Boxparameter der orientierten Hüllform können abhängig von den Merkmalen der Gitterzelle berechnet werden.

Weiterhin wird eine Bilderkennungsvorrichtung aufweisend wenigstens einen Messdaten zu einem Objekt bereitstellenden punktbasierten Sensor und eine zur Durchführung des Verfahrens mit wenigstens einem der zuvor genannten Merkmale eingerichtete Verarbeitungseinheit vorgeschlagen. Dadurch kann die Rechenleistung der Verarbeitungseinheit verringert und die Bilderkennungsvorrichtung kostengünstiger ausgeführt werden.

Bei einer bevorzugten Ausführung der Erfindung ist es vorteilhaft, wenn der punktbasierte Sensor eingerichtet ist, wenigstens eine Punktewolke als Messdaten auszugeben. Der punktbasierte Sensor kann eine Kamera, insbesondere eine Stereokamera oder eine Monokamera, bevorzugt mit Anwendung von Bildverarbeitungsalgorithmen, eine Time-of- Flight Kamera, ein Lidarsensor, ein Ultraschallsensor, ein Mikrofon oder ein Radarsensor sein.

Die Bilderkennungsvorrichtung kann einem Fahrerassistenzsystem und/oder einem autonomen oder teilautonomen Fahrzeug zugeordnet sein. Die Bilderkennungsvorrichtung kann einem Roboter, insbesondere einem Mähroboter, einer Umfeldüberwachungsanlage, insbesondere einer Verkehrsüberwachungsanlage oder einem Fahrzeug, insbesondere einem Kraftfahrzeug, einem Lastfahrzeug oder einem Zweiradfahrzeug, bevorzugt einem Fahrrad, zugeordnet sein.

Die Bilderkennungsvorrichtung kann in einer automatisierten Montageanlage verwendet werden, beispielsweise zur Detektion von Bauteilen und deren Orientierung zur Griffpunktbestimmung. Die Bilderkennungsvorrichtung kann bei automatisierten Rasenmähern verwendet werden, beispielsweise zur Detektion von Objekten, insbesondere Hindernissen. Die Bilderkennungsvorrichtung kann bei automatischen Zugangskontrollen verwendet werden, beispielsweise zur Personendetektion und Personenidentifikation für die automatische Türöffnung. Die Bilderkennungsvorrichtungen kann in einer Umfeldüberwachungsanlage, bevorzugt zur Überwachung von Plätzen oder Gebäuden verwendet werden, beispielsweise zur Detektion, Prüfung und Klassifikation von gefährlichen Gütern. Die Bilderkennungsvorrichtung kann in einer Verkehrsüberwachungsanlage, insbesondere mit stationärer Radarsensorik, verwendet werden. Die Bilderkennungsvorrichtung kann in einem Fahrerassistenzsystem zur Detektion und Klassifikation von Verkehrsteilnehmern, beispielsweise in einem Fahrrad oder einem anderen Zweirad verwendet werden.

Weiterhin wird ein Computerprogramm, das maschinenlesbare und auf wenigstens einem Computer ausführbare Anweisungen aufweist, bei deren Ausführung das Verfahren mit wenigstens einem der zuvor angegebenen Merkmale abläuft vorgeschlagen. Weiterhin wird eine Speichereinheit, die maschinenlesbar und durch wenigstens einen Computer zugreifbar ausgeführt ist und auf der das genannte Computerprogramm gespeichert ist vorgeschlagen. Weitere Vorteile und vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus der Figurenbeschreibung und den Abbildungen.

Figurenbeschreibung

Die Erfindung wird im Folgenden unter Bezugnahme auf die Abbildungen ausführlich beschrieben. Es zeigen im Einzelnen:

Figur 1 : Ein beispielhaftes Blockschaltbild eines Verfahrens zur Objekterkennung in einer speziellen Ausführungsform der Erfindung.

Figur 2: Aufbau einer Graph Convolution eines künstlichen neuronalen Netzes bei dem ersten Verarbeitungsschritt.

Figur 3: Bilderkennungsvorrichtungen in speziellen Ausführungsformen der Erfindung.

Figur 1 zeigt ein beispielhaftes Blockschaltbild eines Verfahrens zur Objekterkennung in einer speziellen Ausführungsform der Erfindung. Das Verfahren 10 zur Objekterkennung eines Objekts 12 nutzt Messdaten 14 wenigstens eines punktbasierten Sensors 16, der das Objekt 12 erfasst. Der Sensor kann ein Radarsensor 18 sein. Die Messdaten 14 umfassen eine Punktewolke 20 mit mehreren Punkten 22 und zugehörigen Merkmalen 24. In einem ersten Verarbeitungsschritt 26 werden die Merkmale 24 als eingangsseitige Merkmale 28 der Punktewolke 20 als gelernte Merkmale 30 umgesetzt. Der erste Verarbeitungsschritt 26 umfasst wenigstens eine Verarbeitungsebene 32.

Der erste Verarbeitungsschritt 26 ist punktbasiert. Die eingangsseitigen Merkmale 28 des einzelnen Punkts 22 können Informationen über dessen räumliche Lage, dessen Eigenschaften und/oder dessen benachbarte Punkte 22 umfassen und als eingangsseitiger Merkmalsvektor 34 umgesetzt sein. Die räumliche Lage kann durch Koordinaten in einem dreidimensionalen Koordinatensystem beschrieben sein. Die Eigenschaften können eine Rückstreusignalintensität oder Eingangsintensität, einen Rückstrahlquerschnitt, einen Elevationswinkel und/oder eine Radialgeschwindigkeit sein. Die Informationen über dessen benachbarte Punkte 22 können eine Anzahl an benachbarten Punkten 22 in einem vorgegebenen Umkreis einschließen. Die eingangsseitigen Merkmale 28 können in dem ersten Verarbeitungsschritt 26 ungeordnet und unabhängig von deren Reihenfolge umgesetzt werden. Die Verarbeitungsebene 32 kann ein angelerntes künstliches neuronales Netz 36 anwenden, hier beispielsweise ein Graph Neural Network 38, das beispielhaft in Figur 2 veranschaulicht ist und nachfolgend genauer erläutert wird. Dieses konstruiert in einem ersten Schritt 40 anhand der Punkte 22 einen Graphen 42, indem Punkte 22, die sich innerhalb einer vorgegebenen Distanz, beispielsweise drei Meter zueinander befinden, durch Kanten 44 verbunden werden. Die Punkte 22 repräsentieren dabei die Knoten 46 des Graphen 42. In einem zweiten Schritt 48 werden für alle Kanten 44 des Graphen 42 Nachrichten 50 gebildet, die aus den relativen Positionen 52 der Knoten 46 einer Kante 44 zueinander und den Nachbarmerkmalen 54 der Nachbarn des Ursprungsknotens 55 bestehen. Dadurch umfassen die gelernten Merkmale 30 Informationen über Beziehungen zwischen den Punkten 22. Diese Nachrichten 50 werden von einem Multi-Layer-Perceptron 56 verarbeitet, um neue Merkmale 58 zu extrahieren. Dabei teilen sich die Schichten des Multi-Layer- Perceptron 56 jeweils die Parameter 59 für alle Nachrichten 50.

In einem dritten Schritt 60 werden durch ein Maximum Pooling 62 aus den generierten Nachrichten 50 berechnete Merkmale 64 als die gelernten Merkmale 30 für den Ursprungsknoten 55 extrahiert. Anschließend wird in einem Berechnungsschritt 66 der Unterschied zwischen den alten und neuen Informationen berechnet (Skip-connection) und in dem zweiten Schritt 48 als neue Informationen wieder an die Knoten 46 bzw. die Punkte 22 angehängt.

Es können mehrere Verarbeitungsebenen 68 in dem ersten Verarbeitungsschritt 26 durchlaufen werden. Anstelle des Graph Neural Network 38 können auch PointNet, PointNet++, Continuous Convolutions, Kernel Point Convolutions oder andere neuronale Netze, die eine Punktwolke als Eingabe und als Ausgabe haben, angewendet werden.

Zurückkommend auf Figur 1 werden die gelernten Merkmale 30 in einem gitterbasierten und wenigstens eine Verarbeitungsebene 68 aufweisenden zweiten Verarbeitungsschritt 70 auf ein mehrere Gitterzellen 72 aufweisendes Modellgitter 74 überführt. Dabei wird ein Pillar Feature Network 76 verwendet, um die in einem latenten Merkmalsvektor 77 zusammengestellten gelernten Merkmale 30 in das hier zweidimensionale Modellgitter 74 zu projizieren. Dafür werden alle Punkte 22, die sich in einer Gitterzelle 72 befinden, in Säulen 78 (Pillars) zusammengefasst. Die gelernten Merkmale 30 jedes Punkts 22 werden individuell von einem Fully Connected Neural Network eingebettet. Für den Fall, dass mehrere Punkte 22 in dieselbe Säule 78 fallen, wird ein Mean Pooling über alle Punkte 22 innerhalb der Säule 78 angewandt, um einen Merkmalsvektor mit einer festen Länge zu erhalten. Anstelle des Pillar Feature Network 76 kann auch ein anderes Verfahren verwendet werden, um Merkmalsvektoren von Punkten in ein Modelgitter 74 zu überführen, beispielsweise eine direkte Zuordnung der Punkte zu den Gitterzellen 72 und eine anschließende Zusammenführung aller Merkmalsvektoren, die in die gleiche Gitterzelle 72 fallen, beispielsweise über Mean Pooling, Max Pooling oder eines Attention Mechanismus.

Anschließend können diese Merkmale als zellenbezogene Ausgabedaten 80 über einen dritten Verarbeitungsschritt 82, insbesondere mit einem zweidimensionalen Convolutional Neural Network 84, das als Backbone dient, weiterverarbeitet werden. Beispielsweise wird ein Backbone bestehend aus einem Residual Network und einem Feature Pyramid Network verwendet, das Merkmale für unterschiedliche Auflösungen des zweidimensionalen Modellgitters 74 extrahiert.

In einem vierten Verarbeitungsschritt 86 werden durch Class Heads für jede Gitterzelle 72 über ein weiteres zweidimensionales Convolutional Neural Network 88 eine Objektwahrscheinlichkeit 90 zwischen 0 und 1 und Boxparameter 92 für eine orientierte Hüllform des Objekts 12, insbesondere eine Position, Länge, Weite, Höhe und/oder Orientierung geschätzt. Es können zur Detektion von verschiedenen Objekttypen mehrere dieser Class Heads verwendet werden, die jeweils für die Abschätzung einer Objekttypklasse, das bedeutet Objekttypen mit ähnlichen Eigenschaften wie beispielsweise Lastfahrzeuge und Busse, zuständig sind. Diese Class Heads verwenden entsprechend den zu detektierenden Objekttypen Merkmalskarten 94 mit passender Auflösung. So wird beispielsweise für kleine Objekte wie Fußgänger eine Merkmalskarte 94 mit höherer Auflösung verwendet als für große Objekte wie Lastfahrzeuge.

Da ein Objekt mehrere Gitterzellen 72 Überspannen kann, werden in einem fünften Verarbeitungsschritt 96 die in dem vierten Verarbeitungsschritt 86 generierten Objekthypothesen 98 gefiltert. Dies geschieht insbesondere durch eine Non-Maximum Suppression 100 (NMS). Hierbei wird für jedes Objekt aus sich räumlich überlagernden Objekthypothesen 98 nach derjenigen mit der höchsten Objektwahrscheinlichkeit gefiltert. Die gefilterten Objekthypothesen in Form einer orientierten Hüllform 102 bilden die objektbezogenen Ausgabedaten 80 des Verfahrens 10.

Die objektbezogenen Ausgabedaten 80 sind beispielsweise eine Liste mit Objekthypothesen. Für jede Objekthypothese kann eine Objekteigenschaft, insbesondere eine Objekttypklassifikation, eine Objektposition und Boxparameter, insbesondere eine Länge, Weite, Höhe und/oder Orientierung der orientierten Hüllform 102, die das Objekt einfasst, berechnet werden.

Figur 3 zeigt Bilderkennungsvorrichtungen in speziellen Ausführungsformen der Erfindung. In

Figur 3a) ist eine Bilderkennungsvorrichtung 104 abgebildet, die eine Verarbeitungseinheit 106, die das Verfahren zur Objekterkennung durchführt, umfasst. Die Bilderkennungsvorrichtung 104 kann in einer automatisierten Montageanlage 108 verwendet werden, beispielsweise zur Detektion von Bauteilen und deren Orientierung zur Griffpunktbestimmung. Die Bilderkennungsvorrichtung 104 in Figur 3 b) kann bei automatisierten Rasenmähern 110 verwendet werden, beispielsweise zur Detektion von Objekten 12, insbesondere Hindernissen. Die Bilderkennungsvorrichtung 104 in Figur 3 c) kann bei automatischen Zugangskontrollen verwendet werden, beispielsweise zur Personendetektion und Personenidentifikation für die automatische Türöffnung. Die Bilderkennungsvorrichtung 104 in Figur 3 d) kann in einer Umfeldüberwachungsanlage 114, bevorzugt zur Überwachung von Plätzen oder Gebäuden verwendet werden, beispielsweise zur Detektion, Prüfung und Klassifikation von gefährlichen Gütern. Die Bilderkennungsvorrichtung 104 in Figur 3 e) kann in einer Verkehrsüberwachungsanlage 116, insbesondere mit wenigstens einem stationären Radarsensor 18, verwendet werden. Die Bilderkennungsvorrichtung 104 in Figur 3 f) kann in einem Fahrerassistenzsystem 118 zur Detektion und Klassifikation von Verkehrsteilnehmern, beispielsweise einem Fahrrad 120 oder einem anderen Zweirad verwendet werden.

Previous Patent: AUTOMATICALLY GUIDED VEHICLE

Next Patent: DEVICE FOR VIBRATION-DAMPED FASTENING OF A WORKPIECE