Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR CLASSIFYING IMAGE DATA
Document Type and Number:
WIPO Patent Application WO/2022/117399
Kind Code:
A1
Abstract:
The invention relates to a method (100) for classifying image data (20), in particular for identifying road boundaries, in particular for a vehicle which is at least partly operated in an automated manner, comprising the steps of: - receiving (101) image data (20), in particular having a first dimensioning, - extracting (102) at least one subset (21, 22, 23, 24) of the image data (20), in particular wherein the subset (21, 22, 23, 24) has a second dimensioning, in particular wherein the second dimensioning is smaller than the first dimensioning; - applying (103) at least one ML system (25) to the at least one extracted subset (21, 22, 23, 24) for classifying the image data (20).

Inventors:
MEHNERT JENS ERIC MARKUS (DE)
Application Number:
PCT/EP2021/082611
Publication Date:
June 09, 2022
Filing Date:
November 23, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G06V20/56
Foreign References:
US20200327338A12020-10-15
Other References:
YANG WEI-JONG ET AL: "Improved Lane Detection With Multilevel Features in Branch Convolutional Neural Networks", IEEE ACCESS, vol. 7, 31 December 2019 (2019-12-31), pages 173148 - 173156, XP011759164, DOI: 10.1109/ACCESS.2019.2957053
Download PDF:
Claims:
Ansprüche

1. Verfahren (100) zur Klassifikation von Bilddaten (20), insbesondere zur Erkennung von Straßengrenzen, insbesondere für ein zumindest teilweise automatisiert betriebenes Fahrzeug, aufweisend die Schritte:

- Empfangen (101) von Bilddaten (20), insbesondere mit einer ersten Dimensionierung

- Extrahieren (102) mindestens einer Teilmenge (21, 22, 23, 24) der Bilddaten (20) insbesondere wobei die Teilmenge (21, 22, 23, 24) eine zweite Dimensionierung aufweist, insbesondere wobei die zweite Dimensionierung kleiner ist als die erste Dimensionierung;

- Anwenden (103) mindestens eines ML-System (25) auf die mindestens eine extrahierte Teilmenge (21, 22, 23, 24) zur Klassifikation der Bilddaten (20).

2. Verfahren (100) nach Anspruch 1, wobei die Bilddaten (20) in Pixelform empfangen und/oder umgewandelt werden und wobei im Schritt des Extrahierens (102) die Extrahierung der Teilmenge (21, 22, 23, 24) pixelweise erfolgt, insbesondere indem die Extraktion der Teilmenge (21, 22, 23, 24) in Abhängigkeit von einer Pixelschrittweite und einer Zeilenschrittweite erfolgt.

3. Verfahren (100) nach Anspruch 2, wobei im Schritt des Extrahierens (102) mindestens zwei Teilmengen (21, 22, 23, 24) extrahiert werden, wobei die mindestens zwei Teilmengen (21, 22, 23, 24) die leere Menge als Schnittmenge aufweisen, insbesondere, wobei die Extrahierung der mindestens zwei Teilmengen (21, 22, 23, 24) an unterschiedlichen Startpixeln ((0,0), (0,1), (1,0), (1,1)) der Bilddaten (20) beginnt.

4. Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei nach dem Schritt des Extrahierens (102) die Menge der empfangenen Bilddaten (20) Teilmenge der Vereinigung der extrahierten Teilmengen (21, 22, 23, 24) ist.

5. Verfahren (100) nach einem der vorhergehenden Ansprüche, mit einem Schritt des Verwerfens nach dem Schritt des Extrahierens (102), wobei im Schritt des Verwerfens extrahierte Teilmengen (21, 22, 23, 24) verworfen werden.

6. Verfahren (100) nach Anspruch 5, wobei im Schritt des Verfahrens ein Schritt des Bewertens erfolgt, wobei im Schritt des Bewertens extrahierte Teilmengen (21, 22, 23, 24) bewertet werden und in Abhängigkeit von ihrer Bewertung verworfen werden.

7. Verfahren (100) nach einem der vorhergehenden Ansprüche, wobei die extrahierten Teilmengen (21, 22, 23, 24) im Schritt des Anwendens (103), insbesondere jeweils als Featuremap, mindestens zwei unterschiedlichen ML- System (25) zugeführt werden.

8. Verfahren (100) nach einem der vorhergehenden Ansprüche, durch den Schritt des Anwendens (103) mindestens zwei Ergebnisfeaturemaps entstehen und mit einem Schritt des Zusammenführens nach dem Schritt des Anwendens (103).

9. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens die entstandenen mindestens zwei Ergebnisfeaturemaps konkateniert werden.

10. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens die entstandenen mindestens zwei Ergebnisfeaturemaps zu einer zusammengeführten Ergebnisfeaturemap summiert werden.

11. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens eine zusammengeführte Ergebnisfeaturemap durch Übernahme der Maxima aus den entstandenen mindestens zwei Ergebnisfeaturemaps gebildet wird.

12. Verfahren (100) nach Anspruch 8, wobei im Schritt des Zusammenführens die mindestens zwei entstandenen Ergebnisfeaturemaps entsprechend ihrer extrahierten Teilmengen in die Bilddaten (20) zurückgeführt werden.

13. Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens (100) nach einem der vorhergehenden Ansprüche auszuführen. 14. Maschinenlesbares Speichermedium, auf dem das Computerprogramm nach Anspruch 8 gespeichert ist.

15. Elektronische Steuereinheit, die eingerichtet ist, alle Schritte des Verfahrens (100) nach einem der Ansprüche 1 bis 7 auszuführen.

Description:
Beschreibung

Titel

Verfahren zur Klassifikation von Bilddaten

Die vorliegende Erfindung betrifft ein Verfahren zur Klassifikation von Bilddaten, insbesondere zur Erkennung von Straßengrenzen, insbesondere für ein zumindest teilweise automatisiert betriebenes Fahrzeug.

Stand der Technik

Verfahren zur Klassifikation von Bilddaten werden u. a. im Automobilbereich für Anwendungen im Bereich der zumindest teilweise automatisiert betriebenen Fahrzeuge, wie bspw. der Fahrerassistenzsysteme eingesetzt. Dabei kommen Verfahren des maschinellen Lernens und der künstlichen neuronalen Netze zum Einsatz. Zur Inferenzzeit werden diese Verfahren u. a. auf sogenannten Field Programmable Gate Arrays (FPGA) ausgeführt. Diese Art von Hardware zeichnet sich durch eine hohe Flexibilität bei geringerer Spezialisierung aus. Dementsprechend sind Verfahren erforderlich, die die vorhandenen Rechenressourcen optimal einsetzen.

Offenbarung der Erfindung

Vor diesem Hintergrund schafft die vorliegende Erfindung ein Verfahren zur Klassifikation von Bilddaten, insbesondere zur Erkennung von Straßengrenzen, insbesondere für ein zumindest teilweise automatisiert gesteuertes Fahrzeug. Das Verfahren weist die nachfolgenden Schritte auf:

Empfangen von Bilddaten, insbesondere mit einer ersten Dimensionierung Extrahieren mindestens einer Teilmenge der Bilddaten

Die extrahierte Teilmenge kann dabei eine zweite Dimensionierung aufweisen, die dann kleiner sein kann als die erste Dimensionierung.

Anwenden mindestens eines Systems des maschinellen Lernens (ML-System) auf die mindestens eine extrahierte Teilmenge.

Unter Bilddaten können dabei vorliegend Daten verstanden werden, die ein Abbild der aufgezeichneten Wirklichkeit oder ein künstlich erzeugtes Abbild der Wirklichkeit repräsentieren. Dabei kann es sich bei den Bilddaten um Daten handeln, die mittels einer optischen Aufnahmevorrichtung, wie bspw. einer Kamera-, einem Radar oder einem Lidar-System, für ein Fahrzeug erfasst werden. Bei dem Fahrzeug kann es sich um ein zumindest teilweise automatisiert betriebenes Fahrzeug handeln.

Unter einer Dimensionierung kann vorliegend die Größe der Bilddaten verstanden werden. Typischerweise handelt es sich bei einem Bild um eine zweidimensionale Abbildung der Wirklichkeit. Insbesondere bei digitalen Bilddaten können die Färb- bzw. Helligkeitsinformationen weitere Dimensionen aufspannen. Ferner ist es denkbar, dass die Bilddaten aus einer Fusion von Daten mehrerer Sensorsysteme entstanden sind und dementsprechend weitere Dimensionen vorgesehen sind, um die durch die Fusion erhaltenen Informationen zu repräsentieren. Die weiteren Dimensionen kann dabei bspw. Tiefen- bzw. Entfernungsinformationen repräsentieren.

Unter einer kleineren Dimensionierung kann vorliegend verstanden werden, dass im Vergleich zu der größeren Dimensionierung nur eine echte Teilmenge der in den Dimensionen repräsentierten Informationen repräsentiert wird.

Unter einem System des maschinellen Lernens (ML-Systems) kann vorliegend ein Modul der künstlichen Intelligenz, bspw. ein künstliches neuronales Netz oder ähnliches verstanden werden. Unter der Anwendung eines ML-System auf eine Teilmenge der Bilddaten kann vorliegend verstanden werden, dass die Teilmenge einem entsprechenden ML- System als Eingangsdaten zugeführt wird.

Das Ergebnis der Anwendung eines ML-System auf die Teilmenge der Bilddaten ist eine Klassifikation der Bilddaten. Diese Klassifikation kann bspw. zum Erkennen von Straßengrenzen genutzt werden.

Abhängig von dem Ergebnis der Anwendung, mithin in Abhängigkeit von der Klassifikation der Bilddaten kann ein Fahrzeug gesteuert bzw. die für die Steuerung eines Fahrzeugs vorgesehenen Systeme angesteuert werden.

Vorteile der Erfindung

Die Erfindung weist den Vorteil auf, dass für die Anwendung eines ML-System auf eine Teilmenge der Bilddaten im Allgemeinen weniger Rechnerressourcen erforderlich sind als bei der Anwendung eines ML-System auf die gesamten Bilddaten. Somit kann bei Vorliegen der gleichen Rechenressource eine schnellere Verarbeitung der Bilddaten erreicht werden.

Nach einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung werden die Bilddaten in Pixelform empfangen bzw. umgewandelt und die Extraktion der Teilmenge erfolgt im Schritt des Extrahierens pixelweise. Weisen in diesem Fall die Bilddaten mehr als zwei Dimensionen auf, werden typischerweise jeweils Dimensionen in einer sog. Featuremap repräsentiert. Die mehr als zweidimensionalen Bilddaten werden dann als eine Menge von Featuremaps repräsentiert.

Die Extraktion der Teilmenge kann in Abhängigkeit von einer Pixelschrittweite und einer Zeilenschrittweite je Featuremap erfolgt. So ist bspw. denkbar, dass beginnend mit dem ersten Pixel jeder zweite Pixel jeder zweiten Zeile extrahiert wird. Die Teilmenge umfasst dementsprechend lediglich ein Viertel der ursprünglichen Featuremap. Die Auswahl der Pixelschrittweite und der Zeilenschrittweite sowie ggf. der Schrittweite in den weiteren Dimensionen kann beliebig gewählt werden und ist im Wesentlichen von dem ML-System abhängig, das auf die extrahierte Teilmenge angewendet werden soll bzw. von der Rechenvorrichtung, auf der die Anwendung des ML-System auf die extrahierte Teilmenge erfolgen soll.

Bei der Rechenvorrichtung kann es sich bspw. um ein sog. Field Programmable Gate Array (FPGA), einem integrierten Schaltkreis, in den eine logische Schaltung geladen werden kann.

Die Ausführungsform hat den Vorteil, dass für das ML-System bzw. die Rechenvorrichtung optimierte Teilmengen extrahiert werden, um das ML-System bzw. die Rechenvorrichtung optimal anzuwenden bzw. auszulasten.

Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung werden im Schritt des Extrahierens mindestens zwei Teilmengen extrahiert. Dabei weisen die mindestens zwei Teilmengen die leere Menge als Schnittmenge auf.

D. h., dass der Inhalt der Teilmengen disjunkt ist und unterschiedliche Anteile der ursprünglichen Bilddaten repräsentiert. insbesondere, wobei die Extrahierung der mindestens zwei Teilmengen an unterschiedlichen Startpixeln der Bilddaten beginnt.

So können bspw. beim Vorliegen der Bilddaten in einer zweidimensionalen Featuremap die Teilmengen derart extrahiert werden, dass beginnend beim ersten Pixel (0, 0), zeilenweise jeder zweite Pixel jeder zweiten Zeile extrahiert wird.

Die weiteren Teilmengen werden nach demselben Schema extrahiert. Lediglich jeweils beginnend mit einem anderen Startpixel, (0, 1), (1, 0), (1, 1).

Durch dieses Vorgehen wird der gesamte Inhalt der ursprünglichen Featuremap bzw. Bilddaten auf vier Teilmengen verteilt, die jeweils nur ein Viertel der Größe der ursprünglichen Featuremap bzw. Bilddaten aufweist. Die Schnittmenge der vier Teilmengen ist dabei die leere Menge. Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung ist nach dem Schritt des Extrahierens die Menge der empfangen Bilddaten Teilmenge der Vereinigung der extrahierten Teilmengen. D. h. die extrahierten Teilmengen umfassen mindestens die empfangenen Bilddaten.

Diese Ausführungsform basiert auf der Erkenntnis, dass der gesamte Umfang der Bilddaten im Rahmen der Anwendung von entsprechenden ML-System auf die extrahierten Teilmengen verarbeitet werden kann.

Dadurch geht einerseits bei der Anwendung von ML-System keine Informationen verloren, die in den Bilddaten vorliegen, anderseits entsteht der Vorteil, dass mehr Kontext entsteht als bei der Anwendung eines einzelnen ML-System auf die gesamten Bilddaten.

Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung umfasst das Verfahren einen Schritt des Verwerfens nach dem Schritt des Extrahierens, wobei im Schritt des Verwerfens extrahierte Teilmengen verworfen werden.

Diese Ausführungsform weist den Vorteil auf, dass durch das Verwerfen (eng. Pruning) von Teilmengen Rechenressourcen eingespart werden können.

Hierdurch ist es möglich die erforderlichen Rechenressourcen bedarfsgerecht zuzuteilen.

Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung erfolgt im Schritt des Verwerfens ein Schritt des Bewertens, wobei im Schritt des Bewertens extrahierte Teilmengen bewertet werden und in Abhängigkeit von ihrer Bewertung verworfen werden.

Diese Ausführungsform weist den Vorteil auf, dass die Auswahl der zu verwerfenden Teilmengen auf Basis einer Bewertung und damit einer Abschätzung des möglichen Informationsverlustes getroffenen werden. Dadurch können die erforderlichen Rechenressourcen effizient zugeteilt werden Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung werden die extrahierten Teilmengen im Schritt des Anwendens, insbesondere jeweils als Featuremap, mindestens zwei unterschiedlichen ML-System zugeführt.

Diese Ausführungsform weist den Vorteil auf, dass durch die Anwendung von mindestens zwei unterschiedlichen ML-System entweder die extrahierten Teilmengen mehrmals verarbeitet werden oder - und damit effizienter - die Teilmengen mit unterschiedlichen - nicht zwingend jede Teilmenge mit einem eigenen ML-System - verarbeitet werden. Dadurch kann auf einfache Art und Weise erreicht werden, dass für die Bilddaten mehr Kontext erzeugt wird. Dies verbessert die Klassifikation der Bilddaten.

Nach einer Ausführungsform des Verfahrens der vorliegenden Erfindung entstehen durch den Schritt des Anwendens mindestens zwei Ergebnisfeaturemaps. Ferner weist diese Ausführungsform einen Schritt des Zusammenführens nach dem Schritt des Anwendens auf.

In diesem Schritt des Zusammenführens können die Ergebnisfeaturemaps als Ergebnis der Anwendung des ML-System auf die zugeführten extrahierten Teilmengen in nachstehend aufgeführten Weise zusammengeführt werden.

So ist es denkbar, dass die Ergebnisfeaturemaps zu einem Verbund aus Featuremaps konkateniert werden und weiterverarbeitet werden. Bspw. durch Zuführung des Verbunds zu einem weiteren ML-System.

Diese Variante ist vorteilhaft, um Rechenressourcen einzusparen oder in Fällen, in denen wenig Rechenressourcen zur Verfügung stehen.

Ferner ist es denkbar, die entstandenen mindestens zwei Ergebnisfeaturemaps zu einer zusammengeführten Ergebnisfeaturemap zu summieren.

Ebenso ist es denkbar, dass eine zusammengeführte Ergebnisfeaturemap durch Übernahme der Maxima aus den entstandenen mindestens zwei Ergebnisfeaturemaps gebildet wird. Auch ist es denkbar, dass die mindestens zwei entstandenen Ergebnisfeaturemaps entsprechend ihrer extrahierten Teilmengen in die Bilddaten zurückgeführt werden.

Diese Variante ist vorteilhaft, in Fällen, in denen auf die volle Dimensionierung der Bilddaten benötigt wird.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein Computerprogramm, welches eingerichtet ist, alle Schritte des Verfahrens gemäß der vorliegenden Erfindung Ansprüche auszuführen.

Ein weiterer Aspekt der vorliegenden Erfindung ist ein maschinenlesbares Speichermedium, auf dem das Computerprogramm gemäß der vorliegenden Erfindung gespeichert ist.

Ein weiterer Aspekt der vorliegenden Erfindung ist eine elektronische Steuereinheit, die eingerichtet ist, alle Schritte des Verfahrens gemäß der vorliegenden Erfindung auszuführen.

Zeichnungen

Weitere Merkmale und Vorteile der Aspekte der vorliegenden Erfindung werden nachfolgend anhand von Ausführungsformen mit Bezug auf die Figuren erläutert.

Es zeigen:

Fig. 1 ein Ablaufdiagramm einer Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung;

Fig. 2 schematisch die Klassifikation von Bilddaten gemäß einer Ausführungsform der vorliegenden Erfindung.

Figur 1 zeigt ein Ablaufdiagramm einer Ausführungsform des Verfahrens 100 gemäß der vorliegenden Erfindung. In Schritt 101 werden Bilddaten zur Klassifikation empfangen. Bei den empfangenen Bilddaten kann es sich um einzelne Bilder, d. h. im Wesentlichen um eine zweidimensionale Abbildung der aufgezeichneten Wirklichkeit oder ein künstlich erzeugtes Abbild der Wirklichkeit handeln, ferner kann es sich bei den Bilddaten um eine Serie von Bildern bzw. einem Bildstrom handeln. Ferner ist denkbar, dass es sich bei Bilddaten, um fusionierte Daten handelt, d. h. um Daten, die entstehen, wenn erfasste Messgrößen verschiedener, ggf. unterschiedlicher, Sensoriken und ggf. künstlich erzeugter Abbilder in einen gemeinsamen Ergebnisraum abgebildet werden.

Die empfangenen Bilddaten liegen dabei im Regelfall in einer ersten Dimensionierung vor.

In einem digitalen System liegen die Bilddaten typischerweise in Pixelform vor.

In Schritt 102 wird mindestens eine Teilmenge der Bilddaten extrahiert.

Die extrahierte Teilmenge kann dabei eine zweite Dimensionierung aufweisen. Die zweite Dimensionierung kann kleiner sein als die erste Dimensionierung. In einem solchen Fall findet damit eine Reduktion der Dimensionierung der ersten Dimensionierung der empfangenen Bilddaten statt.

Liegen die Bilddaten in Pixelform vor, so kann die Extrahierung pixelweise erfolgen. Bspw. dadurch, dass angefangenen beim ersten Startpixel zeilenweise jeder zweite Pixel jeder zweiten Zeile extrahiert wird. Aus zweidimensionalen Bilddaten bzw. Featuremaps wird dadurch ein Viertel der vorhandenen Informationen in die so extrahierte Teilmenge übernommen.

Durch die Extrahierung von vier Teilmenge auf diese Art und Weise, die jeweils bei dem ersten noch nicht berücksichtigten Pixel beginnt, kann die gesamte Bildinformation in vier disjunkte Teilmengen übernommen werden.

In Schritt 103 wird auf die mindestens eine extrahierte Teilmenge zur Klassifikation der Bilddaten mindestens ein ML-System angewendet. Dabei macht sich die vorliegende Erfindung die Erkenntnis zu Nutze, dass die in der Teilmenge aus den ursprünglichen Bilddaten extrahierte Information ausreicht, um unter verringertem Einsatz von Rechenressourcen eine ausreichende Klassifikation der Bilddaten zu erreichen.

Figur 2 zeigt schematisch die Klassifikation von Bilddaten 20 gemäß einer Ausführungsform der vorliegenden Erfindung. In der dargestellten Ausführungsform liegen die Bilddaten 20 in Pixelform vor. Die unterschiedlich schraffierten Kästchen repräsentieren dabei die einzelnen Pixel. Die dargestellten Bilddaten 20 haben eine Dimensionierung von 8 x 8.

Aus den zu verarbeitenden Bilddaten 20 werden in einem Schritt des Extrahierens 102 Teilmengen 21, 22, 23, 24 extrahiert. Die Teilmengen 21, 22, 23, 24 werden dabei derart extrahiert, dass beginnend beim ersten Pixel (0, 0), zeilenweise jeder zweite Pixel jeder zweiten Zeile extrahiert wird. In der Darstellung sind dies die Pixel mit der senkrechten Schraffierung.

Die weiteren Teilmengen 22, 23, 24 werden nach demselben Schema extrahiert. Lediglich jeweils beginnend mit einem anderen Startpixel, (0, 1), (1, 0), (1, 1).

Durch dieses Vorgehen wird der gesamte Inhalt der ursprünglichen Bilddaten 20 auf Teilmengen 21, 22, 23, 24 verteilt.

Die so entstandenen Teilmengen 21, 22, 23, 24 werden im vorliegenden Beispiel einem ML-System 25 zugeführt.

Das dargestellt ML-System 25 weist eine Eingabeschicht (ungefüllte Knoten), eine verborgene Schicht (schraffierte Knoten) und eine Ausgabeschicht (gefüllter Knoten) auf. Das dargestellte ML-System 25 soll lediglich beispielhaft ein entsprechend eingerichtetes und trainiertes ML-System repräsentieren.

Die Teilmengen 21, 22, 23, 24 könnten auch jeweils unterschiedlichen ML- System 25 oder mehrmals unterschiedlichen ML-System 25 zugeführt werden. Ferner werden in der dargestellten Ausführungsform nur drei der vier Teilmengen 21, 22, 23, 24 dem ML-System 25 zugeführt. Teilmenge 24 wird in einem Schritt des Verwerfens verworfen. Das dargestellt ML-System 25 ist derart eingerichtet und trainiert, dass basierend auf den zugeführten Teilmengen 21, 22, 23 eine Klassifikation der Bilddaten 20 erfolgt.