METHOD FOR TRAINING AN ARTIFICIAL NEURAL NETWORK

Title:

METHOD FOR TRAINING AN ARTIFICIAL NEURAL NETWORK

Document Type and Number:

WIPO Patent Application WO/2021/224249

Kind Code:

Abstract:

The invention relates to a method for training an artificial neural network by using training data that comprise first image data of a first image and second image data of a second image of an infrastructure, wherein the first image comprises a first feature and wherein the second image comprises a second feature corresponding to the first image, wherein the training data comprise a relative desired translation and a relative desired rotation between the first feature and the second feature, the training comprising: extracting the first feature from the first image and the second feature from the second image by means of the artificial neural network, wherein the extracted first feature is represented by first feature data having a first volume of data, wherein the extracted second feature is represented by second feature data having a second volume of data, ascertaining a relative translation and a relative rotation between the extracted first feature and the extracted second feature by means of the artificial neural network, wherein the artificial neural network is trained until a loss function that is dependent on the pose of the feature and on the first and/or second volume of data is at a minimum or is less than or less than or equal to a predefined loss function threshold value. The invention relates to an artificial neural network, a method for extracting a feature from an image of surroundings of a motor vehicle, a device, a computer program and a machine-readable storage medium.

More Like This:

WO/2019/145082	A METHOD FOR COLLABORATIVE MACHINE LEARNING OF ANALYTICAL MODELS
WO/2023/123108	METHODS AND SYSTEMS FOR ENHANCING QUALITIES OF IMAGES
WO/2023/172153	METHOD OF VIDEO CODING BY MULTI-MODAL PROCESSING

Inventors:

HASBERG CARSTEN (DE)
NASEER TAYYAB (GB)
SARANRITTICHAI PIYAPAT (DE)

Application Number:

PCT/EP2021/061716

Publication Date:

November 11, 2021

Filing Date:

May 04, 2021

Export Citation:

Click for automatic bibliography generation Help

Assignee:

BOSCH GMBH ROBERT (DE)

International Classes:

G06N3/04; B60W40/02; G06N3/08

Foreign References:

US20190258878A1	2019-08-22
US20180174047A1	2018-06-21

Other References:

LOHDEFINK JONAS ET AL: "On Low-Bitrate Image Compression for Distributed Automotive Perception: Higher Peak SNR Does Not Mean Better Semantic Segmentation", 2019 IEEE INTELLIGENT VEHICLES SYMPOSIUM (IV), IEEE, 9 June 2019 (2019-06-09), pages 424 - 431, XP033605947, DOI: 10.1109/IVS.2019.8813813
SUZUKI SATOSHI ET AL: "Image Pre-Transformation for Recognition-Aware Image Compression", 2019 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), IEEE, 22 September 2019 (2019-09-22), pages 2686 - 2690, XP033647230, DOI: 10.1109/ICIP.2019.8803275
KENDALL ALEX ET AL: "Geometric Loss Functions for Camera Pose Regression with Deep Learning", 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE COMPUTER SOCIETY, US, 21 July 2017 (2017-07-21), pages 6555 - 6564, XP033250020, ISSN: 1063-6919, [retrieved on 20171106], DOI: 10.1109/CVPR.2017.694
F. MENTZERE. AGUSTSSONM. TSCHANNENR. TIMOFTEL. V. GOOL: "Conditional Probability Models for Deep Image Compression", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2018

Download PDF:

View/Download PDF PDF Help

Claims:

Ansprüche

1. Verfahren zum Trainieren eines künstlichen neuronalen Netzes (201, 505, 607), umfassend die folgenden Schritte:

Empfangen (101) von Trainingsdatensignalen, welche Trainingsdaten zum Trainieren des künstlichen neuronalen Netzes (201, 505, 607) umfassen, wobei die Trainingsdaten erste Bilddaten eines ersten Bildes einer Infrastruktur und zweite Bilddaten eines zweiten Bildes der Infrastruktur umfassen, wobei das erste Bild ein erstes Merkmal umfasst und wobei das zweite Bild ein dem ersten Bild entsprechendes zweites Merkmal umfasst, wobei die Trainingsdaten eine relative Soll-Translation und eine relative Soll-Rotation zwischen dem ersten Merkmal und dem zweiten Merkmal umfassen,

Trainieren (103) des künstlichen neuronalen Netzes (201, 505, 607) basierend auf den Trainingsdaten, wobei das Trainieren folgende Schritte umfasst: Extrahieren (105) des ersten Merkmals aus dem ersten Bild und des zweiten Merkmals aus dem zweiten Bild mittels des künstlichen neuronalen Netzes (201, 505, 607), wobei das extrahierte erste Merkmal durch erste Merkmalsdaten aufweisend eine erste Datenmenge repräsentiert wird und wobei das extrahierte zweite Merkmal durch zweite Merkmalsdaten aufweisend eine zweite Datenmenge repräsentiert wird,

Ermitteln (107) einer relativen Translation und einer relativen Rotation zwischen dem extrahierten ersten Merkmal und dem extrahierten zweiten Merkmal mittels des künstlichen neuronalen Netzes (201, 505, 607), wobei das künstliche neuronale Netz (201, 505, 607) solange trainiert wird, bis eine von der Pose des Merkmals und von der ersten und/oder zweiten Datenmenge abhängigen Verlustfunktion ein Minimum aufweist oder kleiner oder kleiner-gleich einem vorgegebenen Verlustfunktionsschwellwert ist.

2. Verfahren nach Anspruch 1, wobei das künstliche neuronale Netz (201, 505, 607) ein CNN (Convolutional Neural Network) (609) und ein FCN (Fully Connected Network) (611) umfasst, wobei ein Ausgang des CNN (609) mit einem Eingang des FCN (611) verbunden ist, wobei die ersten und die zweiten Bilddaten einem Eingang des CNN (609) bereitgestellt werden.

3. Verfahren nach Anspruch 1 oder 2, wobei die extrahierten Merkmale quantisiert werden derart, dass die ersten und die zweiten Merkmalsdaten Integer sind.

4. Verfahren nach einem der vorherigen Ansprüche, wobei die Verlustfunktion durch folgende mathematische Gleichung definiert ist: L_total = L_Pose +

L Datenmenge, wobei L_total die Verlustfunktion ist, wobei L_Pose eine Verlustfunktion bezogen auf die Pose des Merkmals ist, wobei L_Datenmenge eine Verlustfunktion bezogen auf die erste Datenmenge der ersten Merkmalsdaten und/oder bezogen auf die zweite Datenmenge der zweiten Merkmalsdaten ist.

5. Verfahren nach Anspruch 4, wobei ist, wobei γ ein erster Parameter ist, wobei E ein Erwartungswert ist, wobei z die ersten und/oder zweiten Merkmalsdaten ist, wobei H(z) die erste und/oder zweite Datenmenge ist.

6. Verfahren nach Anspruch 4 oder Anspruch 5, wobei ist, wobei E ein Erwartungswert ist, wobei Δt_Soll die relative Soll-Translation ist, wobei Δt_ermittelt die relative Translation ist, wobei ß ein Hyperparameter ist, wobei Δq_Soll die relative Soll- Rotation ist, wobei Δq_ermittelt die relative Rotation ist.

7. Verfahren nach Anspruch 4 oder Anspruch 5, wobei ist, wobei E ein Erwartungswert ist, wobei Δt_Soll die relative Soll-Translation ist, wobei Δt_ermittelt die relative Translation ist, wobei Δq_Soll die relative Soll-Rotation ist, wobei Δq_ermittelt die relative Rotation ist, wobei s_t ein zweiter Parameter ist, wobei s_q ein dritter Parameter ist.

8. Künstliches neuronales Netz (201, 505, 607), welches mittels des Verfahrens nach einem der vorherigen Ansprüche trainiert ist. 9. Verfahren zum Extrahieren eines Merkmals aus einem Bild einer Umgebung eines Kraftfahrzeugs, umfassend die folgenden Schritte:

Empfangen (301) von Bilddatensignalen, welche Bilddaten eines Bildes der Umgebung des Kraftfahrzeugs repräsentieren, Extrahieren (303) eines Merkmals aus dem Bild mittels des künstlichen neuronalen Netzes (201, 505, 607) nach Anspruch 8,

Ausgeben (305) von Merkmalssignalen, welche das extrahierte Merkmal repräsentieren. 10. Vorrichtung (401), die eingerichtet ist, alle Schritte des Verfahrens nach einem der Ansprüche 1 bis 7 und/oder 9 auszuführen.

11. Computerprogramm (503), umfassend Befehle, die bei Ausführung des Computerprogramms (503) durch einen Computer diesen veranlassen, ein Verfahren gemäß einem der Ansprüche 1 bis 7 und/oder 9 auszuführen.

12. Maschinenlesbares Speichermedium (501), auf dem das Computerprogramm (503) nach Anspruch 11 und/oder das künstliche neuronale Netz (201, 505, 607) nach Anspruch 8 gespeichert ist.

Description:

Beschreibung

Titel

Verfahren zum Trainieren eines künstlichen neuronalen Netzes

Stand der Technik

Wenn eine gleiche Szene mittels eines jeweiligen Umfeldsensor mehrerer Kraftfahrzeuge erfasst wird, so überlappen sich die der Erfassung entsprechenden Bilder in der Regel. Jeweilige gleiche Merkmale der Bilder weisen üblicherweise einen Versatz auf.

In den Kraftfahrzeugen kann zum Beispiel ein künstliches neuronales Netz verwendet werden, um Merkmale aus den jeweiligen Bildern zu extrahieren.

Die extrahierten Merkmale können zum Beispiel von den Kraftfahrzeugen an einen entfernten Server, der zum Beispiel Teil einer Cloud-Infrastruktur sein kann, gesendet. Der Server kann die Merkmale ausrichten, um zum Beispiel eine digitale Karte zu erstellen. Ein Algorithmus auf der Cloud kann die Merkmale nutzen, um die einzelnen Fahrten der Kraftfahrzeuge basierend auf den extrahierten Merkmalen aneinander auszurichten.

Hierbei besteht ein Bedarf, dass die zu sendenden Merkmale sich zum einen für ein effizientes Ausrichten eignen. Zum anderen sollte eine Datenmenge der zu sendenden Merkmale nicht zu groß sein, da üblicherweise eine Bandbreite begrenzt ist.

Offenbarung der Erfindung

Die der Erfindung zugrunde liegende Aufgabe ist darin zu sehen, ein Konzept zum effizienten Trainieren eines künstlichen neuronalen Netzes bereitzustellen. Diese Aufgabe wird mittels des jeweiligen Gegenstands der unabhängigen Ansprüche gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind Gegenstand von jeweils abhängigen Unteransprüchen.

Nach einem ersten Aspekt wird ein Verfahren zum Trainieren eines künstlichen neuronalen Netzes bereitgestellt, umfassend die folgenden Schritte:

Empfangen von Trainingsdatensignalen, welche Trainingsdaten zum Trainieren des künstlichen neuronalen Netzes umfassen, wobei die Trainingsdaten erste Bilddaten eines ersten Bildes einer Infrastruktur und zweite Bilddaten eines zweiten Bildes der Infrastruktur umfassen, wobei das erste Bild ein erstes Merkmal umfasst und wobei das zweite Bild ein dem ersten Bild entsprechendes zweites Merkmal umfasst, wobei die Trainingsdaten eine relative Soll-Translation und eine relative Soll-Rotation zwischen dem ersten Merkmal und dem zweiten Merkmal umfassen,

Trainieren des künstlichen neuronalen Netzes basierend auf den Trainingsdaten, wobei das Trainieren folgende Schritte umfasst:

Extrahieren des ersten Merkmals aus dem ersten Bild und des zweiten Merkmals aus dem zweiten Bild mittels des künstlichen neuronalen Netzes, wobei das extrahierte erste Merkmal durch erste Merkmalsdaten aufweisend eine erste Datenmenge repräsentiert wird und wobei das extrahierte zweite Merkmal durch zweite Merkmalsdaten aufweisend eine zweite Datenmenge repräsentiert wird, Ermitteln einer relativen Translation und einer relativen Rotation zwischen dem extrahierten ersten Merkmal und dem extrahierten zweiten Merkmal mittels des künstlichen neuronalen Netzes, wobei das künstliche neuronale Netz solange trainiert wird, bis eine von der Pose des Merkmals und von der ersten und/oder zweiten Datenmenge abhängigen Verlustfunktion ein Minimum aufweist oder kleiner oder kleiner-gleich einem vorgegebenen Verlustfunktionsschwellwert ist.

Nach einem zweiten Aspekt wird ein künstliches neuronales Netz bereitgestellt, welches mittels des Verfahrens nach dem ersten Aspekt trainiert ist. Nach einem dritten Aspekt wird ein Verfahren zum Extrahieren eines Merkmals aus einem Bild einer Umgebung eines Kraftfahrzeugs bereitgestellt, umfassend die folgenden Schritte:

Empfangen von Bilddatensignalen, welche Bilddaten eines Bildes der Umgebung des Kraftfahrzeugs repräsentieren,

Extrahieren eines Merkmals aus dem Bild mittels des künstlichen neuronalen Netzes nach dem zweiten Aspekt,

Ausgeben von Merkmalssignalen, welche das extrahierte Merkmal repräsentieren.

Nach einem vierten Aspekt wird eine Vorrichtung bereitgestellt, welche eingerichtet ist, alle Schritte des Verfahrens nach dem ersten Aspekt und/oder nach dem dritten Aspekt auszuführen.

Nach einem fünften Aspekt wird ein Computerprogramm bereitgestellt, welches Befehle umfasst, die bei Ausführung des Computerprogramms durch einen Computer, beispielsweise durch die Vorrichtung nach dem vierten Aspekt, diesen veranlassen, ein Verfahren gemäß dem ersten Aspekt und/oder gemäß dem dritten Aspekt auszuführen.

Nach einem sechsten Aspekt wird ein maschinenlesbares Speichermedium bereitgestellt, auf dem das Computerprogramm nach dem fünften Aspekt und/oder das künstliche neuronale Netz nach dem zweiten Aspekt gespeichert ist.

Die Erfindung basiert auf der Erkenntnis und schließt diese mit ein, dass die obige Aufgabe dadurch gelöst werden kann, dass Verlustfunktion nicht nur von der Pose des Merkmals abhängt, sondern auch von einer Datenmenge von Merkmalsdaten, welche das extrahierte Merkmal beschreiben.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass das Extrahieren von Merkmalen aus Bildern mittels des trainierten künstlichen neuronalen Netzes nicht nur auf eine Eignung der extrahierten Merkmale für ein effizientes Ausrichten, sondern auch auf eine möglichst geringe Datenmenge optimiert ist. Dadurch wird kann eine Bandbreite für ein Senden eines extrahierten Merkmals effizient genutzt werden, wobei gleichzeitig ein entfernter Server die extrahierten Merkmale effizient ausrichten kann.

Somit wird insbesondere der technische Vorteil bewirkt, dass ein Konzept zum effizienten Trainieren eines künstlichen neuronalen Netzes bereitgestellt ist.

In einer Ausführungsform ist vorgesehen, dass das künstliche neuronale Netz ein CNN (Convolutional Neural Network) und ein FCN (Fully Connected Network) umfasst, wobei ein Ausgang des CNN mit einem Eingang des FCN verbunden ist, wobei die ersten und die zweiten Bilddaten einem Eingang des CNN bereitgestellt werden. FCN kann ins Deutsche mit "Voll-verbundenes neuronales Netzwerk" übersetzt werden. CNN kann ins Deutsche mit "Faltendes neuronales Netzwerk" übersetzt werden.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass die Merkmale effizient extrahiert werden können.

In einer Ausführungsform ist vorgesehen, dass die extrahierten Merkmale quantisiert werden derart, dass die ersten und die zweiten Merkmalsdaten Integer sind.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass die Daten effizient in Format transformiert werden können, welches zum Beispiel verwendet wird, um bei einer Ausführungsform des Verfahrens nach dem dritten Aspekt die extrahierten Merkmale über ein Kommunikationsnetzwerk von dem Kraftfahrzeug an einen entfernten Server zu senden.

Weiter wird dadurch zum Beispiel der technische Vorteil bewirkt, dass das die Datenmenge der Merkmalsdaten effizient ermittelt werden kann.

Das Quantisieren umfasst nach einer Ausführungsform ein Soft-Quantisieren. Im Englischen wird für "Soft-Quantisieren" "soft quantization" verwendet. Ein Beispiel für ein Soft-Quantisieren findet sich zum Beispiel in F. Mentzer, E. Agustsson, M. Tschannen, R. Timofte and L. V. Gool, “Conditional Probability Models for Deep Image Compression,” IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

In einer Ausführungsform ist vorgesehen, dass die Verlustfunktion durch folgende mathematische Gleichung definiert ist: L _total = L _Pose + L _Datenmenge, wobei L _total die Verlustfunktion ist, wobei L _Pose eine Verlustfunktion bezogen auf die Pose des Merkmals ist, wobei L _Datenmenge eine Verlustfunktion bezogen auf die erste Datenmenge der ersten Merkmalsdaten und/oder bezogen auf die zweite Datenmenge der zweiten Merkmalsdaten ist.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass die Verlustfunktion effizient definiert ist.

In einer Ausführungsform ist vorgesehen, dass ist, wobei γ ein erster Parameter ist, wobei E ein Erwartungswert ist, wobei z die ersten und/oder zweiten Merkmalsdaten ist, wobei H(z) die erste und/oder zweite Datenmenge ist.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass die Verlustfunktion bezogen auf die erste respektive zweite Datenmenge effizient definiert ist.

In einer Ausführungsform ist vorgesehen, dass ist, wobei E ein Erwartungswert ist, wobei Δt _Soll die relative Soll-Translation ist, wobei Δt _ermittelt die relative Translation ist, wobei ß ein Hyperparameter ist, wobei Δq _Soll die relative Soll- Rotation ist, wobei Δq _ermittelt die relative Rotation ist.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass die Verlustfunktion bezogen auf die Pose effizient definiert ist.

In einer Ausführungsform ist vorgesehen, dass ist, wobei E ein Erwartungswert ist, wobei Δt _Soll die relative Soll-Translation ist, wobei Δt _ermittelt die relative Translation ist, wobei Δq _Soll die relative Soll-Rotation ist, wobei Δq _ermittelt die relative Rotation ist, wobei s _t ein zweiter Parameter ist, wobei s _q ein dritter Parameter ist.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass die Verlustfunktion bezogen auf die Pose effizient definiert ist. Insbesondere ist eine solche Verlustfunktion besonders robust.

In einer Ausführungsform ist vorgesehen, dass das Trainieren des künstlichen neuronalen Netzes ein Trainieren des zweiten und/oder des dritten Parameters umfasst.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass der zweite und/oder dritte Parameter effizient ermittelt werden können.

Die Hyperparameter bzw. die Parameter gewichten nach einer Ausführungsform die einzelnen Anteile der Verlustfunktion L gegeneinander. Sie werden insbesondere beim Trainieren behandelt. Das heißt, dass sie insbesondere trainiert werden können.

In einer Ausführungsform ist ein Bild ein Element ausgewählt aus der folgenden Gruppe von Bildern: Videobild, Ultraschallbild, Lidarbild, Radarbild, Infrarotbild, Magnetfeldbild.

Die Infrastruktur umfasst nach einer Ausführungsform ein oder mehrere Infrastrukturelemente.

Ein Infrastrukturelement ist nach einer Ausführungsform ein Element ausgewählt aus der folgenden Gruppe von Infrastrukturelementen: Straße, Bürgersteig, Gebäude, Lichtsignalanlage, Laterne, Pfahl, Brücke, Parkplatz, Straßenschild.

Die Infrastruktur umfasst nach einer Ausführungsform eine Verkehrsinfrastruktur für Fahrzeuge, insbesondere Kraftfahrzeuge.

Ein Merkmal ist nach einer Ausführungsform ein Infrastrukturelement. Ein Merkmal ist nach einer Ausführungsform ein natürliches Element, zum Beispiel ein Baum, ein Busch, eine Hecke.

Dass das zweite Merkmal dem ersten Merkmal entspricht, bedeutet, dass es sich um das gleiche Merkmal handelt.

Nach einer Ausführungsform ist vorgesehen, dass das Verfahren nach dem ersten und/oder nach dem dritten Aspekt ein computerimplementiertes Verfahren ist.

Nach einer Ausführungsform ist vorgesehen, dass das Verfahren gemäß dem ersten Aspekt und/oder nach dem zweiten Aspekt mittels der Vorrichtung mittels dem vierten Aspekt aus- oder durchgeführt wird.

Vorrichtungsmerkmale ergeben sich analog aus entsprechenden Verfahrensmerkmalen und umgekehrt. Das heißt also insbesondere, dass sich technische Funktionalitäten der Vorrichtung nach dem zweiten Aspekt analog aus entsprechenden technischen Funktionalitäten des Verfahrens nach dem ersten Aspekt und/oder nach dem dritten Aspekt und umgekehrt ergeben.

Die Abkürzung „bzw.“‘ steht für „beziehungsweise“, was insbesondere für „respektive“ steht.

Die Formulierung „respektive“ steht insbesondere für „und/oder“.

Die Pose wird insbesondere definiert bzw. festgelegt von der relativen Rotation und der relativen Translation. Das heißt also insbesondere, dass die Pose von der relativen Rotation und der relativen Translation abhängt.

Die mittels des künstlichen neuronalen Netzes ermittelte Pose wird insbesondere definiert bzw. festgelegt von der mittels des künstlichen neuronalen Netzes ermittelten relativen Rotation und von der mittels des künstlichen neuronalen Netzes ermittelten relativen Translation. Das heißt also insbesondere, dass die Pose von der von der mittels des künstlichen neuronalen Netzes ermittelten relativen Rotation und von der mittels des künstlichen neuronalen Netzes ermittelten relativen Translation abhängt.

Die Soll-Pose wird insbesondere definiert bzw. festgelegt von der relativen Soll- Rotation und der relativen Soll-Translation. Das heißt also insbesondere, dass die Soll-Pose von der relativen Soll-Rotation und der relativen Soll-Translation abhängt.

Wenn der allgemeine Begriff "Pose" verwendet wird, umfasst dieser folgende Formulierung "Soll-Pose und/oder mittels des künstlichen neuronalen Netzes ermittelte Pose".

Wenn der allgemeine Begriff "Merkmalsdaten" verwendet wird, umfasst dieser folgende Formulierung "erste und/oder zweite Merkmalsdaten".

Wenn der allgemeine Begriff "Merkmal" verwendet wird, umfasst dieser folgende Formulierung "erstes und/oder zweites Merkmal".

Wenn der allgemeine Begriff "Datenmenge" verwendet wird, umfasst diese folgende Formulierung "erste und/oder zweite Datenmenge".

Die Datenmenge kann auch als Entropie bezeichnet werden, auf Englisch "Entropy".

Das Kraftfahrzeug ist nach einer Ausführungsform eingerichtet, zumindest teilautomatisiert geführt zu werden.

Das Kraftfahrzeug umfasst nach einer Ausführungsform einen oder mehrere Umfeldsensoren.

Ein Umfeldsensor ist nach einer Ausführungsform einer der folgenden Umfeldsensoren: Radarsensor, Videosensor, Ultraschallsensor, Lidarsensor, Magnetfeldsensor, Infrarotsensor. Das Bild der Umgebung des Kraftfahrzeugs basiert auf einer Erfassung der Umgebung des Kraftfahrzeugs mittels des einen oder mittels der mehreren Umfeldsensoren.

Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert.

Es zeigen:

Fig. 1 ein Ablaufdiagramm eines Verfahrens zum Trainieren eines künstlichen neuronalen Netzes,

Fig. 2 ein künstliches neuronales Netz,

Fig. 3 ein Ablaufdiagramm eines Verfahrens zum Extrahieren eines Merkmals aus einem Bild einer Umgebung eines Kraftfahrzeugs,

Fig. 4 eine Vorrichtung,

Fig. 5 ein maschinenlesbares Speichermedium und

Fig. 6 ein Blockdiagramm.

Im Folgenden können für gleiche Merkmale gleiche Bezugszeichen verwendet werden.

Fig. 1 zeigt ein Ablaufdiagramm eines Verfahrens zum Trainieren eines künstlichen neuronalen Netzes, umfassend die folgenden Schritte:

Empfangen 101 von Trainingsdatensignalen, welche Trainingsdaten zum Trainieren des künstlichen neuronalen Netzes umfassen, wobei die Trainingsdaten erste Bilddaten eines ersten Bildes einer Infrastruktur und zweite Bilddaten eines zweiten Bildes der Infrastruktur umfassen, wobei das erste Bild ein erstes Merkmal umfasst und wobei das zweite Bild ein dem ersten Bild entsprechendes zweites Merkmal umfasst, wobei die Trainingsdaten eine relative Soll-Translation und eine relative Soll-Rotation zwischen dem ersten Merkmal und dem zweiten Merkmal umfassen,

Trainieren 103 des künstlichen neuronalen Netzes basierend auf den Trainingsdaten, wobei das Trainieren folgende Schritte umfasst:

Extrahieren 105 des ersten Merkmals aus dem ersten Bild und des zweiten Merkmals aus dem zweiten Bild mittels des künstlichen neuronalen Netzes, wobei das extrahierte erste Merkmal durch erste Merkmalsdaten aufweisend eine erste Datenmenge repräsentiert wird und wobei das extrahierte zweite Merkmal durch zweite Merkmalsdaten aufweisend eine zweite Datenmenge repräsentiert wird,

Ermitteln 107 einer relativen Translation und einer relativen Rotation zwischen dem extrahierten ersten Merkmal und dem extrahierten zweiten Merkmal mittels des künstlichen neuronalen Netzes, wobei das künstliche neuronale Netz solange trainiert wird, bis eine von der Pose des Merkmals und von der ersten und/oder zweiten Datenmenge abhängigen Verlustfunktion ein Minimum aufweist oder kleiner oder kleiner-gleich einem vorgegebenen Verlustfunktionsschwellwert ist.

Fig. 2 zeigt ein künstliches neuronales Netz 201, welches mittels des Verfahrens nach dem ersten Aspekt trainiert ist.

Fig. 3 zeigt ein Ablaufdiagramm eines Verfahrens zum Extrahieren eines Merkmals aus einem Bild einer Umgebung eines Kraftfahrzeugs, umfassend die folgenden Schritte:

Empfangen 301 von Bilddatensignalen, welche Bilddaten eines Bildes der Umgebung des Kraftfahrzeugs repräsentieren,

Extrahieren 303 eines Merkmals aus dem Bild mittels des künstlichen neuronalen Netzes nach Anspruch 8,

Ausgeben 305 von Merkmalssignalen, welche das extrahierte Merkmal repräsentieren.

In einer Ausführungsform ist vorgesehen, dass das extrahierte Merkmal über ein Kommunikationsnetzwerk an einen entfernten Server gesendet wird. Das Kommunikationsnetzwerk umfasst gemäß einer Ausführungsform ein drahtloses und/oder ein drahtgebundenes Kommunikationsnetzwerk.

Ein drahtloses Kommunikationsnetzwerk umfasst gemäß einer Ausführungsform ein WLAN-Kommunikationsnetzwerk und/oder ein Mobilfunknetz.

Fig. 4 zeigt eine Vorrichtung 401.

Die Vorrichtung 401 ist eingerichtet, alle Schritte des Verfahrens nach dem ersten Aspekt und/oder nach dem dritten Aspekt auszuführen.

Die Vorrichtung 401 umfasst einen Eingang 403, welcher eingerichtet ist, die Trainingsdatensignale und/oder die Bilddatensignale zu empfangen.

Die Vorrichtung 401 umfasst einen Prozessor 405, welcher eingerichtet ist, das künstliche neuronale Netz basierend auf den Trainingsdaten zu trainieren und/oder ein Merkmal aus dem Bild mittels des künstlichen neuronalen Netzes zu extrahieren.

Der Prozessor 405 ist insbesondere eingerichtet, die Schritte, die vom Trainieren des künstlichen neuronalen Netzes umfasst sind, auszuführen.

Die Vorrichtung 401 umfasst einen Ausgang 407, welcher eingerichtet ist, die Merkmalssignale auszugeben und/oder Trainingsergebnissignale auszugeben, welche das trainierte künstliche neuronale Netz repräsentieren.

Fig. 5 zeigt ein maschinenlesbares Speichermedium 501.

Auf dem maschinenlesbaren Speichermedium 501 ist ein Computerprogramm 503 gespeichert. Das Computerprogramm 503 umfasst Befehle, die bei Ausführung des Computerprogramms 503 durch einen Computer diesen veranlassen, ein Verfahren gemäß dem ersten Aspekt und/oder gemäß dem dritten Aspekt auszuführen. Auf dem maschinenlesbaren Speichermedium 501 ist ein künstliches neuronales Netz 505 gemäß dem zweiten Aspekt gespeichert.

In einer nicht gezeigten Ausführungsform ist vorgesehen, dass auf dem maschinenlesbaren Speichermedium nur das Computerprogramm 503 oder nur das künstliche neuronale Netz 505 gespeichert ist.

Fig. 6 zeigt ein Blockdiagramm 601.

Das Blockdiagramm 601 umfasst einen ersten Funktionsblock 603 und umfasst einen zweiten Funktionsblock 605.

Beide Funktionsblöcke 603, 605 sind identisch.

Der erste Funktionsblock 603 ist zum Beispiel in einer ersten Vorrichtung gemäß dem dritten Aspekt implementiert.

Der zweite Funktionsblock 605 ist zum Beispiel in einer zweiten Vorrichtung nach dem dritten Aspekt implementiert.

Die erste Vorrichtung ist zum Beispiel in einem ersten Kraftfahrzeug integriert.

Die zweite Vorrichtung ist zum Beispiel in einem zweiten Kraftfahrzeug integriert.

Beide Funktionsblöcke 603, 605 umfassen jeweils ein künstliches neuronales Netz 607.

Das künstliche neuronale Netz 607 ist gemäß dem Verfahren nach dem ersten Aspekt trainiert.

Das künstliche neuronale Netz 607 umfasst ein Convolutional Neural Network 609, im Folgenden mit CNN abgekürzt.

Das künstliche neuronale Netz 607 umfasst ein Fully Connected Network 611, im Folgenden mit FCN abgekürzt. Beide Funktionsblöcke 603, 605 umfassen jeweils einen Quantisierer 613.

Das CNN 609 umfasst einen ersten Eingang 615 und umfasst einen ersten Ausgang 617.

Das FCN 611 umfasst einen zweiten Eingang 619 und umfasst einen zweiten Ausgang 621.

Der Quantisierer 613 umfasst einen dritten Eingang 623 und umfasst einen dritten Ausgang 625.

Der erste Ausgang 617 ist mit dem zweiten Eingang 619 verbunden.

Der zweite Ausgang 621 ist mit dem dritten Eingang 623 verbunden.

Dem ersten Eingang 615 gemäß dem ersten Funktionsblock 603 werden erste Bilddaten 627 bereitgestellt. Die ersten Bilddaten 627 repräsentieren ein erstes Bild einer ersten Umgebung des ersten Kraftfahrzeugs.

Dem ersten Eingang 615 gemäß dem zweiten Funktionsblock 605 werden zweite Bilddaten 629 bereitgestellt. Die zweiten Bilddaten 629 repräsentieren ein zweites Bild einer zweiten Umgebung des zweiten Kraftfahrzeugs.

Die erste und die zweite Umgebung können sich gemäß einer Ausführungsform überlappen.

Das jeweilige künstliche neuronale Netz 607 extrahiert aus den beiden Bildern jeweils ein Merkmal, welches entsprechend dem dritten Eingang 623 des entsprechenden Quantisierers 613 gemäß dem ersten Funktionsblock 603 und gemäß dem zweiten Funktionsblock 605 zur Verfügung gestellt wird.

Der jeweilige Quantisierer 613 quantisiert die extrahierten Merkmale derart, dass die ersten und die zweiten Merkmalsdaten, welche die entsprechenden extrahierten Merkmale repräsentieren, Integer sind. Die quantisierten Merkmale werden mittels des Ausgangs 625 des jeweiligen Quantisierers 613 ausgegeben.

Der dritte Ausgang 625 des Quantisierers 613 gemäß dem ersten Funktionsblock 603 gibt ein erstes quantisiertes extrahiertes Merkmal 631 aus.

Der dritte Ausgang 625 des Quantisierers 613 gemäß dem zweiten Funktionsblock 605 gibt ein zweites quantisiertes extrahiertes Merkmal 633 aus.

In dem Blockdiagramm 601 ist eine vertikale gestrichelt dargestellte Linie 635 gezeichnet.

Diese symbolisiert, dass die beiden quantisierten extrahierten Merkmale 631,

633 über ein Kommunikationsnetzwerk von den jeweiligen Kraftfahrzeugen an einen entfernten Server 637 gesendet werden.

Der Server 637 umfasst ein weiteres künstliches neuronales Netz 639, welches gemäß einer Ausführungsform ein weiteres FCN sein kann.

Mittels des weiteren künstlichen neuronalen Netzes 639 werden die beiden quantisierten extrahierten Merkmale 631, 633 ausgerichtet, im Englischen "aligned", um eine relative Rotation und eine relative Translation bezogen auf diese beiden Merkmale zu ermitteln.

Die ermittelte relative Translation und die ermittelte relative Rotation definieren eine Pose 641 des Merkmals.

Das hier beschriebene Konzept weist unter anderem insbesondere den Vorteil auf, dass die extrahierten Merkmale kompakt repräsentiert werden können, was zu niedrigeren Anforderungen hinsichtlich eines Datentransfers führt.

Somit ist insbesondere ein Vorteil darin zu sehen, dass eine effiziente Datenrate ermöglicht ist. Weiter weist das hier beschriebene Konzept insbesondere den Vorteil auf, dass die extrahierten Merkmale effizient gespeichert werden können, insofern sie weniger Speicherplatz benötigen als zum Beispiel Rohdaten, welche zum Beispiel Rohbilder der Umgebung repräsentieren.

Dadurch wird zum Beispiel der technische Vorteil bewirkt, dass ein Server, welcher die extrahierten Merkmale verarbeitet und speichert, weniger Speicherplatz und/oder weniger Rechenkapazitäten benötigt.

Previous Patent: CATHETER

Next Patent: IMPROVED FLUIDIC DEVICE