Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
TRAINING NEURAL NETWORKS FOR EQUIVARIANCE OR INVARIANCE WITH RESPECT TO CHANGES IN THE INPUT IMAGE
Document Type and Number:
WIPO Patent Application WO/2023/016859
Kind Code:
A1
Abstract:
The invention relates to a method (100) for training a neural network (1) which is designed to process input images (2) and comprises multiple convolutional layers, each convolutional layer being designed to map the input f of the respective convolutional layer onto at least one feature map K) by using at least one filter core K. The method involves the steps of: • providing (110) a quantity T of transformations T, with respect to which the neural network (1) should be capable of learning how to generate at least one equivariant or invariant feature map K) when said transformations are applied to the input f of at least one convolutional layer; • expressing (120) the feature map K) by an aggregation (5) of feature maps O7(f, T7 [K]) which is parameterized by parameters (5a), each feature map being obtained by applying transformations 7) e T to the at least one filter core K; • providing (130) learning images (2a) and learning outputs (3a) onto which the trained neural network (1) should ideally map the learning images (2a); • mapping (140) the learning images (2a) onto outputs (3) by the neural network (1); • evaluating (150) deviations of the outputs (3) from the learning outputs (3a) using a specified cost function (4); and • optimizing (160) parameters (5a) of the parameterized aggregation (5) as well as additional parameters (la) which characterize the behavior of the neural network (1), with the goal of an expected improvement of the evaluation process (4a) by using the cost function (4) upon further processing learning images (2a).

Inventors:
SOSNOVIK IVAN (GB)
GULSHAD SADAF (NL)
SMEULDERS ARNOLD (NL)
METZEN JAN HENDRIK (DE)
Application Number:
PCT/EP2022/071667
Publication Date:
February 16, 2023
Filing Date:
August 02, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G06V10/44; G06V10/82
Foreign References:
DE102018204494B32019-08-14
Other References:
SADAF GULSHAD ET AL: "Built-in Elastic Transformations for Improved Robustness", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 20 July 2021 (2021-07-20), XP091014161
ANONYMOUS: "Artificial neural network", WIKIPEDIA, 8 August 2021 (2021-08-08), pages 1 - 11, XP055978327, Retrieved from the Internet [retrieved on 20221107]
ANONYMOUS: "predict", 19 June 2021 (2021-06-19), pages 1 - 9, XP055978487, Retrieved from the Internet [retrieved on 20221107]
Download PDF:
Claims:
Ansprüche

1. Verfahren (100) zum Trainieren eines neuronalen Netzwerks (1), das zur Verarbeitung von Eingabe-Bildern (2) ausgebildet ist und mehrere Faltungsschichten umfasst, wobei jede dieser Faltungsschichten dazu ausgebildet ist, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns ᴋ auf mindestens eine Merkmalskarte Φ(ƒ, ᴋ) abzubilden, mit den Schritten:

• es wird eine Menge Ƭ von Transformationen T bereitgestellt (110), bezüglich derer das neuronale Netzwerk (1) beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(ƒ, ᴋ) ZU erlernen;

• diese Merkmalskarte Φ(ƒ, ᴋ) wird durch eine mit Parametern (5a) parametrisierte Aggregation (5) von Merkmalskarten Φj(ƒ, Ƭj[ᴋ]) ausgedrückt (120), die jeweils durch das Anwenden von Transformationen Tj ∈ Ƭ auf den mindestens einen Filterkern ᴋ erhalten werden;

• es werden Lern-Bilder (2a) sowie Lern-Ausgaben (3a), auf die das trainierte neuronale Netzwerk (1) diese Lern-Bilder (2a) idealerweise abbilden soll, bereitgestellt (130);

• die Lern-Bilder (2a) werden von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet (140);

• Abweichungen dieser Ausgaben (3) von den Lern-Ausgaben (3a) werden mit einer vorgegebenen Kostenfunktion (4) bewertet (150);

• Parameter (5a) der parametrisierten Aggregation (5) sowie weitere Parameter (la), die das Verhalten des neuronalen Netzwerks (1) charakterisieren, werden optimiert (160) mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern (2a) die Bewertung (4a) durch die Kostenfunktion (4) voraussichtlich verbessert.

2. Verfahren (100) nach Anspruch 1, wobei der Filterkern ᴋ als mit Parametern parametrisierte Linearkombination ∑i wiψi von Basisfunktionen ψi ausgedrückt wird (121).

3. Verfahren (100) nach Anspruch 2, wobei Basisfunktionen ψi gewählt werden (121a), die mindestens über Hermitesche Polynome von Ortskoordinaten x, y in der Eingabe f abhängen.

4. Verfahren (100) nach einem der Ansprüche 1 bis 3, wobei die Merkmalskarten Φj(ƒ, Ƭj[ᴋ]) in der Aggregation (5) untereinander mit von der Eingabe f abhängigen Gewichten βj(ƒ) gewichtet werden (122).

5. Verfahren (100) nach einem der Ansprüche 1 bis 4, wobei elastische Transformationen, die als Feld von Auslenkungen in räumlichen Koordinaten des Eingabe-Bildes beschreibbar sind, als Transformationen T ∈ Ƭ gewählt werden (111).

6. Verfahren (100) nach Anspruch 5, wobei lineare Streckungen, und/oder Rotationsskalierungen, als Transformationen T ∈ Ƭ gewählt werden (lila).

7. Verfahren (100) nach einem der Ansprüche 1 bis 6, wobei mindestens eine Merkmalskarte Φ(ƒ, ᴋ) gewählt wird (123), die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne ᴋI, ᴋ2, ... auf die Eingabe f entsteht, beinhaltet.

8. Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei die Merkmalskarten Φj(ƒ, Ƭj[ᴋ]) aggregiert werden, indem für jedes Element der Merkmalskarten

• ein elementweises Maximum,

• ein geglättetes elementweises Maximum oder

• ein elementweiser Mittelwert entlang der Dimension j der Transformationen Tj ∈ Ƭ gebildet wird (124).

9. Verfahren (100) nach einem der Ansprüche 1 bis 7, wobei das Aggregieren von Merkmalskarten Φj(ƒ, Ƭj[ᴋ]) beinhaltet, eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen (125).

10. Verfahren (100) nach einem der Ansprüche 1 bis 9, wobei ein Bildklassifikator, der Eingabe-Bilder auf Klassifikations-Scores bezüglich einer oder mehreren Klassen einer vorgegebenen Klassifikation abbildet, als neuronales Netzwerk (1) gewählt wird (105).

11. Verfahren (100) nach einem der Ansprüche 1 bis 10, wobei

• dem trainierten neuronalen Netzwerk (1*) Eingabe-Bilder (2) zugeführt werden (170), die mit mindestens einem Sensor (51) aufgenommen wurden, so dass diese Eingabe-Bilder (2) von dem neuronalen Netzwerk (1) auf Ausgaben (3) abgebildet werden;

• aus den Ausgaben (3) ein Ansteuersignal (180a) ermittelt wird (180); und

• ein Fahrzeug (50), und/oder ein System (60) für die Qualitätskontrolle von Produkten, und/oder ein System (70) für die Überwachung von Bereichen, mit diesem Ansteuersignal (180a) angesteuert wird (190).

12. Computerprogramm, enthaltend maschinenlesbare Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.

13. Maschinenlesbarer Datenträger mit dem Computerprogramm nach Anspruch 12.

14. Ein oder mehrere Computer mit dem Computerprogramm nach Anspruch 12, und/oder mit dem maschinenlesbaren Datenträger nach Anspruch 13.

Description:
Beschreibung

Titel:

TRAINING VON NEURONALEN NETZWERKEN AUF ÄQUIVARIANZ ODER INVARIANZ GEGENÜBER ÄNDERUNGEN DES EINGABE-BILDES

Die vorliegende Erfindung betrifft das Training neuronaler Netzwerke, die Bilder verarbeiten und beispielsweise auf Klassifikations-Scores in Bezug auf Klassen einer vorgegebenen Klassifikation abbilden.

Stand der Technik

Viele Fahrassistenzsysteme und Systeme für das zumindest teilweise automatisierte Fahren verarbeiten die von Sensoren eines Fahrzeugs aufgenommenen Messdaten mit Klassifikatoren zu Klassifikations-Scores in Bezug auf eine oder mehrere Klassen einer vorgegebenen Klassifikation. Auf der Basis dieser Klassifikations-Scores werden dann beispielsweise Entscheidungen über Eingriffe in die Fahrdynamik des Fahrzeugs getroffen.

Das Training derartiger Klassifikatoren erfordert Trainingsdaten mit einer großen Variabilität, damit der Klassifikator gut auf im Training bislang ungesehene Messdaten generalisieren kann. Das Aufnehmen von Trainingsdaten auf Testfahrten mit dem Fahrzeug und erst recht das größtenteils manuelle Labeln dieser Trainingsdaten mit Soll- Klassifikations-Scores sind zeitaufwändig und teuer.

Daher werden die Trainingsdaten häufig mit synthetisch generierten Trainingsdaten angereichert. So offenbart etwa die DE 10 2018 204494 B3 ein Verfahren, mit dem Radarsignale synthetisch generiert werden können, um damit physikalisch aufgenommene Radarsignale für das Training eines Klassifikators anzureichern. Offenbarung der Erfindung

Im Rahmen der Erfindung wurde ein Verfahren zum Trainieren eines neuronalen Netzwerks entwickelt. Dieses neuronale Netzwerk ist zur Verarbeitung von Eingabe-Bildern ausgebildet und umfasst mehrere Faltungsschichten. Hierbei ist jede Faltungsschicht dazu ausgebildet, ihre jeweilige Eingabe f durch Anwenden mindestens eines Filterkerns ᴋ auf mindestens eine Merkmalskarte Φ(ƒ, ᴋ) abzubilden. Typischerweise weist diese Merkmalskarte Φ(ƒ, ᴋ) eine im Vergleich zu der Eingabe f deutlich reduzierte Dimensionalität auf.

Beispielsweise kann ein Bildklassifikator, der Eingabe-Bilder auf Klassifikations- Scores bezüglich einer oder mehreren Klassen einer vorgegebenen Klassifikation abbildet, als neuronales Netzwerk gewählt werden. Insbesondere die von der letzten Faltungsschicht in einer Abfolge von Faltungsschichten gelieferten Merkmalskarten können im Hinblick auf die Klassifikations-Scores ausgewertet werden.

Im Rahmen des Verfahrens wird eine Menge Ƭ von Transformationen T bereitgestellt, bezüglich derer das neuronale Netzwerk beim Training in die Lage versetzt werden soll, bei Anwendung dieser Transformationen auf die Eingabe f mindestens einer Faltungsschicht die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(ƒ, ᴋ) ZU erlernen. Dies bedeutet nicht, dass die Merkmalskarte Φ(ƒ, ᴋ) immer gegen alle Transformationen T aus der eine Menge Ƭ äquivariant bzw. invariant wird. Vielmehr wird angestrebt, die Merkmalskarte Φ(ƒ, ᴋ) in dem Umfang äquivariant bzw. invariant gegen Transformationen zu machen, in dem derartige Transformationen in den beim Training verwendeten Lern-Bildern vorkommen.

Zu diesem Zweck wird die äquivariant bzw. invariant zu machende Merkmalskarte Φ(ƒ, ᴋ) durch eine mit Parametern parametrisierte Aggregation von Merkmalskarten Φ j (ƒ, T j [ᴋ]) ausgedrückt, die jeweils durch das Anwenden von Transformationen T j ∈ Ƭ auf den mindestens einen Filterkern ᴋ erhalten werden. Diese Parameter werden beim Training des neuronalen Netzwerks als zusätzliche Freiheitsgrade verwendet. Für das überwachte Training werden Lern-Bilder sowie Lern-Ausgaben, auf die das trainierte neuronale Netzwerk diese Lern-Bilder idealerweise abbilden soll, bereitgestellt. Die Lern-Bilder werden von dem neuronalen Netzwerk auf Ausgaben abgebildet, und Abweichungen dieser Ausgaben von den Lern- Ausgaben werden mit einer vorgegebenen Kostenfunktion bewertet.

Es werden nun Parameter der parametrisierten Aggregation sowie weitere Parameter, die das Verhalten des neuronalen Netzwerks charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern die Bewertung durch die Kostenfunktion voraussichtlich verbessert. Diese weiteren Parameter können insbesondere beispielsweise Gewichte sein, mit denen Eingaben, die Neuronen oder anderen Verarbeitungseinheiten des neuronalen Netzwerks zugeführt werden, gewichtet zu einer Aktivierung dieses Neurons, bzw. dieser Verarbeitungseinheit, summiert werden.

Der Begriff „voraussichtlich“ ist in diesem Zusammenhang so zu verstehen, dass iterative numerische Optimierungsalgorithmen die neuen Werte der Parameter für die nächste Iteration auf Grund der Vorgeschichte an Iterationen auswählen in der Erwartung, dass sich hiermit die Bewertung durch die Kostenfunktion verbessert. Diese Erwartung muss sich jedoch nicht für jede Iteration erfüllen, d.h., eine Iteration kann sich auch als „Rückschritt“ erweisen. Der Optimierungsalgorithmus kann jedoch auch ein Feedback dieser Art nutzen, um so letztendlich zu Werten der Parameter zu gelangen, für die sich die Bewertung durch die Kostenfunktion verbessert.

Indem die Parameter der parametrisierten Aggregation als zusätzliche Freiheitsgrade für das Training verwendet werden, lernt das neuronale Netzwerk, Merkmalskarten genau in dem Umfang äquivariant oder invariant gegen Transformationen der Eingabe zu machen, wie dies der Leistung des neuronalen Netzwerks in Bezug auf die jeweilige konkrete Anwendung tatsächlich förderlich ist. Dies ist ein Stück weit analog zum Anpassungsprozess einer Brille bei einem Augenoptiker. Den Transformationen T entsprechen hier den verschiedenen Korrekturlinsen für Kurzsichtigkeit, Weitsichtigkeit, Astigmatismus und andere Abbildungsfehler des Auges. Es werden genau diejenigen Korrekturen angewendet, mit denen der Kunde die zum Testen vorgelegten Zahlen und Buchstaben am besten erkennen kann.

Der Nutzeffekt der trainierten Äquivarianzen und Invarianzen beim Training ist insbesondere, dass das neuronale Netzwerk Objekte und Sachverhalte in verschiedenen Eingabe-Bildern, die sich nur um eine Anwendung der besagten Transformationen unterscheiden und ansonsten inhaltlich gleich sind, als gleich erkennt. Die Erkenntnis, dass beispielsweise ein gedrehtes, skaliertes oder aus einer anderen Perspektive betrachtetes Fahrzeug immer noch ein Fahrzeug ist, muss dem neuronalen Netzwerk daher nicht mehr implizit vermittelt werden, indem ihm eine Vielzahl derartiger abgewandelter Lern-Bilder vorgelegt wird und all diese Lern-Bilder mit der gleichen Lern-Ausgabe gelabelt werden.

Dementsprechend kann sich die Variabilität der verwendeten Lern-Bilder auf diejenigen Eigenschaften konzentrieren, die mit dem neuronalen Netzwerk untersucht werden sollen. Ein bestimmtes quantitatives Maß an Leistung in Bezug auf die Aufgabe des neuronalen Netzwerks, bei einem Bildklassifikator beispielsweise gemessen an der Klassifikationsgenauigkeit auf einem Satz von Test- oder Validierungsdaten, lässt sich dann insgesamt mit einer geringeren Menge an Lern-Bildern erzielen. Gerade mit Lern-Ausgaben gelabelte Lern- Bilder von Verkehrssituationen sind besonders teuer zu beschaffen, da lange Testfahrten erforderlich sind und das Labeln manuelle Arbeit erfordert.

Dabei reicht eine nur ungefähre Kenntnis derjenigen Transformationen, bezüglich derer das Lernen einer Äquivarianz oder Invarianz vorteilhaft sein könnte, um in Bezug auf die an das neuronale Netzwerk gestellte Aufgabe hiervon profitieren zu können. Insofern trägt auch hier die Analogie zum Augenoptiker, der zunächst einmal nur weiß, von welcher Art Abbildungsfehler überhaupt sein können, und die Art und Stärke von Abbildungsfehlern eines konkreten Auges erst durch den iterativen Anpassungsprozess herausfindet.

In einer besonders vorteilhaften Ausgestaltung wird der Filterkern ᴋ als mit Parametern parametrisierte Linearkombination von Basisfunktionen i ausgedrückt. Die Wirkung der Transformationen T auf die Basisfunktionen ψ i kann dann vorausberechnet und immer wieder verwendet werden. Während des Trainings werden nur die Parameter variiert, um die Linearkombination anzupassen. Somit zieht jede Anpassung der Linearkombination im Zuge eines Trainingsschritts einen geringeren Rechenaufwand nach sich.

Die Anwendung einer Transformation T auf die Eingabe f der Faltungsschicht macht die Merkmalskarte Φ(ƒ, ᴋ) ZU einer Merkmalskarte Φ(T[ƒ], ᴋ). Wenn K eine Matrixdarstellung des Filterkerns ᴋ und f eine Matrixdarstellung der Eingabe f ist, ist Φ(ƒ, ᴋ) = K x f. Das Anwenden der Transformation T mit der Matrixdarstellung T bewirkt hier, dass T mit f zu multiplizieren ist, bevor der Filterkern ᴋ angewendet wird. Nach dem Assoziativgesetz für die Multiplikation gilt: Φ(T'[ƒ], ᴋ) = K x (T x f) = (K x T) x f = Φ(f, T [ᴋ]).

Das Transformieren der Eingabe f ist also äquivalent zum Transformieren des Filterkerns ᴋ. Die Bezeichnungen T'[f] einerseits und T[ᴋ] andererseits drücken aus, dass die Multiplikation mit der Matrix T nicht kommutativ ist. Das heißt, die Multiplikation mit T von links führt nicht zum gleichen Ergebnis wie die Multiplikation mit T von rechts.

Die Merkmalskarte Φ j (ƒ, Ƭ j [ᴋ]), die sich durch Anwendung der Transformation T j auf einen Filterkern ᴋ ergibt, lässt sich schreiben als: da die Zusammensetzung ᴋ = ∑ i w i ψ i = w • ψ aus den Basisfunktionen sich unter der Transformation T j nicht ändert.

Die Gewichtung der Merkmalskarten untereinander in der Aggregation kann dann insbesondere beispielsweise mit von der Eingabe f abhängigen Gewichten β j (ƒ) erfolgen. Eine Merkmalskarte Φ j (ƒ, Ƭ[ᴋ],) die durch Anwenden einer oder mehrerer Transformationen T j ∈ Ƭ entsteht, lässt sich dann schreiben als:

Hierin ist σ eine beliebige Aggregationsfunktion, und die T j sind die

Transformationen aus der Menge Ƭ. Diese Menge Ƭ kann insbesondere beispielsweise auch die Identität als Transformation enthalten. Das Training lässt sich dann beispielsweise so initialisieren, dass zunächst nur das Gewicht β j (ƒ) für die Identität gleich 1 ist und die Gewichte β j (ƒ) für alle anderen Transformationen T j gleich 0 sind.

Als Basisfunktionen ψ für die Filterkerne ᴋ können insbesondere beispielsweise Funktionen gewählt werden, die mindestens über Hermitesche Polynome H m , H n von Ortskoordinaten x, y in der Eingabe f abhängen: mit einer Normierungskonstanten A und dem Skalierungsfaktor n. Mit derartigen Basisfunktionen können insbesondere solche Filterkerne ᴋ konstruiert werden, die für die Erkennung von Merkmalen in Bildern besonders geeignet sind.

In einer besonders vorteilhaften Ausgestaltung wird mindestens eine Merkmalskarte Φ(ƒ, ᴋ) gewählt, die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne ᴋI, ᴋ2, ... auf die Eingabe f entsteht, beinhaltet. Auf diese Weise können die Anpassungen, die für die verschiedenen Faltungsschichten in einer Stapelung in einem so genannten „Residual Block“ gelernt werden, miteinander koordiniert werden. Eine Merkmalskarte Φ(ƒ, Ƭ[ᴋ 1 , ᴋ 2 , ... ]), die durch Anwenden einer oder mehrerer Transformationen T j ∈ Ƭ entsteht, lässt sich dann schreiben als:

Hierin sind ψ 1 2 , ... die Basisfunktionen, aus denen die Filterkerne K 2 , ... gebildet sind.

Die Transformationen können insbesondere beispielsweise elastische Transformationen sein. Dies sind Transformationen, die zumindest näherungsweise als Feld von Auslenkungen T in räumlichen Koordinaten x des Eingabe-Bildes f mit einer Stärke s beschreibbar sind:

T[ƒ(x)](ε) ≈ f(x + ετ(x)). Hiermit lässt sich eine große Klasse von Transformationen annähern, die sich ergeben, wenn etwa eine für eine Bildaufnahme verwendete Kamera ihre Perspektive relativ zur Szenerie ändert.

Die elastischen Transformationen können insbesondere beispielsweise lineare Streckungen und/oder Rotationsskalierungen umfassen. Dies sind Transformationen, die beispielsweise durch eine Änderung der Perspektive einer Kamera relativ zu einem Objekt bewirkt werden.

Koordinaten x', y' im Eingabe-Bild nach einer linearen Streckung können beispielsweise gemäß aus den ursprünglichen Koordinaten x, y hervorgehen. Hierin ist y = 1/(e -6 + cos(α)), δ = 0 - Φ, Φ = arctan(y/x), θ ist eine kleine Auslegung, und α ist ein Elastizitätskoeffizient. Hierin soll die sehr kleine positive, willkürlich gewählte Konstante e -6 eine Division durch Null verhindern, wenn cos(α) = 0.

Koordinaten x', y' im Eingabe-Bild nach einer Rotationsskalierung können beispielsweise gemäß x' = x + α(x cos(θ) + y sin(θ)), y ' = y + α(— x sin(θ) + y cos(θ)) aus den ursprünglichen Koordinaten x, y hervorgehen.

Bei diesen Transformationen wird jeweils angenommen, dass das Zentrum des Filterkerns ᴋ im Punkt (0, 0) liegt und ein Fixpunkt der Transformation ist.

Die Aggregationsfunktion σ für die Aggregation der Merkmalskarten Φ j (ƒ, Ƭ j [ᴋ]) kann insbesondere beispielsweise für jedes Element der Merkmalskarten

• ein elementweises Maximum,

• ein geglättetes elementweises Maximum oder

• ein elementweiser Mittelwert entlang der Dimension j der Transformationen T j ∈ Ƭ bilden. Wenn beispielsweise ein Eingabe-Bild f eine Höhe H, eine Breite W und eine Anzahl C von Farbkanälen hat, kann es als Tensor der Form C x H x W vorliegen. Die K Transformationen T aus der Menge Ƭ fügen eine weitere Dimension hinzu. Die Aggregationsfunktion σ kann nun beispielsweise aus einem Raum der Dimension K x C x H x W zurück in den Raum der Dimension C x H x W abbilden und hierbei insbesondere beispielsweise diejenige Transformation T j auswählen, die am besten zu den verfügbaren Trainingsdaten passt. Dies kann beispielsweise daran gemessen werden, wie groß jeweils die Aktivierungen von Neuronen sind, die für bestimmte Transformationen zuständig sind.

Unter einem elementweisen Maximum, bzw. einem elementweisen Mittelwert, wird in diesem Zusammenhang insbesondere beispielsweise verstanden, dass für jeden Eintrag in den Dimensionen C x H x W separat ein Maximum, bzw. ein Mittelwert, entlang der Dimension K der Transformationen gebildet wird. Ein geglättetes Maximum kann beispielsweise mit der Logsumexp-Funktion ermittelt werden.

In einer weiteren vorteilhaften Ausgestaltung beinhaltet das Aggregieren von Merkmalskarten Φ j (ƒ, Ƭ j [ᴋ]), eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen. Beispielsweise können l p - Normen entlang der Dimensionen C, H x W oder C x H x W gebildet werden. Es kann dann entlang der K-Dimension ermittelt werden, für welche Transformationen sich die größten Normen ergeben. Es kann also eine Merkmalskarte und somit auch eine Transformation ausgewählt werden, die am besten zu den vorhandenen Daten passt.

Wie zuvor erläutert, wird das neuronale Netzwerk durch das Training, das Invarianzen und Äquivarianzen einbezieht, in die Lage versetzt, seine übliche Aufgabe besser zu erfüllen. Dies schlägt sich beispielsweise bei einem Bildklassifikator in einer höheren Klassifikationsgenauigkeit auf Test-Bildern oder Validierungs-Bildern nieder. Daher werden in einer weiteren vorteilhaften Ausgestaltung dem trainierten neuronalen Netzwerk Eingabe-Bilder zugeführt, die mit mindestens einem Sensor aufgenommen wurden, so dass diese Eingabe-Bilder von dem neuronalen Netzwerk auf Ausgaben abgebildet werden. Aus den Ausgaben wird ein Ansteuersignal ermittelt. Ein Fahrzeug, und/oder ein System für die Qualitätskontrolle von Produkten, und/oder ein System für die Überwachung von Bereichen, wird mit diesem Ansteuersignal angesteuert.

Auf Grund der zutreffenden Ausgabe des neuronalen Netzwerks ist dann die Wahrscheinlichkeit, dass die von dem jeweils angesteuerten System ausgeführte Aktion der mit dem Sensor erfassten Situation angemessen ist, vorteilhaft erhöht.

Das Verfahren kann insbesondere ganz oder teilweise computerimplementiert sein. Daher bezieht sich die Erfindung auch auf ein Computerprogramm mit maschinenlesbaren Anweisungen, die, wenn sie auf einem oder mehreren Computern ausgeführt werden, den oder die Computer dazu veranlassen, das beschriebene Verfahren auszuführen. In diesem Sinne sind auch Steuergeräte für Fahrzeuge und Embedded-Systeme für technische Geräte, die ebenfalls in der Lage sind, maschinenlesbare Anweisungen auszuführen, als Computer anzusehen.

Ebenso bezieht sich die Erfindung auch auf einen maschinenlesbaren Datenträger und/oder auf ein Downloadprodukt mit dem Computerprogramm. Ein Downloadprodukt ist ein über ein Datennetzwerk übertragbares, d.h. von einem Benutzer des Datennetzwerks downloadbares, digitales Produkt, das beispielsweise in einem Online-Shop zum sofortigen Download feilgeboten werden kann.

Weiterhin kann ein Computer mit dem Computerprogramm, mit dem maschinenlesbaren Datenträger bzw. mit dem Downloadprodukt ausgerüstet sein.

Weitere, die Erfindung verbessernde Maßnahmen werden nachstehend gemeinsam mit der Beschreibung der bevorzugten Ausführungsbeispiele der Erfindung anhand von Figuren näher dargestellt. Ausführungsbeispiele

Es zeigt:

Figur 1 Ausführungsbeispiel des Verfahrens 100 zum Trainieren eines neuronalen Netzwerks 1;

Figur 2 Beispielhafte Wirkung des Trainings mit dem Verfahren 100 auf die Klassifikationsgenauigkeit eines Bildklassifikators.

Figur 1 ist ein schematisches Ablaufdiagramm eines Ausführungsbeispiels des Verfahrens 100 zum Trainieren eines neuronalen Netzwerks 1. Es kann insbesondere beispielsweise in Schritt 105 ein Bildklassifikator als neuronales Netzwerk 1 gewählt werden. Das neuronale Netzwerk 1 ist zur Verarbeitung von Eingabe-Bildern 2 ausgebildet und umfasst mehrere Faltungsschichten. Jede dieser Faltungsschichten ist dazu ausgebildet, die Eingabe f der jeweiligen Faltungsschicht durch Anwenden mindestens eines Filterkerns ᴋ auf mindestens eine Merkmalskarte Φ(ƒ, ᴋ) abzubilden.

In Schritt 110 wird eine Menge Ƭ von Transformationen T bereitgestellt. Das neuronale Netzwerk 1 kann im Rahmen des hier beschriebenen Trainings lernen, bei Anwendung einer oder mehrerer dieser Transformationen T auf die Eingabe f mindestens einer Faltungsschicht des Netzwerks 1 die Erzeugung mindestens einer äquivarianten oder invarianten Merkmalskarte Φ(ƒ, ᴋ) ZU erlernen.

Gemäß Block 111 können insbesondere beispielsweise elastische Transformationen, die als Feld von Auslenkungen in räumlichen Koordinaten des Eingabe-Bildes beschreibbar sind, als Transformationen T ∈ Ƭ gewählt werden. Diese elastischen Transformationen können insbesondere beispielsweise gemäß Block lila lineare Streckungen und/oder Rotationsskalierungen umfassen.

In Schritt 120 wird diese Merkmalskarte Φ(ƒ, ᴋ) durch eine mit Parametern 5a parametrisierte Aggregation 5 von Merkmalskarten Φ j (ƒ, Ƭ j [ᴋ]) ausgedrückt 120, die jeweils durch das Anwenden von Transformationen T j ∈ Ƭ auf den mindestens einen Filterkern ᴋ erhalten werden. Das heißt, die Ausgabe der entsprechenden Faltungsschicht ändert sich in Abhängigkeit der Parameter 5a.

Gemäß Block 121 kann der Filterkern ᴋ als mit Parametern parametrisierte Linearkombination von Basisfunktionen ψ i ausgedrückt werden. Hierbei können insbesondere beispielsweise gemäß Block 121a Basisfunktionen ψ i gewählt werden, die mindestens über Hermitesche Polynome von Ortskoordinaten x, y in der Eingabe f abhängen.

Gemäß Block 122 können die Merkmalskarten Φ j (ƒ, Ƭ j [ᴋ]) in der Aggregation 5 untereinander mit von der Eingabe f abhängigen Gewichten β j (ƒ) gewichtet werden.

Gemäß Block 123 kann für das Parametrisieren mit den Parametern 5a mindestens eine Merkmalskarte Φ(ƒ, ᴋ) gewählt werden, die eine Summe aus der Eingabe f und einem Verarbeitungsprodukt, das durch sukzessive Anwendung mehrerer Filterkerne ᴋ 1 , ᴋ 2 , ... auf die Eingabe f entsteht, beinhaltet. Eine derartige Merkmalskarte ist das Arbeitsergebnis eines „Residual Blocks“.

Das Aggregieren der Merkmalskarten Φ j (ƒ, Ƭ j [ᴋ]) kann gemäß Block 124 beinhalten, für jedes Element dieser Merkmalskarten

• ein elementweises Maximum,

• ein geglättetes elementweises Maximum oder

• ein elementweiser Mittelwert entlang der Dimension j der Transformationen T j ∈ Ƭ zu bilden.

Alternativ oder auch in Kombination hierzu kann das Aggregieren der Merkmalskarten Φ j (ƒ, Ƭ j [ᴋ]) gemäß Block 125 beinhalten, eine Norm über eine oder mehrere räumliche Dimensionen einer jeden Merkmalskarte zu bilden und eine oder mehrere Merkmalskarten anhand dieser Norm auszuwählen.

In Schritt 130 werden Lern-Bilder 2a sowie Lern-Ausgaben 3a, auf die das trainierte neuronale Netzwerk 1 diese Lern-Bilder 2a idealerweise abbilden soll, bereitgestellt. In Schritt 140 werden die Lern-Bilder 2a von dem neuronalen Netzwerk 1 auf Ausgaben 3 abgebildet.

Abweichungen dieser Ausgaben 3 von den Lern-Ausgaben 3a werden in Schritt 150 mit einer vorgegebenen Kostenfunktion 4 bewertet.

In Schritt 160 werden Parameter 5a der parametrisierten Aggregation 5 sowie weitere Parameter la, die das Verhalten des neuronalen Netzwerks 1 charakterisieren, optimiert mit dem Ziel, dass sich bei weiterer Verarbeitung von Lern-Bildern 2a die Bewertung 4a durch die Kostenfunktion 4 voraussichtlich verbessert. Die fertig trainierten Zustände der Parameter 1a und 5a sind mit den Bezugszeichen la* bzw. 5a* bezeichnet. Das fertig trainierte neuronale Netzwerk 1, dessen Verhalten durch die Parameter la* und 5a* charakterisiert ist, ist mit dem Bezugszeichen 1* bezeichnet.

In Schritt 170 werden dem trainierten neuronalen Netzwerk 1* Eingabe-Bilder 2 zugeführt, die mit mindestens einem Sensor 51 aufgenommen wurden. Diese Eingabe-Bilder 2 werden von dem neuronalen Netzwerk 1 auf Ausgaben 3 abgebildet.

In Schritt 180 wird aus den Ausgaben 3 ein Ansteuersignal 180a ermittelt.

In Schritt 190 wird ein Fahrzeug 50, und/oder ein System 60 für die Qualitätskontrolle von Produkten, und/oder ein System 70 für die Überwachung von Bereichen, mit diesem Ansteuersignal 180a angesteuert.

In Figur 2 ist für ein als Bildklassifikator ausgebildetes neuronales Netzwerk 1 der Architektur WideResnet-18 der Verlust AA an Klassifikationsgenauigkeit aufgetragen, der sich einstellt, wenn die Eingabe-Bilder mit einer Stärke P verrauscht werden. Die Kurven a bis e beziehen sich auf Zustände des neuronalen Netzwerks 1 nach verschiedenen Trainings. Der Versuch wurde mit dem öffentlich zugänglichen Datensatz STL-10 zugeführt, der 5000 Lern-Bilder und 8000 Test-Bilder der Größe 96x96 Pixel aus 10 verschiedenen Klassen enthält. Kurve a bezieht sich auf das herkömmliche Training. Die Kurven b bis e beziehen sich auf verschiedene Beispiele des Trainings nach dem hier beschriebenen Verfahren 100. Der durch die verrauschten Eingabe-Bilder verursachte Verlust an Genauigkeit kann durch das verbesserte Training zumindest teilweise wieder ausgeglichen werden. Für einige Konfigurationen zeigt sich auch bei unverrauschten Eingabe-Bildern bereits ein Gewinn (Kurven verlauf oberhalb der Kurve a).