Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DEVICE AND METHOD FOR TRAINING A NEURAL NETWORK
Document Type and Number:
WIPO Patent Application WO/2021/004738
Kind Code:
A1
Abstract:
A device and a method for training a neural network are disclosed, the method for training a neural network comprising: training a first neural sub-network with first digital training data (302), which describe a first context, the first neural sub-network being designed as an autoencoder network and having a first encoder portion (306) and a first decoder portion, and the first encoder portion (306) providing a mapping of the first digital training data (302) to a first latent space (308); training a first mapping (404) of first digital data (402), which are semantically related to the first digital training data (302), to the first latent space (308) using the first digital training data (302) mapped to the first latent space (308) by means of the trained first neural sub-network; training a second neural sub-network with second digital training data (322), which describe a second context different from the first context, the second neural sub-network being designed as an autoencoder network and having a second encoder portion and a second decoder portion (330), and the second encoder portion providing a mapping of the second digital training data (322) to a second latent space; training a second mapping (424) of second digital data (422), which are semantically related to the second digital training data (322), to the second latent space (328), using the second digital training data (322) mapped to the second latent space (328) by means of the trained second neural sub-network; training a third mapping (502) of digital latent data from the first latent space (308) to the second latent space (328) using third digital training data and third digital data, the third digital training data comprising digital training data describing the first context and digital training data describing the second context, the third digital data comprising digital data semantically related to the digital training data describing the first context and digital data semantically related to the digital training data describing the second context.

Inventors:
GROH KONRAD (DE)
WOEHRLE MATTHIAS (DE)
Application Number:
PCT/EP2020/066728
Publication Date:
January 14, 2021
Filing Date:
June 17, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G06N3/08; G06N3/04
Foreign References:
DE102018126664A12019-05-02
US20190034762A12019-01-31
Other References:
VASILY MORZHAKOV: "Sets of autoencoders with shared latent spaces", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 6 November 2018 (2018-11-06), XP081046751
AMINI ALEXANDER ET AL: "Variational Autoencoder for End-to-End Control of Autonomous Driving with Novelty Detection and Training De-biasing", 2018 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS), IEEE, 1 October 2018 (2018-10-01), pages 568 - 575, XP033491655, DOI: 10.1109/IROS.2018.8594386
SUWAJANAKORN ET AL.: "Synthesizing Obama: Learning Lip Sync from Audio", ACM TRANSACTIONS ON GRAPHICS, vol. 36, no. 4, 2017
Download PDF:
Claims:
Patentansprüche

Verfahren zum Trainieren eines neuronalen Netzwerkes, ausgeführt von einem oder von mehreren Prozessoren, das Verfahren aufweisend:

Trainieren eines ersten neuronalen Teilnetzwerks mit ersten digitalen

Trainingsdaten, die einen ersten Kontext beschreiben,

• wobei das erste neuronale Teilnetzwerk als Autoencoder-Netzwerk

eingerichtet ist und einen ersten Encoder- Ab schnitt und einen ersten Decoder- Abschnitt aufweist, und

• wobei der erste Encoder- Ab schnitt eine Abbildung der ersten digitalen

Trainingsdaten in einen ersten latenten Raum bereitstellt;

Trainieren einer ersten Abbildung von ersten digitalen Daten, welche mit den ersten digitalen Trainingsdaten in semantischer Beziehung stehen, in den ersten latenten Raum unter Verwendung der in den ersten latenten Raum mittels des trainierten ersten neuronalen Teilnetzwerks abgebildeten ersten digitalen Trainingsdaten; Trainieren eines zweiten neuronalen Teilnetzwerks mit zweiten digitalen

Trainingsdaten, die einen zweiten Kontext beschreiben, der von dem ersten Kontext verschieden ist,

• wobei das zweite neuronale Teilnetzwerk als Autoencoder-Netzwerk

eingerichtet ist und einen zweiten Encoder- Ab schnitt und einen zweiten Decoder- Ab schnitt aufweist, und

• wobei der zweite Encoder- Ab schnitt eine Abbildung der zweiten digitalen Trainingsdaten in einen zweiten latenten Raum bereitstellt,

Trainieren einer zweiten Abbildung von zweiten digitalen Daten, welche mit den zweiten digitalen Trainingsdaten in semantischer Beziehung stehen, in den zweiten latenten Raum unter Verwendung der in den zweiten latenten Raum mittels des trainierten zweiten neuronalen Teilnetzwerks abgebildeten zweiten digitalen Trainingsdaten;

Trainieren einer dritten Abbildung von digitalen latenten Daten aus dem ersten latenten Raum in den zweiten latenten Raum unter Verwendung von dritten digitalen Trainingsdaten und dritten digitalen Daten,

• wobei die dritten digitalen Trainingsdaten aufweisen:

- digitale Trainingsdaten, welche den ersten Kontext beschreiben, und

- digitale Trainingsdaten, welche den zweiten Kontext beschreiben,

• wobei die dritten digitalen Daten aufweisen:

- digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, und - digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen.

2. Verfahren gemäß Anspruch 1,

wobei die ersten digitalen Trainingsdaten, die zweiten digitalen Trainingsdaten, und die dritten digitalen Trainingsdaten digitale Bilddaten aufweisen.

3. Verfahren gemäß Anspruch 1 oder 2,

wobei die ersten digitalen Trainingsdaten, die zweiten digitalen Trainingsdaten, und die dritten digitalen Trainingsdaten digitale Sensordaten aufweisen.

4. Verfahren gemäß einem der Ansprüche 1 bis 3, ferner aufweisend:

Erzeugen der ersten digitalen Daten unter Verwendung eines zusätzlichen ersten neuronalen Netzwerks und den ersten digitalen Trainingsdaten, welche den ersten Kontext beschreiben; und/oder

Erzeugen der zweiten digitalen Daten unter Verwendung eines zusätzlichen zweiten neuronalen Netzwerks und den zweiten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben; und/oder

Erzeugen der dritten digitalen Daten unter Verwendung eines zusätzlichen dritten neuronalen Netzwerks und digitalen Trainingsdaten, welche den ersten Kontext und den zweiten Kontext beschreiben.

5. Verfahren gemäß einem der Ansprüche 1 bis 4, ferner aufweisend:

Transformieren von digitalen Daten, welche den ersten Kontext beschreiben, in digitale Daten, welche den zweiten Kontext beschreiben, unter Verwendung eines ersten neuronalen Transformationsnetzwerks, das gebildet wird von dem ersten Encoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks, der trainierten ersten Abbildung, der trainierten zweiten Abbildung, der trainierten dritten

Abbildung zur Abbildung von dem zweiten latenten Raum in den ersten latenten Raum, und dem zweiten Decoder-Abschnitt des trainierten zweiten neuronalen

Teilnetzwerks.

6. Verfahren gemäß Anspruch 5, ferner aufweisend:

Durchführen einer Klassifikation und/oder Segmentierung von digitalen Daten, welche den ersten Kontext beschreiben.

7. Verfahren gemäß einem der Ansprüche 1 bis 4, ferner aufweisend: Transformieren von digitalen Daten, welche den zweiten Kontext beschreiben, in digitale Daten, welche den ersten Kontext beschreiben, unter Verwendung eines zweiten neuronalen Transformationsnetzwerks, das gebildet wird von dem zweiten Encoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks, der trainierten ersten Abbildung, der trainierten zweiten Abbildung, der inversen Abbildung der trainierten dritten Abbildung von dem zweiten latenten Raum in den ersten latenten Raum, und dem ersten Decoder-Abschnitt des trainierten ersten neuronalen Teilnetzwerks. 8. Verfahren gemäß Anspruch 7, ferner aufweisend:

Durchführen einer Klassifikation und/oder Segmentierung von digitalen Daten, welche den zweiten Kontext beschreiben.

9. Vorrichtung, die eingerichtet ist, das Verfahren nach einem der Ansprüche 1 bis 8 auszuführen.

10. System, aufweisend:

eine Vorrichtung nach Anspruch 9; und

• einen Sensor, der eingerichtet ist, der Vorrichtung die digitalen Daten

bereitzustellen.

11. F ahrzeug, aufwei send :

zumindest einen Sensor, der eingerichtet ist, um digitale Daten bereitzustellen; und

ein Fahrassistenzsystem, dass ein nach einem der Ansprüche 1 bis 4 trainiertes neuronales Netzwerk aufweist, wobei das neuronale Netzwerk eingerichtet ist, um die digitalen Daten gemäß Anspruch 6 oder Anspruch 8 zu klassifizieren und/oder zu segmentieren und wobei das Fahrassistenzsystem eingerichtet ist, um das Fahrzeug basierend auf den klassifizierten und/oder segmentierten digitalen Daten zu steuern.

Description:
Beschreibung

Vorrichtung und Verfahren zum Trainieren eines neuronalen Netzwerkes

Verschiedene Ausführungsbeispiele betreffen allgemein eine Vorrichtung und ein

Verfahren zum Trainieren eines neuronalen Netzwerkes.

Verschiedene neuronale Netzwerke werden beispielsweise verwendet, um Ausgangsdaten basierend auf Eingangsdaten und einer Funktion, die durch das Trainieren des neuronalen Netzwerkes gelernt wurde, zu erzeugen. Die erwünschten Ausgangsdaten können von dem Kontext in dem die Eingangsdaten erzeugt wurden, abhängen. Daher kann es erforderlich sein, dass Daten, welche einen ersten Kontext beschreiben in Daten, welche einen zweiten Kontext beschreiben, transformiert werden. Der Kontext ist beispielsweise bei der

Intentionserkennung von Verkehrsteilnehmern von Bedeutung.

In Suwajanakorn et al., Synthesizing Obama: Learning Lip Sync from Audio, ACM

Transactions on Graphics, Vol. 36, No. 4, 2017 ist ein Verfahren zum Transformieren von Videodaten mittels eines neuronalen Netzwerkes beschrieben.

Das Verfahren und die Vorrichtung mit den Merkmalen der unabhängigen Ansprüche 1 (erstes Beispiel) und 9 (zweiunddreißigstes Beispiel) ermöglichen, ein neuronales

Netzwerk zu trainieren, um digitale Daten aus einem ersten Kontext in einen zweiten Kontext zu transformieren.

Der Kontext der digitalen Daten, zum Beispiel der ersten digitalen Trainingsdaten und der zweiten digitalen Trainingsdaten, kann sich dahingehend unterscheiden, in welchem Kontext die digitalen Daten erzeugt wurden, d.h. in welchem Zusammenhang bzw. unter welchen Randbedingungen die digitalen Daten erzeugt wurden, und/oder dem intrinsischen Kontext der digitalen Daten, zum Beispiel welches Umfeld durch die digitalen Daten beschrieben wird. In verschiedenen Ausführungsformen können sich der Kontext, d.h. erste Kontext und der zweite Kontext, territorial unterscheiden. Beispielsweise kann der Kontext bezüglich einem Stadtteil, einer Region, einem Land usw. verschieden sein. Der Kontext kann sich bezüglich der Sprache unterscheiden und/oder kann sich bezüglich der Mimik und Gestik, die mit einer Sprache und/oder einer Region / einem Land verknüpft sind, unterscheiden. Der Kontext kann kulturell verschieden sein, d.h. der Kontext kann sich beispielsweise territorial, in der Sprache, der Mimik, der Gestik, usw. unterscheiden. Gemäß einem Beispiel sind die digitalen Daten digitale Bilddaten und der Kontext kann sich territorial unterscheiden, indem die digitalen Bilddaten in verschiedenen Ländern erzeugt wurden, und/oder kann sich intrinsisch unterscheiden, indem die digitalen Bilddaten sich in Gestik und Mimik zu einem von einer Person gesprochenen Text (d.h. die digitalen Bilddaten unterscheiden sich ferner bezüglich den von der Sprache abhängigen Bewegungen des Gesichtes) unterscheiden.

Die Sprache kann beispielsweise auch bei den digitalen Daten, welche mit den digitalen Daten, welche einen ersten Kontext bzw. einen zweiten Kontext beschreiben, in

semantischer Beziehung stehen, verschieden sein. Die digitalen Daten welche mit den digitalen Daten, welche den ersten Kontext bzw. den zweiten Kontext beschreiben, in semantischer Beziehung stehen, können beispielsweise Textdaten sein, welche eine Mehrzahl an Textstrings aufweisen, und die semantische Beziehung kann beschreiben, dass jedem digitalen Datum der digitalen Daten, welche den ersten Kontext bzw. den zweiten Kontext beschreiben, genau ein Textstring der Mehrzahl an Textstrings zugeordnet ist. Anders ausgedrückt können digitale Textdaten digitalen Daten, welche einen Kontext beschreiben, zugeordnet sein und die digitalen Daten beschreiben. Das heißt die digitalen Textdaten können den Inhalt der digitalen Daten anschaulich beschreiben. Die digitalen Textdaten können zusätzliche Informationen bezüglich der digitalen Daten aufweisen. Beispielsweise können die digitalen Daten digitale Bilddaten sein, welche eine Szene darstellen, und die digitalen Textdaten können die Szene beschreiben.

Die erste Abbildung, die zweite Abbildung und die dritte Abbildung können ein neuronales Teilnetzwerk aufweisen. Jedes dieser neuronalen Teilnetzwerke kann ein beliebiges neuronales Netzwerk, beispielsweise ein Autoencoder-Netzwerk oder ein faltendes neuronales Netz (convolutional neural network), sein. Jedes neuronale Teilnetzwerk, d.h. auch das erste neuronale Teilnetzwerk und das zweite neuronale Teilnetzwerk, kann eine beliebige Anzahl an Schichten aufweisen und kann nach einem beliebigen Verfahren trainiert werden, wie zum Beispiel durch Backpropagation. Jeder Encoder- Ab schnitt eines Autoencoder-Netzwerkes kann eine beliebige Anzahl an Encoder- Schichten aufweisen, wobei jede Encoder- Schicht eine faltende Schicht (convolutional layer) mit beliebigen Eigenschaften (zum Beispiel einer beliebigen Filtergröße), eine Aktivierungsfunktion (zum Beispiel eine ReLU-Aktivierungsfunktion), eine Pooling-Schicht mit beliebigen

Eigenschaften (zum Beispiel eine Max-Pooling-Schicht mit einer beliebigen Schrittweite) und eine Normalisierungsschicht aufweisen kann. Jeder Decoder- Ab schnitt eines

Autoencoder-Netzwerkes kann eine beliebige Anzahl an Decoder-Schichten aufweisen, wobei jede Decoder-Schicht eine transponierte faltende Schicht mit beliebigen

Eigenschaften, eine faltende Schicht mit beliebigen Eigenschaften, eine Aktiviemngsfunktion (zum Beispiel eine ReLU-Aktivierungsfunktion) und eine

Normalisierungsschicht aufweisen kann.

Zumindest ein Teil des ersten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der ersten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil des zweiten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der zweiten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der dritten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem ersten Beispiel bilden ein zweites Beispiel.

Die ersten digitalen Trainingsdaten und die zweiten digitalen Trainingsdaten können digitale Bilddaten aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem ersten Beispiel oder dem zweiten Beispiel bildet ein drittes Beispiel.

Das erste neuronale Teilnetzwerk kann trainiert werden, indem der erste Decoder- Abschnitt die durch den ersten Encoder- Ab schnitt in den ersten latenten Raum

abgebildeten ersten digitalen Trainingsdaten rekonstruiert und die rekonstruierten ersten digitalen Trainingsdaten mit den ersten digitalen Trainingsdaten vergleicht. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dritten Beispiel bilden ein viertes Beispiel.

Das Vergleichen der rekonstruierten ersten digitalen Trainingsdaten mit den ersten digitalen Trainingsdaten kann das Ermitteln eines ersten Verlustwertes aufweisen. Der erste Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierten Beispiel bilden ein fünftes Beispiel.

Das Trainieren des ersten neuronalen Teilnetzwerks kann das Adaptieren des ersten Encoder- Ab Schnitts und des ersten Decoder- Ab Schnitts aufweisen, wobei das Adaptieren des ersten Encoder- Ab Schnitts und des ersten Decoder- Ab Schnitts das Minimieren des ersten Verlustwertes aufweisen kann. Das heißt, dass der erste Encoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks einen Code ausgeben kann, der digitale Daten, welche einen ersten Kontext beschreiben, in einem ersten latenten Raum beschreibt, und dass der erste Decoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks einen Code, der digitale Daten, welche einen ersten Kontext beschreiben, in einem ersten latenten Raum beschreibt, verarbeiten kann und basierend auf dem Code digitale Daten ausgeben kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem fünften Beispiel bilden ein sechstes Beispiel.

Das zweite neuronale Teilnetzwerk kann trainiert werden, indem der zweite Decoder- Abschnitt die durch den zweiten Encoder- Ab schnitt in den zweiten latenten Raum abgebildeten zweiten digitalen Trainingsdaten rekonstruiert und die rekonstruierten zweiten digitalen Trainingsdaten mit den zweiten digitalen Trainingsdaten vergleicht. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem sechsten Beispiel bilden ein siebtes Beispiel.

Das Vergleichen der rekonstruierten zweiten digitalen Trainingsdaten mit den zweiten digitalen Trainingsdaten kann das Ermitteln eines zweiten Verlustwertes aufweisen. Der zweite Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem siebten Beispiel bilden ein achtes Beispiel.

Das Trainieren des zweiten neuronalen Teilnetzwerks kann das Adaptieren des zweiten Encoder- Ab Schnitts und des zweiten Decoder- Ab Schnitts aufweisen, wobei das Adaptieren des zweiten Encoder- Ab Schnitts und des zweiten Decoder- Ab Schnitts das Minimieren des zweiten Verlustwertes aufweisen kann. Das heißt, dass der zweite Encoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks einen Code ausgeben kann, der digitale Daten, welche einen zweiten Kontext beschreiben, in einem zweiten latenten Raum beschreibt, und dass der zweite Decoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks einen Code, der digitale Daten, welche einen zweiten Kontext beschreiben, in einem zweiten latenten Raum beschreibt, verarbeiten kann und basierend auf dem Code digitale Daten ausgeben kann. Die in diesem Absatz beschriebenen Merkmale in

Kombination mit dem achten Beispiel bilden ein neuntes Beispiel.

Die erste Abbildung kann ein drittes neuronales Teilnetzwerk aufweisen und die zweite Abbildung kann ein viertes neuronales Teilnetzwerk aufweisen. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem neunten Beispiel bilden ein zehntes Beispiel.

Die ersten digitalen Daten und die zweiten digitalen Daten können eine Mehrzahl an Textstrings aufweisen, wobei die Textstrings die zugeordneten ersten digitalen

Trainingsdaten bzw. die zugeordneten zweiten digitalen Trainingsdaten beschreibt. Das heißt, dass jedes erste digitale Trainingsdatum der ersten digitalen Trainingsdaten genau einem Textstring der Mehrzahl an Textstrings der ersten digitalen Daten zugeordnet sein kann und dass jedes zweite digitale Trainingsdatum der zweiten digitalen Trainingsdaten genau einem Textstring der Mehrzahl an Textstrings der zweiten digitalen Daten zugeordnet sein kann. Beispielsweise können die ersten digitalen Trainingsdaten bzw. die zweiten digitalen Trainingsdaten digitale Bilddaten aufweisen, welche eine Szene darstellen, und die ersten digitalen Daten bzw. die zweiten digitalen Daten können eine Mehrzahl an Textstrings aufweisen, die die jeweils dargestellte Szene beschreiben. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem zehnten Beispiel bilden ein elftes Beispiel.

Das Trainieren der ersten Abbildung kann das Vergleichen des durch den ersten Encoder- Abschnitt basierend auf den ersten digitalen Trainingsdaten ausgegeben Codes mit einem durch die erste Abbildung basierend auf den ersten digitalen Daten ausgegebenen Code aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem elften Beispiel bildet ein zwölftes Beispiel.

Das Vergleichen des durch den ersten Encoder- Ab schnitt basierend auf den ersten digitalen Trainingsdaten ausgegeben Codes mit einem durch die erste Abbildung basierend auf den ersten digitalen Daten ausgegebenen Code kann das Ermitteln eines ersten

Abbildungs- Verlustwertes aufweisen. Der erste Abbildungs-Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem zwölften Beispiel bilden ein dreizehntes Beispiel.

Das Trainieren der ersten Abbildung kann das Adaptieren der ersten Abbildung aufweisen, wobei das Adaptieren der ersten Abbildung das Minimieren des ersten Abbildungs- Verlustwertes aufweisen kann. Das heißt, dass die trainierte erste Abbildung einen Code ausgeben kann, der digitale Textdaten, welche einen ersten Kontext beschreiben, in einem ersten latenten Raum beschreibt, wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Daten in dem ersten latenten Raum beschreibt, zugeordnet sein kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem dreizehnten Beispiel bilden ein vierzehntes Beispiel.

Zumindest ein Teil der ersten digitalen Daten kann durch ein zusätzliches erstes neuronales Netzwerk bereitgestellt werden, wobei das zusätzliche erste neuronale Netzwerk zumindest einen Teil der ersten digitalen Trainingsdaten verarbeiten kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem vierzehnten Beispiel bilden ein fünfzehntes Beispiel.

Das Trainieren der zweiten Abbildung kann das Vergleichen des durch den zweiten Encoder- Ab schnitt basierend auf den zweiten digitalen Trainingsdaten ausgegeben Codes mit einem durch die zweite Abbildung basierend auf den zweiten digitalen Daten ausgegebenen Code aufweisen. Die in diesem Absatz beschriebenen Merkmale in

Kombination mit einem oder mehreren des ersten Beispiels bis dem fünfzehnten Beispiel bilden ein sechzehntes Beispiel.

Das Vergleichen des durch den zweiten Encoder- Ab schnitt basierend auf den zweiten digitalen Trainingsdaten ausgegeben Codes mit einem durch die zweite Abbildung basierend auf den zweiten digitalen Daten ausgegebenen Code kann das Ermitteln eines zweiten Abbildungs-Verlustwertes aufweisen. Der zweite Abbildungs-Verlustwert kann basierend auf einer Verlustfünktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem sechzehnten Beispiel bilden ein siebzehntes Beispiel.

Das Trainieren der zweiten Abbildung kann das Adaptieren der zweiten Abbildung aufweisen, wobei das Adaptieren der zweiten Abbildung das Minimieren des zweiten Abbildungs- Verlustwertes aufweisen kann. Das heißt, dass die trainierte zweite Abbildung einen Code ausgeben kann, der digitale Textdaten, welche einen zweiten Kontext beschreiben, in einem zweiten latenten Raum beschreibt, wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Daten in dem zweiten latenten Raum beschreibt, zugeordnet sein kann. Die in diesem Absatz beschriebenen Merkmale in Kombination dem siebzehnten Beispiel bilden ein achtzehntes Beispiel.

Zumindest ein Teil der zweiten digitalen Daten kann durch ein zusätzliches zweites neuronales Netzwerk bereitgestellt werden, wobei das zusätzliche zweiten neuronale Netzwerk zumindest einen Teil der zweiten digitalen Trainingsdaten verarbeiten kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem achtzehnten Beispiel bilden ein neunzehntes Beispiel.

Die dritte Abbildung kann ein fünftes neuronales Teilnetzwerk aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem neunzehnten Beispiel bildet ein zwanzigstes Beispiel. Die digitalen Trainingsdaten der dritten digitalen Trainingsdaten, welche den ersten Kontext beschreiben, können zumindest eine Teilmenge der ersten digitalen

Trainingsdaten (zum Beispiel die gesamten ersten digitalen Trainingsdaten) aufweisen und die digitalen Daten der dritten digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen, können die der Teilmenge der ersten digitalen

Trainingsdaten zugeordnete Teilmenge der ersten digitalen Daten aufweisen. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem zwanzigsten Beispiel bilden ein einundzwanzigstes Beispiel.

Die digitalen Trainingsdaten der dritten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, können zumindest eine Teilmenge der zweiten digitalen

Trainingsdaten (zum Beispiel die gesamten zweiten digitalen Trainingsdaten) aufweisen und die digitalen Daten der dritten digitalen Daten, welche mit diesen digitalen

Trainingsdaten in semantischer Beziehung stehen, können die der Teilmenge der zweiten digitalen Trainingsdaten zugeordnete Teilmenge der zweiten digitalen Daten aufweisen.

Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem einundzwanzigsten Beispiel bilden ein zweiundzwanzigstes Beispiel.

Die dritte Abbildung kann einen Code, der digitale Trainingsdaten, welche den ersten Kontext beschreiben, in dem ersten latenten Raum beschreibt, einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, in dem ersten latenten Raum beschreibt, und einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, in dem zweiten latenten Raum beschreibt, verarbeiten und kann einen Code ausgeben, der digitale Trainingsdaten in dem zweiten latenten Raum beschreibt, ausgeben. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem zweiundzwanzigsten Beispiel bilden ein dreiundzwanzigstes Beispiel.

Der zweite Decoder- Ab schnitt kann den Code, der digitale Trainingsdaten in dem zweiten latenten Raum beschreibt, verarbeiten und kann rekonstruierte digitale Trainingsdaten, welche den zweiten Kontext beschreiben, ausgeben. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem dreiundzwanzigstens Beispiel bilden ein vierundzwanzigstes Beispiel. Das Trainieren der dritten Abbildung kann das Vergleichen der rekonstruierten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, mit den digitalen

Trainingsdaten, welche den zweiten Kontext beschreiben, aufweisen. Das in diesem Absatz beschriebene Merkmal in Kombination mit einem oder mehreren des ersten Beispiels bis dem vierundzwanzigsten Beispiel bilden ein fünfundzwanzigstes Beispiel.

Das Vergleichen der rekonstruierten digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, kann das Ermitteln eines dritten Abbildungs-Verlustwertes aufweisen. Der dritte

Abbildungs- Verlustwert kann basierend auf einer Verlustfunktion ermittelt werden. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem fünfundzwanzigsten Beispiel bilden ein sechsundzwanzigstes Beispiel.

Das Trainieren der dritten Abbildung kann das Adaptieren der dritten Abbildung aufweisen, wobei das Adaptieren der dritten Abbildung das Minimieren des dritten Abbildungs- Verlustwertes aufweisen kann. Das hat den Effekt, dass die trainierte dritte Abbildung einen Code, der digitale Trainingsdaten, welche den ersten Kontext

beschreiben, in dem ersten latenten Raum beschreibt, einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, in dem ersten latenten Raum beschreibt, und einen Code, der digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, in dem zweiten latenten Raum beschreibt, verarbeiten kann und digitale Trainingsdaten, welche den zweiten Kontext beschreiben, ausgeben kann. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem sechsundzwanzigsten Beispiel bilden ein siebenundzwanzigstes Beispiel.

Ein erstes Transformationsnetzwerk kann den ersten Encoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks, den zweiten Decoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks, die trainierte erste Abbildung, die trainierte zweite Abbildung und die trainierte dritte Abbildung aufweisen. Das erste Transformationsnetzwerk kann digitale Daten, die einen ersten Kontext beschreiben, digitale Textdaten, die den ersten Kontext beschreiben und den digitalen Daten, die den ersten Kontext beschreiben, zugeordnet sind, und digitale Textdaten, die einen zweiten Kontext beschreiben, verarbeiten und kann digitale Daten, die den zweiten Kontext beschreiben ausgeben. Das heißt, dass das erste Transformationsnetzwerk digitale Daten, die einen ersten Kontext beschreiben, in digitale Daten, die einen zweiten Kontext beschreiben, transformieren kann. Das hat den Vorteil, dass, falls digitale Daten, die einen ersten Kontext beschreiben, umfangreich vorhanden sind und falls digitale Daten, die einen zweiten Kontext beschreiben, nicht umfangreich vorhanden sind, basierend auf den digitalen Daten, die den ersten Kontext beschreiben, digitale Daten, die den zweiten Kontext beschreiben, erzeugt werden können. Anders ausgedrückt können digitale Daten für einen zweiten Kontext erzeugt werden, sodas s sowohl für den ersten Kontext als auch für den zweiten Kontext umfangreich digitale Daten vorhanden sind. Die in diesem Absatz beschriebenen

Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem siebenundzwanzigsten Beispiel bilden ein achtundzwanzigstes Beispiel.

Ein zweites Transformationsnetzwerk kann den zweiten Encoder- Ab schnitt des trainierten zweiten neuronalen Teilnetzwerks, den ersten Decoder- Ab schnitt des trainierten ersten neuronalen Teilnetzwerks, die trainierte erste Abbildung, die trainierte zweite Abbildung und die inverse Abbildung der trainierten dritten Abbildung aufweisen. Das zweite Transformationsnetzwerk kann digitale Daten, die einen zweiten Kontext beschreiben, digitale Textdaten, die den zweiten Kontext beschreiben und den digitalen Daten, die den zweiten Kontext beschreiben, zugeordnet sind, und digitale Textdaten, die einen ersten Kontext beschreiben, verarbeiten und kann digitale Daten, die den ersten Kontext beschreiben ausgeben. Das heißt, dass das zweite Transformationsnetzwerk digitale Daten, die einen zweiten Kontext beschreiben, in digitale Daten, die einen ersten Kontext beschreiben, transformieren kann. Dies hat den Vorteil, dass, digitalen Daten an den jeweiligen Kontext angepasst werden können, sodass die digitalen Daten basierend auf dem Kontext, in dem die digitalen Daten erzeugt wurden bzw. dem intrinsischen Kontext der digitalen Daten weiterverarbeitet werden können. Die in diesem Absatz beschriebenen Merkmale in Kombination mit einem oder mehreren des ersten Beispiels bis dem achtundzwanzigsten Beispiel bilden ein neunundzwanzigstes Beispiel.

Ein Computerprogramm kann Programminstruktionen aufweisen, die eingerichtet sind, wenn sie von einem oder von mehreren Prozessoren ausgeführt werden, das Verfahren nach einem oder mehreren des ersten Beispiels bis dem neunundzwanzigsten Beispiel auszuführen. Das in diesem Absatz beschriebene Merkmal bildet ein dreißigstes Beispiel.

Das Computerprogramm kann in einem maschinenlesbaren Speichermedium gespeichert sein. Das in diesem Absatz beschriebene Merkmal in Kombination mit dem dreißigsten Beispiel bildet ein einunddreißigstes Beispiel.

Zumindest ein Teil des ersten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der ersten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil des zweiten neuronalen Teilnetzwerks kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der zweiten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Zumindest ein Teil der dritten Abbildung kann durch einen oder mehrere Prozessoren implementiert sein. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem zweiunddreißigsten Beispiel bilden ein dreiunddreißigstes Beispiel.

Ein System kann eine Vorrichtung nach dem zweiunddreißigsten Beispiel oder dem dreiunddreißigsten Beispiel aufweisen. Das System kann einen Sensor, beispielsweise einen Bildgebungssensor aufweisen, der eingerichtet ist, um digitale Daten, die den ersten Kontext oder den zweiten Kontext beschreiben, bereitzustellen. Die in diesem Absatz beschriebenen Merkmale bilden ein vierunddreißigstes Beispiel.

Das System kann ferner ein zusätzliches neuronales Netzwerk aufweisen, das eingerichtet ist, um digitale Textdaten, die Textstrings aufweisen, welche die digitalen Daten, die den ersten Kontext oder den zweiten Kontext beschreiben, basierend auf den digitalen Daten, die den ersten Kontext oder den zweiten Kontext beschreiben, zu erzeugen. Das in diesem Absatz beschriebene Merkmale in Kombination mit dem vierunddreißigsten Beispiel bildet ein funfunddreißigstes Beispiel.

Der Bildgebungssensor kann ein Kamera-Sensor oder ein Video-Sensor sein. Der

Bildgebungssensor kann ein Fernortungssensor, wie beispielsweise ein Radar-Sensor, ein LIDAR-Sensor oder ein Ultraschall-Sensor, sein, der durch eine Verarbeitung der

Sensorsignale mittels Bildgebungsverfahren Bilddaten bereitstellt. Die in diesem Absatz beschriebenen Merkmale in Kombination mit dem vierunddreißigsten Beispiel oder dem fünfunddreißigsten Beispiel bilden ein sechsunddreißigstes Beispiel.

Ein Fahrzeug kann ein Fahrassistenzsystem aufweisen. Das Fahrassistenzsystem kann das System nach einem oder mehreren des vierunddreißigsten Beispiels bis dem

sechsunddreißigsten Beispiel aufweisen. Die in diesem Absatz beschriebenen Merkmale bilden ein siebenunddreißigstes Beispiel.

Ein Fahrzeug kann zumindest einen Bildgebungssensor oder einen Femortungssensor, der eingerichtet ist, um digitale Bilddaten bereitzustellen, aufweisen. Das Fahrzeug kann ferner ein Fahrassistenzsystem aufweisen. Das Fahrassistenzsystem kann das erste neuronale Transformationsnetzwerk nach dem achtundzwanzigsten Beispiel und/oder das zweite neuronale Transformationsnetzwerk nach dem neunundzwanzigsten Beispiel, aufweisen. Das Fahrassistenzsystems kann ferner eingerichtet sein, um die von dem ersten neuronalen Transformationsnetzwerk bzw. dem zweiten neuronalen Transformationsnetzwerk ausgegebenen digitalen Daten zu klassifizieren und/oder zu segmentieren. Das

Fahrassistenzsystem kann eingerichtet sein, um das Fahrzeug basierend auf den klassifizierten und/oder segmentierten digitalen Daten zu steuern. Das heißt das

Fahrassistenzsystem kann eingerichtet sein, um die klassifizierten und/oder segmentierten digitalen Daten zu verarbeiten und um basierend auf den klassifizierten und/oder segmentierten digitalen Daten zumindest einen Steuerbefehl ausgeben zu können. Dies hat den Vorteil, dass das Fahrassistenzsystem das Fahrverhalten basierend auf dem Kontext der digitalen Daten beeinflussen kann. Beispielsweise kann das Fahrassistenzsystem die Intention eines Verkehrsteilnehmers basierend auf dem Kontext erkennen und

dementsprechend das Fahrverhalten beeinflussen (zum Beispiel das Fahrverhalten verändern, zum Beispiel das Fahrverhalten beibehalten). Die in diesem Absatz

beschriebenen Merkmale bilden ein achtunddreißigstes Beispiel.

Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert.

Es zeigen

Figur 1 eine Vorrichtung gemäß verschiedenen Ausführungsformen; Figur 2 eine Bildgebungs-Vorrichtung gemäß verschiedenen Ausführungsformen; Figur 3A ein Verarbeitungssystem zum Trainieren eines ersten neuronalen

Teilnetzwerks gemäß verschiedenen Ausführungsformen;

Figur 3B ein Verarbeitungssystem zum Trainieren eines zweiten neuronalen

Teilnetzwerks gemäß verschiedenen Ausführungsformen;

Figur 4A ein Verarbeitungssystem zum Trainieren einer ersten Abbildung gemäß verschiedenen Ausführungsformen;

Figur 4B ein Verarbeitungssystem zum Trainieren einer zweiten Abbildung gemäß verschiedenen Ausführungsformen; Figur 5 ein Verarbeitungssystem zum Trainieren einer dritten Abbildung gemäß verschiedenen Ausführungsformen;

Figur 6 ein Verfahren zum Trainieren eines neuronalen Netzwerkes gemäß

verschiedenen Ausführungsformen;

Figur 7A ein erstes Verarbeitungssystem zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen

Ausführungsformen;

Figur 7B ein zweites Verarbeitungssystem zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen

Ausfuhrungsformen; und

Figur 8 ein Fahrzeug gemäß verschiedenen Ausführungsformen;

In einer Ausführungsform kann eine„Schaltung“ als jede Art von Logik

implementierender Entität verstanden werden, welche Hardware, Software, Firmware oder eine Kombination davon sein kann. Daher kann in einer Ausführungsform eine

„Schaltung“ eine hartverdrahtete Logikschaltung oder eine programmierbare

Logikschaltung, wie beispielsweise ein programmierbarer Prozessor, zum Beispiel ein Mikroprozessor (z.B. ein CISC (Prozessor mit großem Befehlsvorrat) oder ein RISC (Prozessor mit reduziertem Befehlsvorrat)), sein. Eine„Schaltung“ kann auch Software sein, die von einem Prozessor implementiert bzw. ausgeführt wird, zum Beispiel jede Art von Computerprogramm, zum Beispiel ein Computerprogramm das einen virtuellen

Maschinencode, wie beispielsweise Java, verwendet. Jede andere Art der Implementierung der jeweiligen Funktionen, die im Folgenden ausführlicher beschrieben werden, kann in Übereinstimmung mit einer alternativen Ausführungsform als eine„Schaltung“ verstanden werden.

Anschaulich stellen verschiedene Ausführungsbeispiele ein Verfahren zum Trainieren eines neuronalen Netzwerkes dar, sodass das trainierte neuronale Netzwerk digitale Daten, wie beispielsweise digitale Bilddaten, aus einem ersten Kontext in einen zweiten Kontext transformieren kann. Anders ausgedrückt können digitale Daten kontextspezifische Eigenschaften, wie beispielsweise länderspezifische Eigenschaften, aufweisen und das trainierte neuronale Netzwerk kann die digitalen Daten in einen anderen Kontext übertragen. FIG. 1 stellt eine Vorrichtung 100 gemäß verschiedenen Ausführungsformen dar. Die Vorrichtung 100 kann einen oder mehrere Sensoren 102 aufweisen. Der Sensor 102 kann eingerichtet sein, um digitale Daten 104 bereitzustellen. Der Sensor 102 kann ein

Bildgebungssensor, wie beispielsweise ein Kamera-Sensor oder ein Video-Sensor, oder ein Fernortungssensor, wie beispielsweise ein Radar-Sensor, ein LIDAR-Sensor oder ein Ultraschall-Sensor, sein. Gemäß verschiedenen Ausführungsformen weist der Sensor 102 eine andere Art von Sensor auf. Gemäß verschiedenen Ausführungsformen weisen die digitalen Daten 104 digitale Bilddaten (im Rahmen dieser Beschreibung werden auch erfasste Radar-, LID AR- und Ultraschall-Sensorsignale, die mittels Bildgebungsverfahren verarbeitet wurden, als digitale Bilddaten verstanden). Die Sensoren einer Mehrzahl an Sensoren können die gleiche Art oder verschiedene Arten von Sensoren aufweisen.

Die Vorrichtung 100 kann ferner eine Speichervorrichtung 106 aufweisen. Die

Speichervorrichtung 106 kann einen Speicher aufweisen. Der Speicher kann beispielsweise bei der durch einen Prozessor durchgeführten Verarbeitung verwendet werden. Ein in den Ausführungsformen verwendeter Speicher kann ein flüchtiger Speicher, zum Beispiel ein DRAM (dynamischer Direktzugriffsspeicher), oder ein nichtflüchtiger Speicher, zum Beispiel ein PROM (programmierbarer Festwertspeicher), ein EPROM (löschbarer PROM), ein EEPROM (elektrisch löschbarer PROM) oder ein Flash-Speicher, wie beispielsweise eine Speichereinrichtung mit schwebendem Gate, eine ladungsabfangende Speichereinrichtung, ein MRAM (magnetoresistiver Direktzugriffsspeicher) oder ein PCRAM (Phasenwechsel-Direktzugriffsspeicher), sein. Die Speichervorrichtung 106 kann eingerichtet sein, um die digitalen Daten 104 zu speichern. Die Vorrichtung 100 kann ferner mindestens einen Prozessor 108 (zum Beispiel genau einen Prozessor, zum Beispiel zwei Prozessoren, zum Beispiel mehr als zwei Prozessoren) aufweisen. Der mindestens eine Prozessor 108 kann, wie oben beschrieben, jede Art von Schaltung, d.h. jede Art von Logik-implementierender Entität, sein. In verschiedenen Ausführungsformen ist der mindestens eine Prozessor 108 eingerichtet, die digitalen Daten 104 zu verarbeiten.

Im Folgenden werden die Ausführungsbeispiele anhand von digitalen Bilddaten 204 als digitale Daten 104 beschrieben. Es ist jedoch darauf hinzuweisen, dass auch andere (digitale) Daten verwendet werden können, die abhängig vom Kontext sind, wie beispielsweise jede Art von digitalen Sensordaten.

FIG. 2 stellt eine Bildgebungs-Vorrichtung 200 gemäß verschiedenen Ausführungsformen dar, bei dem der Sensor als Bildgebungssensor 202 implementiert ist. Der Bildgebungssensor 202 kann ein Kamera-Sensor oder ein Video-Sensor sein. Der

Bildgebungssensor 202 kann eingerichtet sein, um digitale Bilddaten 204 bereitzustellen.

Im Rahmen dieser Beschreibung werden auch Radar-, LID AR- und Ultraschall-Sensoren, die eingerichtet sind, um digitale Bilddaten 204 bereitzustellen, als Bildgebungssensor 202 verstanden. Die digitalen Bilddaten 204 können eine Mehrzahl an digitalen Bildern 206 aufweisen. Die Mehrzahl an digitalen Bildern 206 können eine Szene in einem jeweiligen Kontext darstellen. Gemäß verschiedenen Ausführungsformen weist die

Bildgebungs-Vorrichtung 200 eine Mehrzahl an Bildgebungssensoren auf.

FIG. 3A stellt ein Verarbeitungssystem 300A zum Trainieren eines ersten neuronalen Teilnetzwerks gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 300A kann die Speichervorrichtung 106 zum Speichern der digitalen Bilddaten 204, wie beispielsweise von ersten digitalen Trainingsdaten 302, aufweisen. Die ersten digitalen Trainingsdaten 302 können einen ersten Kontext beschreiben. Das Verarbeitungssystem 300A kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines ersten neuronalen Teilnetzwerks 304. Das erste neuronale Teilnetzwerk 304 ist eingerichtet, die ersten digitalen Trainingsdaten 302 zu verarbeiten. Das erste neuronale Teilnetzwerk 304 kann ein Autoencoder-Netzwerk sein. Das erste neuronale Teilnetzwerk 304 kann einen ersten Encoder- Ab schnitt 306 aufweisen. Der erste Encoder- Ab schnitt 306 kann zumindest einen Encoder aufweisen und kann eingerichtet sein, die Merkmale der ersten digitalen Trainingsdaten 302 in einem ersten latenten Raum 308, d.h. in einer niedrigeren Dimension als die Dimension der ersten digitalen Trainingsdaten 302, darzustellen. Anders ausgedrückt kann der erste Encoder- Abschnitt 306 einen Code ausgeben, der eine niedrigere Dimension als die Dimension der ersten digitalen Trainingsdaten 302 hat. Das erste neuronale Teilnetzwerk 304 kann ferner einen ersten Decoder- Ab schnitt 310 aufweisen. Der erste Decoder- Ab schnitt 310 kann zumindest einen Decoder aufweisen und kann eingerichtet sein, um den im ersten latenten Raum 308 vorliegenden Code zu verarbeiten und um erste digitale Ausgabedaten 312 auszugeben. Die Dimension der ersten digitalen Ausgabedaten 312 kann der Dimension der ersten digitalen Trainingsdaten 302 entsprechen. Anders ausgedrückt kann der erste Decoder- Ab schnitt 310 die Dimension des in dem ersten latenten Raum 308 vorliegenden Codes auf die Dimension der ersten digitalen Trainingsdaten 302 erhöhen. Der erste Decoder- Ab schnitt 310 kann die ersten digitalen Trainingsdaten 302 aus dem von dem ersten Encoder- Ab schnitt 306 ausgegeben Code rekonstruieren. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen der ersten digitalen Ausgabedaten 312 mit den ersten digitalen Trainingsdaten 302 einen ersten Verlustwert 314 zu ermitteln. Das erste neuronale Teilnetzwerks 304 kann trainiert werden, indem der erste Encoder- Ab schnitt 306 und der erste Decoder- Ab Schnitts 310 adaptiert werden. Das erste neuronale Teilnetzwerk 304 kann derart adaptiert werden, dass der erste Verlustwert 314 minimiert wird. Das heißt, das trainierte erste neuronale Teilnetzwerk 304 kann einen Code ausgeben, der digitale Bilddaten, die einen ersten Kontext beschreiben, in einem ersten latenten Raum 308 beschreibt und kann einen Code, der digitale Bilddaten in dem ersten latenten Raum 308 beschreibt, zu digitalen Bilddaten rekonstruieren.

FIG. 3B stellt ein Verarbeitungssystem 300B zum Trainieren eines zweiten neuronalen Teilnetzwerks gemäß verschiedenen Ausfuhrungsformen dar. Das Verarbeitungssystem 300B kann die Speichervorrichtung 106 zum Speichern der digitalen Bilddaten 204, wie beispielsweise von zweiten digitalen Trainingsdaten 322, aufweisen. Die zweiten digitalen Trainingsdaten 322 können einen zweiten Kontext, der von dem ersten Kontext verschieden ist, beschreiben.

In verschiedenen Ausführungsformen können sich der erste Kontext und der zweite Kontext territorial und/oder intrinsisch unterscheiden wie oben beschrieben.

Das Verarbeitungs System 300B kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines zweiten neuronalen Teilnetzwerks 324. Das zweite neuronale Teilnetzwerk 324 ist eingerichtet, die zweiten digitalen Trainingsdaten 322 zu verarbeiten. Das zweite neuronale Teilnetzwerk 324 kann ein Autoencoder-Netzwerk sein. Die Architektur des zweiten neuronalen Teilnetzwerks 324 kann im Wesentlich der Architektur des ersten neuronalen Teilnetzwerks 304 entsprechen. Das zweite neuronale Teilnetzwerk 324 kann einen zweiten Encoder- Ab schnitt 326 und einen zweiten Decoder- Ab schnitt 330 aufweisen, wobei der zweite Encoder- Ab schnitt 326 basierend auf den zweiten digitalen Trainingsdaten 322 einen Code in einem zweiten latenten Raum 328 erzeugen kann und wobei der zweite Decoder- Ab schnitt 330 den in dem zweiten latenten Raum 328 vorliegenden Code rekonstruieren kann. Das heißt der zweite Decoder- Ab schnitt 330 kann zweite digitale Ausgabedaten 332 erzeugen, wobei die Dimension der zweiten digitalen Ausgabedaten 332 der Dimension der zweiten digitalen Trainingsdaten entsprechen kann. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen der zweiten digitalen Ausgabedaten 332 mit den zweiten digitalen Trainingsdaten 322 einen zweiten Verlustwert 334 zu ermitteln und um den zweiten Verlustwert 334 durch Adaptieren des zweiten Encoder- Ab Schnitts 326 und des zweiten Decoder- Ab Schnitts 330 zu minimieren. Das heißt, das trainierte zweite neuronale Teilnetzwerk 324 kann einen Code ausgeben, der digitale Bilddaten, die einen zweiten Kontext beschreiben, in einem zweiten latenten Raum 328 beschreibt und kann einen Code, der digitale Bilddaten in dem zweiten latenten Raum 328 beschreibt, zu digitalen Bilddaten rekonstruieren.

FIG. 4A stellt ein Verarbeitungssystem 400A zum Trainieren einer ersten Abbildung gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 400A kann die Speichervorrichtung 106 zum Speichern der ersten digitalen Trainingsdaten 302 aufweisen. Die Speichervorrichtung 106 kann ferner erste digitale Daten 402 speichern. Die ersten digitalen Daten 402 können in semantischer Beziehung zu den ersten digitalen

Trainingsdaten 302, die einen ersten Kontext beschreiben, stehen. Gemäß verschiedenen Ausführungsformen weisen die ersten digitalen Daten 402 eine Mehrzahl an Textstrings auf, wobei die Textstrings die in den ersten digitalen Trainingsdaten 302 dargestellte Szene beschreiben. Zum Beispiel können die ersten digitalen Trainingsdaten 302 ein erstes digitales Bild 302-1 und ein zweites digitales Bild 302-2 aufweisen, welche eine Szene in einem ersten Kontext beschreiben und die ersten digitalen Daten 402 können einen ersten Textstring 402-1, der dem ersten digitalen Bild 302-1 zugeordnet ist, und einen zweiten Textstring 402-2, der dem zweiten digitalen Bild 302-2 zugeordnet ist, aufweisen.

Beispielsweise stellt das erste digitale Bild 302-2 der ersten digitalen Trainingsdaten 302 eine Straße, parkende Autos und einen Fußgänger, der an der Straße steht, dar und der erste Textstring 402-1 beschreibt die Szene als„Fußgänger steht an Straße“. Das auf das erste digitale Bild 302-2 folgende zweite digitale Bild 302-2 stellt gemäß dem Beispiel die Szene dar, wobei der Fußgänger an der Straße stehen bleibt und der zweite Textstring 402-2 beschreibt die Szene als„Fußgänger bleibt stehen“.

Das Verarbeitungs System 400A kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil des trainierten ersten neuronalen Teilnetzwerks 304. Der erste Encoder- Ab schnitt 306 des trainierten ersten neuronalen Teilnetzwerks 304 kann einen Code ausgeben, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt. Der Prozessor 108 implementiert ferner zumindest einen Teil einer ersten Abbildung 404. Die erste Abbildung 404 kann die ersten digitalen Daten 402 in den ersten latenten Raum 308 abbilden. Anders ausgedrückt kann die erste Abbildung 404 die ersten digitalen Daten 402 verarbeiten und kann einen Code ausgeben, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt. Das heißt, der erste Encoder- Ab schnitt 306 kann einen ersten digitalen Trainingsdatencode 406 ausgeben, der die ersten digitalen Trainingsdaten 302 im ersten latenten Raum 308 beschreibt und die erste Abbildung 404 kann einen ersten digitalen Datencode 408 ausgeben, der die ersten digitalen Daten 402 im ersten latenten Raum 308 beschreibt. Anders ausgedrückt ordnet die erste Abbildung 404 dem ersten digitalen Trainingsdatencode 406 den ersten digitalen Datencode 408 in dem ersten latenten Raum 308 zu. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen des ersten digitalen Trainingscodes 406 mit dem ersten digitalen Datencode 408 einen ersten Abbildungs-Verlustwert 410 zu ermitteln. Der erste Abbildungs-Verlustwert 410 kann basierend auf einer Verlustfunktion ermittelt werden. Die Verlustfunktion kann jede Art von Verlustfunktion, wie beispielsweise jede Art von Verlustfunktion die auf einem Regressions-Modell basiert, sein.

Die erste Abbildung 404 kann trainiert werden, indem die erste Abbildung 404 adaptiert wird, wobei die erste Abbildung derart adaptiert werden kann, dass der erste Abbildungs- Verlustwert 410 minimiert wird. Das heißt, die trainierte erste Abbildung 404 kann einen Code ausgeben, der digitale Textdaten in dem ersten latenten Raum 308 beschreibt, wobei die digitalen Textdaten einen Textstring aufweisen und digitale Bilddaten, die einen ersten Kontext darstellen, beschreiben, und wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Bilddaten in dem ersten latenten Raum 308 beschreibt, zugeordnet ist. Die erste Abbildung 404 kann ein drittes neuronales Teilnetzwerk sein.

Das Verarbeitungssystem 400A kann ferner zumindest ein zusätzliches erstes neuronales Netzwerk aufweisen, das eingerichtet ist, um zumindest einen Teil (zum Beispiel die gesamten ersten digitalen Daten) der ersten digitalen Daten 402 unter Verwendung der ersten digitalen Trainingsdaten 302, die den ersten Kontext beschreiben, zu erzeugen.

FIG. 4B stellt ein Verarbeitungssystem 400B zum Trainieren einer zweiten Abbildung gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 400B kann die Speichervorrichtung 106 zum Speichern der zweiten digitalen Trainingsdaten 322 aufweisen. Die Speichervorrichtung 106 kann ferner zweite digitale Daten 422 speichern. Die zweiten digitalen Daten 422 können in semantischer Beziehung zu den zweiten digitalen Trainingsdaten 322, die einen zweiten Kontext beschreiben, stehen. Gemäß verschiedenen Ausführungsformen weisen die zweiten digitalen Daten 422 eine Mehrzahl an Textstrings auf, wobei die Textstrings die in den zweiten digitalen Trainingsdaten 322 dargestellte Szene beschreiben. Zum Beispiel können die zweiten digitalen Trainingsdaten 322 ein erstes digitales Bild 322-1 und ein zweites digitales Bild 322-2 aufweisen, welche eine Szene in einem zweiten Kontext beschreiben und die zweiten digitalen Daten 422 können einen ersten Textstring 422-1, der dem ersten digitalen Bild 322-1 zugeordnet ist, und einen zweiten Textstring 422-2, der dem zweiten digitalen Bild 302-2 zugeordnet ist, aufweisen. Beispielsweise stellt das erste digitale Bild 322-2 der zweiten digitalen

Trainingsdaten 322 im Wesentlichen die gleiche Szene wie das erste digitale Bild 302-2 der ersten digitalen Trainingsdaten 302 dar, das heißt, eine Straße, parkende Autos und einen Fußgänger, der an der Straße steht, und der erste Textstring 422-1 der zweiten digitalen Daten 422 beschreibt die Szene entsprechend als„Fußgänger steht an Straße“.

Das auf das erste digitale Bild 322-2 der zweiten digitalen Trainingsdaten 322 folgende zweite digitale Bild 322-2 stellt gemäß einem Beispiel eine Szene in dem zweiten Kontext dar, wobei der Fußgänger die Straße überquert und der zugeordnete zweite Textstring 422-2 beschreibt die Szene als„Fußgänger überquert Straße“.

Das Verarbeitungs System 400B kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil des trainierten zweiten neuronalen Teilnetzwerks 324. Der zweite Encoder- Ab schnitt 326 des trainierten zweiten neuronalen Teilnetzwerks 324 kann einen Code ausgeben, der die zweiten digitalen Trainingsdaten 322 in dem zweiten latenten Raum 328 beschreibt. Der Prozessor 108 implementiert ferner zumindest einen Teil einer zweiten Abbildung 424. Die zweite Abbildung 424 kann die zweiten digitalen Daten 422 in den zweiten latenten Raum 328 abbilden. Anders ausgedrückt kann die zweite Abbildung 424 die zweiten digitalen Daten 422 verarbeiten und kann einen Code ausgeben, der die zweiten digitalen Daten 422 in dem zweiten latenten Raum 328 beschreibt. Das heißt, der zweite Encoder- Ab schnitt 326 kann einen zweiten digitalen Trainingsdatencode 426 ausgeben, der die zweiten digitalen Trainingsdaten 322 im zweiten latenten Raum 328 beschreibt und die zweite Abbildung 424 kann einen zweiten digitalen Datencode 428 ausgeben, der die zweiten digitalen Daten 422 im zweiten latenten Raum 328 beschreibt. Anders ausgedrückt ordnet die zweite Abbildung 424 dem zweiten digitalen Trainingsdatencode 426 den zweiten digitalen Datencode 428 in dem zweiten latenten Raum 328 zu. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen des zweiten digitalen Trainingscodes 426 mit dem zweiten digitalen Datencode 428 einen zweiten Abbildungs- Verlustwert 430 zu ermitteln. Der zweite Abbildungs- Verlustwert 430 kann basierend auf einer Verlustfunktion ermittelt werden. Das Trainieren Die zweite Abbildung 424 kann trainiert werden, indem die zweite Abbildung 424 adaptiert wird, wobei die zweit Abbildung 424 derart adaptiert wird, dass der zweite Abbildungs- Verlustwert 430 minimiert wird. Das heißt, die trainierte zweite Abbildung 424 kann einen Code ausgeben, der digitale Textdaten in dem zweiten latenten Raum 328 beschreibt, wobei die digitalen Textdaten einen Textstring aufweisen und digitale Bilddaten, die einen zweiten Kontext darstellen, beschreiben, und wobei der Code, der die digitalen Textdaten beschreibt, einem Code, der die digitalen Bilddaten in dem zweiten latenten Raum 328 beschreibt, zugeordnet ist. Die zweite Abbildung 424 kann ein viertes neuronales Teilnetzwerk sein.

Das Verarbeitungssystem 400B kann ferner zumindest ein zusätzliches zweites neuronales Netzwerk aufweisen, das eingerichtet ist, um zumindest einen Teil (zum Beispiel die gesamten zweiten digitalen Daten) der zweiten digitalen Daten 422 unter Verwendung der zweiten digitalen Trainingsdaten 322, die den zweiten Kontext beschreiben, zu erzeugen.

FIG. 5 stellt ein Verarbeitungssystem 500 zum Trainieren einer dritten Abbildung gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 500 kann die

Speichervorrichtung 106 zum Speichern von digitalen Bilddaten 204 und von digitalen Textdaten, die die digitalen Bilddaten 204 beschreiben, aufweisen. Die

Speichervorrichtung 106 kann dritte digitale Trainingsdaten und dritte digitale Daten speichern. Die dritten digitalen Trainingsdaten können digitale Trainingsdaten, welche einen ersten Kontext beschreiben, und digitale Trainingsdaten, welche einen zweiten Kontext beschreiben, aufweisen. Die dritten digitalen Daten können digitale Daten, welche mit den digitalen Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen, und können digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, aufweisen. Gemäß verschiedenen Ausführungsformen weisen die digitalen Trainingsdaten, welche einen ersten Kontext beschreiben, zumindest eine Teilmenge (zum Beispiel die gesamten ersten digitalen Trainingsdaten) der ersten digitalen Trainingsdaten 302 auf und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den ersten digitalen Trainingsdaten 302 zugeordneten ersten digitalen Daten 402 aufweisen. Gemäß verschiedenen Ausführungsformen weisen die digitalen Trainingsdaten, welche einen zweiten Kontext beschreiben, zumindest eine Teilmenge (zum Beispiel die gesamten zweiten digitalen Trainingsdaten) der zweiten digitalen Trainingsdaten 322 auf und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den zweiten digitalen Trainingsdaten 322 zugeordneten zweiten digitalen Daten 422 aufweisen.

Das Verarbeitungssystem 500 kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil des trainierten ersten neuronalen Netzwerkes 304, zumindest einen Teil des trainierten zweiten neuronalen Netzwerkes 324, zumindest einen Teil der trainierten ersten Abbildung 404, und zumindest einen Teil der trainierten zweiten Abbildung 424. Der Prozessor 108 implementiert ferner zumindest einen Teil einer dritten Abbildung 502. Die dritte Abbildung 502 kann ein fünftes neuronales Teilnetzwerk sein. Die trainierte zweite Abbildung 424 kann einen Code ausgeben, der die zweiten digitalen Daten 422 in dem zweiten latenten Raum 328 beschreibt. Der erste Encoder- Ab schnitt 306 des trainierten ersten neuronalen

Teilnetzwerks 304 kann einen Code ausgeben, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt und die trainierte erste Abbildung 404 kann einen Code ausgeben, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt. Die dritte Abbildung 502 kann digitale latente Daten eines ersten latenten Raums 308, d.h. einen Code, der digitale Trainingsdaten bzw. digitale Textdaten in dem ersten latenten Raum 308 beschreibt, in digitale latente Daten eines zweiten latenten Raums 328, d.h. in einen Code, der die Daten in dem zweiten latenten Raum 328 beschreibt, transformieren. Anders ausgedrückt kann die dritte Abbildung 502 den Code, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt, und den Code, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt, in den zweiten latenten Raum 328 abbilden.

Die dritte Abbildung 502 kann den Code, der die ersten digitalen Trainingsdaten 302 in dem ersten latenten Raum 308 beschreibt, den Code, der die ersten digitalen Daten 402 in dem ersten latenten Raum 308 beschreibt, und den Code, der die zweiten digitalen Daten 422 in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann einen Code ausgeben, der digitale Trainingsdaten in dem zweiten latenten Raum 328 beschreibt. Der zweite Decoder- Ab schnitt 330 des zweiten neuronalen Teilnetzwerks 324 kann den Code, der die digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann dritte digitale Ausgabedaten 504 ausgeben, wobei die Dimension der dritten digitalen Ausgabedaten 504 der Dimension der zweiten digitalen Trainingsdaten 322 entsprechen kann. Der Prozessor 108 kann eingerichtet sein, um durch Vergleichen der dritten digitalen Ausgabedaten 504 mit den zweiten digitalen Trainingsdaten 322 einen dritten Abbildungs-Verlustwert 506 zu ermitteln. Die dritte Abbildung 502 kann trainiert werden, indem die dritte Abbildung 502 adaptiert wird, wobei die dritte Abbildung 502 derart adaptiert wird, dass der dritte Abbildungs- Verlustwert 506 minimiert wird. Das heißt, die trainierte dritte Abbildung 502 kann einen Code ausgeben, der Trainingsdaten in dem zweiten latenten Raum 328 beschreibt, wobei der zweite Decoder- Ab schnitt 330 nach Verarbeitung des Codes Trainingsdaten ausgeben kann, welche den zweiten digitalen Trainingsdaten 322 entsprechen können.

FIG. 6 stellt ein Verfahren 600 zum Trainieren eines neuronalen Netzwerkes gemäß verschiedenen Ausführungsformen dar. Das Verfahren 600 kann das Trainieren eines ersten neuronalen Teilnetzwerks 304 aufweisen (in 602). Das erste neuronale Teilnetzwerk 304 kann einen ersten Encoder- Ab schnitt 306 und einen ersten Decoder- Ab schnitt 310 aufweisen und kann basierend auf ersten digitalen Trainingsdaten 302, die einen ersten Kontext beschreiben, trainiert werden. Der erste Encoder- Ab schnitt 306 kann eine Abbildung der ersten digitalen Trainingsdaten 302 in einen ersten latenten Raum 308 bereitstellen. Das Verfahren 600 kann das Trainieren einer ersten Abbildung 404 aufweisen (in 604). Die erste Abbildung 404 kann erste digitale Daten 402, welche mit den ersten digitalen Trainingsdaten 302 in semantischer Beziehung stehen, in den ersten latenten Raum 308 abbilden und kann unter Verwendung der in den ersten latenten Raum 308 mittels des trainierten ersten neuronalen Teilnetzwerks 304 abgebildeten ersten digitalen Trainingsdaten 302 trainiert werden. Das Verfahren 600 kann das Trainieren eines zweiten neuronalen Teilnetzwerks 324 aufweisen (in 606). Das zweite neuronale Teilnetzwerk 324 kann einen zweiten Encoder- Ab schnitt 326 und einen zweite Decoder- Abschnitt 330 aufweisen und kann basierend auf zweiten digitalen Trainingsdaten 322, die einen zweiten Kontext beschreiben, trainiert werden. Der zweite Encoder- Ab schnitt 326 kann eine Abbildung der zweiten digitalen Trainingsdaten 322 in einen zweiten latenten Raum 328 bereitstellen. Das Verfahren 600 kann das Trainieren einer zweiten Abbildung 424 aufweisen (in 608). Die zweite Abbildung 424 kann zweite digitale Daten 422, welche mit den zweiten digitalen Trainingsdaten 322 in semantischer Beziehung stehen, in den zweiten latenten Raum 328 abbilden und kann unter Verwendung der in den zweiten latenten Raum 328 mittels des trainierten zweiten neuronalen Teilnetzwerks 324 abgebildeten zweiten digitalen Trainingsdaten 322 trainiert werden. Das Verfahren 600 kann ferner das Trainieren einer dritten Abbildung 502 aufweisen (in 610). Die dritte Abbildung 502 kann digitale latente Daten aus dem ersten latenten Raum 308 in den zweiten latenten Raum 328 abbilden. Die dritte Abbildung 502 kann basierend auf dritten digitalen Trainingsdaten und dritten digitalen Daten trainiert werden, wobei die dritten digitalen Trainingsdaten digitale Trainingsdaten, welche den ersten Kontext beschreiben, und digitale Trainingsdaten, welche den zweiten Kontext beschreiben, aufweisen können und wobei die dritten digitalen Daten digitale Daten, welche mit den digitalen

Trainingsdaten, welche den ersten Kontext beschreiben, in semantischer Beziehung stehen und digitale Daten, welche mit den digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, in semantischer Beziehung stehen, aufweisen. Die digitalen Trainingsdaten, welche den ersten Kontext beschreiben, können zumindest eine Teilmenge (zum Beispiel die gesamten ersten digitalen Trainingsdaten) der ersten digitalen Trainingsdaten 302 aufweisen und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den ersten digitalen Trainingsdaten 302 zugeordneten ersten digitalen Daten 402 aufweisen. Die digitalen Trainingsdaten, welche den zweiten Kontext beschreiben, können zumindest eine Teilmenge (zum Beispiel die gesamten zweiten digitalen Trainingsdaten) der zweiten digitalen Trainingsdaten 322 aufweisen und die digitalen Daten, welche mit diesen digitalen Trainingsdaten in semantischer Beziehung stehen können die den zweiten digitalen Trainingsdaten 322 zugeordneten zweiten digitalen Daten 422 aufweisen. FIG. 7A stellt ein Verarbeitungssystem 700A zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 700 A kann die Speichervorrichtung 106 zum Speichern von digitalen Daten 702, wie beispielsweise von digitalen Bilddaten 204, aufweisen. Die digitalen Daten 702 können erste Kontext-Daten 704 aufweisen, wobei die ersten Kontext-Daten 704 digitale Bilddaten 204 aufweisen, welche den ersten Kontext beschreiben. Die digitalen Daten 702 können ferner erste Kontext-Textdaten 706 aufweisen, wobei die ersten Kontext-Textdaten 706 eine Mehrzahl an Textstrings, die den ersten Kontext-Daten 704 zugeordnet sind, aufweisen, welche den ersten Kontext beschreiben. Die digitalen Daten 702 können ferner zweite Kontext-Textdaten 708 aufweisen, wobei die zweiten Kontext- Textdaten 708 eine Mehrzahl an Textstrings, welche einen zweiten Kontext beschreiben, aufweisen.

Das Verarbeitungssystem 700 A kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines ersten neuronalen Transformationsnetzwerkes 710A. Das erste neuronale Transformationsnetzwerk 710A kann zumindest einen Teil des trainierten ersten neuronalen Netzwerkes 304 und zumindest einen Teil des trainierten zweiten neuronalen Netzwerkes 324 aufweisen. Das erste neuronale Transformationsnetzwerk 710A kann den ersten Encoder- Ab schnitt 306 des trainierten ersten neuronalen Teilnetzwerks 304, den zweiten Decoder- Ab schnitt 330 des trainierten zweiten neuronalen Teilnetzwerks 324, die trainierte erste Abbildung 404 und die trainierte zweite Abbildung 424 aufweisen. Das erste neuronale

Transformationsnetzwerk 710A kann ferner die dritte Abbildung 502 aufweisen. Der erste Encoder- Ab schnitt 306 kann die ersten Kontext-Daten 704 verarbeiten und kann einen Code ausgeben, der die ersten Kontextdaten 704 in dem ersten latenten Raum 308 beschreibt. Die erste Abbildung 404 kann die ersten Kontext-Textdaten 706 verarbeiten und kann einen Code ausgeben, der die ersten Kontext-Textdaten 706 in dem ersten latenten Raum 308 beschreibt. Die zweite Abbildung 424 kann die zweiten Kontext- Textdaten 708 verarbeiten und kann einen Code ausgeben, der die zweiten Kontext- Textdaten 708 in dem zweiten latenten Raum 328 beschreibt. Die dritte Abbildung 502 kann den Code, der die ersten Kontext-Daten 704 in dem ersten latenten Raum 308 beschreibt, den Code, der die ersten Kontext-Textdaten 706 in dem ersten latenten Raum 308 beschreibt, und den Code, der die zweiten Kontext-Textdaten 708 in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann einen Code ausgeben, der digitale Daten in dem zweiten latenten Raum 328 beschreibt. Der zweite Decoder- Ab schnitt 330 kann den Code, der digitale Daten in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann zweite Kontext-Daten 712, welche den zweiten Kontext beschreiben, ausgeben. Das heißt, das erste neuronale Transformationsnetzwerk 710A kann digitale Daten, welche den ersten Kontext beschreiben, sowie digitale Text-Daten, welche den ersten Kontext und den zweiten Kontext beschreiben, verarbeiten und kann digitale Daten, welche den zweiten Kontext beschreiben, ausgeben.

Der Prozessor 108 kann ferner eingerichtet sein, die zweiten Kontextdaten 712 zu verarbeiten und kann klassifizierte und/oder segmentierte zweite Kontextdaten 714A ausgeben. Der Prozessor 108 kann ein erstes neuronales Klassifikationsnetzwerk implementieren, wobei das erste Klassifikationsnetzwerk eingerichtet ist, um digitale Daten zu klassifizieren und/oder zu segmentieren.

FIG. 7B stellt ein zweites Verarbeitungssystem 700B zum Transformieren von digitalen Daten zwischen verschiedenen Kontexten gemäß verschiedenen Ausführungsformen dar. Das Verarbeitungssystem 700B kann die Speichervorrichtung 106 zum Speichern von digitalen Daten 702, wie beispielsweise von digitalen Bilddaten 204, aufweisen. Die digitalen Daten 702 können zweite Kontext-Daten 712 aufweisen, wobei die zweiten Kontext-Daten 712 digitale Bilddaten 204 aufweisen, welche den zweiten Kontext beschreiben. Die digitalen Daten 702 können ferner erste Kontext-Textdaten 706 aufweisen, wobei die ersten Kontext-Textdaten 706 eine Mehrzahl an Textstrings, welche einen ersten Kontext beschreiben, aufweise. Die digitalen Daten 702 können ferner zweite Kontext-Textdaten 708 aufweisen, wobei die zweiten Kontext-Textdaten 708 eine

Mehrzahl an Textstrings, die den zweiten Kontext-Daten 712, welche einen zweiten Kontext beschreiben, zugeordnet sind, aufweisen.

Das Verarbeitungssystem 700B kann ferner den mindestens einen Prozessor 108 aufweisen. Der Prozessor 108 implementiert zumindest einen Teil eines zweiten neuronalen Transformationsnetzwerkes 71 OB. Das zweite neuronale

Transformationsnetzwerk 71 OB kann zumindest einen Teil des trainierten ersten neuronalen Netzwerkes 304, zumindest einen Teil des trainierten zweiten neuronalen Netzwerkes 324, die trainierte erste Abbildung 404 und die trainierte zweite Abbildung 424 aufweisen. Das zweite neuronale Transformationsnetzwerk 706B kann den zweiten Encoder- Ab schnitt 326 des trainierten zweiten neuronalen Teilnetzwerks 324 und den ersten Decoder- Ab schnitt 310 des trainierten ersten neuronalen Teilnetzwerks 304 aufweisen. Der zweite Encoder- Ab schnitt 326 kann die zweiten Kontext-Daten 712 verarbeiten und kann einen Code ausgeben, der die zweiten Kontext-Daten 712 in dem zweiten latenten Raum 328 beschreibt. Die erste Abbildung 404 kann die ersten Kontext- Textdaten 706 verarbeiten und kann einen Code ausgeben, der die ersten Kontext- Textdaten 706 in dem ersten latenten Raum 308 beschreibt. Die zweite Abbildung 424 kann die zweiten Kontext-Textdaten 708 verarbeiten und kann einen Code ausgeben, der die zweiten Kontext-Textdaten 708 in dem zweiten latenten Raum 328 beschreibt. Das zweite neuronale Transformationsnetzwerk 71 OB kann ferner zumindest einen Teil einer inversen dritten Abbildung 716 aufweisen, wobei die inverse dritte Abbildung 716 der Inversen Abbildung der trainierten dritten Abbildung 502 entsprechen kann. Das heißt, dass die inverse dritte Abbildung 716 einen Code, der digitale Daten, welche einen zweiten Kontext beschreiben, in dem zweiten latenten Raum 328 beschreibt, einen Code, der digitale Textdaten in dem zweiten latenten Raum 328 beschreibt, und einen Code, der digitale Textdaten in dem ersten latenten Raum 328 beschreibt, verarbeiten kann und einen Code, der digitale Daten in dem ersten latenten Raum 308 beschreibt, ausgeben kann. Anders ausgedrückt kann die inverse dritte Abbildung 716 einen Code, der digitale Daten, welche einen zweiten Kontext beschreiben, in dem zweiten latenten Raum beschreibt, in den ersten latenten Raum 308 abbilden unter Verwendung von digitalen Textdaten, welche den ersten Kontext und den zweiten Kontext beschreiben. Der zweite Decoder- Ab schnitt 310 kann die zweiten Kontext-Daten 712, welche den zweiten Kontext beschreiben, verarbeiten und kann einen Code ausgeben, der die zweiten Kontext-Daten 712 in dem zweiten latenten Raum 328 beschreibt. Die inverse dritte Abbildung 716 kann den Code, der die zweiten Kontext-Daten 712 in dem zweiten latenten Raum 328 beschreibt, den Code, der die ersten Kontext-Textdaten 706 in dem ersten latenten Raum 308 beschreibt, und einen Code, der die zweiten Kontext-Textdaten 708 in dem zweiten latenten Raum 328 beschreibt, verarbeiten und kann einen Code, der digitale Daten in dem ersten latenten Raum 308 beschreibt, ausgeben. Der erste Decoder- Ab schnitt 310 kann den Code, der digitale Daten in dem ersten latenten Raum 308 beschreibt, verarbeiten und kann erste Kontext-Daten 704, welche den ersten Kontext beschreiben, ausgeben. Das heißt, das zweite neuronale Transformationsnetzwerk 71 OB kann digitale Daten, welche den zweiten Kontext beschreiben, und digitale Textdaten, die einen ersten Kontext und einen zweiten Kontext beschreiben, verarbeiten und kann digitale Daten, welche den ersten Kontext beschreiben, ausgeben.

Der Prozessor 108 kann ferner eingerichtet sein, die ersten Kontext-Daten 704 zu verarbeiten und kann klassifizierte und/oder segmentierte erste Kontextdaten 714B ausgeben. Der Prozessor 108 kann ein zweites neuronales Klassifikationsnetzwerk implementieren, wobei das zweite Klassifikationsnetzwerk eingerichtet ist, um digitale Daten zu klassifizieren und/oder zu segmentieren. Das zweite Klassifikationsnetzwerk kann dem ersten Klassifikationsnetzwerk entsprechen. FIG. 8 stellt ein Fahrzeug 800 gemäß verschiedenen Ausführungsformen dar. Das Fahrzeug 800 kann ein Fahrzeug mit Verbrennungsmotor, ein Elektrofahrzeug, ein Hybridfahrzeug oder eine Kombination davon sein. Ferner kann das Fahrzeug 800 ein Auto, ein LKW, ein Schiff, eine Drohne, ein Flugzeug und dergleichen sein.

Das Fahrzeug 800 kann zumindest einen Sensor (beispielsweise einen Bildgebungssensor) 802 aufweisen (beispielsweise den Sensor 102). Das Fahrzeug 800 kann ein

Fahrassistenzsystem 804 aufweisen. Das Fahrassistenzsystem 804 kann die

Speichervorrichtung 106 aufweisen. Das Fahrassistenzsystem 804 kann den Prozessor 108 aufweisen. Der Prozessor 108 kann das erste neuronale Transformationsnetzwerk 710A und/oder das zweite neuronale Transformationsnetzwerk 71 OB implementieren. Das erste neuronale Transformationsnetzwerk 710A kann eingerichtet sein, um digitale Daten, die einen ersten Kontext beschreiben, zu verarbeiten und um digitale Daten, die einen zweiten Kontext beschreiben, auszugeben. Das zweite neuronale Transformationsnetzwerk 71 OB kann eingerichtet sein, um digitale Daten, die einen zweiten Kontext beschreiben, zu verarbeiten und um digitale Daten, die einen ersten Kontext beschreiben, auszugeben. Gemäß verschiedenen Ausführungsformen wurden das erste neuronale

Transformationsnetzwerk 710A und/oder das zweite neuronale Transformationsnetzwerk 71 OB nach dem Verfahren 600 zum Trainieren eines neuronalen Netzwerkes trainiert, so dass das erste neuronale Transformationsnetzwerk 71 OB bzw. das zweite neuronale Transformationsnetzwerk 71 OB digitale Daten, welche einen ersten Kontext bzw. einen zweiten Kontext beschreiben in digitale Daten, welche einen zweiten Kontext bzw. einen ersten Kontext beschreiben, transformiert werden können.

Der Prozessor 108 kann ferner eingerichtet sein, die von dem ersten neuronalen

Transformationsnetzwerk 710A und/oder dem zweiten neuronale Transformationsnetzwerk 71 OB ausgegebenen digitalen Daten zu klassifizieren und/oder zu segmentieren.

Der Prozessor 108 kann ein neuronales Klassifikationsnetzwerk implementieren, das eingerichtet ist, um die von dem ersten neuronalen Transformationsnetzwerk 710A und oder dem zweiten neuronalen Transformationsnetzwerk 71 OB ausgegebenen digitalen Daten zu klassifizieren und/oder zu segmentieren.

Gemäß verschiedenen Ausführungsformen weisen die klassifizierten und/oder

segmentierten digitalen Daten 714A, 714B die Intention von Verkehrsteilnehmern als Merkmal auf. Dies hat in Kombination mit der Transformation der digitalen Bilddaten beispielsweise den Vorteil, dass die Intention eines Verkehrsteilnehmers abhängig vom Kontext der Situation, zum Beispiel dem territorialen Kontext bezüglich einem Stadtteil, einer Region, einem Land usw., ermittelt werden kann. Das Fahrassistenzsystem 804 kann eingerichtet sein, um das Fahrzeug 800 basierend auf den klassifizierten und/oder segmentierten digitalen Daten 714A, 714B zu steuern. Anders ausgedrückt kann das Fahrassistenzsystem 804 eingerichtet sein, um die klassifizierten und/oder segmentierten digitalen Daten 714A,714B zu verarbeiten und um basierend auf den klassifizierten und/oder segmentierten digitalen Daten 714A, 714B zumindest einen Steuerbefehl an einen oder mehrere Aktoren des Fahrzeugs 800 ausgeben zu können.

Das heißt das Fahrassistenzsystem 804 kann basierend auf dem Kontext der digitalen Bilddaten 204 und damit dem Kontext der klassifizierten und/oder segmentierten digitalen Daten 714A,714B das derzeitige Fahrverhalten beeinflussen, zum Beispiel kann das derzeitige Fahrverhalten beibehalten werden oder geändert werden. Beispielsweise kann das Fahrassistenzsystem 804 ermitteln, dass in dem Kontext einer Situation ein Fußgänger versucht eine Straße zu überqueren und kann das Fahrverhalten zum Beispiel derart ändern, dass in das Fahrverhalten aus Sicherheitsgründen sein eingegriffen wird, wie beispielsweise durch eine Notbremsung.