Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR AUTOMATIC GESTURE RECOGNITION
Document Type and Number:
WIPO Patent Application WO/2018/219551
Kind Code:
A1
Abstract:
The invention relates to a method for automatic gesture recognition, wherein, by means of a machine learner (5), data of a respective gesture of a plurality of gestures carried out by a user and detected by means of at least one sensor are assigned to a respective class of a plurality of predefined classes, and wherein the machine learner (5) is trained with a training dataset that is divided into predefined data segments (1, 2, 3, 4), and wherein, during the training, respective data segments (1, 2, 3, 4) of the training dataset are assigned to respective classes of the plurality of predefined classes by means of the machine learner (5), and wherein a respective input with which respective assignment processes for assigning respective data segments (1, 2, 3, 4) to a respective class enter the automatic gesture recognition is considered with at least one weighting factor (6, 7), and wherein the machine learner (5) is optimised with a loss function during the training, and wherein the loss function weights respective assignment processes for assigning respective data segments (1, 2, 3, 4) to a respective class using the at least one weighting factor (6, 7) formed according to a frequency of assignment processes from respective data segments to a respective class.

Inventors:
SCHÖN TORSTEN (DE)
SCHLITTENBAUER MICHAEL (DE)
MORGOTT MICHAEL (DE)
Application Number:
PCT/EP2018/059935
Publication Date:
December 06, 2018
Filing Date:
April 18, 2018
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
AUDI AG (DE)
International Classes:
G06F3/01
Foreign References:
US20160321540A12016-11-03
US20140279716A12014-09-18
DE112014003305T52016-05-12
US20160321540A12016-11-03
Other References:
CRUZ RICARDO ET AL: "Tackling class imbalance with ranking", 2016 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), IEEE, 24 July 2016 (2016-07-24), pages 2182 - 2187, XP032992435, DOI: 10.1109/IJCNN.2016.7727469
SONG, Y.; MORENCY, L. P.; DAVIS, R.: "Distribution-sensitive learning for imbalanced datasets", 10TH IEEE INTERNATIONAL CONFERENCE AND WORKSHOPS ON AUTOMATIC FACE AND GESTURE RECOGNITION (FG, vol. 2013, 2013, pages 1 - 6
GIBSON, ADAM; PATTERSON, JOSH: "Deep Learning. Early Release", August 2016, O'REILLY MEDIA, INC
OWENS; ADAMS: "Training Neural Nets with Class Imbalance", 20 January 2014 (2014-01-20)
Download PDF:
Claims:
Neue Patentansprüche

1 . Verfahren zur automatischen Erkennung von Gesten, die zur

Steuerung einer Komponente eines Fahrzeugs eingesetzt werden , bei dem mittels eines maschinellen Lerners (5) Daten einer jeweiligen Geste einer Vielzahl von durch einen Nutzer ausgeführten und mittels mindestens eines Sensors erfassten Gesten einer jeweiligen Klasse einer Vielzahl von vorgegebenen Klassen zugeordnet werden, und

bei dem der maschinelle Lerner (5) mit einem Trainingsdatensatz trainiert wird, der in vorgegebene Datensegmente (1 , 2, 3, 4) unterteilt wird, und bei dem während des Trainings jeweilige Datensegmente (1 , 2, 3, 4) des Trainingsdatensatzes mittels des maschinellen Lerners (5) jeweiligen Klassen der Vielzahl vorgegebener Klassen zugeordnet werden, und bei dem ein jeweiliger Beitrag, mit dem jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente (1 , 2, 3, 4) zu einer jeweiligen Klasse in die automatische Gestenerkennung einfließen, mittels mindestens eines Gewichtungsfaktors (6, 7) berücksichtigt wird, wobei der mindestens eine Gewichtungsfaktor (6, 7) zum Gewichten des Beitrags, mit dem jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente zu einer jeweiligen Klasse in die automatische Gestenerkennung einfließen, als

Kehrwert in einer Verlustfunktion berücksichtigt wird, mit der der maschinelle Lerner (5) während des Trainingsoptimiert wird, wobei der mindestens eine Gewichtungsfaktor (6, 7) während des Trainings des maschinellen Lerners (5) dynamisch aktualisiert wird, und

bei dem die Verlustfunktion jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente (1 , 2, 3, 4) zu einer jeweiligen Klasse unter Verwendung des mindestens einen in Abhängigkeit einer Häufigkeit von Zuordnungsvorgängen von jeweiligen Datensegmenten zu einer jeweiligen Klasse gebildeten Gewichtungsfaktors (6, 7) gewichtet, und bei dem ein der jeweiligen Klasse zugeordneter Steuerbefehl erzeugt und zum Steuern der Komponente des Fahrzeugs eingesetzt wird, und wobei der Gewichtungsfaktor (6, 7) ein zu der Häufigkeit von Zuordnungsvorgängen von jeweiligen Datensegmenten zu der jeweiligen Klasse proportionaler Faktor ist.

2. Verfahren nach einem der voranstehenden Ansprüche, bei dem jeweilige Gewichtungsfaktoren (6, 7) jeweiliger Zuordnungen jeweiliger Datensegmente zu jeweiligen Klassen nach einer Klasse normalisiert werden, der am wenigsten Datensegmente (1 , 2, 3, 4) zugeordnet werden.

3. Verfahren nach einem der voranstehenden Ansprüche, bei dem der maschinelle Lerner (5) mittels eines lokalen Minimums der Verlustfunktion optimiert wird.

4. Verfahren nach einem der voranstehenden Ansprüche, bei dem als maschineller Lerner (5) ein künstliches neuronales Netzwerk gewählt wird.

5. Verfahren nach einem der voranstehenden Ansprüche, bei dem der maschinelle Lerner (5) nach einem Training jeweilige von dem mindestens einen Sensor erfasste Daten automatisch in Datensegmente (1 , 2, 3, 4) unterteilt und die Datensegmente (1 , 2, 3, 4) jeweiligen vorgegebenen Klassen zuordnet. 6. Gestenerfassungssystem für ein Fahrzeug, mit mindestens einem Sensor zum Erfassen von durch einen Nutzer bereitgestellten Gesten und einem Steuergerät, wobei das Steuergerät dazu konfiguriert ist, mittels eines maschinellen Lerners (5) Daten einer jeweiligen Geste einer Vielzahl von durch einen Nutzer ausgeführten und mittels des mindestens eines Sensors erfassten Gesten einer jeweiligen Klasse einer Vielzahl von vorgegebenen Klassen zuzuordnen, und wobei das Steuergerät weiterhin dazu konfiguriert ist, den maschinellen Lerner (5) mit einem Trainingsdatensatz zu trainieren, der in vorgegebene Datensegmente (1 , 2, 3, 4) unterteilt ist,

und während des Trainings jeweilige Datensegmente (1 , 2, 3, 4) des

Trainingsdatensatzes mittels des maschinellen Lerners (5) jeweiligen

Klassen der Vielzahl vorgegebener Klassen zuzuordnen, und wobei das Steuergerät weiterhin dazu konfiguriert ist, mindestens einen

Gewichtungsfaktor (6, 7) zum Gewichten eines Beitrags zu verwenden, mit dem jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger

Datensegmente zu jeweiligen Klassen in die automatische Gestenerkennung einfließen, und den mindestens einen Gewichtungsfaktor (6, 7) als Kehrwert in einer Verlustfunktion zu berücksichtigen, mit der der maschinelle Lerner (5) während des Trainings optimiert wird, wobei der mindestens eine

Gewichtungsfaktor (6, 7) während desTrainings des maschinellen Lerners (5) dynamisch aktualisiert wird, und wobei das Steuergerät dazu konfiguriert ist, einen der jeweiligen Klasse zugeordneten Steuerbefehl zu erzeugen und zum Steuern einer Komponente des Fahrzeugs einzusetzen, und wobei der mindestens eine Gewichtungsfaktor (6, 7) ein zu der Häufigkeit von

Zuordnungsvorgängen von jeweiligen Datensegmenten zu der jeweiligen Klasse proportionaler Faktor ist.

Description:
Verfahren und Vorrichtung zur automatischen Gestenerkennung

Die vorgestellte Erfindung betrifft ein Verfahren zum automatischen

Erkennen von Gesten eines Nutzers und ein zur Durchführung des vorgestellten Verfahrens konfiguriertes Gestenerfassungssystem.

Algorithmen zur Gestenerkennung werden derzeit oft mit Methoden auf Basis eines überwachten Lernens umgesetzt. Dabei werden bei einem

sogenannten Deep Learning Prozess Modellparameter eines künstlichen neuronalen Netzwerks mit Hilfe von Datensätzen beliebiger Modalitäten trainiert. Algorithmen zur Gestenerkennung werden mit vorsegmentierten Datensätzen trainiert, bei denen jedem Datensegment jeweils eine Klasse gemäß einem vorgegebenen Schema zugewiesen ist. Ein derart trainierter maschineller Lerner ist lediglich für eine Klassifizierung von ebenfalls in Datensegmente eingeteilten Daten geeignet. Deshalb ist entweder eine reine Offline-Erkennung von vorsegmentierten Sequenzen möglich oder ein weiterer Algorithmus für eine Echtzeitanwendung notwendig, der mit einer unvermeidbaren Latenz Eingangsdaten segmentiert, um anschließend mit dem Gestenerkennungsalgorithmus jeweilige Datensegmente zu

klassifizieren, d. h. jeweiligen Klassen zuzuordnen. Eine Optimierung jeweiliger Modellparameter eines jeweiligen maschinellen Lerners findet mit einer Maximierung einer Genauigkeit einer Zuordnung von jeweiligen

Datensegmenten zu jeweiligen Klassen statt. Da eine Ungleichheit einer Häufigkeitsverteilung zwischen den jeweiligen Klassen bei traditionellen Optimierungsansätzen nicht berücksichtigt wird, kann es zu Situationen kommen, in denen ein maschineller Lerner sehr genau häufig vorkommende Datensegmente einer jeweiliger Klasse zuordnet, und weniger häufig vorkommende Datensegmente sehr ungenau einer jeweiligen Klasse zuordnet. In der Druckschrift US 2014 279 716 A1 wird ein Verfahren zum

Klassifizieren von elektronischen Informationen unter Nutzung von aktiven Lernmethoden offenbart, bei dem Daten unter Zuhilfenahme von

Verlustfunktionen und Gesteneingaben klassifiziert werden.

Die Druckschrift DE 1 1 2014 003 305 T5 offenbart ein Verfahren zum

Verarbeiten eines akustischen Signals mittels eines Lernverfahrens, bei dem Sprache unter Berücksichtigung von Verlustfunktionen und Eingaben eines Nutzers klassifiziert wird.

Ein künstliches neuronales Netzwerk mit Filtern für von einem Nutzer bereitgestellte Gesten ist in der Druckschrift US 2016/0321540 A1 offenbart. Das Dokument Song, Y.; Morency, L. P.; Davis, R.: Distribution-sensitive learning for imbalanced datasets. In: 0th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG) 2013, 2013, S. 1 -6 offenbart ein Verfahren zur Gestenerkennung, bei dem ein Trainingsdatensatz vor einem Lernvorgang analysiert und gewichtet wird.

Das Dokument Gibson, Adam; Patterson, Josh: Deep Learning. Early Release. USA: O'Reiily Media, Inc, August 2016. Kapitel "6. Tuning Deep Networks", Abschnitt: "Working with Class Imbalance". ISBN 978-1 -4919- 1425-0) offenbart ein Verfahren zum Anpassen einer Veriustfunktion eines maschinellen Lerners während eines Trainings.

Das Dokument Owens, Adams: Training Neural Nets with Class Imbalance, 20.01 .2014 offenbart ein Verfahren zum Ausbalancieren eines künstlichen neuronalen Netzwerks. Vor diesem Hintergrund ist es eine Aufgabe der vorgestellten Erfindung, einen maschinellen Lerner bereitzustellen, der von einem Nutzer

bereitgestellte Gesten mit einer größtmöglichen Genauigkeit erkennt. Zur Lösung der voranstehend genannten Aufgabe wird ein Verfahren zur automatischen Erkennung von Gesten, die zur Steuerung einer Komponente eines Fahrzeugs eingesetzt werden, vorgestellt. Gemäß dem vorgestellten Verfahren ist es vorgesehen, dass mittels eines maschinellen Lerners Daten einer jeweiligen Geste einer Vielzahl von durch einen Nutzer ausgeführten und mittels mindestens eines Sensors erfassten Gesten einer jeweiligen Klasse aus einer Vielzahl von vorgegebenen Klassen zugeordnet werden. Dabei ist vorgesehen, dass der maschinelle Lerner mit einem

Trainingsdatensatz trainiert wird, der in vorgegebene Datensegmente unterteilt ist bzw. wird, wobei während des Trainings jeweilige

Datensegmente des Trainingsdatensatzes mittels des maschinellen Lerners jeweiligen Klassen der Vielzahl vorgegebener Klassen zugeordnet werden. Dabei wird ein jeweiliger Beitrag, mit dem jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente zu einer jeweiligen Klasse in die automatische Gestenerkennung einfließen, mittels mindestens eines

Gewichtungsfaktors berücksichtigt. Dabei ist vorgesehen, dass der maschinelle Lerner während des Trainings mittels einer Verlustfunktion optimiert wird, die jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente zu einer jeweiligen Klasse unter Verwendung des

mindestens einen in Abhängigkeit einer Häufigkeit von

Zuordnungsvorgängen von jeweiligen Datensegmenten zu einer jeweiligen Klasse gebildeten Gewichtungsfaktors gewichtet.

Dabei wird in der Regel jeder Klasse jeweils ein Gewichtungsfaktor zugeordnet, mit dem ein Beitrag der jeweiligen dieser Klasse Datensegmente zuordnenden Zuordnungsvorgänge in der automatischen Gestenerkennung berücksichtigt wird. Das bedeutet, dass es je nach Anzahl der vorgegebenen Klassen eine entsprechende Anzahl Gewichtungsfaktoren gibt.

Ausgestaltungen der vorgestellten Erfindung ergeben sich aus der

Beschreibung und den abhängigen Ansprüchen.

Das erfindungsgemäß vorgesehene Training dient dazu, den maschinellen Lerner, insbesondere ein künstliches neuronales Netzwerk letztlich dazu zu konfigurieren, von einem Nutzer durchgeführte Bewegungen mindestens einer vorgegebenen Klasse, die bspw. mit einer Geste assoziiert ist, zuzuordnen. Durch ein Erkennen einer jeweiligen Geste anhand einer Zuordnung einer Bewegung des Nutzers zu einer mit der jeweiligen Geste assoziierten Klasse mittels des maschinellen Lerners können Steuerbefehle zum Steuern jeweiliger Komponenten eines Fahrzeugs erzeugt werden, wodurch eine Gestenkontrolle der Komponenten ermöglicht wird.

Das vorgestellte Verfahren dient insbesondere zum möglichst exakten Erkennen von durch einen Nutzer bereitgestellten Gesten, d. h. von

Bediengesten, die zur Steuerung einer Vorrichtung, wie bspw. einem

Fahrzeug oder einer Komponente des Fahrzeugs, eingesetzt werden. Es ist vorgesehen, dass von mindestens einem Sensor, wie bspw. einer Kamera, erfasste Daten mittels des erfindungsgemäß vorgesehenen maschinellen Lerners klassifiziert, d. h. jeweiligen Klassen zugeordnet werden. Dazu ist erfindungsgemäß vorgesehen, dass zunächst ein von dem Sensor bereitgestellter jeweiliger Datensatz in Datensegmente unterteilt wird, und die jeweiligen Datensegmente dann von dem maschinellen Lerner jeweiligen Klassen zugeordnet werden.

Weiterhin ist erfindungsgemäß vorgesehen, dass ein zum Erkennen jeweiliger Gesten eingesetzter maschineller Lerner bzw. eine entsprechende maschinelle Lernfunktion unter Berücksichtigung einer Verlustfunktion trainiert wird, die jeweilige Zuordnungsvorgänge jeweiliger Datensegmente zu jeweiligen Klassen bzw. deren Wahrscheinlichkeit mittels, d. h. unter Verwendung des mindestens einen in Abhängigkeit einer Häufigkeit von Zuordnungsvorgängen von jeweiligen Datensegmenten zu einer jeweiligen Klasse gebildeten Gewichtungsfaktors gewichtet. Dies bedeutet, dass ein jeweiliger Beitrag, mit dem jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente zu einer jeweiligen Klasse in die automatische Gestenerkennung einfließen, unter Verwendung des mindestens einen Gewichtungsfaktors gewichtet wird. Dabei kann die Verlustfunktion, mittels derer eine Abweichung zwischen einer optimalen Erkennungsleistung und einer tatsächlichen Erkennungsleistung eines jeweiligen maschinellen Lerners mathematisch abgebildet wird, als Optimierungsfunktion zum

Optimieren des maschinellen Lerners eingesetzt werden, indem der maschinelle Lerner so lange verändert wird, bis die Verlustfunktion ein lokales Minimum erreicht. Im lokalen Minimum der Verlustfunktion ist der maschinelle Lerner optimal eingestellt.

Um eine Konfiguration des maschinellen Lerners bei einem Training, die ausschließlich auf einer Häufigkeit eines Vorkommens eines jeweiligen Zuordnungsvorgangs eines Datensemgents zu einer Klasse basiert, zu vermeiden, sind Gewichtungsfaktoren vorgesehen, die einen Einfluss eines jeweiligen Zuordnungsvorgangs auf den maschinellen Lerner bzw. auf eine Anpassung bzw. auf eine Konfiguration des maschinellen Lerners in

Reaktion auf einen jeweiligen Zuordnungsvorgang beeinflussen bzw.

vorgeben. So kann bspw. vorgesehen sein, dass ein Zuordnungsvorgang mit einem Gewichtungsfaktor von "0,1 " gewichtet wird, so dass der

Zuordnungsvorgang mit 10% in die Verlustfunktion eingeht. Da die

Verlustfunktion verwendet wird, um den maschinellen Lerner zu

konfigurieren, d. h. eine innere Struktur des maschinellen Lerners, wie bspw. eine Gewichtung von Verbindungen/Kanten zwischen Knoten im Falle eines künstlichen neuronalen Netzwerks als maschinellem Lerner anzupassen, nimmt ein jeweiliger Gewichtungsfaktor durch seinen Einfluss auf die

Verlustfunktion Einfluss auf den maschinellen Lerner, wie bspw. ein entsprechendes künstliches neuronales Netzwerk.

Sobald ein jeweiliger maschineller Lerner trainiert ist, kann mit dem maschinellen Lerner eine sehr exakte Zuordnung von mittels eines Sensors erfassten Daten zu einer Anzahl vorgegebener Klassen erreicht werden, ohne dass der maschinelle Lerner besonders spezifisch für lediglich eine Klasse optimiert bzw. übertrainiert ist.

Um jeweilige Gesten eines Nutzers zu erkennen, d. h. jeweilige einer Geste entsprechende Daten einer vorgegebenen Klasse, die mit einer jeweiligen Geste assoziiert ist, zuzuordnen und einen der Klasse zugeordneten

Steuerbefehl zu erzeugen, wird ein Nutzer in der Regel kontinuierlich mittels eines Sensors, wie bspw. einer Kamera überwacht. Entsprechend wird von dem Sensor ein Datensatz erzeugt, der sowohl Daten, die keine Geste repräsentieren als auch Daten, die eine Geste repräsentieren, umfasst. Dabei sind Daten, die keine Geste repräsentieren, in der Regel

überrepräsentiert, d. h. häufiger in einem Datensatz vertreten als Daten, die eine Geste repräsentieren bzw. einer Geste entsprechen.

Durch eine Überrepräsentation von Daten, die keiner Geste entsprechen, in einem von einem jeweiligen Sensor erfassten Datensatz kann es im Stand der Technik zu Situationen kommen, in denen ein mittels des Datensatzes trainierter maschineller Lerner sehr spezifisch auf eine optimale

Erkennungsleistung für Daten, die keiner Geste entsprechen, konfiguriert ist, und entsprechend weniger spezifisch auf eine optimale Erkennungsleistung für Daten, die einer Geste entsprechen, konfiguriert ist. Eine solche Fehlkonfiguration kann bspw. dann entstehen, wenn eine Zuordnung bzw. ein Zuordnungsvorgang eines ersten Datensegments aus einem jeweiligen Trainingsdatensatz zu einer ersten Klasse gegenüber einer Zuordnung bzw. einem Zuordnungsvorgang eines zweiten Datensegments zu einer zweiten Klasse häufiger, d. h. bspw. zehnmal so häufig vorkommt, so dass der maschinelle Lerner zehnmal häufiger eine Rückmeldung durch die

Zuordnung bzw. den Zuordnungsvorgang des ersten Datensegments als durch die Zuordnung bzw. den Zuordnungsvorgang des zweiten

Datensegments erfährt. Entsprechend wird der maschinelle Lerner bei einem derartigen Training besonders stark auf die Zuordnung bzw. den

Zuordnungsvorgang des ersten Datensegments zu der ersten Klasse optimiert, wodurch der maschinelle Lerner ggf. besonders schlecht für eine Zuordnung bzw. einen Zuordnungsvorgang des zweiten Datensegments zu der zweiten Klasse geeignet ist. Einen solchen maschinellen Lerner bezeichnet man als fehltrainiert.

Um ein Fehltraining eines jeweiligen maschinellen Lerners, d. h. ein Training, das zu einer nicht optimalen Erkennungsleistung für Klassen führt, die weniger häufig bereitgestellt werden als andere Klassen, zu vermeiden, sieht das vorgestellte Verfahren vor, dass verschiedene Zuordnungsvorgänge jeweiliger Datensegmente zu jeweiligen Klassen bei einem Training eines jeweiligen maschinellen Lerners gewichtet werden, wobei ein jeweiliger Beitrag der verschiedenen Zuordnungsvorgänge der jeweiligen

Datensegmente zu den jeweiligen Klassen bei der automatischen

Gestenerkennung geeignet berücksichtigt wird. Dazu ist insbesondere vorgesehen, dass die verschiedenen Klassen nach einer Häufigkeit ihrer Erkennung bzw. die damit assoziierten Zuordnungsvorgänge durch den maschinellen Lerner gewichtet Einfluss auf eine Auswertung durch den maschinellen Lerner und somit auf eine Zuordnungsgenauigkeit des maschinellen Lerners für jeweilige Klassen nehmen. Dabei kann ein zu der Häufigkeit der Zuordnung jeweiliger Datensegmente zu einer jeweiligen Klasse proportionaler Gewichtungsfaktor gewählt werden und dessen Kehrwert mit einer Wahrscheinlichkeit, mit der jeweilige Datensegmente einer Klasse zugewiesen werden, multipliziert werden. Dies führt dazu, dass unter Verwendung des Gewichtungsfaktors umso weniger Einfluss auf eine Konfiguration bzw. ein Training des maschinellen Lerners genommen wird, desto häufiger eine entsprechende Klasse erkannt wird. Selbstverständlich kann auch jedes weitere mathematische Verhältnis zwischen einer

Häufigkeit, mit der ein jeweiliges Datensegment einer jeweiligen Klasse zugeordnet wurde, d. h. mit der ein spezifischer Zuordnungsvorgang stattfand und einem Wert eines entsprechenden Gewichtungsfaktors gewählt werden, um geeignet in die Verlustfunktion einzufließen.

Insbesondere ist vorgesehen, dass ein Gewichtungsfaktor für eine jeweilige Klasse bzw. für jeweilige mit dieser jeweiligen Klasse assoziierten

Zuordnungsvorgänge derart gewählt wird, dass die Klasse, wenn diese besonders häufig bereitgestellt bzw. erkannt wird, bei einem Training pro mit dieser jeweiligen Klasse assoziiertem Zuordnungsvorgang weniger stark berücksichtigt wird als eine Klasse, die besonders selten bereitgestellt bzw. erkannt wird. Das heißt, dass ein jeweiliger Zuordnungsvorgang, der ein

Datensegment einer Klasse zuordnet, die häufig erkannt wird, weniger stark in die Verlustfunktion einfließt als ein jeweiliger Zuordnungsvorgang zu einer weniger oft erkannten Klasse. Der erfindungsgemäße Gewichtungsfaktor kann verwendet werden, um bei einem nicht ausbalancierten Datensatz unterschiedlich häufig erkannte Klassen in einem ausgewogenen Verhältnis zueinander bei einem Training zu berücksichtigen. Entsprechend wird durch den erfindungsgemäß vorgesehenen mindestens einen Gewichtungsfaktor verhindert, dass ein jeweiliger maschineller Lerner zu Ungunsten einer Erkennungsrate für selten zugeordnete bzw. selten erkannte Klassen spezifisch auf häufig zugeordnete bzw. häufig erkannte Klassen trainiert wird. Dazu gleicht der mindestens eine Gewichtungsfaktor einen Einfluss/Beitrag, den jeweilige Klassen bzw. entsprechende mit diesen Klassen assoziierte Zuordnungsvorgänge auf eine Anpassung/Konfiguration von Zusammenhängen zwischen jeweiligen Schichten bzw. Knoten des maschinellen Lerners, bei einem Training nehmen, zwischen verschiedenen Klassen aus. Entsprechend wird ein jeweiliger maschineller Lerner unter Verwendung des erfindungsgemäß vorgesehenen mindestens einen

Gewichtungsfaktors insbesondere unspezifisch bzw. breit trainiert, so dass der maschinelle Lerner möglichst viele Klassen möglichst genau erkennen kann.

Das vorgestellte Verfahren basiert insbesondere auf einem Training mittels in Datensegmente unterteilten Daten, so dass von einem jeweiligen

maschinellen Lerner jeweilige Datensegmente einer jeweiligen Klasse zugeordnet werden. Entsprechend ist vorgesehen, dass der mindestens eine erfindungsgemäß vorgesehene Gewichtungsfaktor in Abhängigkeit einer Häufigkeit von Zuordnungsvorgängen von Datensegmenten zu einer jeweiligen Klasse gebildet wird, so dass häufig vorkommende Zuordnungen bzw. Zuordnungsvorgänge von Datensegmenten zu Klassen weniger stark zu einer Veränderung bzw. zu einer Anpassung von Verbindungen zwischen Schichten, d. h. von Kanten zwischen Knoten des maschinellen Lerners beitragen als selten vorkommende Zuordnungen bzw. Zuordnungsvorgänge von jeweiligen Datensegmenten zu jeweiligen Klassen.

Das Training ist ein zentraler Schritt, der einem maschinellen Lerner, bspw. einem künstlichen neuronalen Netzwerk seine Fähigkeiten zur Erkennung verleiht. Im Training werden Gewichte und Bias aller Neuronen im Netzwerk schrittweise so angepasst, dass das künstliche neuronale Netzwerk

Eingaben auf gewünschte Ausgaben abbildet. Ausgangspunkt ist ein künstliches neuronales Netzwerk mit zufällig gewählten Gewichten. Im überwachten Lernen wird eine Eingabe dann durch das zufällig gewählte künstliche neuronale Netzwerk auf eine Ausgabe abgebildet und diese dann mit der gewünschten Ausgabe verglichen. Die Abweichungen (Fehler) von der gewünschten zur tatsächlichen Ausgabe des künstlichen neuronalen Netzwerks werden anschließend dazu genutzt, die Gewichte im künstlichen neuronalen Netzwerk in kleinen Schritten zu korrigieren. Der Algorithmus, mit dem das überwachte Lernen durchgeführt wird, heißt Backpropagation.

Hiermit wird der entstandene Fehler rückwärts durch das künstliche neuronale Netzwerk geleitet, um die Gewichte anzupassen. Ausgangspunkt für den Backpropagation Algorithmus ist eine Abweichung bzw. ein Fehler, den das künstliche neuronale Netzwerk in einem aktuellen Zustand bei der Berechnung begeht. Diese Abweichung wird mit Hilfe der voranstehend genannten Verlustfunktion berechnet.

Ziel des Trainings ist es letztlich, ein lokales Minimum für die Verlustfunktion zu finden.

Es ist vorgesehen, dass der maschinelle Lerner während des Trainings mittels der den mindestens einen Gewichtungsfaktor umfassenden

Verlustfunktion optimiert wird. Dabei ist vorgesehen, dass in der

Verlustfunktion eine Häufigkeit einer Zuordnung bzw. eines

Zuordnungsvorgangs von Datensegmenten zu einer jeweiligen Klasse mittels eines jeweiligen Gewichtungsfaktors berücksichtigt wird.

Mittels der Verlustfunktion, die eine Genauigkeit, d. h. einen Grad einer Übereinstimmung von einer jeweiligen durch einen maschinellen Lerner vorhergesagten Zuordnung jeweiliger Datensegmente zu einer jeweiligen Klasse mit einer tatsächlichen jeweiligen Zuordnung der jeweiligen

Datensegmente zu der jeweiligen Klasse angibt, kann eine Güte des maschinellen Lerners beurteilt werden. Entsprechend eignet sich eine Verlustfunktion besonders vorteilhaft als Optimierungsfunktion für einen maschinellen Lerner, indem der maschinelle Lerner solange

verändert/angepasst wird, bis die Verlustfunktion ein lokales Minimum erreicht. Dabei kann das lokale Minimum bspw. als Nullstelle einer jeweiligen Verlustfunktion berechnet werden.

Es ist insbesondere vorgesehen, dass der erfindungsgemäß vorgesehene maschinelle Lerner mittels einer Verlustfunktion optimiert wird, die den erfindungsgemäß vorgesehenen mindestens einen Gewichtungsfaktor umfasst bzw. berücksichtigt. Entsprechend wird der maschinelle Lerner unter Berücksichtigung des mindestens einen Gewichtungsfaktors verändert bzw. optimiert. Dabei kann insbesondere vorgesehen sein, dass eine

Verlustfunktion alle erkannten Zuordnungen bzw. Zuordnungsvorgänge jeweiliger Daten zu jeweiligen Klassen berücksichtigt und diese einzeln mittels eines jeweiligen spezifisch für eine jeweilige Zuordnung, d. h. einen jeweiligen Zuordnungsvorgang bzw. eine jeweilige damit assoziierte Klasse berechneten Gewichtungsfaktors gewichtet. Durch eine derartige

Gewichtung jeweiliger Zuordnungen bzw. jeweiliger Zuordnungsvorgänge kann ein Einfluss häufig vorkommender Zuordnungen, von bspw. Daten, die keine Gesten enthalten, auf die Verlustfunktion und, dadurch auf den maschinellen Lerner an sich, beschränkt werden.

Eine mögliche Ausgestaltung einer Verlustfunktion, wie sie voranstehend beschrieben ist, ist durch Formel ( ) dargestellt.

In Formel (1 ) stehen "gf für eine Grundwahrheit bzw. eine jeweilige gemäß der Grundwahrheit korrekt zugeordnete Klasse, " für ein Trainingsbeispiel, V für eine Trainingsbeispiellänge, "k" für ein Datensegment, " j g t,i,k" für eine Zuordnungswahrscheinlichkeit eines Datensegments "k" eines

Trainingsbeispiels T zu einer Klasse gemäß einer Grundwahrheit, d. h. für eine Wahrscheinlichkeit eine Grundwahrheit "y,, k" bei gegebenem Modell zu erfassen, und "Ρ' für eine Größe eines jeweiligen Datensatzes. Dabei ist zu beachten, dass während eines Datensegments k nur eine Klasse auftreten kann, wobei die Klasse mit gt - argmax (yv. k) bestimmt werden kann und im Folgenden entsprechend deklariert wird. Der Faktor " m gt " gibt einen

Gewichtungsfaktor für Zuordnungsvorgänge jeweiliger Datensegmente zu der jeweiligen Klasse gemäß der Grundwahrheit an und wird dabei entweder im Vorfeld berechnet oder ggf. auch dynamisch bestimmt, d. h. während eines Trainingsprozesses gebildet und somit individuell auf den jeweiligen Trainingsdatensatz angepasst.

Gemäß Formel (1 ) wird ein jeweiliger Gewichtungsfaktor "m" als Kehrwert mit einer jeweiligen errechneten Zuordnungswahrscheinlichkeit " y " von

Datensegmenten zu der jeweiligen Klasse multipliziert. Da jeweilige

Gewichtungsfaktoren nach einer am geringsten bzw. seltensten

vorkommenden Geste normalisiert werden, ist sichergestellt, dass kein Logarithmus von einem Wert größer 1 gebildet werden muss.

Im Training wird ein Trainingsdatensatz vorgegeben, wobei der

Trainingsdatensatz in vorgegebene Datensegmente unterteilt ist. Dabei ist es denkbar, dass jeweilige mit den Datensegmenten verbundene Gesten eine unterschiedliche Länge aufweisen oder eine sogenannte "Blank-Geste" umfassen, d. h. eine Bewegung, die keiner bewussten Geste entspricht. Auch diese "Blank-Geste" muss in den Trainingsprozess eingearbeitet werden. Dabei ergibt sich, wie voranstehend bereits erwähnt, das Problem, dass ein Verhältnis zwischen den Gesten nicht ausgeglichen ist. Für ein Training wird bspw. ein Trainingsdatensatz in Form eines Videos verwendet, wobei das Video in ausgewählte Abschnitte (Clips), entsprechend in ausgewählte Datensegmente, unterteilt wird. Dabei werden auch

Handlungen bzw. Bewegungen im Trainingsdatensatz berücksichtigt, die keiner Geste entsprechen und nunmehr beim Training dem künstlichen neuronalen Netzwerk antrainiert werden sollen. Ursprünglich weist jedes Einzelbild des Videos eine zugeordnete Klasse auf. Allerdings werden im vorliegenden Ansatz mehrere Einzelbilder zu einem sogenannten Clip, d. h. einem Datensegment zusammengefasst, wobei auch die entsprechenden Klassen in eine Klasse zusammengefasst werden. In möglicher

Ausgestaltung wird nunmehr bei einem einzigen Vorkommen einer einer spezifischen Geste zugeordneten Klasse das gesamte diese spezifische Geste umfassende Datensegment dieser Klasse zugeordnet. Einzig wenn ausschließlich sogenannte Blank-Gesten in einem Datensegment vorhanden sind, wird das entsprechende Datensegment auch der Klasse, die mit der Blank-Geste assoziiert ist, zugewiesen. Dadurch wird verhindert, dass bei sehr kurzen Gesten alle zugehörigen Datensegmente, d. h. diese kurzen Gesten jeweils umfassenden Datensegmente fälschlicherweise einer Blank- Geste zugeordnet werden. In weiterer Ausgestaltung wird das Verhältnis zwischen den Gesten nach der Geste mit geringstem Vorhandensein bzw. Auftreten normalisiert, damit auch diese Geste in die Berechnung bzw.

Konfiguration des künstlichen neuronalen Netzwerks einfließt. Dadurch wird das eingangs erwähnte Problem, dass bei einem nicht ausbalancierten Datensatz bestimmte Klassen nicht verhältnismäßig trainiert werden, gelöst. Das genannte Verhältnis dient demnach als Gewicht zur Berechnung des Verlustes und fließt demnach über den voranstehend genannten

Gewichtungsfaktor in die bereits genannte Verlustfunktion ein. Es ist denkbar, dass das Verhältnis sowohl vor Beginn des Trainings abgestimmt auf den vorgegebenen Trainingsdatensatz errechnet wird, oder auch während des Trainings online bestimmt wird.

Aufgabe des Trainings ist es letztlich, ein Modell zu finden, das durch das künstliche neuronale Netzwerk abgebildet wird und das mit Eingangswerten Ausgangswerte berechnet, die tatsächlichen Werten, sogenannten Ground- Truth Werten entsprechen. Dazu wird in möglicher Ausgestaltung eine Verlustfunktion für einen Backpropagation-Algorithmus formuliert, die eine negativen Logarithmus einer sogenannten Likelihood verwendet. Damit ergibt sich eine Summe über Wahrscheinlichkeiten und unter

Berücksichtigung von Mittelwerten ergibt sich die voranstehend genannte Gleichung (1 ) als negative Log-Likelihood-Verlustfunktion. Dabei wird die Verlustfunktion, wie voranstehend bereits erwähnt, gewichtet, um das voranstehend genannte Verhältnis zwischen den Gesten mit einzubeziehen. Der dynamisch berechnete Gewichtungsfaktor m wird als Kehrwert mit der errechneten Wahrscheinlichkeit y multipliziert. Dabei wird jeweils der wahre Wert gt betrachtet. Da der Gewichtungsfaktor nach der am wenigsten vorkommenden Geste normalisiert wird, ist sichergestellt, dass kein einzelnes Gewicht bzw. Gewichtungsfaktor kleiner als 1 ist. Dies ist nötig, um zu garantieren, dass kein Logarithmus von einem Wert größer als 1 gebildet werden muss. Der berechnete Wert der Verlustfunktion dient nun als Fehler, um Korrekturwerte von Modellparametern zu berechnen.

Formel (1 ) leitet sich aus Formel (2) ab, bei der für einen Backpropagation- Algorithmus, wie er typischerweise zum Trainieren von künstlichen

neuronalen Netzwerken verwendet wird, ein negativer Logarithmus einer Wahrscheinlichkeit einer korrekten Zuordnung eines Datensegments zu einer jeweiligen Klasse zum Trainieren eines jeweiligen künstlichen neuronalen Netzwerks verwendet wird.

In Formel (2) stehen "gf für eine Grundwahrheit bzw. eine jeweilige Klasse, "/ " " für ein Trainingsbeispiel, "J' für eine Trainingsbeispiellänge, "k" für ein Datensegment, "y " für eine Zuordnungswahrscheinlichkeit eines

Datensegments zu einer Klasse und "F" für eine Größe eines jeweiligen Datensatzes.

In einer weiteren möglichen Ausgestaltung des vorgestellten Verfahrens ist vorgesehen, dass, wie voranstehend bereits erwähnt, jeweilige

Gewichtungsfaktoren jeweiliger Zuordnungen bzw. Zuordnungsvorgänge jeweiliger Datensegmente zu jeweiligen Klassen nach einer Klasse normalisiert werden, der am wenigsten Datensegmente zugeordnet werden.

Da bei einer Optimierung bzw. eines Trainings eines künstlichen neuronalen Netzwerks unter Verwendung von Formel (2) stark vertretene bzw. häufig zugeordnete Klassen einen sehr starken Einfluss auf das künstliche neuronale Netzwerk nehmen und eine Verlustfunktion gemäß Formel (2) wahrscheinlich in ein lokales Minimum gerät, das überwiegend diese häufig zugeordneten bzw. überproportional erkannten Klassen berücksichtigt, werden die Netzwerkausgänge, d. h. die Ausgabeschicht, des künstlichen neuronalen Netzwerks je nach Häufigkeit eines jeweiligen "ground-truth- Labels" bzw. einer Zuordnung zu einer jeweiligen Klasse gewichtet.

Um einen Einfluss jeweiliger Gewichtungsfaktoren auf einen jeweiligen maschinellen Lerner zu normieren, kann ein Wert eines jeweiligen Gewichtungsfaktors relativ zu einem weiteren Gewichtungsfaktor interpretiert werden. Dazu kann insbesondere vorgesehen sein, dass jeweilige

Gewichtungsfaktoren nach einer Klasse normalisiert werden, der am wenigsten Datensegmente zugeordnet werden bzw. die am seltensten erkannt wird, so dass dieser am seltensten erkannten Klasse bspw. der Wert "1 " zugeordnet wird.

In einer weiteren möglichen Ausgestaltung des vorgestellten Verfahrens ist vorgesehen, dass ein jeweiliger Gewichtungsfaktor zum Gewichten des Anteils/Beitrags, mit dem jeweilige Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente zu einer jeweiligen Klasse in die automatische Gestenerkennung einfließen, als Kehrwert in der Veriustfunktion

berücksichtigt wird. Für den Fall, dass ein Gewichtungsfaktor als Kehrwert in die Verlustfunktion einfließt und darüber Einfluss auf den maschinellen Lerner nimmt, wird die am seltensten erkannte Klasse einen stärksten relativen Einfluss auf den maschinellen Lerner nehmen. Unabhängig von jeweiligen Normierungsschritten wird durch eine

Berücksichtigung des Gewichtungsfaktors als Kehrwert eines jeweiligen Werts einer Häufigkeit einer Zuordnung von Datensegmenten zu einer jeweiligen Klasse der relative Einfluss einer häufig erkannten bzw.

zugeordneten Klasse auf einen jeweiligen maschinellen Lerner desto stärker minimiert je häufiger der Klasse Datensegmente zugeordnet werden.

Das vorgestellte Verfahren wurde insbesondere für künstliche neuronale Netzwerke als maschinelle Lerner erprobt und eignet sich entsprechend zur Optimierung von künstlichen neuronalen Netzwerken. Wenngleich für andere maschinelle Lerner als künstliche neuronale Netzwerke keine Erkenntnisse bekannt sind, könnte sich die Funktionsweise des vorgestellten Verfahrens auch zur Optimierung anderer maschineller Lerner eignen.

In einer weiteren möglichen Ausgestaltung des vorgestellten Verfahrens ist vorgesehen, dass der mindestens eine Gewichtungsfaktor während eines Trainings des maschinellen Lerners dynamisch aktualisiert wird.

Um jeweilige Gewichtungsfaktoren spezifisch an einen jeweiligen

Trainingsdatensatz anzupassen, kann es vorgesehen sein, dass ein jeweiliger Gewichtungsfaktor dynamisch, d. h. bspw. stets nach einem Erkennungsvorgang einer Klasse durch einen jeweiligen maschinellen Lerner, aktualisiert wird. Dabei können alle Gewichtungsfaktoren parallel oder selektiv nur diejenigen Gewichtungsfaktoren, die eine aktuell erkannte Klasse bzw. einen damit assoziierten Zuordnungsvorgang gewichten, aktualisiert werden.

In einer weiteren möglichen Ausgestaltung des vorgestellten Verfahrens ist vorgesehen, dass der mindestens eine Gewichtungsfaktor vor einem Training berechnet und während des Trainings fest vorgegeben wird.

Durch einen fest vorgegebenen Gewichtungsfaktor kann eine Änderung der Gewichtungsfaktoren aufgrund von Änderungen weiterer

Gewichtungsfaktoren ausgeschlossen werden, so dass ein entsprechendes Training sehr kurz und effizient ablaufen kann.

In einer weiteren möglichen Ausgestaltung des vorgestellten Verfahrens ist vorgesehen, dass der maschinelle Lerner nach einem Training jeweilige von dem mindestens einen Sensor erfasste Daten automatisch in

Datensegmente unterteilt und die Datensegmente jeweiligen vorgegebenen Klassen zuordnet. Sobald ein jeweiliger maschineller Lerner fertig trainiert wurde bzw. sobald ein Optimierungsprozess des maschinellen Lerners abgeschlossen ist, kann dieser zum Erkennen von Gesten, d. h. zum Zuordnen von mittels eines Sensors erfassten Daten zu jeweiligen Klassen verwendet werden. Dabei ist insbesondere vorgesehen, dass ein Algorithmus zur Durchführung des vorgestellten Verfahrens sowohl zum Segmentieren, d. h. zum Unterteilen der erfassten Daten in Datensegmente nach bspw. einem zeitlichen

Vorkommen bzw. einem chronologischen Erfassen, als auch zur

Klassifizierung, d. h. zur Zuordnung jeweiliger Datensegmente bzw. der einem Datensegment entsprechenden Daten zu einer vorgegebenen Klasse verwendet wird.

Ferner betrifft die vorgestellte Erfindung ein Gestenerfassungssystem für ein Fahrzeug, mit mindestens einem Sensor zum Erfassen von durch einen Nutzer bereitgestellten Gesten und einem Steuergerät. Es ist vorgesehen, dass das Steuergerät dazu konfiguriert ist, mittels eines maschinellen Lerners Daten einer jeweiligen Geste einer Vielzahl von durch einen Nutzer ausgeführten und mittels des mindestens einen Sensors erfassten Gesten einer jeweiligen Klasse einer Vielzahl von vorgegebenen Klassen

zuzuordnen. Weiterhin ist vorgesehen, dass das Steuergerät dazu

konfiguriert ist, den maschinellen Lerner mit einem Trainingsdatensatz zu trainieren, der in vorgegebene Datensegmente unterteilt ist, und während des Trainings jeweilige Datensegmente des Trainingsdatensatzes mittels des maschinellen Lerners jeweiligen Klassen der Vielzahl vorgegebener Klassen zuzuordnen, wobei ein jeweiliger Beitrag, mit dem jeweilige

Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente zu einer jeweiligen Klasse in die automatische Gestenerkennung einfließen, mittels mindestens einen Gewichtungsfaktors berücksichtigt wird und wobei das Steuergerät weiterhin dazu konfiguriert ist, den maschinellen Lerner während des Trainings mittels einer Verlustfunktion zu optimieren, wobei die

Verlustfunktion einen jeweiligen Beitrag, mit dem jeweilige

Zuordnungsvorgänge zum Zuordnen jeweiliger Datensegmente zu einer jeweiligen Klasse in die automatische Gestenerkennung einfließen, unter Verwendung mindestens eines in Abhängigkeit einer Häufigkeit von

Zuordnungsvorgängen von jeweiligen Datensegmenten zu einer jeweiligen Klasse gebildeten Gewichtungsfaktors gewichtet.

Das vorgestellte Verfahren dient insbesondere zum Betrieb des vorgestellten Gestenerfassungssystems.

Weitere Vorteile und Ausgestaltungen ergeben sich aus der Beschreibung und der beiliegenden Zeichnung. Es versteht sich, dass die voranstehend genannten und die nachstehend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.

Die Erfindung ist anhand von Ausführungsformen in der Zeichnung schematisch dargestellt und wird unter Bezugnahme auf die Zeichnung schematisch und ausführlich beschrieben. Figur 1 zeigt eine schematische Darstellung eines Ablaufs eines Trainings eines maschinellen Lerners gemäß einer möglichen Ausgestaltung des erfindungsgemäßen Verfahrens.

In Figur 1 sind verschiedene Datensegmente 1 bis 4 eines

Trainingsdatensatzes dargestellt. Der Trainingsdatensatz wurde mittels einer Kamera in einem Fahrzeug aufgenommen und bspw. von einem Techniker in die Datensegmente 1 bis 4 eingeteilt. Während in den Datensegmenten 1 bis 3 keine Geste von einem Nutzer des Fahrzeugs bereitgestellt wurde, wurde von dem Nutzer in dem Datensegment 4 eine Geste zum Aktivieren eines Entertainmentsystems des Fahrzeugs ausgeführt.

Würden alle Datensegmente 1 bis 4 bei einem Training eines zum Erkennen der Geste vorgesehenen künstlichen neuronalen Netzwerks 5 gleich stark berücksichtigt, d. h. mit einem gleich großen Einfluss auf eine Konfiguration des künstlichen neuronalen Netzwerks 5 einwirken, würde das künstliche neuronale Netzwerk 5 besonders stark auf Zuordnungsvorgänge für die Datensegmente 1 bis 3 optimiert werden, da Daten dieser Datensegmente 1 bis 3 alle einer Klasse "Rauschen" bzw. Bewegungen ohne Geste

zuzuordnen sind. Entsprechend würde das künstliche neuronale Netzwerk 5 dreimal auf eine möglichste exakte Erkennung der Klasse "Rauschen" und lediglich einmal auf die Klasse "Geste für Entertainmentsystem" trainiert. Ein solches Training führt zu einer guten Erkennungsleistung für die Klasse "Rauschen", nicht jedoch zu einer guten Erkennungsleistung für die Klasse "Geste für Entertainmentsystem".

Durch während des Trainings stattfindende Anpassungen zur Optimierung des künstlichen neuronalen Netzwerks 5 kann es vorkommen, dass sich die Erkennungsleistung für die Klasse "Geste für Entertainmentsystem" zugunsten der Erkennungsleistung für die Klasse "Rauschen" verringert. Um eine Erkennungsleistung für die Klasse "Geste für Entertainmentsystem" zu maximieren, ist erfindungsgemäß vorgesehen, dass bei einem Prozess zur Veränderung des künstlichen neuronalen Netzwerks 5 die Klasse "Geste für Entertainmentsystem" mittels eines ersten Gewichtungsfaktors 6 und die Klasse "Rauschen" mittels eines zweiten Gewichtungsfaktors 7 gewichtet wird. Sowohl der erste Gewichtungsfaktor 6 als auch der zweite

Gewichtungsfaktor 7 werden in Abhängigkeit einer Häufigkeit von

Zuordnungsvorgängen jeweiliger Datensegmente 1 bis 4 zu den jeweiligen Klassen gewählt. Da vorliegend die Klasse "Rauschen" dreimal erkannt wurde, d. h. der Klasse "Rauschen" drei Datensegmente bzw. die

Datensegmente 1 bis 3 zugeordnet wurden, wird der Klasse "Rauschen" ein Wert "3" zugeordnet. Da vorliegend der Klasse "Geste für

Entertainmentsystem" ein Datensegment, nämlich das Datensegment 4 zugeordnet wurde, wird der Klasse "Geste für Entertainmentsystem" ein Wert "1 " zugeordnet.

Um einen Einfluss der häufig erkannten Klasse "Rauschen" auf das künstliche neuronale Netzwerks 5 zu minimieren und einen Einfluss der selten erkannten Klasse "Geste für Entertainmentsystem" auf das künstliche neuronale Netzwerks 5 zu maximieren, wird beim Training des künstlichen neuronalen Netzwerks 5 eine Optimierungsfunktion bzw. Verlustfunktion verwendet, die eine Wahrscheinlichkeit, mit der ein Datensegment 1 bis 4 einer jeweiligen Klasse zugeordnet wird, mit einem Kehrwert eines jeweiligen Gewichtungsfaktors multipliziert, um einen Anteil, den ein jeweiliger

Zuordnungsvorgang eines Datensegments 1 bis 4 zu einer jeweiligen Klasse auf die Optimierung des neuronalen Netzwerks 5 hat, vorzugeben.

Dabei geht ein jeweiliger Gewichtungsfaktor, der proportional zu einer Häufigkeit einer Zuordnung eines Datensegments zu einer jeweiligen Klasse ist, als Kehrwert in die Optimierungsfunktion bzw. Verlustfunktion ein, so dass dieser sich mit zunehmender Größe des Werts der jeweils erkannten Zuordnungen zu dieser jeweiligen Klasse verkleinert. Entsprechend führt eine häufig erkannte Geste, wie bspw. die Klasse "Rauschen" zu einer weniger starken Anpassung jeweiliger Verbindungen zwischen jeweiligen Schichten bzw. Knoten des künstlichen neuronalen Netzwerks 5 als weniger häufig erkannte Zuordnungen. Entsprechend wird die Klasse "Geste für Entertainmentsystem" bei einer Optimierung des künstlichen neuronalen Netzwerks 5 besonders stark berücksichtigt, so dass das künstliche neuronale Netzwerk 5 die Klasse "Geste für Entertainmentsystem" besonders gut erkennt.