Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
COMPUTER-IMPLEMENTED METHOD AND COMPUTER PROGRAM FOR MACHINE-LEARNING A ROBUSTNESS OF AN ACOUSTIC CLASSIFIER, ACOUSTIC CLASSIFICATION SYSTEM FOR AUTOMATICALLY OPERABLE DRIVING SYSTEMS, AND AUTOMATICALLY OPERABLE DRIVING SYSTEM
Document Type and Number:
WIPO Patent Application WO/2022/023008
Kind Code:
A1
Abstract:
A computer-implemented method for machine-learning a robustness of an acoustic classifier (AK), wherein a driving system is controlled automatically on the basis of classifications and/or locations of the acoustic classifier (AK), the method comprising the steps of providing first input signals by way of a driving system acoustic sensor for the acoustic classifier (AK) (V1), receiving interference (S) on the basis of the first input signals for fraud identification, fraud avoidance and/or fraud protection purposes and/or for improving a recognition and/or classification performance of the acoustic classifier (AK), wherein an audibility of the interference is reduced (V2), receiving second input data from an addition of the first input data and the interference (V3), inputting combinations of the first and second input data into the acoustic classifier (AK) (V4) and machine-learning the combinations (V5), wherein the acoustic classifier (AK) learns to classify and/or locate acoustic events and in the process becomes robust to interference.

Inventors:
SCHNEIDER GEORG (DE)
WOITSCHEK FABIAN (DE)
Application Number:
PCT/EP2021/069321
Publication Date:
February 03, 2022
Filing Date:
July 12, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
ZAHNRADFABRIK FRIEDRICHSHAFEN (DE)
International Classes:
G10L15/20
Domestic Patent References:
WO2020001891A12020-01-02
Foreign References:
US20190220248A12019-07-18
DE102020205825A2020-05-08
Other References:
SAJJAD ABDOLI ET AL: "Universal Adversarial Audio Perturbations", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 8 August 2019 (2019-08-08), XP081540213
YAO QIN ET AL: "Imperceptible, Robust, and Targeted Adversarial Examples for Automatic Speech Recognition", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 March 2019 (2019-03-22), XP081370275
Download PDF:
Claims:
Patentansprüche

1. Computerimplementiertes Verfahren zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators (AK), wobei ein Fahrsystem in Abhängigkeit von Klassifizierungen und/oder Lokalisierungen des akustischen Klassifikators (AK) auto matisiert gesteuert wird, das Verfahren umfassend die Schritte

• Bereitstellen von ersten Eingangssignalen mittels eines Fahrsystems-Akus- tiksensors für den akustischen Klassifikator (AK) (V1 ),

• Erhalten von Störungen (S) in Abhängigkeit der ersten Eingangssignale zur Täuschungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesse rung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klas sifikators (AK), wobei eine Hörbarkeit der Störungen reduziert wird (V2),

• Erhalten von zweiten Eingangsdaten aus einer Addition der ersten Eingangs daten und der Störungen (V3),

• Eingeben von Kombinationen aus den ersten und den zweiten Eingangsdaten in den akustischen Klassifikator (AK) (V4) und

• maschinelles Lernen der Kombinationen (V5), wobei der akustische Klassifikator (AK) lernt, akustische Ereignisse zu klassifizieren und/oder lokalisieren und dabei robust gegen die Störungen wird.

2. Verfahren nach Anspruch 1 , wobei zum Erhalten der Störungen und/oder der Re duzierung der Hörbarkeit der Störungen eine Verlustfunktion unter Einhaltung der Bedingung, dass die Störungen kleiner als eine vorgegebene Störung sind, minimiert wird, wobei die Verlustfunktion als ersten Teil die Störungen und als zweiten Teil eine mit den Störungen erweiterte Verlustfunktion des akustischen Klassifikators (AK) um fasst, wobei die erweiterte Verlustfunktion von einer von einem Störer beabsichtigten Klassifizierung des akustischen Klassifikators (AK) minimiert wird.

3. Verfahren nach Anspruch 1 oder 2, wobei die ersten Eingangsdaten Rohdaten des Fahrsystem-Akustiksensors, gefilterte Rohdaten und/oder eine Repräsentation der Rohdaten in einem Zeit-Frequenz-Bereich umfassen.

4. Verfahren nach einem der vorangehenden Ansprüche, wobei die ersten Eingangs daten eine Repräsentation von Rohdaten des Fahrsystem-Akustiksensors in einem Zeit-Frequenz-Bereich umfassen und durch Maskierung die Störungen auf Frequen zen mit geringer Energie addiert werden.

5. Computerprogramm zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators (AK) umfassend Programmbefehle, die bewirken, dass ein Computer ein Verfahren nach einem der Ansprüche 1 bis 4 ausführt, wenn das Programm auf dem Computer läuft.

6. Akustisches Klassifikationssystem für automatisiert betreibbare Fahrsysteme zum Klassifizieren und/oder Lokalisieren von akustischen Ereignissen im Außen- und/oder Innenraum des Fahrsystems umfassend einen Akustiksensor und einen akustischen Klassifikator (AK), wobei der akustische Klassifikator (AK) nach einem Verfahren der vorangehenden Ansprüche gelernt hat, akustische Ereignisse robust gegen Störun gen zu klassifizieren und/oder lokalisieren.

7. Klassifikationssystem nach Anspruch 6, wobei bei Verwendung der Akustiksensor im Innenraum des Fahrsystems angeordnet ist und der akustische Klassifikator ro bust gegen gestörte Geräusche von

• Insassen umfassend Gemüts-, Belastungs-, Gesundheitszustand, Alkohol, Drogen, Position, Orientierung, Identifikation,

• Situationen umfassend Interaktion der Insassen,

• Schadensgeräuschen am eigenen Fahrsystem umfassend Klappern, Quiet schen, Schleifen, Brandgeräusche,

• Interaktion mit Funktionen des Fahrsystems umfassend Steuerungs-Komman dos an das Fahrsystem umfassend Ein- und Ausschalten von Systemen, Rou tenwahl, Musikwahl, Anrufwahl, Anfragen und

• Beeinflussung von akustisch angebunden Systemen umfassend Mobiltelefone im Innenraum ist.

8. Klassifikationssystem nach Anspruch 6, wobei bei Verwendung der Akustiksensor im Außenraum des Fahrsystems angeordnet ist und der akustische Klassifikator ro bust gegen gestörte Geräusche von

• anderen Verkehrsteilnehmer umfassend andere Fahrsysteme, Personen, spielende Kinder, Rettungswagen im Einsatz, Tiere/Wildwechsel,

• Situationen umfassend Unfall in Umgebung, umstürzende Bäume, fallende Äste,

• Notruf/Warnrufe durch Personen,

• Witterungsgeräuschen umfassend nasse Straße, Schnee auf Straße, Hagel, starker Wind, Waldbrand,

• Schadensgeräuschen am eigenen oder fremden Fahrsystem umfassend Klap pern, Quietschen, Schleifen,

• Steuerungs-Kommandos an das Fahrsystem umfassend Öffnen von Koffer raum, Türen, Identifikation des Fahrers ist.

9. Klassifikationssystem nach einem der Ansprüche 6 bis 8, wobei der akustische Klassifikator (AK) ein künstliches neuronales Netzwerk für Geräusch-/Spracherken- nung umfasst und das künstliche neuronale Netzwerk Schichten von Faltungsnetz werken, rekurrente Schichten, vollständig verbundene Schichten und/oder eine En coder-Decoder Struktur umfasst.

10. Automatisiert betreibbares Fahrsystem umfassend ein akustisches Klassifikati onssystem nach einem der Ansprüche 6 bis 9, ein Steuergerät für automatisiertes Fahren und Aktuatoren für Längs- und/oder Querführung des Fahrsystems, wobei das Steuergerät in Abhängigkeit von Klassifizierungen und/oder Lokalisierungen von akustischen Ereignissen des akustischen Klassifikationssystems Regelungs- und/o der Steuerungssignale bestimmt und diese den Aktuatoren bereitstellt, wobei Störun gen in Form von Signalen eines im Außenraum des Fahrsystems angeordneten Laut sprechers, eines Trägersignals durch einen im Innenraum des Fahrsystems angeord neten Lautsprecher und/oder von Geräusch erzeugenden Fahrsystemteilen auf erste Eingangsdaten des akustischen Klassifikators (AK) addiert werden.

Description:
Computerimplementiertes Verfahren und Computerproqramm zum maschinellen Ler nen einer Robustheit eines akustischen Klassifikators, akustisches Klassifikations- svstem für automatisiert betreibbare Fahrsvsteme und automatisiert betreibbares

Fahrsvstem

Die Erfindung betrifft ein computerimplementiertes Verfahren und ein Computerpro gramm zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators, ein akustisches Klassifikationssystem für automatisiert betreibbare Fahrsysteme und ein automatisiert betreibbares Fahrsystem.

Die DE 10 2020 205 825.3 offenbart allgemein ein System zur Täuschungserken nung, -Vermeidung und -schütz von ADAS Funktionen. Das dort offenbarte Steue rungssystem ist zum Einsatz in einem Kraftfahrzeug eingerichtet und bestimmt, ba sierend auf aus mindestens einem, dem Kraftfahrzeug zugeordneten Umfeldsensor und/oder Signalempfänger gewonnenen Umfelddaten Fahrspuren, Fahrbahnbegren zungen, Fahrbahnmarkierungen, weitere Kraftfahrzeuge, Verkehrsschilder, Lichtzei- chen(anlagen) und/oder andere Objekte in einem Bereich vor, seitlich neben und/o der hinter dem Kraftfahrzeug zu erkennen. Der Umfeldsensor und/oder Signalemp fänger ist dazu eingerichtet, dem Steuerungssystem die den Bereich vor, seitlich ne ben und/oder hinter dem Kraftfahrzeug wiedergebenden Umfelddaten bereitzustel len. Das Steuerungssystem ist wenigstens dazu eingerichtet und bestimmt, die be reitgestellten Umfelddaten mittels eines maschinellen-Lern-Klassifizierers mindestens einer Verkehrskategorie zuzuordnen, wobei jede der mindestens einen Verkehrskate gorie eine von mehreren Kategorien potentieller Fahrsituationen ist, und wobei das maschinelle-Lern-System durch vorher bekannte Umfelddaten mit jeweils bereits zu geordneten Verkehrskategorien trainiert worden ist. Wenn die mindestens eine Ver kehrskategorie den bereitgestellten Umfelddaten falsch zugeordnet wurde, wird ein Korrektursignal empfangen, welches korrigierend angibt, welcher mindestens einen Verkehrskategorie die bereitgestellten Umfelddaten richtigerweise zuzuordnen sind, wobei das Korrektursignal vorzugsweise von einer Nutzereingabe stammt. Der ma- schinelle-Lern-Klassifizierer wird auf die bereitgestellten Umfelddaten und die korrigierte mindestens eine Verkehrskategorie trainiert. Das Kraftfahrzeug wird ent sprechend zu der korrigierten mindestens einen Verkehrskategorie gesteuert.

Als Umfeldsensoren offenbart die DE 10 2020 205 825.3 Frontkamera, Heckkamera, Seitenkamera, einen Radar-Sensor, einen Lidar-Sensor, einen Ultraschall-Sensor und/oder einen Inertialsensor.

Fahrsysteme mit AD/ADAS-Funktionen sollten neben optischen Signalen, Radarsig nalen und Ultraschallsignalen auch akustische Signale außerhalb des Fahrsystems erfassen, analysieren und auswerten können. Dieser Hörsinn wird von einem menschlichen Fahrer auch zu einem nicht unerheblichen Anteil genutzt um, zum Bei spiel das Ankommen und die Lage eines Einsatzfahrzeugs zu bestimmen. Aber auch die akustische Einschätzung eines menschlichen Fahrers über den Straßenzustan des, zum Beispiel Nässe aufgrund einer veränderten Geräuschkulisse, sollte von ei nem automatisierten Fahrsystem übernommen werden. Gleichzeitig wird im Fahr zeuginnenraum Schall aufgenommen, analysiert und ausgewertet. Beispiele sind Sprachbefehle des Fahrers, Klappergeräusche des Fahrsystems oder Geräusche, die auf den Zustand des Fahrers und der Insassen schließen lassen.

Die Auswertung dieser Akustiksignale wird zunehmend von Algorithmus-Modulen ba sierend auf künstlicher Intelligenz und hier speziell des maschinellen Lernens über nommen. Derartige Sensorsysteme lassen sich jedoch gezielt täuschen und/oder an greifen.

Der Erfindung lag die Aufgabe zugrunde, zum einen Akustiksensoren des Fahrsys tems robust gegen alle Arten von Angriffen zu machen und zum anderen die allge meine Generalisierungsfähigkeit der Erkennungsleistung und Klassifikationsleistung des Akustiksensors zu verbessern.

Die Gegenstände der Ansprüche 1, 5, 6 und 10 lösen diese Aufgabe durch ein Ro bustheitstraining für Akustik-Sensor-Erkennungssysteme, abgekürzt RASES. Nach einem Aspekt stellt die Erfindung ein computerimplementiertes Verfahren zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators bereit. Ein Fahrsystem wird in Abhängigkeit von Klassifizierungen und/oder Lokalisierungen des akustischen Klassifikators automatisiert gesteuert wird. Das Verfahren umfasst die Schritte:

• Bereitstellen von ersten Eingangssignalen mittels eines Fahrsystems-Akus- tiksensors für den akustischen Klassifikator,

• Erhalten von Störungen in Abhängigkeit der ersten Eingangssignale zur Täu schungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesserung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klassifika tors, wobei eine Hörbarkeit der Störungen reduziert wird,

• Erhalten von zweiten Eingangsdaten aus einer Addition der ersten Eingangs daten und der Störungen,

• Eingeben von Kombinationen aus den ersten und den zweiten Eingangsdaten in den akustischen Klassifikator und

• maschinelles Lernen der Kombinationen, wobei der akustische Klassifikator lernt, akustische Ereignisse zu klassifizieren und/oder lokalisieren und dabei robust gegen die Störungen wird.

Nach einem weiteren Aspekt stellt die Erfindung ein Computerprogramm bereit zum maschinellen Lernen einer Robustheit eines akustischen Klassifikators. Das Pro gramm umfasst Programmbefehle, die bewirken, dass ein Computer ein erfindungs gemäßes Verfahren ausführt, wenn das Programm auf dem Computer läuft. Die Pro grammbefehle sind beispielsweise in einer objektorientierten Programmiersprache, beispielsweise C++, geschrieben.

Nach einem weiteren Aspekt stellt die Erfindung ein akustisches Klassifikationssys tem für automatisiert betreibbare Fahrsysteme bereit zum Klassifizieren und/oder Lo kalisieren von akustischen Ereignissen im Außen- und/oder Innenraum des Fahrsys tems. Das akustische Klassifikationssystem umfasst einen Akustiksensor und einen akustischen Klassifikator, wobei der akustische Klassifikator nach einem erfindungs gemäßen Verfahren gelernt hat, akustische Ereignisse robust gegen Störungen zu klassifizieren und/oder lokalisieren. Nach einem weiteren Aspekt stellt die Erfindung ein automatisiert betreibbares Fahr system bereit umfassend ein erfindungsgemäßes akustisches Klassifikationssystem, ein Steuergerät für automatisiertes Fahren und Aktuatoren für Längs- und/oder Quer führung des Fahrsystems. Das Steuergerät bestimmt in Abhängigkeit von Klassifizie rungen und/oder Lokalisierungen von akustischen Ereignissen des akustischen Klas sifikationssystems Regelungs- und/oder Steuerungssignale und stellt diese den Aktu atoren bereit. Störungen werden in Form von Signalen eines im Außenraum des Fahrsystems angeordneten Lautsprechers, eines Trägersignals durch einen im In nenraum des Fahrsystems angeordneten Lautsprecher und/oder von Geräusch er zeugenden Fahrsystemteilen auf erste Eingangsdaten des akustischen Klassifikators addiert werden.

Geräusch erzeugende Fahrsystemteile umfassen beispielsweise eine infizierte Was serpumpe, die Geräusche erzeugt, um einen gezielten Angriff durchzuführen.

Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen, der Zeichnung und der Beschreibung bevorzugter Ausführungsbeispiele.

Maschinelles Lernen ist eine Technologie, die Computern und anderen Datenverar beitungsvorrichtungen die Ausführung von Aufgaben durch Lernen aus Daten lehrt, anstatt für die Aufgaben programmiert zu werden. Solange eine künstliche Intelligenz auf Basis von Daten gelernt wird, kann RASES benutzt werden, um die Robustheit gegen jegliche Störsignale, umfassend Rauschen oder Angriffe, zu steigern. Angriffe umfassen Täuschungen. Die Robustheit gegen Rauschen zu steigern umfasst, dass durch RASES ein akustischer Klassifikator robust gegenüber Überanpassung wird. Damit wird durch RASES ein verbessertes generalisierendes akustisches Erken nungssystem bereitgestellt, das zuvor nicht eintrainierte akustische Signale, insbe sondere Rauschsignale, zuverlässiger korrekt erkennt.

Ein akustischer Klassifikator ist eine künstliche Intelligenz umfassend Software- und/oder Hardwarekomponenten, die trainierbar und/oder trainiert ist, Geräusche und/oder Sprache zu erkennen, klassifizieren und/oder lokalisieren. Die Klassifizierung von akustischen Signale erfolgt beispielsweise in die Klassen Ret tungswagen, fallender Ast, spielende Kinder, Wildwechsel, Schleifgeräusche. Nach einem Aspekt der Erfindung wertet der akustische Klassifikator einen kontinuierlichen Datenstrom des Fahrsystem-Akustiksensors aus. Nach einem Aspekt der Erfindung klassifiziert der akustische Klassifikator überlappende Zeitsignale, zum Beispiel alle 0.2ms die letzte 1s.

Der akustische Klassifikator stellt für ein Fahrsystem einen Hörsinn dar. Beispiels weise bestimmt der akustische Klassifikator das Ankommen und/oder die Lage eines Einsatzfahrzeuges in Abhängigkeit eines Sirenensignals. Diese Bestimmung wird als Signal einem Steuergerät des Fahrsystems, beispielsweise einer ADAS/AD Domain ECU, das heißt einem elektronischen Steuergerät für assistiertes oder automatisier tes/autonomes Fahren, bereitgestellt. Das Steuergerät bestimmt in Abhängigkeit der Klassifizierung und/oder Lokalisierung des akustischen Klassifikators Steuer- und/o der Regelsignale für Aktuatoren für Längs- und/oder Querführung des Fahrsystems, um das Fahrsystem automatisiert zu steuern.

Die Softwarekomponenten des akustischen Klassifikators liegen beispielsweise als Programmbefehle in der Programmiersprache Python oder TensorFlow vor. Die Ana lyse von ersten Eingangsdaten erfolgt beispielsweise mit dem Python Programmpa ket LibROSA, das Routinen für Musik- und Audioanalysen umfasst. Die Hardware komponenten umfassen GPUs und/oder Tensor Processing Units mit einer Mikroar chitektur zum parallelisierten Prozessieren von Aufgaben und Ausführen von Mat rixmultiplikationen. Damit wird das Trainieren und der Einsatz einer trainierten künstli chen Intelligenz effizienter.

Das Fahrsystem umfasst PKWs, NKWs, LKWs, Busse, People Mover, Roboter, bei spielsweise Industrieroboter, Drohnen, Schienenfahrzeuge, Schiffe und Flugzeuge. Das Fahrsystem umfasst eine technische Ausrüstung für einen Betrieb des Fahrsys tems gemäß SAE J3016 Stufe 1 bis 5. Nach einem Aspekt der Erfindung ist das Fahrsystem ein Straßenfahrzeug mit einer Automatisierungsstufe SAE J3016 Stufe 2+ bis 5. Die ersten Eingangsdaten umfassen akustische Signale des Fahrsystem-Akus tiksensors. Der Fahrsystem-Akustiksensor ist im Vergleich zu anderen Akustiksenso ren insbesondere für einen Automotive-Einsatz geeignet. Beispielsweise umfasst der Fahrsystem-Akustiksensor, wenn er im Außenraum des Fahrsystems eingesetzt wird, ein Schutzgitter zum Schutz gegen Eindringen von Fremdkörpern, eine akus tisch permeable, hydrophobe und/oder lipophobe Membran zum Schutz gegen Spritzwasser und Fette und einen Strömungsbypass, um eingetretene Fluide oder Fremdkörper aus dem Sensor herauszuleiten. Erfindungsgemäß wird der Fahrsys tem-Akustiksensors auch im Innenraum des Fahrsystems eingesetzt.

Die Störungen zur Täuschungserkennung, -Vermeidung und/oder -schütz entspre chen Signalen, die ein Störer, das heißt ein Angreifer, berechnet und abspielt, um den akustischen Klassifikator zu täuschen. Angreifbar sind Geräusch- und Spracher kennung.

Die grundsätzliche Idee zur Täuschung eines akustischen Klassifikators ist, dass ein Lautsprecher benutzt wird, über welchen Störsignale abgespielt werden. Durch diese Störsignale soll der Klassifikator getäuscht werden, sodass das ursprüngliche/tat sächliche Ereignis nicht erkannt wird oder ein anderes gewünschtes Ereignis erkannt wird, obwohl in der Realität kein solches akustisches Ereignis aufgetreten ist. Dazu können existierende Lautsprecher im Fahrzeug genutzt werden, beispielsweise Info tainment oder Handy, oder gezielt Lautsprecher an dem gewünschten Standort auf gestellt werden, beispielsweise Wohngebiet, Waldrand, oder Bushaltestelle.

Diese Störsignale werden entweder in Trägersignale integriert oder existieren als ei genständiges Signal. Ein Beispiel für die Integration in Trägersignale ist das Einbrin gen der Störung in Musik. Das veränderte Musiksignal wird dann auf einer beliebten Plattform hochgeladen, beispielsweise Youtube oder Spotify, und über das Infotain mentsystem des Fahrsystems abgespielt. Dadurch wird eine große Zahl an Angriffen durchgeführt, bei denen die akustischen Klassifikatoren getäuscht werden, ein Ereig nis zu erkennen, obwohl in der Realität kein Ereignis vorliegt. Dies kann erheblichen Schaden bei einer Masse von Nutzern/Kunden verursachen. Ein anderer Fall ist, dass ein unscheinbares Störsignal, das für den Menschen nur als leises Rauschen erkennbar ist, abgespielt wird, wodurch dem akustischen Klassifikator Ereignisse vor gegeben werden oder die Erkennung von tatsächlich passierenden Ereignissen ver hindert wird.

Ein derartiger Angriff ist gefährlich, da die Störsignale für das menschliche Ohr nicht erkennbar sind. Folglich würde den Insassen der laufende Angriff nicht auffallen oder erst nachdem das Fahrsystem bereits reaktionäre Maßnahmen eingeleitet hat, zum Beispiel Bremsen bei fallendem Ast/spielenden Kinder. Das menschliche Ohr kann den vorliegenden Angriff nicht erkennen, da entweder die Lautstärke des Störsignals zu gering ist oder die Störung nur auf gewissen Frequenzen aufgebracht wird, wel che für das menschliche Gehör von benachbarten lauteren Frequenzen überdeckt werden.

Die Erfindung umfasst ungezielte und gezielte Angriffe. Bei einem ungezielten Angriff hat der Angreifer das Ziel, den akustischen Klassifikator durch Einbringung einer Stö rung dazu zu bringen, eine andere als die korrekte Klasse vorherzusagen. Dabei ist es egal, welche Klasse statt der korrekten Klasse vorhergesagt wird, im Unterschied zum gezielten Angriff, bei dem der Angreifer sicherstellen will, dass statt der korrek ten Klasse eine spezielle andere Zielklasse vorhergesagt wird.

RASES verhindert diesen Angriff, indem der akustische Klassifikator durch das erfin dungsgemäßen Verfahren lernt, robust gegen gezielte oder natürliche vorkommende Störungen zu sein und dabei die Klassifikation des tatsächlich, realen akustischen Ereignis korrekt durchzuführen. Durch das Reduzieren der Hörbarkeit der Störungen wird ein unscheinbares Störsignal, das für den Menschen nur als leises Rauschen er kennbar ist, simuliert.

Der Angreifer muss die Störung in Abhängigkeit der sonstigen akustischen Signale in der Zielumgebung, beispielsweise Wohngebiet, Waldrand, Innenraum oder viel be fahrene Straße, berechnen. Dazu können exemplarische Signale angenommen wer den, welche die reale Situation bestmöglich wiederspiegeln, und die Generierung des Störsignals für mehrere dieser Signale durchgeführt werden, beispielsweise 1000 bis 100 000 Beispielsignale. Dadurch stellt der Angreifer sicher, dass das berechnete Störsignal den akustischen Klassifikator tatsächlich täuscht, unabhängig von etwai gen weiteren akustischen Signalen.

Wenn der Angreifer Wissen über das anzugreifende System besitzt, können Gradien ten basierte Verfahren verwendet werden, um das Störsignal in Abhängigkeit der Klassifikation des Systems zu optimieren. Eine Methode ist beispielsweise die Pro- jected Gradient Descent Methode, abgekürzt PGDM, bei welcher wiederholt ein Schritt in die positive Richtung des Gradienten einer Verlustfunktion des akustischen Klassifikators, auch Loss-Function genannt, in Abhängigkeit der Eingangsdaten durchgeführt wird. Entsprechende Angriffsmethoden sind unter Ziffer 2.2 von https://arxiv.org/pdf/1611 .01236.pdf offenbart.

Sind dem Angreifer keine Informationen über den verwendeten akustischen Klassifi kator bekannt, ist es erst einmal nicht möglich Gradienten basierte Verfahren zu be nutzen, da die erforderlichen Gradienten nicht berechnet werden können. Um diese Methoden dennoch benutzen zu können, kann der Angreifer versuchen, Informatio nen über den verwendeten akustischen Klassifikator zu erhalten. Dazu besteht einer seits die Möglichkeit, die Verschlüsselung der lokal gespeicherten Parameter, bei spielsweise Checkpoints eines künstlichen neuronalen Netzwerks umfassend Ge wichte, Struktur, zu brechen und dadurch die benötigten Informationen zu gewinnen. Alternativ kann ein Angreifer ein möglichst identisches System selbst trainieren, mög lichst auf ähnlichen Trainingsdaten. Dann kann dieses System benutzt werden, um ein Störsignal zu berechnen. Da es sich herausgestellt hat, dass solche Störsignale größtenteils zwischen künstlichen Intelligenzen übertragbar sind, kann mit diesem Störsignal auch der eigentlich anzugreifende akustische Klassifikator getäuscht wer den. Dabei existieren außerdem Techniken, um sicherzustellen, dass ein übertragba res Störsignal gefunden wird. Beispielsweise können mehrere Ersatzmodell auf un terschiedlichen Daten trainiert werden, welche von der genutzten Loss-Function in korporiert werden, um ein einheitliches Störsignal für alle Modelle zu berechnen.

Eine weitere Möglichkeit sind Model Stealing Angriffe, welche den Zweck haben, In formationen über eine künstliche Intelligenz zu erhalten. Um diese durchführen zu können, muss ein Angreifer lediglich die Eingangsdaten des akustischen Klassifikators verändern können, beispielsweise ein Testsignale abspielen, und an schließend die Ausgabewerte des akustischen Klassifikators beobachten können. Durch geschicktes Kombinieren verschiedener Eingabewerte und testen, auch Query genannt, wie der akustische Klassifikator darauf reagiert, kann durch solche Angriffe Informationen gesammelt werden, wie der akustische Klassifikator funktioniert und wie er getäuscht werden kann. Model Stealing ist beispielsweise in https://ar- xiv.org/pdf/1802.05351 .pdf offenbart.

Bekannt sind auch Angriffsarten als reine black-box Angriffe ohne Gradienteninfor mationen, welche auch nicht das System lokal replizieren/neu trainieren. Stattdessen werden geschickt Entscheidungen getroffen anhand des aktuellen Wertes der Löss Function, wie die aktuelle Störung verändert werden muss, um die künstliche Intelli genz zu täuschen, siehe https://arxiv.org/pdf/1712.04248.pdf. Auch gegen diese Art von Angriffen wird mit dem erfindungsgemäßen Verfahren eine Robustheit erreicht und/oder gesteigert.

Durch RASES werden jegliche dieser Angriffe verhindert und die korrekte Funktiona lität des akustischen Klassifikators gewährleistet, obwohl solche Störsignale vorlie gen und ein Angriff versucht wird. Dies erfolgt erfindungsgemäß dadurch, dass wäh rend dem Training Störungen in Abhängigkeit der ersten Eingangssignale zur Täu schungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesserung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klassifikators erhalten werden und diese Störungen mittrainiert werden, wobei eine Hörbarkeit der Störun gen iterativ oder sukzessiv reduziert wird.

Um die gewählte Angriffsmethode umsetzen zu können, werden bestimmte Hyperpa rameter des akustischen Klassifikators bestmöglich bestimmt, beispielsweise initiale maximale Stärke des Störsignals oder Zielsequenz. Abhängig von diesen Parame tern ergeben sich verschiedene Änderungen in der Robustheit und Genauigkeit des resultierenden akustischen Klassifikators, nachdem das Training abgeschlossen ist.

Täuschungen und/oder Angriffe mit dem Angriffsziel der nach außen gerichteten Akustik-Sensorik wirken sich beispielsweise wie folgt aus: • Nichterkennung und/oder Fehllokalisation von zu erkennenden Geräuschquel len,

• Vorgeben von zu erkennenden Geräuschquellen, die in der Realität nicht vor handen sind;

• die Sensorik zur Verwechslung von zu erkennenden Geräuschquellen bringen. Diese Auswirkungen wirken einem sicheren Betrieb des Fahrsystems entgegen. Durch RASES wird der akustische Klassifikator robust gegen diese Täuschungen, in dem ein Training des akustischen Klassifikators mit diesen Störungen erweitert wird.

Geräuschquellen bezüglich des Außenraums umfassen:

• anderer Verkehrsteilnehmer, wie z. B. o andere Fahrzeuge, o Personen, o spielende Kinder, o Rettungswagen im Einsatz, o Tiere/Wildwechsel,

• Situationen, o Unfall in Umgebung, o umstürzende Bäume, fallende Äste,

• Notruf/Warnrufe durch Personen, o „Hilfe“,

• Witterungsgeräusche, o nasse Straße, o Schnee auf Straße, o Hagel, o starker Wind, o Waldbrand,

• Schadensgeräusche am eigenen oder fremden Fahrzeugen, o Klappern am Auto, o Quietschen, o Schleifen,

• Steuerungs-Kommandos an das Fahrzeug, o Öffnen von Kofferraum, Türen, o Identifikation des Fahrers.

Täuschungen und/oder Angriffe mit dem Angriffsziel der nach innen gerichteten Akustik-Sensorik wirken sich beispielsweise wie folgt aus:

• Nichterkennung und/oder Fehllokalisation von zu erkennenden Geräuschquel len

• Vorgeben von zu erkennenden Geräuschquellen, die in der Realität nicht vor handen sind,

• die Sensorik zur Verwechslung von zu erkennenden Geräuschquellen bringen. Auch diese Auswirkungen wirken einem sicheren Betrieb des Fahrsystems entgegen. Durch RASES wird der akustische Klassifikator robust gegen diese Täuschungen, in dem ein Training des akustischen Klassifikators mit diesen Störungen erweitert wird. Damit wird durch RASES ein akustischer Klassifikator für den Außenraum und den Innenraum robust.

Geräuschquellen bezüglich des Innenraums umfassen:

• Insassen mit folgenden Attributen o Gemüts-, Belastungs-, Gesundheitszustand, Alkohol, Drogen, o Position, Orientierung, o Identifikation,

• Situationen, o Interaktion der Insassen, beispielsweise Streit, Feier

• Schadensgeräusche am eigenen Fahrzeugen, o Klappern am Auto, o Quietschen, o Schleifen, o Brandgeräusche,

• Interaktion mit Funktionen des Fahrzeugs, o Steuerungs-Kommandos an das Fahrzeug,

Ein- und Ausschalten von Systemen,

Routenwahl,

Musikwahl,

Anrufwahl, Anfragen, o Hilfeanforderung, o Warnruf, o Zu-/Unzufriedenheit mit einer Funktion • Beeinflussung von akustisch angebunden Systemen wie Handys im Innen raum oder solche die angerufen werden.

Die Angriffe umfassen auch ein anderes Ziel als das Ego-Fahrsystem, beispielsweise ein System, das mit dem Fahrsystem in irgendeiner Weise verbunden ist, beispiels weise ein Cloud-Speicher, ähnlich wie bei der Einbringung von Computer-Viren, Tro janern, Würmern.

Durch das Erweitern des Trainings des akustischen Klassifikators mit diesen Störun gen wird ferner die fundamentale Fähigkeit der Generalisierungsfähigkeit des akusti schen Klassifikators gesteigert, denn eine „zufällige Beeinflussung“ und bewusste Angriffe entsprechen in gewisser Weise genau der Fähigkeit zur Generalisierung. Damit wird die Erkennungs- und/oder Klassifikationsleistung gesteigert.

Durch das Eingeben von Kombinationen aus den ersten und den zweiten Eingangs daten, die aus einer Addition der ersten Eingangsdaten und den Störungen resultie ren, in den akustischen Klassifikator und das maschinelle Lernen der Kombinationen lernt der akustische Klassifikator, sich gegen die oben beschriebenen Angriffe zu ver teidigen. Die resultierenden Kombinationen stellen erweiterte oder augmentierte Trai ningsdaten für den akustischen Klassifikator dar.

Das maschinelle Lernen dieser Kombinationen ist ein sogenanntes Adversarial Trai ning, das heißt die Augmentation der ersten Eingangsdaten mit Störsignalen, welche ein Angreifer benutzen würde, um den akustischen Klassifikator zu täuschen. Die Störungen werden während des Trainings für jedes Eingangssignal neu berechnet und immer an die aktuellen Parameter des akustischen Klassifikators angepasst. Die Störsignale werden auf die originalen Daten aufaddiert, aber die Ground Truth Klasse wird nicht geändert. Dadurch lernt der akustische Klassifikator, robust gegen die gezeigten Störungen zu sein und diese Daten immer noch korrekt zu klassifizie ren. Adversarial Training ist in https://arxiv.org/pdf/1706.06083.pdf offenbart.

Wie die Störsignale konkret berechnet werden ist dabei unerheblich und es kann eine, mehrere, verschiedenste Kombinationen von Angriffsmethoden benutzt wer den. Außerdem müssen nicht ausschließlich gestörte Daten verwendet werden. Eine beliebige Kombination von originalen und gestörten Signalen kann in jedem Batch während des Trainings genutzt werden. Dies kann erforderlich sein, um den Tradeoff zwischen allgemeiner Genauigkeit und Robustheit gegen Störungen zu optimieren. Typischerweise führt eine deutliche Verbesserung des einen zur Verschlechterung des anderen.

Batches sind gleich große Gruppen von Eingangsdaten. Das Training kann jeweils pro Batch durchgeführt werden. Wenn alle Batches die künstliche Intelligenz einmal durchlaufen haben, ist eine Epoche vollendet. Eine Epoche bezeichnet einen kom pletten Durchlauf aller Eingangsdaten. Die Anzahl der Trainingsepochen und Bat ches ist jeweils ein Parameter für das Training der künstlichen Intelligenz. Beispiels weise besteht jeder Batch aus 50% originalen und 50% gestörten Daten. Es sind aber auch andere Verteilungen denkbar, z.B.: 20% Original, 40% Angriffsmethode 1, beispielsweise Gradienten basiert, 40% Angriffsmethode 2, beispielsweise Model Stealing.

Nach einem Aspekt der Erfindung wird das Adversarial Training konzeptuell mit wei teren Augmentationsstrategien verwendet, beispielsweise mit Spektogramm-Aug- mentation, siehe https://arxiv.org/pdf/1904.08779.pdf. Weiterhin kann zusätzlich das originale Signal mit weiteren realistischen Rauschsignalen überlagert werden, um ein reales Szenario noch besser wiederspiegeln zu können und damit die Genauigkeit des akustischen Klassifikators unter nicht optimalen Bedingungen weiter zu erhöhen.

In einer Ausführungsform des Verfahrens wird zum Erhalten der Störungen und/oder der Reduzierung der Hörbarkeit der Störungen eine Verlustfunktion unter Einhaltung der Bedingung, dass die Störungen kleiner als eine vorgegebene Störung sind, mini miert. Die Verlustfunktion, auch kombinierte Verlustfunktion genannt, umfasst als ersten Teil die Störungen und als zweiten Teil eine mit den Störungen erweiterte Ver lustfunktion des akustischen Klassifikators. Die erweiterte Verlustfunktion wird von ei ner von einem Störer beabsichtigten Klassifizierung des akustischen Klassifikators minimiert.

Prinzipiell lässt sich auch für einen Angriff im Audiobereich die PGDM einsetzen. Je doch zeigt sich, dass diese Methode mit den erhöhten Nichtlinearitäten, welche durch eine Vorverarbeitung und die mögliche massive Nutzung von rekurrenten Schichten im akustischen Klassifikator hervorgerufen werden, nicht gut funktioniert. Daher ist es oftmals, insbesondere bei langen Sequenzen, beispielsweise Spracherkennung, nicht möglich, eine geeignete Störung zu finden, welche für einen Menschen nicht hörbar ist.

Ein alternativer, aber komplexerer, Ansatz basiert auf einem eigenständigen Optimie rungsansatz, um sicherzustellen, dass eine Störung gefunden wird, welche für einen Menschen nicht hörbar ist und den akustischen Klassifikator dennoch täuscht. For mal lässt sich dies ausdrücken als: minimize dB x (6) = dB(6) — dB(x) d subject to y = /(x + d; Q) = t

In diesen Formeln bedeuten x: Vektor mit rohen, ersten Eingangsdaten, d: generische Störung,

A y: von dem akustischen Klassifikator vorhergesagte Klasse, t: Zielklasse des Angreifers,

Q: Parameter.

Die Zielklasse ist die Klasse, die der Angreifer sicherstellen wird, von dem akusti schen Klassifikator anstatt der korrekten Klasse vorhergesagt zu werden.

In dieser Formulierung ist das Hauptziel, den Unterschied zwischen der Stärke der Störung und der Stärke der ersten Eingangsdaten zu minimieren, sodass die Störung für einen Menschen nicht hörbar ist, wenn sie auf die Eingangsdaten aufaddiert wird. Als notwendige Bedingung wird eingeführt, dass der akustische Klassifikator erfolgreich getäuscht werden muss und die gezielte Klasse, oder Sequenz von akus tischen Einheiten, vorhersagt wird. Jedoch ist dieses Optimierungsproblem mit nor malen Gradienten basierten Methoden nur sehr schwer zu lösen, da die Klassifikati onsfunktion f (-) nach einem Aspekt der Erfindung durch ein künstliches neuronales Netzwerk dargestellt wird, welches sehr stark nichtlinear ist.

Um dieses Problem zu umgehen, wird erfindungsgemäß das Optimierungsproblem umformuliert und eine kombinierte Loss-Function eingeführt: minimize + a · L (x + d, t; Q) d imperceptible adversarial subject to άB c (d) < e

In diesen Formeln bedeuten L: Loss-Function, cc Tradeoff-Parameter, e: maximal erlaubte Störung.

Diese konkrete Variante, Störungen für akustische Signale zu berechnen, wird in https://arxiv.Org/abs/1801 .01944 offenbart.

Der erste Teil der kombinierten Loss-Function bewirkt, dass eine Störung d mit mög lichst geringer Stärke gefunden wird und der zweite Teil bewirkt, dass die gefundene Störung auch den akustischen Klassifikator erfolgreich stört. Die erfolgreiche Störung wird gewährleistet, indem der Wert der Loss-Funktion L (·) des akustischen Klassifi kators minimiert wird, wodurch sichergestellt ist, dass dieser gegen null tendiert. Der Parameter a fungiert als Möglichkeit, den Tradeoff zwischen erfolgreicher Störung und nicht Wahrnehmbarkeit einzustellen und kann daher an die vorliegenden Gege benheiten und an die Zielsetzung angepasst werden. Die vorhandene notwendige Bedingung stellt eine zusätzliche Einschränkung dar, um zu gewährleisten, dass die Störung gleichmäßig über das Eingangssignal verteilt wird und nicht in manchen Re gionen einen sehr hohen Ausreißer hat, welcher von Menschen gehört werden würde, obwohl der erste Term der Löss -Funktion, das ist die quadrierte ^ 2 -Norm der Störung, gering ist. Nach einem Aspekt der Erfindung werden weitere Terme hinzugefügt, welche zum Beispiel ausdrücken, dass die Störung hauptsächlich auf Frequenzen addiert werden soll, welche für einen Menschen nicht hörbar sind.

Dieses Optimierungsproblem wird erfindungsgemäß mit Gradient Descent gelöst. Daher wird die kombinierte Verlustfunktion minimiert, bis eine Störung d gefunden wurde, welche den akustischen Klassifikator erfolgreich stört und dazu bringt, die Zielklasse t vorherzusagen. Dazu wird initial ein höherer Wert für die maximale Stärke e benutzt, mit welchen die Störung für einen Menschen hörbar ist. Sobald diese initiale Störung gefunden wurde, wird die maximale erlaubte Stärke e des An greifers reduziert und die Optimierung fortgesetzt. Dieses Verfahren wird iterativ fort gesetzt, bis eine vorher festgelegte Anzahl an Iterationen absolviert wurde. Folglich wird während der Optimierung die Hörbarkeit immer weiter reduziert, aber der täu schende Charakter der Störung bleibt bestehen, sodass der akustische Klassifikator weiterhin korrekt getäuscht wird.

Damit werden die Störungen während des Adversarial Trainings mit dem Verfahren gemäß dieser Ausführungsform, und verschiedenen Hyperparametereinstellungen, berechnet.

In einerweiteren Ausgestaltung des Verfahrens umfassen die ersten Eingangsdaten Rohdaten des Fahrsystem-Akustiksensors, gefilterte Rohdaten und/oder eine Reprä sentation der Rohdaten in einem Zeit-Frequenz-Bereich.

Prinzipiell können rohe akustische Signale ohne Vorverarbeitung als Eingangsdaten für den akustischen Klassifikator verwendet werden, jedoch resultiert dies aktuell in geringeren Klassifikationsgenauigkeiten .

Nach einem Aspekt der Erfindung werden die Rohdaten mit Tiefpass- oder Band passfiltern gefiltert, um situationsbedingt Geräusche gezielt zu blenden oder zu ver stärken.

Die Repräsentation der Rohdaten im Zeit-Frequenz-Bereich basiert beispielsweise auf einer Vorverarbeitung der Rohdaten mit einer Short-Time-Fourier-Transformation, wobei unterschiedliche Fenstertypen (Hann, Blackman,) mit unterschiedlichen Para metern (Fensterbreite, Hop-Distanz) genutzt werden. Als Resultat ergibt sich ein Zeit- Frequenz Bild, in welchen die Energie in verschiedenen Frequenzen über die Zeit abgebildet wird. Wenn mehr als ein Fahrsystem-Akustiksensor ausgewertet wird, liegt pro Sensor ein Signal vor, welches unabhängig transformiert wird. Daher liegen in diesem Fall mehrere der Zeit-Frequenz-Bilder vor, analog zu einem RGB-Bild, in dem dann drei Farbkanäle vorhanden sind). Aus dieser Darstellung werden weitere gewichtete, in Frequenzbehälter unterteilte Merkmale oder Features extrahiert, wel che typischerweise die Mel Frequency Scale benutzen, sodass am Ende Mel Fre- quency Cepstral Coefficients (MFCC) oder Mel Frequency Filter Banks (FBank) ge nutzt werden, siehe https://towardsdatascience.com/getting-to-know-the-mel- spectrogram-31bca3e2d9d0. Dazu können jeweils unterschiedliche Einstellungen verwendet werden, beispielsweise min/max Frequenz, Anzahl der Frequenzbehälter.

Zusätzlich kann die Vorverarbeitung eine Entrauschung enthalten, um die Signalqua lität der akustischen Signale zu verbessern. Beispielsweise ist es im Fall von Sprach erkennung wünschenswert, unwichtige Hintergrundgeräusche herauszufiltern, bei spielsweise Motorengeräusche oder Reifenreibung. Wenn mehrere Sensoren benutzt werden, können Mechanismen benutzt werden, welche die unterschiedliche Laufzeit von akustischen Wellen zu den einzelnen Sensoren ausnutzen, beispielsweise Beamforming oder Source Seperation. Diese Verfahren können dabei selbst wieder auf künstlicher Intelligenz basieren. Es ist auch möglich, die Entrauschung in den Zeitsignalen vorzunehmen, beispielsweise mittels Denoising Autoencoder oder Wie ner Filter, bevor diese Signale in den Zeit-Frequenz-Bereich transformiert werden. Weiterhin existieren algorithmische, statistische Verfahren, welche die Zeit-Frequenz Features gewichten und dabei versuchen, Features mit geringer Sprachenergie eine niedrige Gewichtung zuzuweisen.

Rohe akustische Signale können sich deutlich unterscheiden, obwohl sie denselben Kontext, beispielsweise Geräusch oder Sprache, widerspiegeln. Beispielsweise führt die aktuelle emotionale Lage eines Sprechers zu unterschiedlich betonten Signalen. Durch die Vorverarbeitung werden zuerst Features generiert, welche eine höhere Invarianz gegenüber solchen unterschiedlichen Signalen des gleichen Grundereignis aufweisen.

Nach einem Aspekt der Erfindung ist das erfindungsgemäße Verfahren dahingehend erweitert, dass der Angreifer das Störsignal nicht mehr auf die originalen Eingangs daten aufaddiert. Stattdessen wird das Störsignal auf eine Repräsentation im Zeit- Frequenz Bereich aufaddiert. Es ist genauso möglich, das Störsignal auf jede andere Repräsentation nach den einzelnen Schritten in der Vorverarbeitung aufzuaddieren.

In der Realität ist es einem Angreifer nicht möglich diese Features anzugreifen, da er keinen Zugriff innerhalb des akustischen Klassifikators zur akustischen Klassifikation hat. Als Verteidiger ist dies jedoch eine gute Möglichkeit, die Robustheit des Systems weiter zu verbessern, indem Einflüsse eines realen Angriffs auf ein akustisches Sig nal effektiver simuliert werden können und daher das Training effizienter wird.

In einerweiteren Ausgestaltung des Verfahrens umfassen die ersten Eingangsdaten eine Repräsentation von Rohdaten des Fahrsystem-Akustiksensors in einem Zeit- Frequenz-Bereich. Durch Maskierung werden die Störungen auf Frequenzen mit ge ringer Energie addiert.

Die Maskierung beschränkt die Features, die der genutzte Angreifer während des Trainings angreifen darf. Dadurch kann der Angreifer während des Trainings das Störsignal nur auf eine Teilmenge aller vorhandenen Features aufaddieren. Erfin dungsgemäß wird die Maskierung genutzt, um während des Trainings den Angriff auf relevante Features mit hoher Sprachenergie zu verhindern. Dadurch kann der An greifer während des Trainings das Störsignal nur auf Features aufaddieren, welche nur wenige Informationen erhalten bezüglich der vorhandenen Sprachenergie.

Damit wird ein realer Angriff besser widergespiegelt. Da das Ziel ein für Menschen nicht hörbarer Angriff ist, wird ein realer Angreifer das Störsignal so berechnen, dass hauptsächlich Frequenzen beeinflusst werden, welche bisher keine hohe Energie aufweisen. Dies ist erforderlich, da so erreicht werden kann, dass ein Mensch keinen Unterschied hört, da auf diesen Frequenzen eine verhältnismäßig geringe Störung bereits ausreicht, den Einfluss des originalen Signals zu überdecken. Wenn der Angreifer die Störung stattdessen auf Frequenzen addiert, welche bereits eine hohe Energie haben, muss die vorhandene Energie übertönt werden. Dafür ist eine deut lich stärkere Störung erforderlich, sodass das resultierende Störsignal deutlich hörbar ist und unter Umständen sogar stärker ist als das originale Signal. Es kann passie ren, dass gewisse Teile des originalen Signals nicht mehr verständlich sind. Dies ist für einen realen Angreifer kein gewünschtes Verhalten, sodass das Störsignal auf Frequenzen mit geringer Energie addiert werden muss. Indem ein solcher Angriff, der nur Frequenzen mit geringer Energie angreift, während des Trainings simuliert wird, kann der akustische Klassifikator effizienter und effektiver gegen allgemeine, reale Angriffe verbessert werden, im Vergleich zu dem Fall des normalen Adversarial Trai nings mit dem Angriff auf das rohe Sprachsignal. Der akustische Klassifikator wird damit gezielt trainiert, Frequenzen mit hoher Energie auszunutzen und robuster ge gen Störungen weniger wichtiger Frequenzen zu sein.

Die Maskierung ist analog auf die Geräuscherkennung übertragbar, indem nur Fea tures, welche nicht relevant für das jeweilige akustische Ereignis sind, vom Angreifer gestört werden dürfen. Dadurch wird der akustische Klassifikator während des Trai nings lernen, die gestörten Features nicht zu benutzen und sich auf die restlichen Features verlassen. Da diese besonders relevant und aussagekräftig sind bezüglich der vorhandenen akustischen Ereignisse, der vorhandenen Sprache, steigt die Ro bustheit weiter an, weil der akustische Klassifikator lernt, seine Entscheidung haupt sächlich anhand dieser Features durchzuführen.

Um die Masken zu generieren, welche die Relevanz der Features ausdrücken, sind verschiedene Verfahren möglich. Beispielsweise wird eine Maske generiert, indem zuerst ein Bild mit der identischen Größe wie die Features generiert wird, wobei wei ßes Rauschen mit einem SNR=0dB genutzt wird, um die Werte zufällig zu ziehen. Anschließend wird der absolute Wert jedes Feature einzeln mit dem absoluten Wert des Rauschbildes an der Stelle verglichen. Wenn der Wert des Features größer ist als der des zufälligen Rauschens wird dieses Feature als relevant angesehen. Mit diesem einfachen Verfahren lassen sich schnell plausible Relevanzmasken bestim men, mit welchen der Angreifer dann während des T rainings limitiert wird. In einer weiteren Ausgestaltung des Klassifikationssystems ist bei Verwendung der Akustiksensor im Innenraum des Fahrsystems angeordnet und der akustische Klassi fikator ist robust gegen gestörte Geräusche von

• Insassen umfassend Gemüts-, Belastungs-, Gesundheitszustand, Alkohol, Drogen, Position, Orientierung, Identifikation,

• Situationen umfassend Interaktion der Insassen,

• Schadensgeräuschen am eigenen Fahrsystem umfassend Klappern, Quiet schen, Schleifen, Brandgeräusche,

• Interaktion mit Funktionen des Fahrsystems umfassend Steuerungs-Komman dos an das Fahrsystem umfassend Ein- und Ausschalten von Systemen, Rou tenwahl, Musikwahl, Anrufwahl, Anfragen und

• Beeinflussung von akustisch angebunden Systemen umfassend Mobiltelefone im Innenraum.

In einer weiteren Ausgestaltung des Klassifikationssystems ist bei Verwendung der Akustiksensor im Außenraum des Fahrsystems angeordnet und der akustische Klas sifikator ist robust gegen gestörte Geräusche von

• anderen Verkehrsteilnehmer umfassend andere Fahrsysteme, Personen, spielende Kinder, Rettungswagen im Einsatz, Tiere/Wildwechsel,

• Situationen umfassend Unfall in Umgebung, umstürzende Bäume, fallende Äste,

• Notruf/Warnrufe durch Personen,

• Witterungsgeräuschen umfassend nasse Straße, Schnee auf Straße, Hagel, starker Wind, Waldbrand,

• Schadensgeräuschen am eigenen oder fremden Fahrsystem umfassend Klap pern, Quietschen, Schleifen,

• Steuerungs-Kommandos an das Fahrsystem umfassend Öffnen von Koffer raum, Türen, Identifikation des Fahrers.

In einer Ausgestaltung des erfindungsgemäßen Klassifikationssystems umfasst der akustische Klassifikator ein künstliches neuronales Netzwerk für Geräusch-/Sprach- erkennung. Das künstliche neuronale Netzwerk umfasst Schichten von Faltungsnetzwerken, rekurrente Schichten, vollständig verbundene Schichten und/o der eine Encoder-Decoder Struktur.

Faltungsnetzwerke umfassen Filterschichten, auch Kernels genannt, um Dimensio nen von jeweiligen Eingangsdaten zu minimieren, und Diskretisierungsschichten, bei spielsweise Maxpooling-Kernels, um Dimensionen von jeweiligen Eingangsdaten weiter zu reduzieren. Mittels diesen Schichten werden neue Features aus den Ein gangsdaten extrahiert. Mittels rekurrenten Schichten, umfassend GRU, BGRU, LSTM und BLSTM, werden kontextuale Sequenzinformationen ausgewertet. Zuletzt können vollständig verbundene Schichten genutzt werden, um die finalen Wahrscheinlichkei ten per Ereignisklasse auszugeben. Eine Encoder-Decoder Struktur bestimmt einen encodierten Kontext/Zusammenfassung Vektor. Eine Encoder-Decoder Struktur ist für Spracherkennung vorteilhaft. Als weitere Bestandteile werden Batch-Normalisie- rungs oder Sequenz-Normalisierungs Schichten benutzt, um das Training zu be schleunigen und die Generalisierung zu erhöhen.

RASES ist unabhängig von der konkreten Netzarchitektur und den vorhandenen Hy perparametern, beispielsweise Regularisierung, Batchgröße, Anzahl Epochen, Akti vierungen, Klassen, weitere Datenaugmentation und/oder Dropout, und Optimie rungseinstellungen, beispielsweise Loss-Function, Optimierer, LR-Schedule.

Zusammenfassend wird durch die Erfindung ein Angriff auf einen akustischen Klassi fikator verhindert oder zumindest erschwert. Der akustische Klassifikator lässt sich daher nicht von einem Angreifer täuschen und funktioniert auch korrekt, wenn ein Störsignal vorliegt, welches den akustischen Klassifikator eigentlich täuschen soll.

Außerdem erhöht die Erfindung die Generalisierbarkeit und dadurch die Erkennungs raten unter jeglichen Störeinflüssen. Dadurch ist die Robustheit gegen natürliche Stö rungen, beispielsweise Straßenlärm oder Gespräche, verbessert. Dieses ist beson ders relevant, da akustische Klassifikatoren unter stark variierenden Umgebungen betrieben werden und eine hohe Robustheit gegen unbekannte Rauschtypen/Geräu sche erforderlich ist. Ermöglicht werden die Verbesserungen dadurch, dass durch RASES der akustische Klassifikator lernt, sich auf Features zu verlassen, welche repräsentativ für die rele vante akustische Energie in den Eingangsdaten sind. Dadurch fokussiert sich der akustische Klassifikator auf Features, welche aussagekräftig sind und gewinnt Infor mationen aus wichtigen Features. Verrauschte Features werden weniger benutzt, wodurch der akustische Klassifikator weniger sensitiv gegenüber verschiedenen Stö reinflüssen, natürlich und gegnerisch, ist.

Ein weiterer Vorteil der Erfindung ist, dass die Robustheitssteigerung durch eine syn thetische Augmentation der Trainingsdaten vorgenommen wird. Es ist nicht erforder lich, neue Daten in der Realität aufzunehmen, welche alle möglichen Störsignale ab bilden. Dies ist einerseits kaum möglich und andererseits erfordert es größeren Auf wand überhaupt eine möglichst repräsentative Menge an Rauschsignalen aufzuneh men.

Weiterhin kann eine Erweiterung von RASES auf Regressionsmodelle durchgeführt werden, welche beispielsweise zur Ortung/Distanzschätzung genutzt werden. Es ist möglich, dass ein Angreifer auch solche künstliche Intelligenzen täuschen kann. Mit hilfe von RASES ist eine einfache Robustheitssteigerung möglich, da auch in diesem Fall der originale Datensatz mit speziell generierten Störsignalen augmentiert werden kann. Das Konzept von RASES lässt sich daher auf alle akustischen künstlichen In telligenzen übertragen, welche an Hand von Trainingsdaten gelernt werden.

Die Erfindung wird in den folgenden Ausführungsbeispielen verdeutlicht. Es zeigen:

Fig. 1 eine schematische Darstellung eines normalen Trainingsverlaufs einer künstli chen Intelligenz,

Fig. 2 ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens,

Fig. 3 ein Ausführungsbeispiel von vorverarbeiteten Rohdaten,

Fig. 4 ein Ausführungsbeispiel einer Maskierung, Fig. 5 ein Ausführungsbeispiel eines akustischen Klassifikators zur Spracherkennung und

Fig. 6 eine schematische Darstellung von beispielshaften Zugriffspunkten eines An greifers.

In den Figuren bezeichnen gleiche Bezugszeichen gleiche oder funktionsähnliche Bezugsteile. Übersichtshalber werden in den einzelnen Figuren nur die jeweils rele vanten Bezugsteile hervorgehoben.

Fig. 1 visualisiert einen normalen Trainingsverlaufs. Die vorhandenen Trainingsdaten werden einer künstlichen Intelligenz, beispielsweise einem künstlichen neuronalen Netzwerk, gezeigt und die Loss-Function wird minimiert. Dieser Prozess wird iterativ über mehrere Epochen der Trainingsdaten durchgeführt. Dadurch lernt die künstliche Intelligenz, die vorhandenen Daten korrekt zu klassifizieren.

Bei dem in Fig. 2 gezeigten Adversarial Training werden die originalen Trainingsda ten augmentiert. Dies geschieht durch einen Angreifer, welcher gezielt ein Störsignal S berechnet, welches dazu führt, dass der aktuelle akustische Klassifikator AK ge täuscht wird. Dazu wird ein iterativer Angriff benutzt. Zum Angriff des akustischen Klassifikators AK wird das erfindungsgemäße optimierungsbasierte Verfahren einge setzt. Dieses führt eine kombinierte Loss-Function ein, welche ausdrückt, wie gut das aktuelle Störsignal S den akustischen Klassifikator täuscht und wie hörbar dieses Störsignal S für den Menschen ist. Diese kombinierte Loss-Function wird dann mit Gradient Descent gelöst. Typischerweise wird zuerst der Fokus daraufgelegt, ein va lides Störsignal S zu finden, auch wenn dieses für einen Menschen deutlich hörbar ist. Im weiteren Verlauf des Optimierungsvorgangs wird dann die Stärke dieses Stör signals S reduziert, sodass am Ende ein valides und für den Menschen nicht erkenn bares Störsignal resultiert. Mit den resultierenden Störsignalen werden die originalen Daten erweitert. Die resultierenden augmentierten Trainingsdaten sind eine beliebige Kombination von originalen und angegriffenen/gestörten Daten. Auf diesen Daten wird dann eine normale Trainingsiteration durchgeführt, um die Loss-Function zu mi nimieren und dadurch den akustischen Klassifikator robust zu trainieren.

Auch andere Verfahren zur Generierung des Störsignals liegen im Rahmen der Erfin dung.

Die einzelnen Verfahrensschritte lauten:

• V1 : Bereitstellen von ersten Eingangssignalen mittels eines Fahrsystems- Akustiksensors für den akustischen Klassifikator AK,

• V2: Erhalten von Störungen S in Abhängigkeit der ersten Eingangssignale zur Täuschungserkennung, -Vermeidung und/oder -schütz und/oder zur Verbesse rung einer Erkennungs- und/oder Klassifikationsleistung des akustischen Klas sifikators AK, wobei eine Hörbarkeit der Störungen reduziert wird,

• V3: Erhalten von zweiten Eingangsdaten aus einer Addition der ersten Ein gangsdaten und der Störungen ,

• V4: Eingeben von Kombinationen aus den ersten und den zweiten Eingangs daten in den akustischen Klassifikator AK und

• V5: maschinelles Lernen der Kombinationen.

Fig. 3 zeigt eine beispielhafte Transformation im Zeit-Frequenz-Bereich des Satzes: „The seven units to be offered for sale have a work force of about twenty thousand.“ Fig. 3 zeigt beispielhaft eine Darstellung von FBank Features. Mit Fourier Transfor mation wird ein Signal im Zeitbereich in seine Frequenzen zerlegt. Die akustischen Ereignisse werden in Zeitrahmen separiert und auf jeden Zeitrahmen wird eine Fou rier Transformation angewendet. Anschließend wird die Frequenzachse logarith- misch und die Amplituden in Dezibel dargestellt. Es resultiert ein Spektrogramm. Um ein wie in Fig. 3 gezeigtes Mel Spektrogramm zu erhalten, wird die Frequenz Skala f des Spektrogramms auf Mel Skala m transformiert beispielsweise gemäß

Fig. 4 zeigt eine erfindungsgemäße Maskierung des Mel Spektrogramms aus Fig. 3, wobei die Daten aus Fig. 3 mit einem Rauschbild verglichen wurden. Fig. 5 zeigt den Aufbau eines Systems zur Spracherkennung. Das Zeitsignal x wird vorverarbeitet, sodass eine Zeit-Frequenz Darstellung F resultiert. Diese wird als Ein gangsdaten für ein akustisches Modell benutzt. Dieses Modell wird datengetrieben trainiert und durch tiefe künstliche neuronale Netzwerke, DNN genannt, oder einen Mix aus DNN und Hidden Markov Modellen repräsentiert. Es gibt eine Sequenz von Wahrscheinlichkeiten von akustischen Einheiten umfassend Buchstaben, Phoneme, Wortteile aus, welche zu den resultierenden Gesamtwörtern und der gesuchten Wort sequenz zusammengesetzt wird. Die Netzarchitektur des akustischen Modells um fasst Schichten eines Faltungsnetzwerks, vollständig verbundene Schichten und re kurrente Schichten. Lediglich die Anzahl der Ausgangsklassen ist typischerweise er heblich größer, um alle relevanten akustischen Einheiten abzudecken, beispielsweise 80-2000. Auch werden spezielle Löss Functions, beispielsweise Connectionist Tem poral Classification, siehe https://www.cs.toronto.edu/~graves/icml_2006.pdf, be nutzt.

Die Zusammensetzung wird mithilfe eines Dekoders durchgeführt, welcher die wahr scheinlichste Folge durch die Sequenz der Wahrscheinlichkeitsvektoren der akusti schen Einheiten sucht. Häufig wird ein Beam Search Decoder benutzt mit verschie denen Optionen, beispielsweise hinsichtlich Beam Breite und/oder Gewichtung. Wei terhin können zusätzliche a priori Informationen über die Formalismen der bearbeite ten Sprache benutzt werden. Dazu gehört ein Lexikon, welches legale Wörter bein haltet und ein Sprachmodell, welches grammatikalische Abhängigkeiten, umfassend Auftrittswahrscheinlichkeiten des nächsten Wortes in Abhängigkeit der vergangenen, ausdrückt. Das Sprachmodell kann dabei wieder durch eine eigene künstliche Intelli genz dargestellt werden oder durch einfache Wahrscheinlichkeitstabellen und manu ell gebildeten Entscheidungsregeln.

Die Erfindung lässt sich nicht nur auf Systeme anwenden, welche diese Struktur be nutzen, sondern auf alle Spracherkenner/Geräuscherkenner, welche aus Daten ge lernt werden. Folglich gilt RASES auch in diesem Fall unabhängig von verschiedenen Hyperparametern der erlernten künstlichen Intelligenz. Im Zugriffspunkt A in Fig. 6 greift der Angreifer vor einer Vorverarbeitung der Rohda ten an. Dies wird erfindungsgemäß dadurch simuliert, dass das Störsignal S auf die originalen Eingangsdaten aufaddiert wird. Im Zugriffspunkt B greift der Angreifer nach der Vorverarbeitung an, beispielsweise wird das Störsignal auf eine Repräsentation im Zeit-Frequenz-Bereich aufaddiert.

Erfindungsgemäß kann der Angreifer während des Trainings die Störung auch auf je den Punkt in der Vorverarbeitung, also zum Beispiel zwischen Abs und FBANK, ad dieren.

Bezuaszeichen

V1 -V5 Verfahrensschritte AK akustischer Klassifikator S Störung x Zeitsignal

F Zeit-Frequenz Darstellung

A,B Zugriffspunkte eines Angreifers