Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR OPERATING A DEEP NEURAL NETWORK
Document Type and Number:
WIPO Patent Application WO/2020/233991
Kind Code:
A1
Abstract:
The invention relates to a method for operating a deep neural network (5), wherein the deep neural network (5) is operated with multiple layers (22) between an input layer (20) and an output layer (21), and wherein, in addition, at least one classic filter (24, 25) is used in the deep neural network (5) between the input layer (20) and the output layer (21). The invention also relates to a device (1) for data processing, a computer program and to a computer-readable storage medium.

Inventors:
SCHLICHT PETER (DE)
SCHMIDT NICO MAURICE (DE)
Application Number:
PCT/EP2020/062636
Publication Date:
November 26, 2020
Filing Date:
May 06, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
VOLKSWAGEN AG (DE)
International Classes:
G06N3/04; G06N3/08
Foreign References:
US20180144203A12018-05-24
Other References:
SYED SHAKIB SARWAR ET AL: "Gabor Filter Assisted Energy Efficient Fast Learning Convolutional Neural Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 12 May 2017 (2017-05-12), XP081276422, DOI: 10.1109/ISLPED.2017.8009202
TAGHI ZADEH MILAD MOHAMMAD ET AL: "Fast Facial emotion recognition Using Convolutional Neural Networks and Gabor Filters", 2019 5TH CONFERENCE ON KNOWLEDGE BASED ENGINEERING AND INNOVATION (KBEI), IEEE, 28 February 2019 (2019-02-28), pages 577 - 581, XP033560530, DOI: 10.1109/KBEI.2019.8734943
BOGDAN KWOLEK ED - WLODZISLAW DUCH ET AL: "Face Detection Using Convolutional Neural Networks and Gabor Filters", 1 January 2005, ARTIFICIAL NEURAL NETWORKS: BIOLOGICAL INSPIRATIONS - ICANN 2005 LECTURE NOTES IN COMPUTER SCIENCE;;LNCS, SPRINGER, BERLIN, DE, PAGE(S) 551 - 556, ISBN: 978-3-540-28752-0, XP019018193
LI JIAKUN ET AL: "Using Gabor filter in 3D convolutional neural networks for human action recognition", 2017 36TH CHINESE CONTROL CONFERENCE (CCC), TECHNICAL COMMITTEE ON CONTROL THEORY, CAA, 26 July 2017 (2017-07-26), pages 11139 - 11144, XP033150515, DOI: 10.23919/CHICC.2017.8029134
ASHWINI KINNIKAR ET AL: "Face Recognition Using Gabor Filter And Convolutional Neural Network", INFORMATICS AND ANALYTICS, ACM, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, 25 August 2016 (2016-08-25), pages 1 - 4, XP058299192, ISBN: 978-1-4503-4756-3, DOI: 10.1145/2980258.2982104
CHEN YUSHI ET AL: "Hyperspectral Images Classification With Gabor Filtering and Convolutional Neural Network", IEEE GEOSCIENCE AND REMOTE SENSING LETTERS, IEEE SERVICE CENTER, NEW YORK, NY, US, vol. 14, no. 12, 1 December 2017 (2017-12-01), pages 2355 - 2359, XP011674138, ISSN: 1545-598X, [retrieved on 20171204], DOI: 10.1109/LGRS.2017.2764915
JIANG CHENZHI ET AL: "Gabor Binary Layer in Convolutional Neural Networks", 2018 25TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP), IEEE, 7 October 2018 (2018-10-07), pages 3408 - 3412, XP033454871, DOI: 10.1109/ICIP.2018.8451298
HOSSEINI SEPIDEHSADAT ET AL: "Age and gender classification using wide convolutional neural network and Gabor filter", 2018 INTERNATIONAL WORKSHOP ON ADVANCED IMAGE TECHNOLOGY (IWAIT), IEEE, 7 January 2018 (2018-01-07), pages 1 - 3, XP033352528, DOI: 10.1109/IWAIT.2018.8369721
ANDRES CALDERON ET AL: "Handwritten Digit Recognition using Convolutional Neural Networks and Gabor filters", INTERNATIONAL CONGRESS ON COMPUTATIONAL INTELLIGENCE, 31 December 2003 (2003-12-31), XP055168822
GOKHAN OZBULAK ET AL: "Initialization of convolutional neural networks by Gabor filters", 2018 26TH SIGNAL PROCESSING AND COMMUNICATIONS APPLICATIONS CONFERENCE (SIU), 1 May 2018 (2018-05-01), pages 1 - 4, XP055713624, ISBN: 978-1-5386-1501-0, DOI: 10.1109/SIU.2018.8404757
ANDREY ALEKSEEV ET AL: "GaborNet: Gabor filters with learnable parameters in deep convolutional neural networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 30 April 2019 (2019-04-30), XP081269018
WU YIHUI ET AL: "Traffic sign detection based on convolutional neural networks", THE 2013 INTERNATIONAL JOINT CONFERENCE ON NEURAL NETWORKS (IJCNN), IEEE, 4 August 2013 (2013-08-04), pages 1 - 7, XP032542272, ISSN: 2161-4393, [retrieved on 20140108], DOI: 10.1109/IJCNN.2013.6706811
Download PDF:
Claims:
Patentansprüche

1. Verfahren zum Betreiben eines tiefen Neuronalen Netzes (5), wobei das tiefe Neuronale Netz (5) mit mehreren Schichten (22) zwischen einer Eingangsschicht (20) und einer Ausgangsschicht (21) betrieben wird, und wobei im tiefen Neuronalen Netz (5) zwischen der Eingangsschicht (20) und der Ausgangsschicht (21) zusätzlich mindestens ein klassisches Filter (24,25) verwendet wird.

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass Filterparameter des

mindestens einen klassischen Filters (24,25) während einer Trainingsphase des tiefen Neuronalen Netzes (5) konstant gehalten werden.

3. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass zumindest ein Teil von

Filterparametern des mindestens einen klassischen Filters (24,25) während einer Trainingsphase des tiefen Neuronalen Netzes (5) verändert wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass zumindest ein Teil der

Filterparameter des mindestens einen klassischen Filters (24,25) mit einer geringeren Lernrate angepasst wird als das restliche tiefe Neuronale Netz (5).

5. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das mindestens eine klassische Filter (24,25) direkt nach der Eingangsschicht (20) und/oder in der Nähe der Eingangsschicht (20) des tiefen Neuronalen Netzes (5) betrieben wird.

6. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass ein Ausgang des mindestens einen klassischen Filters mehreren Schichten (23) des tiefen Neuronalen Netzes (5) zugeführt wird.

7. Verfahren nach einem der vorangegangenen Ansprüche, dadurch gekennzeichnet, dass das tiefe Neuronale Netz (5) ein Faltungsnetz ist.

8. Vorrichtung (1) zur Datenverarbeitung, umfassend Mittel (2) zur Ausführung der

Verfahrensschritte des Verfahrens nach einem beliebigen der Ansprüche 1 bis 7.

9. Computerprogramm, umfassend Befehle, die bei der Ausführung des

Computerprogramms durch einen Computer diesen veranlassen, die Verfahrensschritte des Verfahrens nach einem beliebigen der Ansprüche 1 bis 7 auszuführen.

10. Computerlesbares Speichermedium, umfassend Befehle, die bei der Ausführung durch einen Computer diesen veranlassen, die Verfahrensschritte des Verfahrens nach einem beliebigen der Ansprüche 1 bis 7 auszuführen.

Description:
Beschreibung

Verfahren zum Betreiben eines tiefen Neuronalen Netzes

Die Erfindung betrifft ein Verfahren zum Betreiben eines tiefen Neuronalen Netzes. Ferner betrifft die Erfindung eine Vorrichtung zur Datenverarbeitung, ein Computerprogramm und ein computerlesbares Speichermedium.

Maschinelles Lernen, beispielsweise auf Grundlage von Neuronalen Netzen, hat großes Potenzial für eine Anwendung in modernen Fahrerassistenzsystemen und automatisiert fahrenden Kraftfahrzeugen. Auf tiefen Neuronalen Netzen basierende Funktionen verarbeiten hierbei Sensorrohdaten (zum Beispiel von Kameras, Radar- oder Lidarsensoren), um hieraus relevante Informationen abzuleiten. Diese Informationen umfassen zum Beispiel eine Art und eine Position von Objekten in einem Umfeld des Kraftfahrzeugs, ein Verhalten der Objekte oder eine Fahrbahngeometrie oder -topologie.

Unter den Neuronalen Netzen haben sich insbesondere Faltungsnetze (engl convolutional neural networks) als besonders geeignet für Anwendungen in der Bildverarbeitung erwiesen. Faltungsnetze extrahieren in unüberwachter Form stufenweise verschiedene hochwertige Merkmale aus Eingangsdaten (z.B. Bilddaten). Das Faltungsnetz entwickelt hierbei während einer Trainingsphase eigenständig Merkmalskarten basierend auf Filterkanälen, die die

Eingangsdaten lokal verarbeiten, um hierdurch lokale Eigenschaften abzuleiten. Diese

Merkmalskarten werden dann erneut von weiteren Filterkanälen verarbeitet, die daraus höherwertigere Merkmalskarten ableiten. Auf Grundlage dieser derart aus den Eingangsdaten verdichteten Informationen leitet das tiefe Neuronale Netz schließlich seine Entscheidung ab und stellt diese als Ausgangsdaten bereit.

Während Faltungsnetze klassische Ansätze an funktionaler Genauigkeit übertreffen, besitzen diese jedoch auch Nachteile. So können beispielsweise Störeinflüsse in erfassten Sensordaten oder auf adversarialen Störeinflüssen basierende Angriffe dazu führen, dass trotz eines semantisch nicht veränderten Inhalts in den erfassten Sensordaten eine Fehlklassifizierung bzw. falsche semantische Segmentierung erfolgt. Daher wird versucht, Neuronale Netze robust gegen diese Art von Störeinflüssen auszugestalten. Aus der US 2018/0144203 A1 ist ein Verfahren bekannt, bei dem mit Hilfe von Verfahren der Computer Vision eine Vorverarbeitung und eine Vorauswahl von Bildbereichen von erfassten Kameradaten erfolgt. Die vorverarbeiteten und vorausgewählten Bildbereiche werden dann exportiert und einem künstlichen Neuronalen Netz zur Klassifizierung zugeführt.

Der Erfindung liegt die Aufgabe zu Grunde, ein Verfahren und eine Vorrichtung zum Betreiben eines tiefen Neuronalen Netzes zu schaffen, bei denen das tiefe Neuronale Netz robuster gegen Störeinflüsse ist.

Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen des

Patentanspruchs 1 und eine Vorrichtung mit den Merkmalen des Patentanspruchs 8 gelöst. Ferner wird die Aufgabe erfindungsgemäß durch ein Computerprogramm mit den Merkmalen des Patentanspruchs 9 und ein computerlesbares Speichermedium mit den Merkmalen des Patentanspruchs 10 gelöst. Vorteilhafte Ausgestaltungen der Erfindung ergeben sich aus den Unteransprüchen.

Insbesondere wird ein Verfahren zum Betreiben eines tiefen Neuronalen Netzes zur Verfügung gestellt, wobei das tiefe Neuronale Netz mit mehreren Schichten zwischen einer

Eingangsschicht und einer Ausgangsschicht betrieben wird, und wobei im tiefen Neuronalen Netz zwischen der Eingangsschicht und der Ausgangsschicht zusätzlich mindestens ein klassisches Filter verwendet wird.

Ferner wird insbesondere eine Vorrichtung zur Datenverarbeitung geschaffen, umfassend Mittel zur Ausführung der Verfahrensschritte des erfindungsgemäßen Verfahrens. Die Mittel können hierbei insbesondere eine Recheneinrichtung und einen Speicher umfassen.

Weiter wird ein Computerprogramm geschaffen, umfassend Befehle, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, die Verfahrensschritte des erfindungsgemäßen Verfahrens auszuführen.

Darüber hinaus wird ein computerlesbares Speichermedium geschaffen, umfassend Befehle, die bei der Ausführung durch einen Computer diesen veranlassen, die Verfahrensschritte des erfindungsgemäßen Verfahrens auszuführen.

Das Verfahren und die Vorrichtung ermöglichen es, eine Robustheit eines Neuronales Netzes, insbesondere eines Faltungsnetzes, gegenüber Störeinflüssen zu erhöhen. Dies erfolgt, indem neben den üblicherweise zufällig initialisierten Filtern zur Merkmalsextraktion im tiefen

Neuronalen Netz zusätzlich mindestens ein klassisches Filter verwendet wird. Das mindestens eine klassische Filter ist hierbei insbesondere ein integraler Teil einer Struktur des tiefen Neuronalen Netzes. Bei diesem mindestens einen klassischen Filter werden Filterparameter beim Initialisieren des tiefen Neuronalen Netzes, das heißt zu Beginn einer Trainingsphase, insbesondere vorgegeben. Die vorgegebenen Filterparameter können beispielsweise auf Grundlage von Schätzungen und/oder von Erfahrungswerten gewählt werden. Ausgangsdaten des mindestens einen klassischen Filters werden dem tiefen Neuronalen Netz zusätzlich zu den ungefilterten Eingangsdaten, die nicht das mindestens eine klassische Filter durchlaufen haben, und den mittels der Filterkanäle gefilterten Eingangsdaten bereitgestellt. Anders ausgedrückt stellen die von dem mindestens einen klassischen Filter extrahierten Merkmale bzw.

Merkmalskarten eine Teilmenge aller zum Inferieren verwendeten Merkmale bzw.

Merkmalskarten dar. Hierdurch kann erreicht werden, dass das mindestens eine klassische Filter besonders diskriminative Merkmale aus an der Eingangsschicht bereitgestellten

Eingangsdaten extrahieren kann, welche den zufällig initialisierten Filtern bzw. Filterkanälen in der Regel entgehen. Der Erfindung liegt die Erkenntnis zugrunde, dass tiefe Neuronale Netze im Rahmen der Trainingsphase in der Regel nicht zwangsläufig auf diskriminative Merkmale in den Eingangsdaten trainiert werden, sondern dass Merkmale, auf die das tiefe Neuronale Netz nach dem Trainieren zum Inferieren der Ausgangsdaten sensitiv reagiert, oft wenig

aussagekräftig und daher anfälliger für Störeinflüsse sind. Insgesamt kann durch die Erfindung ein robusteres Verhalten des tiefen Neuronalen Netzes gegenüber Störeinflüssen (z.B. in Form von adversarialen Störungen) erreicht werden, die lediglich eine semantisch nicht relevante Veränderung der Eingangsdaten hervorrufen.

Der Vorteil des Verfahrens und der Vorrichtung ist, dass ein hybrider Ansatz umgesetzt werden kann, bei dem sowohl klassische Filter als auch angelernte Filter bzw. Filterkanäle im tiefen Neuronalen Netz integriert sind. Insgesamt kann dies die Robustheit des tiefen Neuronalen Netzes gegenüber Störeinflüssen erhöhen.

Ein Neuronales Netz ist insbesondere ein Künstliches Neuronales Netz, insbesondere ein Faltungsnetz (engl convolutional neural network). Das Neuronale Netz wird oder ist

insbesondere auf eine bestimmte Wahrnehmungsfunktion trainiert, beispielsweise eine

Wahrnehmung von Fußgängern oder anderen Objekten in erfassten Kamerabildern.

Die Eingangsdaten des tiefen Neuronalen Netzes können eindimensional oder

mehrdimensional sein. Entsprechend sind zum Trainieren verwendete Trainingsdaten des Trainingsdatensatzes eindimensional oder mehrdimensional, wobei die Trainingsdaten hinsichtlich eines semantisch bedeutungsvollen Inhalts markiert („gelabelt“) sind. Beispielsweise kann es sich bei den Trainingsdaten um erfasste und hinsichtlich eines semantisch

bedeutungsvollen Inhalts (z.B. Fußgänger) markierte Kamerabilder handeln. Insbesondere handelt es sich bei den Trainingsdaten und den Eingangsdaten um zweidimensionale Daten, das heißt mittels einer Kamera erfasste Bilddaten.

Eine Trainingsphase und eine Inferenzphase des tiefen Neuronalen Netzes werden ansonsten in an sich bekannter Weise ausgeführt.

Das Verfahren wird insbesondere als computerimplementierte Erfindung ausgeführt.

Insbesondere wird das Verfahren mittels einer Recheneinrichtung, die auf einen Speicher zugreifen kann, ausgeführt. Die Recheneinrichtung kann als eine Kombination von Hardware und Software ausgebildet sein, beispielsweise als Programmcode, der auf einem

Mikrocontroller oder Mikroprozessor ausgeführt wird.

Ein klassisches Filter kann insbesondere einen ein- oder mehrdimensionalen Eingang und einen ein- bzw. mehrdimensionalen Ausgang aufweisen. Im Gegensatz zu einem in einem tiefen Neuronalen Netz üblicherweise verwendeten Filterkanal, bei dem der Filterkanal beim Initialisieren des tiefen Neuronalen Netzes mit zufälligen Parametern initialisiert wird, wird das klassische Filter beim Initialisieren des tiefen Neuronalen Netzes mit fest vorgegebenen

Filterparametern initialisiert. Anders ausgedrückt weist ein klassisches Filter eine fest vorgegebene Filterfunktion auf, welche mit Hilfe von Filterparametern parametriert werden kann, diese Filterparameter werden jedoch beim Initialisieren fest vorgegeben und nicht zufällig initialisiert.

Insbesondere bei einer Verarbeitung von Bilddaten durch das tiefe Neuronale Netz soll ein klassisches Filter ein klassisches Verfahren der Computer Vision umfassen. Insbesondere kann ein solches Verfahren ein Verfahren zur Bildbearbeitung sein.

Ein klassisches Filter kann hierbei insbesondere eines der folgenden sein:

- Center-Surround-Filter verschiedener Größe,

- Kantenfilter (z.B. mittels des Canny-Algorithmus),

- Konturfilter, - Eckfilter,

- Musterfilter (z.B. für ein Sechseck oder eine sonstige geometrische Figur etc.),

- Farbverlaufsfilter,

- Kontrastmusterfilter,

- Schriftfilter zum Identifizieren von Schrift,

- Ableiten einer positionsabhängigen Dichtekarte zur Festlegung eines

Aufmerksamkeitsfilters,

- Bildschärfe- / Bildunschärfefilter,

- usw.

Filterparameter sind Parameter des mindestens einen klassischen Filters. Handelt es sich beispielsweise um einen Kantenfilter für Bilddaten, so ist ein Filterparameter beispielsweise ein Empfindlichkeitswert bzw. Schwellenwert, der angibt, ab welchem Wert ein Pixel oder ein Bereich in einer Abbildung als Kante behandelt wird.

Es ist insbesondere vorgesehen, dass das tiefe Neuronale Netz ein Faltungsnetz ist. Das mindestens eine klassische Filter ist hierbei insbesondere vor oder in einer Merkmalsschicht des Faltungsnetzes angeordnet, das heißt insbesondere vor einem Backpropagation-Netz des Faltungsnetzes. Ausgangsdaten des mindestens einen klassischen Filters werden dem

Backpropagation-Netz hierbei zusätzlich zu den von den Filterkanälen extrahierten

Merkmalskarten zugeführt.

In einer Ausführungsform ist vorgesehen, dass Filterparameter des mindestens einen klassischen Filters während einer Trainingsphase des tiefen Neuronalen Netzes konstant gehalten werden. Hierdurch können Filterparameter des mindestens einen klassischen Filters vorgegeben werden und auch während der Trainingsphase und einer nachfolgenden

Anwendung des trainierten tiefen Neuronalen Netzes in einer Inferenzphase beibehalten werden. Insbesondere lässt sich der mindestens eine Filter hierdurch gezielt auf besonders diskriminative Merkmale in den Eingangsdaten einstellen. Dies ist insbesondere von Vorteil, wenn für Eingangsdaten Filterfunktionen bekannt sind, für die bereits optimale Filterparameter zum Extrahieren besonders diskriminativer Merkmale bekannt sind.

In einer alternativen Ausführungsform ist vorgegeben, dass zumindest ein Teil von

Filterparametern des mindestens einen klassischen Filters während einer Trainingsphase des tiefen Neuronalen Netzes verändert wird. Hierdurch können Filterparameter des mindestens einen klassischen Filters zusätzlich zu den Parametern des restlichen tiefen Neuronalen Netzes während der Trainingsphase angelernt werden. Da beim Trainieren des tiefen Neuronalen Netzes eine Abweichung (= Löss) einer Ausgabe an der Ausgabeschicht von einer

Grundwahrheit (engl ground truth bzw. die Labels der Trainingsdaten) bestimmt wird und im Rahmen eines Gradientenabstiegs während des Trainierens Parameter des tiefen Neuronalen Netzes in Abhängigkeit der Ableitung dieser (für mehrere Trainingsdaten) ermittelten

Abweichung angepasst werden, müssen die Filterparameter der klassischen Filter

insbesondere differenzierbar von einer zum Trainieren des tiefen Neuronalen Netzes

verwendeten Kostenfunktion (Lossfunktion) abhängen.

Sind mehrere klassische Filter vorhanden, kann auch vorgesehen sein, dass nur ein Teil der klassischen Filter während der Trainingsphase über das Verändern der zugehörigen

Filterparameter verändert wird, Filterparameter eines anderen T eils der klassischen Filter hingegen konstant auf den beim Initialisieren vorgegebenen Filterparameter gehalten werden.

In einer Weiterbildung ist vorgesehen, dass zumindest ein Teil der Filterparameter des mindestens einen klassischen Filters mit einer geringeren Lernrate angepasst wird als das restliche tiefe Neuronale Netz. Hierdurch kann ein Kompromiss erreicht werden zwischen einer Möglichkeit, Filterparameter der klassischen Filters im Rahmen der Trainingsphase anzupassen und einer Vorgabe von Filterparametern. Es kann weiter erreicht werden, dass eine Funktion des tiefen Neuronalen Netzes zumindest im Zusammenhang mit dem mindestens einen klassischen Filter der Wirkung nach, das heißt in Bezug auf bestimmte diskriminative Merkmale, nachvollziehbar ist. Insgesamt kann das tiefe Neuronale Netz durch eine geringere Lernrate robuster ausgebildet werden, da das klassische Filter weniger sensibel auf leicht geänderte Eingangsdaten reagiert und in der Folge ein zu starkes Anpassen der Filterparameter im

Rahmen der Trainingsphase verhindert werden kann.

In einer Ausführungsform ist vorgesehen, dass das mindestens eine klassische Filter direkt nach der Eingangsschicht und/oder in der Nähe der Eingangsschicht des tiefen Neuronalen Netzes betrieben wird. Hierdurch können diskriminative Merkmale eingangsnah extrahiert werden. Ein vorteilhafter Effekt auf die Robustheit des tiefen Neuronalen Netzes kann hierdurch erhöht werden. In der Nähe der Eingangsschicht bedeutet hierbei insbesondere, dass das mindestens eine klassische Filter in der i-ten Schicht nach der Eingangsschicht im tiefen Neuronalen Netz angeordnet ist, wobei i < 10, bevorzugt i < 5, besonders bevorzugt i < 3 ist.

In einer weiteren Ausführungsform ist vorgesehen, dass ein Ausgang des mindestens einen klassischen Filters mehreren Schichten des tiefen Neuronalen Netzes zugeführt wird. Dies hilft dabei, von dem tiefen Neuronalen Netz gelernte Merkmale relativ zu den ursprünglichen Eingangsdaten verorten zu können. Im Falle von Bilddaten ermöglicht dies insbesondere eine robuste Verödung von Bildmerkmalen (z.B. Kantenzüge, Objekte etc.) zu genauen

Pixelbereichen in den Bilddaten. Es kann hierüber insbesondere eine robuste Verödung von erkannten Bildmerkmalen relativ zu den klassischen Filterkaden erfolgen.

Nachfolgend wird die Edindung anhand bevorzugter Ausführungsbeispiele unter Bezugnahme auf die Figuren näher erläuted. Hierbei zeigen:

Fig. 1 eine schematische Darstellung einer Ausführungsform der Vorrichtung zur

Datenverarbeitung zum Ausführen des Vedahrens;

Fig. 2 eine schematische Darstellung einer Ausführungsform eines tiefen Neuronalen

Netzes zur Verdeutlichung der Edindung.

In Fig. 1 ist eine schematische Darstellung einer Vorrichtung 1 zum Ausführen des Vedahrens gezeigt. Die Vorrichtung 1 umfasst Mittel 2 zum Ausführen des Vedahrens. Die Mittel 2 umfassen eine Recheneinrichtung 3 und einen Speicher 4. In dem Speicher 4 sind eine Struktur und Parameter eines tiefen Neuronalen Netzes 5 hinterlegt. Zum Durchführen des Vedahrens, insbesondere zum Trainieren des tiefen Neuronalen Netzes 5 und zum Anwenden des tiefen Neuronalen Netzes 5 während einer Inferenzphase, kann die Recheneinrichtung 3 auf den Speicher 4 zugreifen und zum Betreiben des tiefen Neuronalen Netzes 5 Rechenoperationen durchführen. Die Recheneinrichtung 3 kann als eine Kombination von Hardware und Software ausgebildet sein, beispielsweise als Computerprogramm, das auf einem Mikrocontroller oder Mikroprozessor ausgefühd wird.

Ferner sind in dem Speicher 4 zumindest während einer Trainingsphase markiede („gelabelte“) Trainingsdaten 6 und Filterparameter 7 mindestens eines klassischen Filters hinterlegt.

Während einer Inferenzphase werden der Vorrichtung 1 bzw. dem (trainierten) tiefen

Neuronalen Netz 5 Eingangsdaten 10 zugefühd. Dies können beispielsweise edasste

Kameradaten sein, auf denen das tiefe Neuronale Netz 5 eine Wahrnehmungsfunktion ausfühd. Nach einer abgeschlossenen Inferenzphase liefed das tiefe Neuronale Netz 5 bzw. die

Vorrichtung 1 Ausgangsdaten 11 , welche beispielsweise ein Klassifizierungsergebnis der Eingangsdaten 10 liefed. Umfasst die Wahrnehmungsfunktion beispielsweise das Erkennen von Fußgängern in den erfassten Kameradaten, so werden als Ausgangsdaten beispielsweise Wahrscheinlichkeitswerte für das Vorhandensein von Fußgängern in den erfassten Kameradaten bereitgestellt.

In Fig. 2 ist eine schematische Darstellung einer Ausführungsform eines tiefen Neuronalen Netzes 5 zur Verdeutlichung der Erfindung gezeigt. Das tiefe Neuronale Netz 5 weist eine Eingangsschicht 20 und eine Ausgangsschicht 21 auf.

Nach der Eingangsschicht 20 folgen mehrere Filterkanäle 22, deren Parameter beim

Initialisieren tiefen Neuronalen Netzes 5 vor einer Trainingsphase zufällig initialisiert werden und anschließend beim Trainieren schrittweise angelernt werden. Hinter den Filterkanälen 22 folgen mehrere Schichten 23 des tiefen Neuronalen Netzes 5, welche im Rahmen der

Trainingsphase, insbesondere mittels Verfahren wie der Backpropagation, auf Grundlage eines Trainingsdatensatzes in überwachter Weise trainiert werden.

Führt das tiefe Neuronale Netz 5 beispielsweise eine Wahrnehmungsfunktion in erfassten Kameradaten aus, so umfassen die Eingangsdaten und die Ausgangsdaten Filterkanäle 22 jeweils zwei Dimensionen.

Ferner umfasst das tiefe Neuronale Netz 5 zusätzlich zu den anzulernenden bzw. angelernten Filterkanälen 22 mehrere klassische Filter 24, 25. Im Falle der genannten

Wahrnehmungsfunktion können die klassischen Filter 24 beispielsweise Bildbearbeitungsfilter sein, die jeweils ein Verfahren der Computer Vision auf den erfassten Kamerabildern ausführen. Um besonders diskriminativ zu sein, werden Filterparameter der klassischen Filter 24, 24 beim Initialisieren des tiefen Neuronalen Netzes 5 fest vorgegeben, das heißt es findet keine zufällige Initialisierung der Filterparameter wie bei den Filterkanälen 22 statt. Die fest vorgegebenen Filterparameter können hierbei beispielsweise auf Grundlage von Erfahrungswerten ausgewählt werden.

Wie in der Fig. 2 zu erkennen, werden die klassischen Filter 24 direkt nach der

Eingangsschicht 20 des tiefen Neuronalen Netzes 5 betrieben. Das klassische Filter 25 wird hingegen zwischen Schichten 23 des tiefen Neuronalen Netzes 5 betrieben.

Das klassische Filter kann beispielsweise eines der folgenden Verfahren ausführen:

- Center-Surround-Filter verschiedener Größe,

- Kantenfilter (z.B. mittels des Canny-Algorithmus), - Konturfilter,

- Eckfilter,

- Musterfilter (z.B. für ein Sechseck oder eine sonstige geometrische Figur etc.),

- Farbverlaufsfilter,

- Kontrastmusterfilter,

- Schriftfilter zum Identifizieren von Schrift,

- Ableiten einer positionsabhängigen Dichtekarte zur Festlegung eines

Aufmerksamkeitsfilters,

- Bildschärfe- / Bildunschärfefilter,

- usw.

Das tiefe Neuronale Netz 5 kann beispielsweise als Faltungsnetz ausgebildet sein. Das mindestens eine klassische Filter 24 ist dann insbesondere im Bereich von Merkmalsschichten des Faltungsnetzes, das heißt vor einem Backpropagation-Netz des Faltungsnetzes, angeordnet.

Es kann vorgesehen sein, dass Filterparameter der klassischen Filter 24, 25 während einer Trainingsphase des tiefen Neuronalen Netzes 5 konstant gehalten werden.

Alternativ kann vorgesehen sein, dass zumindest ein Teil der Filterparameter der klassischen Filter 24, 25 während einer Trainingsphase des tiefen Neuronalen Netzes 5 verändert wird. Die Filterparameter werden dann zusammen mit dem restlichen tiefen Neuronalen Netz 5 angelernt.

Weiterbildend kann vorgesehen sein, dass zumindest ein Teil der Filterparameter der klassischen Filter 24, 25 mit einer geringeren Lernrate angepasst wird als das restliche tiefe Neuronale Netz 5.

Es kann vorgesehen sein, dass nur ein Teil der klassischen Filter 24, 25 während der

Trainingsphase über das Verändern der zugehörigen Filterparameter verändert wird,

Filterparameter eines anderen Teils der klassischen Filter 24, 25 kann hingegen konstant auf den beim Initialisieren vorgegebenen Filterparametern gehalten werden.

Es kann ferner vorgesehen sein, dass ein Ausgang eines klassischen Filters 25 mehreren Schichten 23 des tiefen Neuronalen Netzes 5 zugeführt wird. Das beschriebene Verfahren führt dazu, dass ein tiefes Neuronales Netz 5 robuster gegenüber Störeinflüssen ist, da über die klassischen Filter 24, 25 gezielt stark diskriminative Merkmale extrahiert werden.

Bezugszeichenliste

Vorrichtung

Mittel

Recheneinrichtung

Speicher

tiefes Neuronales Netz

Trainingsdaten

Filterparameter

Eingangsdaten

Ausgangsdaten

Eingangsschicht

Ausgangsschicht

Filterkanal

Schicht

klassisches Filter

klassisches Filter