Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR DETERMINING A NOTEWORTHY SUB-SEQUENCE OF A MONITORING IMAGE SEQUENCE
Document Type and Number:
WIPO Patent Application WO/2022/017702
Kind Code:
A1
Abstract:
The invention relates to a method for determining a noteworthy sub-sequence (114a) of a monitoring image sequence (110) of a monitoring area comprising the following steps: providing an audio signal (S1) from the monitoring area, at least partially including a time period of the monitoring image sequence; providing the monitoring image sequence (S1) of the environment to be monitored, which has been generated by an imaging system; determining at least one segment of the audio signal from the provided audio signal, which has unusual noises (S2); determining at least one segment of the monitoring image sequence with unusual movements within the environment to be monitored (S3); determining a correlation between the at least one segment of the audio signal with unusual noises (114a) and the at least one segment of the monitoring image sequence with unusual movements (114a) in order to determine a noteworthy sub-sequence (114) of the monitoring image sequence (110).

Inventors:
NEUMANN CHRISTIAN (DE)
TAKAMI MASATO (DE)
STRESING CHRISTIAN (DE)
BLOTT GREGOR (DE)
Application Number:
PCT/EP2021/066765
Publication Date:
January 27, 2022
Filing Date:
June 21, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
International Classes:
G08B29/18; G08B13/196
Foreign References:
US20080309761A12008-12-18
US20190152492A12019-05-23
CA2656268A12008-02-07
US20200394428A12020-12-17
US20100153390A12010-06-17
Download PDF:
Claims:
Ansprüche

1. Verfahren (100) zur Bestimmung einer auffälligen Teil-Sequenz (114a) einer Überwachungs-Bildersequenz (110) eines Überwachungsbereichs, mit den Schritten:

Bereitstellen eines Audiosignals (Sl) aus dem Überwachungsbereich, das zumindest teilweise einen Zeitraum der Überwachungs-Bildersequenz um fasst;

Bereitstellen der Überwachungs-Bildersequenz (Sl) der zu überwachenden Umgebung, die von einem bildgebenden System generiert wurde;

Bestimmen von zumindest einem Segment des Audiosignals aus dem bereit gestellten Audiosignal, das außergewöhnliche Geräusche aufweist (S2); Bestimmung von zumindest einem Segment der Überwachungs-Bilderse quenz mit außergewöhnlichen Bewegungen innerhalb der zu überwachen den Umgebung (S3);

Bestimmen einer Korrelation des zumindest einen Segments des Audiosig nals mit außergewöhnlichen Geräuschen (114a) und dem zumindest einen Segment der Überwachungs-Bildersequenz mit außergewöhnlichen Bewe gungen (114a), um eine auffällige Teil-Sequenz (114) der Überwachungs- Bildersequenz (110) zu bestimmen.

2. Verfahren (100) gemäß Anspruch 1, wobei die zumindest eine auffällige Teil- Sequenz der Überwachungs-Bildersequenz (114) bestimmt wird, indem von der Überwachungs-Bildersequenz (110) zumindest eine Teil-Sequenz (112 a) subtrahiert wird, in der eine Ausprägung der Korrelation des zumindest ei nen Segments der Überwachungs-Bildersequenz mit außergewöhnlichen Bewegungen (114 a) und des zumindest einen Segments des Audiosignals mit außergewöhnlichen Geräuschen (114a) unterhalb eines Grenzwertes be stimmt wird.

3. Verfahren (100) gemäß Anspruch 1 oder 2, wobei das zumindest eine Seg ment des Audiosignals mit außergewöhnlichen Geräuschen (114a) dadurch bestimmt wird, dass Frequenzbänder menschlicher Stimmen in Bezug auf außergewöhnliche Amplituden und/oder außergewöhnliche Frequenzen in den Audiosignalen (130) identifiziert werden.

4. Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei ein Ursprungsort des bereitgestellten Audiosignals (120) erfasst wird und die au ßergewöhnlichen Geräusche basierend auf dem Ursprungsort bestimmt wer den.

5. Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei Bilder der Überwachungs-Bildersequenz (110) komprimiert werden und außerge wöhnliche Bewegungen im Überwachungsbereich mittels der Überwa chungs-Bildersequenz (110), basierend auf einer Änderung eines Aufwands für die Komprimierung aufeinanderfolgender Bilder der Überwachungs-Bil dersequenz (110), bestimmt werden.

6. Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei zur Bestimmung außergewöhnlicher Bewegung im Überwachungsbereich zu mindest ein optischer Fluss von Bildern der Überwachungs-Bildersequenz (110) bestimmt wird und außergewöhnliche Bewegungen mittels der Bilder, basierend auf dem bestimmten optischen Fluss, bestimmt werden.

7. Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei cha rakteristische Punkte von Personen im Überwachungsbereich bestimmt wer den, und außergewöhnliche Bewegungen basierend auf einer Veränderung der charakteristischen Punkte innerhalb der Überwachung-Bildersequenz (110) bestimmt werden.

8. Verfahren (100) gemäß Anspruch 7, wobei die charakteristischen Punkte von Personen im Überwachungsbereich mittels eines zur Bestimmung charakte ristischer Punkte trainierten neuronalen Netzes bestimmt werden.

9. Verfahren (100) gemäß einem der vorhergehenden Ansprüche, wobei die Korrelation des zumindest einen Segments des Audiosignals mit außerge wöhnlichen Geräuschen (114a) und des zumindest einen Segments der Überwachungs-Bildersequenz mit außergewöhnlichen Bewegungen (114 a), mittels eines zur Bestimmung einer Korrelation trainierten neuronalen Netzes bestimmt wird.

10. Verfahren (100) gemäß Anspruch 9, wobei das zur Bestimmung der Korrela tion trainierte neuronale Netz eingerichtet ist, das zumindest eine Segment des Audiosignals (114 a), das außergewöhnliche Geräusche aufweist, und/o der das zumindest eine Segment der Überwachungs-Bildersequenz mit au ßergewöhnlichen Bewegungen (114 a) zu bestimmen.

11. Verfahren gemäß einem der Ansprüche 1 bis 10, wobei, basierend auf einer auffälligen Teil-Sequenz (114) einer Überwachungs-Bildersequenz (110) ei nes Überwachungsbereichs, ein Steuersignal zur Ansteuerung eines zumin dest teilautomatisierten Fahrzeugs bereitgestellt wird; und/oder basierend auf der auffälligen Teil-Sequenz ein Warnsignal zur Warnung eines Fahrzeu ginsassen bereitgestellt wird.

12. Verfahren zum Trainieren des neuronalen Netzwerkes zur Bestimmung cha rakteristischer Punkte gemäß Anspruch 8, mit einer Vielzahl von Trainings- Zyklen, wobei jeder Trainings-Zyklus die Schritte aufweist:

Bereitstellen eines Referenz-Bildes, wobei in dem Referenz-Bild charakteris tische Punkte von Personen gelabelt sind; und

Adaptieren des neuronalen Netzes zur Bestimmung der charakteristischen Punkte, um bei dem Bestimmen der charakteristischen Punkte der Personen mit dem neuronalen Netz eine Abweichung von den gelabelten charakteristi schen Punkten des jeweiligen zugeordneten Referenz-Bildes zu minimieren.

13. Überwachungs-Vorrichtung die eingerichtet ist, ein Verfahren gemäß einem der Ansprüche 1 bis 11 zur Bestimmung einer auffälligen Teil-Sequenz einer Überwachungs-Bildersequenz (114) eines Überwachungsbereichs, durchzu führen.

14. Verwendung des Verfahrens gemäß einem der Ansprüche 1 bis 11, zur Überwachung eines Überwachungsbereichs, wobei die Überwachung-Bilder sequenz (110) mittels eines bildgebenden Systems bereitgestellt wird.

15. Computerprogramm, umfassend Befehle, die bei der Ausführung des Com puterprogramms durch einen Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 12 auszuführen.

Description:
Beschreibung

Titel

Verfahren zur Bestimmung einer auffälligen Teil-Sequenz einer Überwachungs-

Bildersequenz

Stand der Technik

Eine videobasierte Fahrzeuginnenraumüberwachung dient dazu, Passagiere in Fahrzeugen, z.B. in einem Ride-Sharing Fahrzeug oder in einem autonomen Taxi oder allgemein bei zumindest teilautomatisiertem Fahren zu beobachtet, um be sondere Vorkommnisse während der Fahrt aufzuzeichnen. Eine Übertragung (engl, upload) dieser Videodaten über das Mobilfunknetz sowie eine Größe eines Datenspeichers, der auf einem Gerät zur Speicherung der Videodaten zur Verfü gung stehen muss, ist ein wirtschaftlich bedeutender Faktor für die operativen Betriebskosten. Um die Menge der zu übertragenen Daten zu reduzieren, können Komprimierungsverfahren verwendet werden, um eine Wirtschaftlichkeit für eine Übertragung und Speicherung der Videos zu verbessern.

Offenbarung der Erfindung

Insbesondere für das Übertragen und Speichern solcher Videodateien, beispiels weise in eine Cloud, ist neben einer Komprimierung eine weitere Verminderung der zu übertragenen Daten wirtschaftlich gefordert, ohne dass dabei eine not wendige Qualität in Bereichen relevanter Informationen unzulässig verringert wird.

Insbesondere kann diese videobasierte Fahrzeuginnenraumüberwachung im Be reich Car Sharing, Ruftaxis (engl. Ride Hailing) oder für Taxiunternehmen ver wendet werden, um beispielsweise gefährdende oder strafbare Handlungen zu vermeiden oder diese automatisch oder manuell zu identifizieren. Um für eine Reduzierung der Menge der zu übertragenen Daten nur einen rele vanten Teil einer Fahrt, zum Beispiel im Fahrzeug, vor der Übertragung zu identi fizieren, würden klassischerweise Verfahren angewendet werden, welche solche Vorkommnisse bzw. Events als positive Klasse behandeln. Solche Verfahren würden so konfiguriert werden, dass das jeweilige Event detektiert und zeitlich einordnet wird. Um dies zu ermöglichen, müssten die Events klar definiert wer den bzw. definierbar sein.

Nachteilig an einem solchen tief greifenden Analyse-Verfahren im Fahrzeug zur Bestimmung relevanter Vorkommnisse bzw. Events bzw. Szenen sind die damit verbundenen rechenintensiven Aufwände und somit Kosten. Zusätzlich entste hen für die Entwicklung eines solchen tief greifenden Analyse-Verfahrens hohe Aufwände für die Entwicklung, um relevante Vorkommnisse in ausreichender Menge aufzuzeichnen, damit sie klar und eindeutig definiert werden können. Da neben entstehen hohe Hardwarekosten, um solche Berechnungen in einem Fahrzeug durchzuführen. Darüber liegt dabei ein „Henne-Ei-Problem“ vor, da man viele Daten aus dem Feld braucht, um die entsprechende Hardware und die Verfahren definieren zu können, jedoch die Hardware und Methoden vor dem Einsatz im Feld vorhanden sein müssen.

Gemäß Aspekten der Erfindung wird ein Verfahren zur Bestimmung einer auffälli gen Teil-Sequenz einer Überwachungs-Bildersequenz, ein Verfahren zum Trai nieren eines neuronalen Netzes zur Bestimmung charakteristischer Punkte, eine Überwachungs-Vorrichtung, ein Verfahren zum Bereitstellen eines Steuersignals, eine Überwachungs-Vorrichtung, eine Verwendung eines Verfahrens zur Bestim mung einer auffälligen Teil-Sequenz einer Überwachungs-Bildersequenz und ein Computerprogramm, gemäß den Merkmalen der unabhängigen Ansprüche vor geschlagen. Vorteilhafte Ausgestaltungen sind Gegenstand der abhängigen An sprüche sowie der nachfolgenden Beschreibung.

In dieser gesamten Beschreibung der Erfindung ist die Abfolge von Verfahrens schritten so dargestellt, dass das Verfahren leicht nachvollziehbar ist. Der Fach mann wird aber erkennen, dass viele der Verfahrensschritte auch in einer ande ren Reihenfolge durchlaufen werden können und zu dem gleichen oder einem entsprechenden Ergebnis führen. In diesem Sinne kann die Reihenfolge der Ver fahrensschritte entsprechend geändert werden. Einige Merkmale sind mit Zähl- Wörtern versehen, um die Lesbarkeit zu verbessern oder die Zuordnung eindeuti ger zu machen, dies impliziert aber nicht ein Vorhandensein bestimmter Merk male.

Gemäß einem Aspekt wird ein Verfahren zur Bestimmung einer auffälligen Teil-Se quenz einer Überwachungs-Bildersequenz eines Überwachungsbereichs vorgeschla gen, dass die folgenden Schritte aufweist:

In einem Schritt wird ein Audiosignal aus dem Überwachungsbereich bereitgestellt, das zumindest teilweise einen Zeitraum der Überwachungs-Bildersequenz umfasst. In ei nem weiteren Schritt wird die Überwachungs-Bildersequenz der zu überwachenden Umgebung bereitgestellt, die von einem bildgebenden System generiert wurde. In ei nem weiteren Schritt wird zumindest ein Segment des Audiosignals aus dem bereitge stellten Audiosignal bestimmt, das außergewöhnliche Geräusche aufweist.

In einem weiteren Schritt wird zumindest ein Segment der Überwachungs-Bilderse quenz mit außergewöhnlichen Bewegungen innerhalb der zu überwachenden Umge bung bestimmt.

In einem weiteren Schritt wird eine Korrelation des zumindest einen Segments des Au diosignals mit außergewöhnlichen Geräuschen und dem zumindest einen Segment der Überwachungs-Bildersequenz mit außergewöhnlichen Bewegungen bestimmt, um eine auffällige Teil-Sequenz der Überwachungs-Bildersequenz zu bestimmen.

Dadurch, dass mit diesem Verfahren auffällige Teil-Sequenzen der Überwachungs-Bil dersequenz bestimmt werden, kann eine Übertragung dieser auffälligen Teil-Sequen zen ausreichen, um den Überwachungsbereich ausreichend zu monitoren. Da davon auszugehen ist, dass auffällige Teil-Sequenzen nur einen kleinen Teil der Überwa chung-Bildersequenz ausmachen, kann mit diesem Verfahren die Datenmenge, die beispielsweise gespeichert und/oder drahtlos zu einer Leitstelle und/oder zu einer Aus wertungseinheit übertragen wird, signifikant verringert werden. Damit wird das Ziel er reicht, die Kosten des Datentransfers und der Speicherung zu minimieren.

Dabei kann die Überwachungs-Bildersequenz eine Mehrzahl von Teil-Sequenzen auf weisen, die jeweils einen zeitlichen Teilbereich der Überwachungs-Bildersequenz cha rakterisieren.

Der Überwachungsbereich charakterisiert einen räumlichen Bereich in dem Verände rungen durch die Audiosignale und die Überwachungs-Bildersequenz verfolgt werden. Insbesondere beziehen sich außergewöhnliche Geräusche und außergewöhnliche Be wegungen auf eine Interaktion zwischen einem Passagier und einem Fahrer eines Fahrzeuges, wenn der Überwachungsbereich den Innenraum eines Fahrzeugs betrifft. Insbesondere wird zumindest ein Segment der Überwachungs-Bildersequenz mit au ßergewöhnlichen Bewegungen von zumindest einem Objekt im Überwachungsbereich bestimmt.

Mit diesem Verfahren wird der Überwachungsbereich sowohl mit Bildsignalen der Überwachungs-Bildersequenz als auch mit Audiosignalen überwacht, wobei das Audio- signal beispielsweise zusammen mit dem Videosignal, insbesondere von einer Video kamera, bereitgestellt werden kann und das Verfahren analysiert sowohl die Bild-als auch die Audiosignale.

Für den Audiobereich kann der Frequenzbereich so aufgeteilt werden, dass nicht rele vante Anteile gefiltert werden. Dies betrifft beispielsweise Motorengeräusche und stark gedämpfte Geräusche aus der äußeren Umgebung das Überwachungsbereichs. Insbesondere können solche Filterbänke für das Audiosignal verwendet werden, die in der Informationstechnik verwendet werden, und geeignet und eingerichtet sind, um Umgebungsgeräusche von Geräuschen der Passagiere zu trennen.

Dabei kann das Audiosignal eine Mehrzahl von einzeln detektierten Audiosignalen auf weisen, die jeweils durch einzelne unterschiedliche Schallwandler im Überwachungs bereich detektiert wurden.

Bei der Video-Analyse, also dem Bestimmen von außergewöhnlichen Bewegungen von beispielsweise Objekten oder Passagieren, sollen Bewegungen in der Abfolge von Bildern der Überwachungs-Bildersequenz erfasst werden. Dabei wird von der An nahme ausgegangen, dass bei fehlender Interaktion zwischen Fahrer und Insasse oder Passagier, wie beispielsweise in einer Situation ohne Konflikte, nur wenig Bewegung im Fahrzeug vorhanden ist.

Das Bestimmen der Korrelation des zumindest einen Segments des Audiosignals mit außergewöhnlichen Geräuschen und dem zumindest einen Segment der Überwa chungs-Bildersequenz mit außergewöhnlichen Bewegungen können sowohl regelba siert erfolgen als auch, wie weiter unten dargestellt wird, mit entsprechend trainierten neuronalen Netzwerken realisiert werden. Im einfachsten Fall geht es darum Szenen in der Fahrt zu identifizieren, in denen nicht gesprochen wurde und nur wenig Bewegung stattgefunden hat. Solche Teil-Sequen zen der Überwachung-Bildersequenz können dann für ein Upload bzw. eine Übertra gung mangels Relevanz unterdrückt werden.

Gemäß einem Aspekt wird vorgeschlagen, dass der Überwachungsbereich ein Fahr zeuginnenraum ist. Das hier beschriebene Verfahren zur Bestimmung einer auffälligen Teil-Sequenz einer Überwachungs-Bildersequenz eines Überwachungsbereichs kann neben der Anwendung zur Überwachung von Fahrzeuginnenräumen beispielsweise auch allgemein für Überwachungskameras oder Dashcams verwendet werden.

Gemäß einem Aspekt wird vorgeschlagen, dass das Segment des Audiosignals, das außergewöhnliche Geräusche aufweist, und/oder das Segment der Überwachungs-Bil dersequenz mit außergewöhnlichen Bewegungen mittels eines zu dieser Bestimmung trainierten neuronalen Netzwerkes bestimmt wird.

Mit anderen Worten können die Audiosignale und die Videosignale der Überwachung- Bildersequenz insbesondere zu einer Vorfilterung mittels eines kombinierten neurona len Netzwerkes zumindest ein Segment des Audiosignals bestimmen, das außerge wöhnliche Geräusche aufweist und/oder Segmente der Überwachung-Bildersequenz bestimmen, die außergewöhnliche Bewegung aufweisen und/oder Umgebungsgeräusche von Geräuschen der Passagiere trennen.

Allgemein kann bei neuronalen Netzwerken ein Signal an einer Verbindung künstlicher Neuronen eine reelle Zahl sein, und der Ausgang eines künstlichen Neurons wird durch eine nichtlineare Funktion der Summe seiner Eingänge be rechnet. Die Verbindungen der künstlichen Neurone haben typischerweise ein Gewicht, das sich mit fortschreitendem Lernen anpasst. Das Gewicht erhöht oder verringert die Stärke des Signals an einer Verbindung. Künstliche Neuronen kön nen eine Schwelle aufweisen, so dass nur dann ein Signal ausgegeben wird, wenn das Gesamtsignal diese Schwelle überschreitet.

Typischerweise wird eine Vielzahl von künstlichen Neuronen in Schichten zusam mengefasst. Unterschiedliche Schichten führen möglicherweise unterschiedliche Arten von Transformationen für ihre Eingaben durch. Signale wandern von der ersten Schicht, der Eingabeschicht, zur letzten Schicht, der Ausgabeschicht; möglicherweise nach mehrmaligem Durchlaufen der Schichten. Die Architektur eines solchen künstlichen neuronalen Netzes kann ein neurona les Netzwerk sein, das ggf. mit weiteren, anders aufgebauten Schichten erweitert ist. Grundsätzlich weisen solche neuronalen Netzwerke mindestens drei Schich ten von Neuronen auf: eine Eingabe-Schicht, eine Zwischen-Schicht (hidden layer) und eine Ausgabe-Schicht. Das bedeutet, alle Neuronen des Netzwerks sind in Schichten eingeteilt.

Dabei sind in feed-forward Netzwerken keine Verbindungen zu vorherigen Schichten realisiert. Bis auf die Eingabeschicht bestehen die unterschiedlichen Schichten aus Neuronen, die einer nichtlinearen Aktivierungsfunktion unterliegen, und mit den Neuronen der nächsten Schicht verbunden sein können. Ein tiefes neuronales Netzwerk kann viele solcher Zwischen-Schichten aufweisen.

Solche neuronalen Netzwerke müssen für ihre spezifische Aufgabe trainiert wer den. Dabei erhält jedes Neuron der entsprechenden Architektur des neuronalen Netzes z. B. ein zufälliges Anfangs-Gewicht. Dann werden die Eingangs-Daten in das Netzwerk gegeben, und jedes Neuron kann die Eingangs-Signale mit seinem Gewicht gewichten und gibt das Ergebnis weiter an die Neuronen der nächsten Schicht. An der Output-Schicht wird dann das Gesamt- Ergebnis bereitgestellt.

Die Größe des Fehlers kann berechnet werden, sowie der Anteil, den jedes Neu ron an diesem Fehler hatte, um dann das Gewicht jedes Neurons in die Richtung zu verändern, die den Fehler minimiert. Dann erfolgen rekursiv Durchläufe, er neute Messungen des Fehlers und Anpassung der Gewichte, bis ein Fehlerkrite rium erfüllt ist.

Ein solches Fehlerkriterium kann z.B. der Klassifikationsfehler auf einem Test- Daten-Set, wie beispielsweise gelabelten Referenz-Bildern, sein, oder auch ein aktueller Wert einer Löss- Funktion, beispielsweise auf einem Trainings-Daten- Set. Alternativ oder zusätzlich kann das Fehlerkriterium ein Abbruchkriterium be treffen als einen Schritt, bei dem im Training ein Overfitting einsetzen würde oder die verfügbare Zeit zum Training abgelaufen ist.

Für das Verfahren zur Bestimmung einer auffälligen Teil-Sequenz der Überwa chungs-Bildersequenz kann ein solches neuronales Netzwerk mittels eines trai nierten neuronalen Faltungs-Netzwerkes realisiert werden, das ggf. in Kombina tion mit vollständig verbundenen neuronalen Netzen, ggf. unter Nutzung von klassischen Regularisierungs- und Stabilisierungsschichten wie Batch-Normali sierung und Trainings-Drop-Outs, unter Nutzung verschiedener Aktivierungsfunk tionen wie Sigmoid und ReLu, etc. strukturiert ist.

Dabei wird das jeweilige Bild der Überwachungs-Bildersequenz in digitaler Form dem trainierten neuronalen Netzwerk als Eingangssignal bereitgestellt.

Gemäß einem Aspekt wird vorgeschlagen, dass die zumindest eine auffällige Teil-Se quenz der Überwachungs-Bildersequenz bestimmt wird, indem von der Überwachung- Bildersequenz zumindest eine Teil-Sequenz subtrahiert wird, in der eine Ausprägung der Korrelation des zumindest einen Segments der Überwachungs-Bildersequenz mit außergewöhnlichen Bewegungen und des zumindest einen Segments des Audiosig- nals mit außergewöhnlichen Geräuschen unterhalb eines Grenzwertes bestimmt wird.

Mit anderen Worten wird bei diesem Aspekt des Verfahrens die auffällige Teil-Sequenz der Überwachungs-Bildersequenz identifiziert, indem unauffällige Teil-Sequenzen be stimmt werden, bei denen die Korrelation unterhalb eines Grenzwertes liegt. Insbeson dere kann ein solcher Grenzwert dadurch bestimmt werden, dass außergewöhnliche Geräusche und/oder eine außergewöhnliche Bewegung in Bezug auf einen Gesamt- Beobachtungszeitraum oder eine Gesamtfahrt mit der entsprechenden Korrelation be stimmt werden und der Grenzwert für die Korrelation zur Bestimmung der unauffälligen Teil-Sequenzen bzw. der auffälligen Teil-Sequenzen abhängig von einem zeitlichen Verlauf der Korrelation bestimmt wird. Der Grenzwert kann insbesondere durch eine Mittelwertberechnung über den zeitlichen Verlauf der Korrelation bestimmt werden. Al ternativ oder zusätzlich kann ein erster Grenzwert für außergewöhnliche Geräusche bestimmt werden und/oder ein zweiter Grenzwert für außergewöhnliche Bewegungen. Eine solche Berechnung kann durch ein Zusteigen oder Verlassen eines Fahrzeuges und/oder durch einen Fahrer des Fahrzeugs getriggert werden.

Bei diesem Aspekt des Verfahrens ist es möglich, besondere nicht rechenintensive Me thoden zur Bestimmung der außergewöhnlichen Geräusche und/oder der außerge wöhnlichen Bewegungen zu verwenden, um die Hardwarekosten gering zu halten und auch den Bedarf an kostenintensiven Trainings-und Validierungsdaten zu minimieren, da das Ziel bei diesem Aspekt des Verfahrens ist, Teil-Sequenzen der Überwachung- Bildersequenz zu identifizieren, in denen keine außergewöhnliche Bewegung bzw. kein außergewöhnliches Geräusch bestimmt werden kann.

Dabei kann die Korrelation der Segmente der Audiosignale und der Segmente der Überwachung-Bildersequenzen regelbasiert oder gelernt erfolgen. Vorteilhafterweise wird bei diesem Aspekt des Verfahrens aufgrund einer partiel len Unkenntnis über ein außergewöhnliches Geräusch und/oder eine außerge wöhnliche Bewegung ein Grenzwert konservativ gewählt, der gewährleistet, dass unterhalb dieser Grenzwerte keine außergewöhnlichen Geräusche und/oder au ßergewöhnliche Bewegung im Überwachungsbereich aufgetreten sind und somit das Verfahren zur Bestimmung einer auffälligen Teil-Sequenz gewissermaßen umgekehrt wird. Mit anderen Worten werden anstatt Events bzw. auffällige Teil- Sequenzen zu bestimmen, Phasen der Fahrt bestimmt, in denen definitiv kein au ßergewöhnlicher Vorgang aufgetreten ist. Diese Herangehensweise ermöglicht es die oben genannten Kosten und Probleme zu umgehen, da die Verfahren zur Analyse in Bezug auf außergewöhnliche Geräusche und/oder außergewöhnliche Bewegung weniger tief greifend eingerichtet werden können.

Damit wird also ein Problem gelöst, relevante Bereiche in Sensordaten zu be stimmen, um einen reduzierten Datenstrom zu übertragen, der nicht relevante Bereiche ausschließt. Denn anstatt sämtliche denkbaren außergewöhnlichen Vorgänge im Vorfeld zu definieren und zu klassifizieren, wird gewissermaßen eine inverse Logik angewendet um „gewöhnliche“ Fälle auszuschließen.

Dadurch wird die zu übertragende Datenmenge reduziert und direkte operative Betriebskosten gesenkt. Zusätzlich ergibt sich der Vorteil, dass eine spätere Aus wertung nicht den gesamten Zeitverlauf einer Fahrt auswerten muss, sondern kann sich auf relevante Bereiche fokussieren. Hierdurch wird operative manuelle Arbeitszeit gespart. Die resultierenden übertragenen bzw. gespeicherten akusti schen und videobezogenen Daten können in der Folge manuell oder automati siert analysiert werden.

Insgesamt ergibt sich mit diesem Aspekt des Verfahrens der Vorteil, mit wenig Rechenleistung festzustellen, welcher Teil einer Fahrt oder einer Überwachungsdauer eines Überwachungsbereichs und der damit verbundenen Teil-Sequenz der Überwa chung-Bildersequenz von geringer Relevanz, d. h. nicht auffällig, ist, um die Daten menge, die, beispielsweise in eine Cloud, zu übertragen ist, zu reduzieren.

Ein bildgebendes System für dieses Verfahren kann ein Kamera-System und/oder ein Videosystem und/oder eine Wärmebildkamera und/oder ein LIDAR-System und/oder ein Radar-System und/oder ein Ultraschall-System und/oder ein thermisches Kamera- System (engl, thermal imaging camera) sein. Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass das zumindest eine Segment des Audiosignals mit außergewöhnlichen Geräuschen dadurch bestimmt wird, dass Frequenzbänder menschlicher Stimmen in Bezug auf außergewöhnliche Amplituden und/oder außergewöhnliche Frequenzen in den Audiosignalen identifiziert werden.

Damit können also menschliche Stimmen aus Umgebungsgeräuschen, die in den Audi- odaten enthalten sind, herausgefiltert werden, um ein Signal/Rauschverhältnis zu ver bessern und für das Bestimmen außergewöhnlicher Geräusche nicht relevante Anteile gefiltert werden können. Dies beinhaltet z.B. Motorengeräusche und stark gedämpfte Geräusche aus der Umgebung. Dazu können Filterbänke aus der Informationstechnik verwendet werden, um die Umgebungsgeräusche von den Geräuschen der Passagiere zu trennen.

Gemäß einem Aspekt wird vorgeschlagen, dass das bereitgestellte Audiosignal ein Dif ferenzsignal zwischen einem direkt in dem Überwachungsbereich detektierten Audio signal und einem Umgebungsgeräusch und/oder einer Geräuschquelle ist.

Störgeräusche, die durch ein Radio oder ein Navigationsgerät verursacht werden, kön nen durch direktes Abgreifen eines Audiosignals vom Radio und/oder Navigationsgerät aus dem entsprechenden akustischen Mischsignal gefiltert und getrennt werden, indem diese subtrahiert werden. Entsprechend kann das Audiosignal vom Radio und/oder Na vigationsgerät durch ein zusätzliches Mikrofon in der Nähe der entsprechenden Laut sprecher abgegriffen werden.

Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass ein Ursprungsort des bereitgestellten Audiosignals erfasst wird, und die außergewöhnlichen Geräusche ba sierend auf dem Ursprungsort bestimmt werden.

Eine solche Ortung des Ursprungsortes des bereitgestellten Audiosignals kann durch eine verteilte Positionierung von Schallwandlern bzw. Mikrofonen im Überwachungsbe reich bzw. Fahrzeuginnenraum durch Auswertung von Amplituden und/oder Phasen der Audiosignale erfolgen. Alternativ oder zusätzlich kann eine solche Ortung mit Ste reo-Schallwandlern bzw. Stereo- Mikrofonen erfolgen, indem Amplitudenunterschiede und/oder Laufzeitunterschiede ausgewertet werden.

Die gefilterten Geräusche im Inneren des Fahrzeugs können, wie ausgeführt, über die Audioamplitude ausgewertet werden, um außergewöhnliche Geräusche zu bestimmen. Dabei wird die Eigenschaft genutzt, dass das Mikrofon beispielsweise in einer Dash- cam neben dem Rückspiegel verbaut sein kann und dadurch die Stimme des Fahrers deutlich näher am Mikrofon erfasst wird als Stimmen/Geräusche aus dem Radio oder dem Navigationsgerät. Gleiches gilt mit leichter Abschwächung für die Passagiere, die mit dem Fahrer, dessen Ohr sich nahe am Mikrofon befindet, kommunizieren. Ihre Stimme wird bei dem Gespräch in Richtung eines Fahrers, und damit auch in Richtung des Mikrofons, gerichtet sein, so dass dieser die Stimmen besser hören kann als die Umgebungsgeräusche. So können über die Amplitude Gespräche mit dem Fahrer von anderen Stimmen, wie beispielsweise aus einem Radio oder einem Navigationsgerät, unterschieden werden. Eine weitere Zusatzinformation kann durch ein Stereo- Mikrofon oder jegliches weitere Mikrofon mit mehr als einem Eingang gewonnen werden. Dadurch kann die Richtung der Stimme bestimmt und einzelnen Sitzen des Fahrzeugs im Überwachungsbereich zugewiesen werden.

Gemäß einem Aspekt wird vorgeschlagen, dass Bilder der Überwachungs-Bilderse quenz komprimiert werden und außergewöhnliche Bewegungen im Überwachungsbe reich mittels der Überwachungs-Bildersequenz, basierend auf einer Änderung eines Aufwands für die Komprimierung aufeinanderfolgender Bilder der Überwachungs-Bil dersequenz, bestimmt werden.

Der optische Fluss kann auch durch den im H264/H265 Codec genutzten Fluss ange nähert werden. Dieser beschreibt Bewegungen von Makroblöcken zwischen zwei auf einanderfolgenden Bildern.

Um Bewegungen in den Bildern der Überwachungs-Bildersequenz zu bestimmen, kön nen auch Differenzbilder über die Zeit bestimmt werden. Dieses vorteilhafterweise mit einem besonders geringen Rechenaufwand verbunden.

Vorteilhafterweise kann also durch das Bestimmen der jeweiligen Bitrate komprimierter Bilder ein Umfang von Bewegungen bestimmt werden. Bei großen Bewegungen gehen die Bitraten des Bildes hoch, während Bilder mit wenig Bewegung deutlich stärker komprimiert werden können.

Darüber hinaus kann das hier vorgeschlagene Verfahren mit jedem beliebigen Kodierungsverfahren zur Komprimierung, wie beispielsweise H.265, verwendet werden und muss nicht auf proprietäre Kodierungsverfahren, beispielsweise aus dem Videobereich, zurückgreifen. Alternativ oder zusätzlich kann ein allgemeines Kodierungsverfahren, wie z.B. MPEG, H.264, H.265, verwendet werden. Gemäß einem Aspekt des Verfahrens wird vorgeschlagen, dass die außergewöhnli chen Bewegungen abhängig von der Änderung der Komprimierung in zumindest einem Bildbereich der Bilder bestimmt werden.

Eine Komprimierung der Bilder mit Formaten wie z.B. H.264/H.265 ist im Regelfall be reits im Gerät vorhanden. Diese Information auszulesen und zu verarbeiten, stellt nur einen geringen Rechenaufwand dar. Bei Zugriff auf die Komprimierungsraten der ein zelnen Makroblöcke der H.264/H.265-Komprimierung können die Komprimierungsraten sogar für einzelne Bereiche des Bildes extrahiert werden. Damit können die mit der Be wegung korrelierenden Komprimierungsraten einzelnen Bereichen des Fahrzeugs zu geordnet werden.

Durch Einteilung des Fahrzeuginneren in unterschiedliche Bereiche kann die Bewegungsmessung ebenfalls stärker auf relevante außergewöhnliche Bewegungen im Fahrzeug fokussiert werden.

Durch eine Segmentierung des Überwachungsbereichs und insbesondere einer Innen ansicht eines Fahrzeugs, z.B. durch ein neuronales Netzwerk für semantische Seg mentierung, können die Fenster, leere Sitze oder auch Lenkradbereiche vollständig aus den Bildern der Überwachung-Bildersequenz entfernt oder herunter gewichtet wer den. Dies kann auch indirekt dadurch erreicht werden, indem z.B. durch eine Schwär zung dieser Bereiche oder durch ein starkes Blurren die Bewegung in diesen Berei chen unterdrückt wird. Unterschiedliche Gewichtungen können auch für die absolute Bewegung in unterschiedlichen Sitzreihen angewendet werden.

Diese Bereiche können statisch sein oder auch dynamisch angepasst werden, z.B. wenn eine Personendetektion vorhanden ist.

Gemäß einem Aspekt wird vorgeschlagen, dass zur Bestimmung außergewöhnlicher Bewegung im Überwachungsbereich zumindest ein optischer Fluss von Bildern der Überwachung-Bildersequenz bestimmt wird und außergewöhnliche Bewegungen mit tels der Bilder, basierend auf dem bestimmten optischen Fluss, bestimmt werden.

Vorteilhafterweise ist die Bestimmung des optischen Flusses mit wenig Rechenauf wand zu realisieren und daher können damit genauso, wie mit einer einfachen Bestim mung von Differenzbildern, über die Zeit Bewegungen in den Bildern der Überwa chungs-Bildersequenz bestimmt werden. Diese mit wenig Rechenleistung realisierbaren, videobasierten Methoden können ge gen nicht-relevante Bewegungen im Bild kompensiert werden. Solche nicht-relevanten Bewegungen sind beispielsweise Änderungen in den Fensterbereichen oder auch fahrtbedingte Bewegungen. Zur Kompensation, können folgende Methoden verwendet werden:

Gemäß einem Aspekt wird vorgeschlagen, dass der Überwachungsbereich innerhalb eines Fahrzeugs angeordnet ist und eine Bewegung des Fahrzeugs und/oder eine ak tuelle Fahrzeugbewegung mittels eines Kartenvergleichs und/oder einer Lenkradstel lung und/oder einem Teilbereich der Bilder, der den optischen Fluss aufweist, bestimmt wird, und zum Bestimmen außergewöhnlicher Bewegungen, basierend auf dem opti schen Fluss der Bilder, einbezogen wird.

Dabei kann beispielsweise eine trägheitsbasierte Messeinheit (IMU) verwendet wer den, um die größere Bewegung in den Fenstern bei einer Kurvenfahrt, insbesondere für ein hinteres und „kurven-äußeres“ Fenster, und auch die Bewegung der Insassen, die durch das Fahrverhalten bedingt sind, zu bestimmen. Die trägheitsbasierte Mess einheit (IMU) wird dabei genutzt, um zu erkennen, ob gerade z.B. eine Kurve durchfah ren wird oder eine starke Bremsung stattgefunden hat. Gleiches ist durch globales Po sitionierungssystem (GPS) in Kombination mit einem Mapmatching möglich, wobei durch das Mapmatching auch Bewegungen des Fahrers vor und zu Beginn des Abbie- geprozesses, wie z.B. Schulterblick oder Einschlag des Lenkrades berücksichtigt wer den können.

Gemäß einem Aspekt wird vorgeschlagen, dass charakteristische Punkte von Perso nen im Überwachungsbereich bestimmt werden, und außergewöhnliche Bewegungen basierend auf einer Veränderung der charakteristischen Punkte innerhalb der Überwa chung-Bildersequenz bestimmt werden.

Solche charakteristischen Punkte können an Händen, Armen oder beispielsweise an den Hälsen der Personen definiert werden, so dass außergewöhnliche Bewegungen, wie beispielsweise das Heben eines Arms über eine gewisse Höhe hinaus, verfolgt werden kann, um außergewöhnliche Bewegungen der Personen zu bestimmen.

Gemäß einem Aspekt wird vorgeschlagen, dass die charakteristischen Punkte von Per sonen im Überwachungsbereich mittels eines zur Bestimmung charakteristischer Punkte trainierten neuronalen Netzes bestimmt werden. Mithilfe eines entsprechend eingerichteten und trainierten neuronalen Netzes ist die Bestimmung von charakteristischen Punkten besonders einfach möglich, da nur ent sprechend gelabelte Referenz-Bilder bereitgestellt werden müssen.

Gemäß einem Aspekt wird vorgeschlagen, dass die Korrelation mittels einer zeitlichen Korrelation des zumindest einen Segments des Audiosignals mit außergewöhnlichen Geräuschen und des zumindest einen Segments der Überwachungs-Bildersequenz mit außergewöhnlichen Bewegungen bestimmt wird.

Gemäß einem Aspekt wird vorgeschlagen, dass die zumindest eine auffällige Teil-Se quenz der Überwachungs-Bildersequenz dadurch bestimmt wird, das eine Ausprägung der Korrelation über einem absoluten Wert liegt und/oder über einem relativen Wert liegt, der auf einem Mittelwert der Korrelation in Bezug auf die gesamte Überwa chungs-Bildersequenz basiert.

Dies ist insbesondere dann vorteilhaft anzuwenden, wenn beispielsweise eine Informa tion vorliegt, dass ein Konflikt während der Fahrt aufgetreten ist. Dann kann mit dieser Information die Prämisse angesetzt werden, dass ein bestimmter Teil der Fahrt mehr Aktivität in Bezug auf die Audiosignale bzw. die Überwachungs-Bildersequenz dieser Fahrt aufweist als der Rest der Fahrt. Mittels eines für diese Fahrt bestimmten relativen Wertes für die Ausprägung der Korrelation kann eine Entscheidungsschwelle, auf die jeweilige Fahrt bezogen, bestimmt werden.

Gemäß einem Aspekt wird vorgeschlagen, dass die Korrelation des zumindest einen Segments des Audiosignals mit außergewöhnlichen Geräuschen und des zumindest einen Segments der Überwachungs-Bildersequenz mit außergewöhnlichen Bewegun gen, mittels eines zur Bestimmung einer Korrelation trainierten neuronalen Netzes be stimmt wird.

Gemäß einem Aspekt wird vorgeschlagen, dass das zur Bestimmung der Korrelation trainierte neuronale Netz eingerichtet ist, das zumindest eine Segment des Audiosig nals, das außergewöhnliche Geräusche aufweist und/oder das zumindest eine Seg ment der Überwachungs-Bildersequenz mit außergewöhnlichen Bewegungen zu be stimmen.

Somit kann mit einem entsprechend eingerichteten und trainierten neuronalen Netz so wohl das zumindest eine Segment des Audiosignals, das außergewöhnliche Geräu sche aufweist, als auch das zumindest eine Segment der Überwachung-Bildersequenz, das außergewöhnliche Bewegungen aufweist, als auch die Bestimmung charakteristi scher Punkte von Personen oder Passagieren im Überwachungsbereich, bestimmt werden.

Es wird ein Verfahren vorgeschlagen, bei dem, basierend auf einer auffälligen Teil-Se quenz einer Überwachungs-Bildersequenz eines Überwachungsbereichs, ein Steuer signal zur Ansteuerung eines zumindest teilautomatisierten Fahrzeugs bereitgestellt wird; und/oder basierend auf der auffälligen Teil-Sequenz ein Warnsignal zur Warnung eines Fahrzeuginsassen bereitgestellt wird.

Der Begriff „basierend auf“ ist in Bezug auf das Merkmal, dass ein Steuersignal basierend auf einer auffälligen Teil-Sequenz einer Überwachungs-Bildersequenz eines Überwachungsbereichs, die entsprechend eines der oben beschriebenen Verfahren bestimmt wird, breit zu verstehen. Er ist so zu verstehen, dass die auf fällige Teil-Sequenz für jedwede Bestimmung oder Berechnung eines Steuersig nals herangezogen wird, wobei das nicht ausschließt, dass auch noch andere Eingangsgrößen für diese Bestimmung des Steuersignals herangezogen werden.

Dies gilt entsprechend für die Bereitstellung eines Warnsignals.

Es wird ein Verfahren zum Trainieren eines neuronalen Netzes zur Bestimmung cha rakteristischer Punkte mit einer Vielzahl von Trainings-Zyklen vorgeschlagen, wobei je der Trainings-Zyklus die folgenden Schritte aufweist:

In einem Schritt wird ein Referenz-Bild bereitgestellt, wobei in dem Referenz-Bild cha rakteristische Punkte von Personen gelabelt sind. In einem weiteren Schritt wird das neuronale Netzwerk zur Bestimmung der charakteristischen Punkte adaptiert, um bei dem Bestimmen der charakteristischen Punkte der Personen mit dem neuronalen Netz eine Abweichung von den gelabelten charakteristischen Punkten des jeweiligen zuge ordneten Referenz- Bildes zu minimieren.

Insbesondere kann das neuronale Netz zur Bestimmung der charakteristischen Punkte ein neuronales Faltungsnetzwerk sein.

Mit einem solchen neuronalen Netzwerk können die charakteristischen Punkte einer Person leicht identifiziert werden, indem eine Vielzahl von gelabelten Referenz-Bildern generiert und bereitgestellt werden, mit denen dieses neuronale Netzwerk trainiert wird, um eine auffällige Teil-Sequenz einer Überwachungs-Bildersequenz eines Über wachungsbereichs zu bestimmen. Referenz-Bilder sind Bilder, die insbesondere speziell für ein Training eines neu ronalen Netzes aufgenommen und beispielsweise manuell selektiert und anno tiert wurden oder synthetisch generiert wurden und die für den entsprechenden Zweck des Trainings des neuronalen Netzes gelabelt sind. Insbesondere kann ein solches Labein charakteristische Punkte von Personen in Bildern einer Über wachung-Bildersequenz betreffen.

Es wird eine Überwachungs-Vorrichtung vorgeschlagen, die eingerichtet ist, ei nes der oben beschriebenen Verfahren zur Bestimmung einer auffälligen Teil-Se quenz einer Überwachungs-Bildersequenz eines Überwachungsbereichs, durch zuführen. Mit einer solchen Überwachungs-Vorrichtung kann das entsprechende Verfahren leicht in unterschiedliche Systeme integriert werden.

Es wird eine Verwendung eines der oben beschriebenen Verfahren zur Überwachung eines Überwachungsbereichs vorgeschlagen, wobei die Überwachung-Bildersequenz mittels eines bildgebenden Systems bereitgestellt wird.

Gemäß einem Aspekt wird ein Computerprogramm angegeben, das Befehle um fasst, die bei der Ausführung des Computerprogramms durch einen Computer diesen veranlassen, eines der oben beschriebenen Verfahren auszuführen. Ein solches Computerprogramm ermöglicht den Einsatz des beschriebenen Verfah rens in unterschiedlichen Systemen.

Es wird ein maschinenlesbares Speichermedium angegeben, auf dem das oben beschriebene Computerprogramm gespeichert ist. Mittels eines solchen maschi nenlesbaren Speichermediums ist das oben beschriebene Computerprogramm transportabel.

Ausführungsbeispiele

Ausführungsbeispiele der Erfindung werden mit Bezug auf die Figur 1 dargestellt und im Folgenden näher erläutert. Es zeigen:

Figur 1 ein Schema des Verfahrens zur Bestimmung einer auffälligen Teil-Se quenz einer Überwachungs-Bildersequenz. Die Figur 1 skizziert schematisch das Verfahren 100 zur Bestimmung einer auf fälligen Teil-Sequenz 114 a einer Überwachungs-Bildersequenz 110 eines Über wachungsbereichs.

Das Audiosignal 120 und die Überwachungs-Bildersequenz 110 aus dem Überwa chungsbereich wird bereitgestellt Sl, wobei die Überwachungs-Bildersequenz 110 von einem bildgebenden System generiert wird.

Mit dem Verfahren 100 wird zumindest ein Segment 114a des Audiosignals 130 aus dem bereitgestellten Audiosignal 130 bestimmt S2, das außergewöhnliche Geräusche aufweist, wobei hier das zumindest eine Segment 114a des Audiosignals 130 mit au ßergewöhnlichen Geräuschen dadurch bestimmt wird, dass Frequenzbänder menschli cher Stimmen in Bezug auf eine außergewöhnlich hohe Amplitude identifiziert werden.

Außerdem werden mit dem Verfahren Bewegungen 140, von beispielsweise Objekten, innerhalb der Überwachung-Bildersequenz 110 bestimmt und mittels der Bewegung 140 ein Segment 114a der Überwachungs-Bildersequenz mit außergewöhnlichen Be wegungen innerhalb der zu überwachenden Umgebung bestimmt S3.

Wie aus der Figur 1 zu erkennen ist, korrelieren das Audiosignal 130 und das Bewe gungssignal 140 im Segment 114 a miteinander und bestimmen damit eine auffällige Teil-Sequenz der Überwachungs-Bildersequenz.

Dabei kann das Segment des Audiosignals, das außergewöhnliche Geräusche auf weist, und/oder das Segment der Überwachungs-Bildersequenz mit außergewöhnli chen Bewegungen mittels eines zu dieser Bestimmung trainierten neuronalen Netzes bestimmt werden.

Alternativ oder zusätzlich kann die zumindest eine auffällige Teil-Sequenz 114a der Überwachungs-Bildersequenz 110 bestimmt werden, indem von der Überwachungs- Bildersequenz 110 zumindest eine Teil-Sequenz 112 a subtrahiert wird, in der eine Ausprägung der Korrelation des zumindest einen Segments 112a der Überwachungs- Bildersequenz 110 mit außergewöhnlichen Bewegungen und des zumindest einen Segment 112a des Audiosignals 130 mit außergewöhnlichen Geräuschen unterhalb eines Grenzwertes bestimmt wird.

In der Überwachungs-Bildersequenz 110 können auf diese Weise eine Vielzahl von auffälligen Teil-Sequenzen 114a bestimmt werden S4. Alternativ kann eine Vielzahl von Teilsequenzen 112a bestimmt werden, in denen die Ausprägung der Korrelation, wie oben beschrieben, unterhalb eines Grenzwertes bestimmt wird, um die Überwa chung-Bildersequenz 110 zu bestimmen. Dann kann in einem Schritt S5 die als auffäl lig bestimmte Vielzahl von Teil-Sequenzen 114 der Überwachungs-Bildersequenz 110, beispielsweise drahtlos, von einem Fahrzeug an eine Cloud übertragen werden.