Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR GENERATING AN ACOUSTIC NOTIFICATION IN OR AT A VEHICLE
Document Type and Number:
WIPO Patent Application WO/2023/083526
Kind Code:
A1
Abstract:
In a vehicle equipped with voice recognition an acoustic signal is output to the driver during interaction with the voice recognition system in order to inform the driver about the status of the voice recognition system. The acoustic signal is produced by means of a synthesizer. The acoustic signal can be temporally varied via suitable input parameters such as a noise level, a condition of the surroundings or a driving condition.

Inventors:
STECHER MICHAEL (DE)
BABIC TEO (DE)
KIELWEIN ALEXANDER (DE)
Application Number:
PCT/EP2022/076903
Publication Date:
May 19, 2023
Filing Date:
September 28, 2022
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BAYERISCHE MOTOREN WERKE AG (DE)
International Classes:
G06F3/16; B60Q5/00; G10K15/02
Domestic Patent References:
WO2019012017A12019-01-17
Foreign References:
US10841698B12020-11-17
DE102019111913A12020-11-12
US20200324697A12020-10-15
Download PDF:
Claims:
ANSPRÜCHE Verfahren (100) zur Ausgabe eines akustischen Hinweises in oder an einem Fahrzeug (1) wobei das Verfahren aufweist:

Erfassen (120) eines aktuellen Zustands (20) einer ersten Komponente (13) des Fahrzeugs (1);

Prüfen (130), ob der aktuelle Zustand (20) von einem korrespondierenden früheren Zustand der ersten Komponente (13) abweicht;

Generieren (150) eines kontinuierlichen akustischen Signals (40), das den erfassten Zustand (20) repräsentiert;

Ausgeben (190) des kontinuierlichen akustischen Signals (40) als Hinweis auf den erfassten Zustand (20) in oder an einem Fahrzeug. Verfahren (100) nach Anspruch 1 , das weiter aufweist

Erfassen (140) eines ersten Geräuschpegels (25), um anhand des Ergebnisses der Erfassung (140) des ersten Geräuschpegels (25) das akustische Signal (40) zu beeinflussen. Verfahren (100) nach Anspruch 1 oder 2, das weiter aufweist Abgleichen (180) eines zweiten Geräuschpegels, um ein harmonisches Klangbild zu erzeugen. Verfahren (100) nach einem der Ansprüche 1 bis 3, das weiter aufweist Erfassen (160) eines Fahrerzustands (22), um mittels des Ergebnisses der Erfassung (160) des Fahrerzustands (22) das akustische Signal (40) zu beeinflussen. Verfahren (100) nach einem der Ansprüche 1 bis 4, das weiter aufweist Erfassen (170) von Umgebungsbedingungen (21), um mittels des Ergebnisses der Erfassung (170) der Umgebungsbedingungen (21) das akustische Signal (40) zu beeinflussen. Verfahren (100) nach einem der Ansprüche 1 bis 5, wobei das Generieren (150) eines kontinuierlichen akustischen Signals (40) das Zuweisen eines Wertes für Lautstärke (30), Tonhöhe (31) und/oder Sprachausgabe (33) an das kontinuierliche akustische Signal (40) umfasst.

7. Verfahren (100) nach Anspruch 6, wobei das Generieren (150) eines kontinuierlichen akustischen Signals (40) das

Zuweisen eines zeitlich veränderlichen Wertes für Lautstärke (30), Tonhöhe (31) und/oder Sprachausgabe (33) an das kontinuierliche akustische Signal (40) umfasst.

8. Steuerungseinrichtung (10) eines Fahrzeugs (1), die zur Durchführung eines Verfahrens (100) nach einem der Ansprüche 1 bis 7 eingerichtet ist.

9. Steuerungseinrichtung (10) nach Anspruch 8, die einen Synthesizer (11) aufweist.

10. Fahrzeug (1) mit einer Steuerungseinrichtung (10), die zum Ausführen eines Verfahrens (100) nach einem der Ansprüche 1 bis 7 eingerichtet ist. 11. Computerprogramm; umfassend Befehle, die bewirken, dass die Steuerungseinrichtung nach Anspruch 8 oder 9 das Verfahren (100) nach einem der Ansprüche 1 bis 7 ausführt.

Description:
VERFAHREN ZUR ERZEUGUNG EINES AKUSTISCHEN HINWEISES IN ODER

AN EINEM FAHRZEUG

Die Erfindung betrifft ein Verfahren zur Erzeugung eines akustischen Hinweises in oder an einem Fahrzeug, eine Steuereinrichtung zur Durchführung des Verfahrens, ein Fahrzeug mit einer solchen Steuereinrichtung sowie ein Computerprogramm zur Durchführung des Verfahrens.

Bei der Verwendung von Spracherfassungssystemen in Fahrzeugen kann es vorkommen, dass während einer Spracheingabe der Fahrer durch Ereignisse im Verkehr von dem Vorgang der Spracheingabe abgelenkt wird. Je nach Intensität und Dauer der Ablenkung ist es möglich, dass der Fahrer sich nicht mehr an ein vorangegangenes Klangzeichen des Spracherfassungssystems erinnert. In der Folge kann z. B. die von der Fahrzeugsteuerung erwartete Spracheingabe unterbleiben. Darüber hinaus sind Klangzeichen keine besonders intuitive Art, Zustände des Spracherfassungssystems anzuzeigen. Visuelle Darstellungen des Zustandes des Spracherfassungssystems bedingen, dass der Fahrer den Blick von der Straße abwendet. Das ist mit Gefahren verbunden.

Hiervon ausgehend stellt sich die Aufgabe, die Möglichkeiten zur Anzeige von Zuständen eines Spracherfassungssystems in einem Fahrzeug zu verbessern.

Die Lösung dieser Aufgabe wird gemäß der Lehre der unabhängigen Ansprüche erreicht. Verschiedene Ausführungsformen und Weiterbildungen der Erfindung sind Gegenstand der Unteransprüche.

Ein erster Aspekt der Erfindung betrifft ein Verfahren zur Ausgabe eines akustischen Hinweises in oder an einem Fahrzeug, wobei das Verfahren aufweist:

Erfassen eines aktuellen Zustands einer ersten Komponente des Fahrzeugs;

Prüfen, ob der aktuelle Zustand von einem korrespondierenden früheren Zustand der ersten Komponente abweicht;

Generieren eines kontinuierlichen akustischen Signals, das den erfassten Zustand repräsentiert; Ausgeben des kontinuierlichen akustischen Signals als Hinweis auf den erfassten Zustand in oder an einem Fahrzeug.

Unter einer "ersten Komponente des Fahrzeugs" im Sinne der Erfindung ist insbesondere ein Spracherfassungssystem zu verstehen.

Unter einem "Zustand" eines Spracherfassungssystems im Sinne der Erfindung sind insbesondere die im Folgenden beispielhaft, aber nicht abschließend aufgezählten Zustände zu verstehen. So wird der Zustand des Hochfahrens der Spracherfassung als "Appearing" bezeichnet. Es handelt sich hierbei um das Hochfahren des Computersystems und/oder des Programms der Spracherfassung, das durch Tastendruck, Berührung eines Touch-Bedienelements oder eine Spracheingabe wie "BMW" bewirkt wird. Nach diesem "Appearing", also dem Hochfahren, geht die Spracherfassung in einen als "Listening" bezeichneten Zustand. In diesem Zustand des "Listening" werden Spracheingaben von der Spracherfassung erwartet. Danach werden im Zustand "Speech detection" Spracheingaben von der Spracherfassung aufgenommen. Wenn danach die Spracherfassung die aufgenommene Spracheingabe verarbeitet, liegt der Zustand "Thinking" vor. Wenn das System selbst Sprache ausgibt, liegt der Zustand "Speaking" vor. Wenn längere Zeit keine Spracheingabe oder Sprachausgabe erfolgt, geht das System in einen als "Snoozing" bezeichneten Schlummerzustand über. Beim Herunterfahren der Spracherfassung liegt schließlich der Zustand "Disappearing" vor.

Unter dem Begriff "Erfassen eines aktuellen Zustands" ist hier insbesondere die elektronische Erfassung einer Einstellung und/oder eine elektronische Messung zu verstehen.

Unter einem "kontinuierlichen akustischen Signal" im Sinne der Erfindung ist ein Signal zu verstehen, das im Wesentlichen so lange erfolgt, wie das akustische Signal dem erfassten Zustand zugewiesen ist, im Gegensatz zu sogenannten Klangzeichen, die aus vorgefertigten WAV- oder mp3-Files bestehen und nur von kurzer Dauer sind. Insbesondere handelt es sich bei den kontinuierlich ausgegebenen akustischen Signalen um sogenannte Ambient Sounds. Ambient Sounds sind zeitveränderlich. Solche akustischen Signale, also Ambient Sounds sind keine einmal vorgefertigten Dateien. Kennzeichnend ist, dass Ambient Sounds durch einen Synthesizer generiert werden. Ambient Sounds dienen ursprünglich zum Erzeugen einer Ambiente- Stimmung. Sie werden bisher nicht dazu verwendet, bestimmte Informationen zu transportieren. Sie werden üblicherweise lediglich zur Inszenierung genutzt und können umgangssprachlich als "Hintergrundmusik", "Soundscape" oder "Klangteppich" bezeichnet werden.

In einigen Ausführungsformen weist das Verfahren das Erfassen eines ersten Geräuschpegels auf, um anhand des Ergebnisses der Erfassung des ersten Geräuschpegels das akustische Signal zu beeinflussen.

Unter dem Begriff "Erfassen eines ersten Geräuschpegels" im Sinne der Erfindung ist hier zu verstehen, dass die Summe der aktuell vorliegenden akustischen Signale im oder am Fahrzeug erfasst werden. Dieses Erfassen umfasst insbesondere die mit einem Mikrofon aufgenommenen Geräusche, wie sie im oder am Fahrzeug auftreten. Es handelt sich hierbei insbesondere um Fahrgeräusche wie ein möglicherweise vorhandenes Motorgeräusch, Abrollgeräusche der Reifen und Windgeräusche. Auch Atemgeräusche der Fahrzeuginsassen werden mit dem Mikrofon aufgenommen. Es ist in diesem Schritt ebenso möglich, Geräusche auf elektronischem Wege zu erfassen, wenn sie mit elektronischen Geräten erzeugt werden. Es kann sich hierbei um die Ausgabe des Entertainment-Systems (z. B. Radio) handeln, um das elektronisch erzeugte Fahrgeräusch eines elektrisch angetriebenen Fahrzeugs oder um den mittels eines Synthesizers erzeugten Ambient Sound. Auch von außen auf das Fahrzeug einwirkende Geräusche, die von einem außen am Fahrzeug angebrachten Mikrofon erfasst werden oder über das Mikrofon im Innenraum des Fahrzeugs detektiert werden, tragen zum ersten Geräuschpegel bei. Ein Beispiel für von außen auf das Fahrzeug einwirkende Geräusche sind zum Beispiel Geräusche anderer Fahrzeuge.

Die erfindungsgemäß erzeugten kontinuierlichen akustischen Signale können die oben genannten Zustände der Spracherfassung mittels geeigneter individuell generierter (erzeugter) Geräusche signalisieren. Da die Ausgabe dieser Signale kontinuierlich erfolgt, also solange der jeweilige Zustand der Spracherfassung vorliegt, wird die Aufmerksamkeit eines Sprechers wieder auf die Spracherfassung gerichtet, sobald die Intensität einer (z. B. durch die aktuelle Verkehrssituation bedingten) Ablenkung so weit zurückgegangen ist, dass der Fahrer sich wieder der Spracherfassung zuwenden kann. Weiter können diese akustischen Signale auch darstellen, welche Komponente mittels der Spracherfassung gerade bedient werden soll. So ist es zum Beispiel möglich, dass das akustische Signal die Bedienung eines Lüfters oder Ventilators durch ein kontinuierlich ausgegebenes Windgeräusch anzeigt.

In einigen Ausführungsformen weist das Verfahren das Abgleichen eines zweiten Geräuschpegels auf, um ein harmonisches Klangbild zu erzeugen.

Es ist besonders vorteilhaft, wenn das erzeugte akustische Signal zur Beschreibung des Zustands der Spracherkennung an den erfassten ersten Geräuschpegel angepasst wird. Das akustische Signal wird dem ersten Geräuschpegel hinzugefügt. Dadurch wird der erste Geräuschpegel verändert. Im Schritt des Abgleichens werden die einzelnen Signale, also das akustische Signal zur Beschreibung des Zustands der Spracherkennung, die Ausgabe des Entertainment- Systems, ein möglicherweise elektronisch erzeugtes Fahrgeräusch und die weiteren im ersten Geräuschpegel erfassten akustischen Signale gegeneinander gewichtet. Die Lautstärken z.B. der Ausgabe des Entertainmentsystems und der Ausgabe des Fahrgeräusche werden reduziert. Die Ausgaben der elektronisch erzeugten Geräusche werden in diesem Schritt des Abgleichens dann z.B. in Tonhöhe und Lautstärke verändert, so dass die akustische Ausgabe ein harmonisches Klangbild ergibt. Der veränderte erste Geräuschpegel wird durch das hinzugefügte akustische Signal zum zweiten Geräuschpegel.

In einigen Ausführungsformen weist das Verfahren das Erfassen eines Fahrerzustands auf, um mittels des Ergebnisses der Erfassung des Fahrerzustands das akustische Signal zu beeinflussen.

Stresslevel, Müdigkeit und Emotionen des Fahrers, also des Sprechers können beim Zuweisen des akustischen Signals vorteilhaft berücksichtigt werden, indem über die Kamera und das Mikrofon Signale wie Dauer und Häufigkeit des Blinzelns, Atemfrequenz und ähnliche physiologische Signale erfasst werden. Mit dem Ergebnis dieser Erfassung kann dann z.B. über Lautstärke, Tonhöhe usw. das akustische Signal besser an den Zustand des Fahrers angepasst werden. In einigen Ausführungsformen weist das Verfahren das Erfassen von Umgebungsbedingungen auf, um mittels des Ergebnisses der Erfassung der Umgebungsbedingungen das akustische Signal zu beeinflussen.

"Umgebungsbedingungen" im Sinne der Erfindung sind hier z. B. der jeweilige Ort, insbesondere das Land, in dem sich das Fahrzeug befindet, die Uhrzeit, die Jahreszeit, die Anzahl der Insassen des Fahrzeugs, die aktuelle Verkehrssituation, das aktuelle Wetter und/oder der Zielort der Navigation. Der Begriff des Ortes umfasst hierbei auch die jeweilige Straße, auf der sich das Fahrzeug befindet. Oft gibt es innerorts in reinen Wohnbereichen Geschwindigkeitsbeschränkungen auf z. B. 20 oder 30 km/h. Die vorstehende Aufzählung ist nicht als abschließend zu verstehen.

Die Erfassung von Umgebungsbedingungen ermöglicht, das akustische Signal zum Anzeigen des Zustands des Spracherfassungssystems besser an die tatsächlich vorliegenden Verhältnisse anzupassen. Das akustische Signal zum Anzeigen des Zustands des Spracherfassungssystems kann zum Beispiel in den genannten Wohnbereichen mit einer Geschwindigkeitsbeschränkung auf 30 km/h mit geringerer Lautstärke ausgegeben werden als auf einer Autobahn. Dort sind bei den üblichen Geschwindigkeiten die Windgeräusche lauter. Deshalb muss auf einer Autobahn eine höhere Lautstärke des akustischen Signals zum Anzeigen des Zustands des Spracherfassungssystems als in einen Wohnbereich verwendet werden.

In einigen Ausführungsformen umfasst das Generieren eines kontinuierlichen akustischen Signals das Zuweisen eines Wertes für Lautstärke, Tonhöhe und/oder Sprachausgabe.

In vorteilhafter Weise können beim Generieren des akustischen Signals zum Anzeigen des Zustands des Spracherfassungssystems Werte für die genannten Größen zugewiesen werden. So kann das kontinuierliche akustische Signal genauer an die vorliegende Situation angepasst werden.

In einigen Ausführungsformen umfasst das Generieren eines kontinuierlichen akustischen Signals das Zuweisen eines zeitlich veränderlichen Wertes für Lautstärke, Tonhöhe und/oder Sprachausgabe an das kontinuierliche akustische Signal.

Mit einer zeitlichen Änderung des zugewiesenen Wertes zum Beispiel für die Lautstärke lassen sich weitere Vorteile erzielen. Durch einen langsamen Anstieg der Lautstärke beim "Appearing" des Spracherfassungssystems lässt sich eine übermäßige Ablenkung oder gar ein Erschrecken des Fahrers vermeiden. Üblicherweise ist das akustische Signal zum Anzeigen des Zustands des Spracherfassungssystems im Zustand "Listening" leiser als im vorangegangenen Zustand. Eine zeitliche Verringerung der Lautstärke dient hier einem gleitenden Übergang. So wird dem Fahrer die Möglichkeit geboten, sich über einen gewissen Zeitraum auf die von ihm vorzunehmende Spracheingabe vorzubereiten, ohne dass gleichzeitig eine übermäßige Ablenkung von den eigentlichen Fahraufgaben erfolgt.

Ein zweiter Aspekt betrifft eine Steuerungseinrichtung eines Fahrzeugs, die zur Ausführung eines Verfahrens nach dem ersten Aspekt oder einer seiner Ausführungsformen eingerichtet ist.

In einigen Ausführungsformen des zweiten Aspekts weist die Steuerungseinrichtung einen Synthesizer auf.

Ein dritter Aspekt betrifft ein Fahrzeug mit einer Steuerungseinrichtung, die zur Ausführung eines Verfahrens nach dem ersten Aspekt oder einer seiner Ausführungsformen eingerichtet ist.

Ein vierter Aspekt betrifft ein Computerprogramm, das Befehle umfasst, die bewirken, dass eine Steuerungseinrichtung nach dem zweiten Aspekt oder einer seiner Ausführungsformen ein Verfahren nach dem ersten Aspekt oder einer seiner Ausführungsformen ausführt.

Die hier gegebenenfalls verwendeten Begriffe "umfasst", "beinhaltet", "schließt ein", "weist auf", "hat", "mit", oder jede andere Variante davon sollen eine nicht ausschließliche Einbeziehung abdecken. So ist beispielsweise ein Verfahren oder eine Vorrichtung, die eine Liste von Elementen umfasst oder aufweist, nicht notwendigerweise auf diese Elemente beschränkt, sondern kann andere Elemente einschließen, die nicht ausdrücklich aufgeführt sind oder die einem solchen Verfahren oder einer solchen Vorrichtung inhärent sind.

Ferner bezieht sich "oder", sofern nicht ausdrücklich das Gegenteil angegeben ist, auf ein inklusives oder und nicht auf ein exklusives „oder“. Zum Beispiel wird eine Bedingung A oder B durch eine der folgenden Bedingungen erfüllt: A ist wahr (oder vorhanden) und B ist falsch (oder nicht vorhanden), A ist falsch (oder nicht vorhanden) und B ist wahr (oder vorhanden), und sowohl A als auch B sind wahr (oder vorhanden).

Die Begriffe "ein" oder "eine", wie sie hier verwendet werden, sind im Sinne von „ein/eine oder mehrere“ definiert.

Unter dem Begriff „konfiguriert“ oder „eingerichtet“ eine bestimmte Funktion zu erfüllen, (und jeweilige Abwandlungen davon) ist im Sinne der Erfindung zu verstehen, dass die entsprechende Vorrichtung bereits in einer Ausgestaltung oder Einstellung vorliegt, in der sie die Funktion ausführen kann oder sie zumindest so einstellbar - d.h. konfigurierbar - ist, dass sie nach entsprechender Einstellung die Funktion ausführen kann. Die Konfiguration kann dabei beispielsweise über eine entsprechende Einstellung von Parametern eines Prozessablaufs oder von Schaltern oder ähnlichem zur Aktivierung bzw. Deaktivierung von Funktionalitäten bzw. Einstellungen erfolgen. Insbesondere kann die Vorrichtung mehrere vorbestimmte Konfigurationen oder Betriebsmodi aufweisen, so dass das Konfigurieren mittels einer Auswahl einer dieser Konfigurationen bzw. Betriebsmodi erfolgen kann.

Die in Bezug auf den ersten Aspekt der Erfindung erläuterten Merkmale und Vorteile gelten entsprechend auch für die weiteren Aspekte der Erfindung. Weitere Vorteile, Merkmale und Anwendungsmöglichkeiten der vorliegenden Erfindung ergeben sich aus der nachfolgenden detaillierten Beschreibung im Zusammenhang mit den Figuren.

Dabei zeigt

Fig. 1 einen Innenraum eines nach der Erfindung ausgerüsteten Fahrzeugs; Fig. 2 ein Blockschaltbild einer Steuereinrichtung; und

Fig. 3 ein Flussdiagramm mit einer Darstellung des Verfahrens nach dem ersten Aspekt.

Fig. 1 zeigt einen Innenraum eines nach der Erfindung ausgerüsteten Fahrzeugs 1. Der Fahrer 5 erhält über das Display der Steuerungseinrichtung 10 Informationen. Geräusche und Spracheingaben des Fahrers werden über das Mikrofon 17 im Innenraum des Fahrzeugs 1 erfasst. Ein weiteres nicht gezeigtes Mikrofon kann Geräusche aus der Umgebung des Fahrzeugs aufnehmen. Solche Mikrofone zur Aufnahme von Umgebungsgeräuschen werden üblicherweise an der Außenseite des Fahrzeugs angebracht. Die Steuerungseinrichtung 10 gibt über den Lautsprecher 18 Instruktionen des Navigationssystems, Sound des Entertainmentsystems und Sprachausgaben an den Fahrer 5 und/oder andere Insassen aus. Ein Synthesizer 11 erzeugt Ambient Sounds und andere Klänge. Elektronisch erzeugte Geräusche werden in einem Har- monizer 12 so abgeglichen, dass in Verbindung mit dem ersten Geräuschpegel ein harmonisches Klangbild im Innenraum des Fahrzeugs entsteht. Synthesizer 11 , Har- monizer 12 und Spracherkennung 13 sind hier mit punktierten Linien dargestellt, weil diese Komponenten normalerweise vom Innenraum des Fahrzeugs nicht wahrgenommen werden können, da sie hinter dem Armaturenbrett verborgen sind. Synthesizer 11 und Harmonizer 12 können auch in die Steuerungseinrichtung 10 integriert sein. Eine Kamera 19 dient der Überwachung des Fahrers 5 aus Sicherheitsaspekten.

Fig. 2 ist ein Blockschaltbild einer Steuereinrichtung; Dargestellt ist ein Teil der Steuerungseinrichtung 10, in den der Synthesizer 11 und der Harmonizer 12 integriert sind. Als Eingangsparameter verwendet die Steuerungseinrichtung 10 den Zustand 20 der Spracherkennung, die Umgebungsbedingungen 21 , den Fahrerzustand 22, den Zustand 23 weiterer Komponenten, ein Nutzerprofil 24, das an den jeweiligen Fahrer 5 angepasst ist, sowie den Geräuschpegel 25. Die Steuerungseinrichtung kann diese Eingangsparameter sowohl an den Synthesizer 11 als auch an den Harmonizer 12 übermitteln. Im Innern des Synthesizers 11 werden die Parameter des akustischen Signals eingestellt, das zur Information des Nutzers über den Zustand der Spracherkennung dient. Diese Parameter sind die Lautstärke 30, Pitch oder Tonhöhe 31 , die relative Intensität 32 einzelner Frequenzbereiche, wie sie mit einem sogenannten Equalizer eingestellt werden kann, die Sprachausgabe 33, Soundeffekte 34 und Parameter 35 für Richtung und Räumlichkeit. Der Synthesizer 11 übergibt das akustische Signal mit den eingestellten Parametern 30 bis 35 an den Harmonizer 12, was mit dem Pfeil 40 dargestellt ist. Vom Harmonizer 12 erfolgt die mit dem Pfeil 41 dargestellte Ausgabe des akustischen Signals sowie anderer elektronisch erzeugter Signale an den oder die Lautsprecher. In die Steuerungseinrichtung 10 sind weiter das Spracherkennungssystem 13 und das Entertainmentsystem 14 integriert.

Das in Fig. 3 dargestellte Verfahren 100 beginnt im Schritt 110. Der Schritt 120 dient dem Erfassen eines Zustands einer ersten Komponente des Fahrzeugs, nämlich der Spracherfassung. Im Schritt 130 erfolgt eine Prüfung auf Änderung des Zustands seit der letzten Erfassung. Der Schritt 140 umfasst eine Erfassung eines Geräuschpegels. Dabei werden aktuell vorliegende akustische Signale im Innern des Fahrzeugs erfasst. Dieses Erfassen umfasst insbesondere die mit einem Mikrofon aufgenommenen Geräusche, wie sie im Innern des Fahrzeugs auftreten. Es ist in diesem Schritt ebenso möglich, Geräusche zu erfassen, die auf elektronischem Wege erzeugt werden. Es kann sich hierbei um die akustische Ausgabe des Entertainment-Systems (z. B. Radio) handeln oder um das elektronisch erzeugte Fahrgeräusch eines elektrisch angetriebenen Fahrzeugs. Auch von außen auf das Fahrzeug einwirkende Geräusche, die von einem außen am Fahrzeug angebrachten Mikrofon erfasst werden oder über das Mikrofon im Innenraum des Fahrzeugs detektiert werden, tragen zum ersten Geräuschpegel bei. Beispiele für von außen auf das Fahrzeug einwirkende Geräusche sind zum Beispiel Windgeräusche und/oder Geräusche anderer Fahrzeuge.

Im Schritt 150 erfolgt das Generieren eines kontinuierlichen akustischen Signals 40, das den erfassten Zustand 20 repräsentiert. Im Gegensatz zu sogenannten Klangzeichen, die aus vorgefertigten WAV- oder mp3-Files bestehen und nur von kurzer Dauer sind, handelt es sich bei den kontinuierlich ausgegebenen akustischen Signalen um sogenannte Ambient Sounds, die über die Zeit veränderlich sind. Sie werden durch einen Synthesizer generiert. Im Schritt 160 wird der Fahrerzustand erfasst. Stresslevel, Müdigkeit und Emotionen des Fahrers, also des Sprechers können beim Zuweisen des akustischen Signals vorteilhaft berücksichtigt werden, indem über die Kamera und das Mikrofon Signale wie Dauer und Häufigkeit des Blinzelns, Atemfrequenz und ähnliche physiologische Signale erfasst werden. Mit dem Ergebnis dieser Erfassung kann dann z.B. über Lautstärke und/oder Tonhöhe das akustische Signal besser an den Zustand des Fahrers angepasst werden. Die Umgebungsbedingungen werden im Schritt 170 erfasst. Es handelt sich hierbei um z.B. den jeweiligen Ort, insbesondere das Land, in dem sich das Fahrzeug befindet, die Uhrzeit, die Jahreszeit, die Anzahl der Insassen des Fahrzeugs, die aktuelle Verkehrssituation, das aktuelle Wetter und/oder den Zielort der Navigation. Der Begriff des Ortes umfasst hierbei auch die jeweilige Straße, auf der sich das Fahrzeug befindet. Oft gibt es innerorts in reinen Wohnbereichen Geschwindigkeitsbeschränkungen auf z. B. 20 oder 30 km/h. Die vorstehende Aufzählung ist nicht als abschließend zu verstehen. Durch die Berücksichtigung der vorstehend beispielhaft genannten Umgebungsbedingungen kann eine Verbesserung bei der Ausgabe des kontinuierlichen akustischen Signals 40 erreicht werden.

Im Schritt 180 erfolgt ein Abgleichen aller elektronisch erzeugten Geräusche sowie deren Ausgabe durch den Lautsprecher, so dass die wichtigen akustischen Signale gegenüber den anderen akustischen Signalen und den Umgebungsgeräuschen deutlich wahrgenommen werden können. Im Schritt 190 erfolgt die Ausgabe der elektronisch erzeugten Geräusche durch den Lautsprecher Im Schritt 200 endet das Verfahren. Dabei wird das akustische Signal zur Information des Nutzers über den Zustand der Spracherkennung kontinuierlich ausgegeben.

Eine verkürzte Darstellung der Erfindung ist, ein mit dem Generator (Synthesizer) für den Ambient Sound als Hinweis eigens erzeugtes Geräusch während der kompletten Interaktion mit dem Sprachassistenten auszugeben. Die Interaktion kann dabei vom Nutzer oder proaktiv vom Sprachassistenten initiiert worden sein. Durch Modulation des Ambient Sounds in Abhängigkeit verschiedener Eingangsparameter können verschiedene Informationen in Bezug auf das Spracherkennungssystem angezeigt werden, wie zum Beispiel der Zustand des Erkenners ("Appearing", "Listening", "Speech detection", "Thinking", "Speaking", "Snoozing" und "Disappearing") oder das Ergebnis der Sprachverarbeitung. Die Modulation des eigens als Hinweis erzeugten kontinuierlichen akustischen Signals kann z. B. über dessen Lautstärke, Tonhöhe, Tonart, zusätzliche Soundeffekte, etc. erfolgen.

Wenn der Fahrer die Sprachsteuerung über Drücken der Push-to-Talk-Taste oder über eine Spracheingabe wie "BMW" aktiviert, beginnt auch das eigens als Hinweis erzeugte kontinuierliche akustische Signal zu spielen. Das eigens als Hinweis erzeugte kontinuierliche akustische Signal signalisiert dem Fahrer, dass der Sprachassistent aktiviert wurde. Unmittelbar nach Aktivierung reduziert sich die Lautstärke des Sounds auf ein Minimum, was für den Nutzer bedeutet, dass er nun sprechen kann. Somit ändert sich der Wert der Lautstärke zeitlich. Hat der Fahrer oder ein anderer Nutzer seine Spracheingabe abgeschlossen, steigt die Lautstärke an. Ein veränderter Sound zeigt an, dass das System die Spracheingabe empfangen hat und beginnt, diese zu verarbeiten. Während der Verarbeitung erfolgt eine in Bezug auf die Tonhöhe und die Klangcharakteristik veränderte Ausgabe des jeweiligen Sounds, wodurch der Nutzer weiß, dass das System arbeitet und er aktuell warten muss. Wenn ein bestimmter Sound ausgegeben wird, weiß der Nutzer, dass das System solange arbeitet, wie dieser Sound zu hören ist. Das wäre bei einem Klangzeichen nicht der Fall, denn dort herrscht Stille, nachdem das Klangzeichen abgespielt wurde. Der Fahrer würde dadurch bei längeren Verarbeitungszeiten u. U. dazu provoziert, z. B. einen Kontrollblick auf das Display zu werfen. Dies würde eine unerwünschte Ablenkung von der eigentlichen Aufgabe des Lenkens des Fahrzeugs bedeuten. Nach Verarbeitung der Spracheingabe antwortet der Sprachassistent mittels Sprachausgabe. Gleichzeitig wird der Sound wieder manipuliert, etwa indem seine Klangcharakteristik verändert wird. Erfordert das Sprachsystem eine weitere Eingabe des Nutzers, würde der Sound erneut manipuliert werden, in diesem Fall wieder indem seine Lautstärke reduziert wird, um dem Nutzer "akustischen Raum" für seine Spracheingabe zu geben. Solange der Sound auf geringem Lautstärkelevel zu hören ist, weiß der Nutzer, dass er jetzt sprechen kann. War die Eingabe am Ende des Use Cases erfolgreich, kann der Sound erneut manipuliert werden, in diesem Fall etwa wieder durch eine Anpassung der Tonhöhe in einer Weise, dass sich ein positiver Klang ergibt. Bei erfolglosen Eingaben könnte hingegen ein negativer Klang erzeugt werden. Ein anderes Beispiel betrifft proaktive Use Cases, bei denen der Sprachdialog durch den Sprachassistenten initiiert wird. Hier wird das eigens als Hinweis erzeugte kontinuierliche akustische Signal am Anfang des Use Cases genutzt, um eine Sprachausgabe des Sprachassistenten anzukündigen und nicht direkt mit der Sprachausgabe loszulegen. Der Vorteil ist dabei, dass durch eine gemächliche Steigerung in der Lautstärke des Sounds der Fahrer nicht erschrickt, sondern sich darauf vorbereiten kann, dass in Kürze eine Sprachausgabe erfolgen kann.

In einer beispielhaften Ausprägung erfolgt die Erzeugung des Sprachdialog-Sounds in einem Synthesizer, der für die Erzeugung aller im Fahrzeug verwendeten Sounds zuständig ist. So kann der Synthesizer u. a. etwa auch dafür eingesetzt werden, die Fahrgeräusche eines Elektroautos zu erzeugen. Abhängig von äußeren Parametern wie Geschwindigkeit, Beschleunigung, Gaspedalstellung usw. wird dieser Sound erzeugt und über die dargestellten Parameter (Lautstärke, Pitch, Soundeffekte, ...) manipuliert. Startet der Nutzer währenddessen einen Sprachdialog, wird dies im Synthe- sizer berücksichtigt, indem die Parameter (Lautstärke, Pitch, Soundeffekte, ...) in Abhängigkeit weiterer relevanter Eingangsparameter (insb. Erkennerzustand des Spracherkennungssystems) in geeigneter Weise manipuliert werden und der ausgegebene Sound entsprechend verändert wird. Dabei kann auch die Berücksichtigung bzw. Gewichtung der Eingangsparameter geändert werden. In einer konkreten bei- spielhaften Ausprägung kann sich letztlich folgendes Verhalten zeigen: der Fahrer fährt mit dem Elektroauto und hört den vom Synthesizer erzeugten Fahrsound, welcher über die Lautsprecher im Fahrzeuginterieur ausgegeben wird. Dabei variiert die Lautstärke des Fahrsounds abhängig von der Geschwindigkeit. Der Nutzer startet dann einen Sprachdialog, woraufhin u. a. der Erkennerzustand als weiterer Ein- gangsparameter hinzukommt. Der vom Synthesizer erzeugte Sound ändert sich entsprechend, indem der Klang des Sounds adaptiert wird (z. B. über die Intensivierung bestimmter Frequenzen), um den Beginn des Sprachdialogs zu signalisieren. Zusätzlich erfolgt die Manipulation der Laustärke nun nur noch in Abhängigkeit des Erkennerzustandes, nicht aber mehr in Abhängigkeit der Geschwindigkeit.

Bezugszeichenliste

1 Fahrzeug

5 Fahrer

10 Steuereinrichtung mit Display

11 Synthesizer

12 Harmonizer

13 Spracherkennungssystem

14 Entertainmentsystem

17 Mikrofon

18 Lautsprecher

19 Kamera

20 Parameter Zustand der Spracherkennung

21 Parameter Umgebungsbedingungen

22 Parameter Zustand des Fahrers

23 Parameter Zustand weiterer Komponente(n)

24 Parameter Nutzerprofil

25 Parameter Geräuschpegel

30 Parameter Lautstärke

31 Parameter Tonhöhe

32 Parameter Intensität einzelner Frequenzbereiche

33 Parameter Text Sprachausgabe

34 Parameter Soundeffekt

35 Parameter Richtung und Räumlichkeit

40 Ausgabe vom Synthesizer zum Harmonizer

41 Ausgabe zum Lautsprecher

100 Verfahren

110 Start Verfahren

120 Erfassen des Zustands der Spracherkennung

130 Prüfen auf Änderung des Zustands

140 Erfassen eines Geräuschpegels

150 Generieren eines kontinuierlichen akustischen Signals

160 Erfassen eines Fahrerzustands

170 Erfassen von Umgebungsbedingungen

180 Abgleichen des kontinuierlichen akustischen Signals

190 Ausgabe des kontinuierlichen akustischen Signals

200 Ende Verfahren