Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUDIO SIGNAL PROCESSING IN A VEHICLE
Document Type and Number:
WIPO Patent Application WO/2017/080830
Kind Code:
A1
Abstract:
The present invention relates to a method for audio signal processing in a vehicle (10). In order to allow simple and reliable echo cancellation for voice recognition during simultaneous reproduction of a multichannel audio source signal in a vehicle (10), a mono audio signal is generated on the basis of a multichannel audio source signal. The mono audio signal is limited to a frequency range between a prescribed lower frequency and a prescribed upper frequency, for example to a range from 100 Hz to 8 kHz. The limited mono audio signal is output via multiple loudspeakers (17–20) in the vehicle (10). An influence of the limited mono audio signal that is output via the multiple loudspeakers (17-20) on a voice audio signal received in the vehicle (10) via a microphone (13) is compensated for by means of the limited mono audio signal in an echo canceller (25).

Inventors:
SCHELER DAVID (DE)
Application Number:
PCT/EP2016/075831
Publication Date:
May 18, 2017
Filing Date:
October 26, 2016
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
VOLKSWAGEN AG (DE)
International Classes:
H04R3/02; H04S7/00; G10L21/02
Foreign References:
US20120232890A12012-09-13
US20050213747A12005-09-29
US6665645B12003-12-16
US20150294666A12015-10-15
US5828756A1998-10-27
EP1936939A12008-06-25
DE102008027848A12009-01-08
DE102009051508A12011-05-05
Other References:
BENESTY J ET AL: "A hybrid mono/stereo acoustic echo canceler", APPLICATIONS OF SIGNAL PROCESSING TO AUDIO AND ACOUSTICS, 1997. 1997 I EEE ASSP WORKSHOP ON NEW PALTZ, NY, USA 19-22 OCT. 1997, NEW YORK, NY, USA,IEEE, US, 19 October 1997 (1997-10-19), pages 4pp, XP010248238, ISBN: 978-0-7803-3908-8
Download PDF:
Claims:
Patentansprüche

Verfahren für eine Audiosignalverarbeitung in einem Fahrzeug, umfassend:

Erzeugen eines Monoaudiosignals auf der Grundlage eines mehrkanaligen

Audioquellsignals,

Begrenzen des Monoaudiosignals auf einen Frequenzbereich zwischen einer

vorgegebenen unteren Frequenz und einer vorgegebenen oberen Frequenz,

Ausgeben des begrenzten Monoaudiosignals über mehrere Lautsprecher (17-20) in dem Fahrzeug (10), und

Kompensieren eines Einflusses des über die mehreren Lautsprecher ausgegebenen begrenzten Monoaudiosignals auf ein in dem Fahrzeug (10) über ein Mikrofon (13) empfangenes Sprachaudiosignal mittels des begrenzten Monoaudiosignals.

Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die vorgegebene untere Frequenz einen Wert im Bereich von 100 Hz bis 300 Hz aufweist und die vorgegebene obere Frequenz einen Wert im Bereich von 4kHz bis 8kHz aufweist.

Verfahren nach Anspruch 1 oder Anspruch 2, ferner gekennzeichnet durch:

Erzeugen mehrerer begrenzter kanalspezifischer Audiosignale in Abhängigkeit von dem mehrkanaligen Audioquellsignal derart, dass ein jeweiliges begrenztes kanalspezifisches Audiosignal der mehreren begrenzten Audiosignale einem jeweiligen Audiosignal des mehrkanaligen Audioquellsignals zugeordnet ist und auf einen Frequenzbereich unter der vorgegebenen unteren Frequenz und/oder über der vorgegebenen oberen Frequenz begrenzt ist, und

Ausgeben der mehreren begrenzten kanalspezifischen Audiosignale über die mehreren Lautsprecher (17-20) in dem Fahrzeug (10).

Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass das mehrkanalige

Audioquellsignal in einen auf allen Kanälen gleichen Mittensignalanteil und einen jeweiligen Seitensignalanteil pro Audiokanal des mehrkanaligen Audioquellsignals aufgeteilt wird und der Mittensignalanteil zur Erzeugung des begrenzten

Monoaudiosignals verwendet wird und die jeweiligen Seitensignalanteile zur Erzeugung der mehreren begrenzten kanalspezifischen Audiosignale verwendet werden.

5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Mittensignal durch eine Mittelwertbildung von jeweiligen Abtastwerten der Audiokanäle des mehrkanaligen Audioquellsignals gebildet wird und die jeweiligen Seitensignalanteile durch Subtraktion des Mittensignals von den jeweiligen Audiosignalen des mehrkanaligen Audioquellsignals gebildet werden.

6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das über das Mikrofon (13) empfangene Sprachaudiosignal auf einen Frequenzbereich zwischen der vorgegebenen unteren Frequenz und der vorgegebenen oberen Frequenz begrenzt wird und der Einflusses des über die mehreren Lautsprecher (17-20)

ausgegebenen begrenzten Monoaudiosignals auf das begrenzte Sprachaudiosignal kompensiert wird.

7. Verfahren nach einem der vorhergehenden Ansprüche, ferner gekennzeichnet durch:

Erzeugen von mehreren den jeweiligen Lautsprechern (17-20) zugeordneten

Gewichtungsfaktoren in Abhängigkeit von dem mehrkanaligen Audioquellsignal, und Ausgeben eines mit dem dem jeweiligen Lautsprecher zugeordneten Gewichtungsfaktor gewichteten begrenzten Monoaudiosignals über den jeweiligen Lautsprecher (17-20).

8. Audiosignalverarbeitungsvorrichtung für ein Fahrzeug, welche ausgestaltet ist,

ein Monoaudiosignal auf der Grundlage eines mehrkanaligen Audioquellsignals zu erzeugen,

das Monoaudiosignal auf einen Frequenzbereich zwischen einer vorgegebenen unteren Frequenz und einer vorgegebenen oberen Frequenz zu begrenzen,

das begrenzte Monoaudiosignal über mehrere Lautsprecher (17-20) in dem Fahrzeug (10) auszugeben, und

das begrenzten Monoaudiosignal zu einer Kompensationsvorrichtung (25) auszugeben, um einen Einfluss des über die mehreren Lautsprecher (17-20) ausgegebenen

begrenzten Monoaudiosignals auf ein in dem Fahrzeug (10) über ein Mikrofon (13) empfangenes Sprachaudiosignal mittels des begrenzten Monoaudiosignals zu

kompensieren.

9. Audiosignalverarbeitungsvorrichtung nach Anspruch 8, dadurch gekennzeichnet, dass die Audiosignalverarbeitungsvorrichtung (15) zur Durchführung des Verfahrens nach einem der Ansprüche 1 -8 ausgestaltet ist.

Description:
Beschreibung

Audiosignalverarbeitung in einem Fahrzeug

Die vorliegende Erfindung betrifft ein Verfahren für eine Audiosignalverarbeitung in einem Fahrzeug und eine entsprechende Audiosignalverarbeitungsvorrichtung für ein Fahrzeug. Die vorliegende Erfindung betrifft insbesondere eine Audiosignalverarbeitung mit einer

Echokompensation, beispielsweise für eine Sprachverarbeitung.

In Fahrzeugen, wie zum Beispiel Personenkraftwagen oder Lastkraftwagen, werden

Sprachdialogsysteme zur Unterstützung des Fahrers oder der Insassen verwendet.

Sprachdialogsysteme dienen beispielsweise dazu, elektronische Geräte ohne die Notwendigkeit einer haptischen Bedienoperation zu steuern. Die elektronischen Geräte können beispielsweise einen Fahrzeugcomputer oder ein Multimediasystem des Fahrzeugs umfassen. Gesprochene Sprache von dem Fahrer oder Insassen wird über ein Freisprechmikrofon empfangen und einer Spracherkennung zugeführt.

Eine Anwendung von Mikrofonen im Fahrzeuginnenraum, für z.B. Sprachbedienung, Telefonie oder Fahrzeuginnenraumkommunikation, kann potenziell durch eine akustische Einkopplung von Lautsprecherausgaben des Fahrzeug-Soundsystems beeinträchtigt werden. Dies kann im Fall einer Spracherkennung zu Erkennungsfehlern, bei Freisprechtelefonie zu Echos am fernen Ende und bei einer Fahrzeuginnenraumkommunikation zu Rückkopplungen führen. Die

Konsequenzen sind je nach Anwendung eine gestörte Kommunikation, erhöhte Ablenkung oder sogar störende Geräusche und Echos.

Wenn zum Beispiel während des Sprachdialogs im Fahrzeug gleichzeitig und fortlaufend Audiosignale über das Fahrzeug-Soundsystem wiedergegeben werden, gelangt ein Teil der Audiosignale als akustische Rückkopplung von den Lautsprechern in das Freisprechmikrofon und stört somit die Spracherkennung. Die über das Fahrzeug-Soundsystem wiedergegebenen Audiosignale können beispielsweise Musik, Verkehrsfunknachrichten, Radiosendungen, Ausgaben eines Navigationssystems oder die (künstliche) Sprache eines Sprachdialogsystems umfassen. Die Störung der Spracherkennung kann zu Erkennungsfehlern führen, welche den Dialog ineffizient machen können und eine erhöhte Ablenkung von der Fahraufgabe verursachen können. Dies kann beim Fahrer oder Insassen Unzufriedenheit oder Verärgerung auslösen.

Eine einfache Lösung für das vorgenannte Problem besteht darin, während des Sprachdialogs oder Telefonats im Fahrzeug die Audiowiedergabe von beispielsweise einem Radio stumm zu schalten. Die Stummschaltung der Audiowiedergabe wird von Fahrzeugbenutzern jedoch häufig als störend und unnötig empfunden. Darüber hinaus können wichtige Informationen von beispielsweise einem Navigationssystem verpasst werden. Außerdem kann es sein, dass ein Fahrzeugbenutzer sich bei Rückfragen des Sprachdialogsystems und gleichzeitig stumm geschalteter Audiowiedergabe gedrängt fühlt, schnellstmöglich auf die Rückfragen des

Sprachdialogsystems zu reagieren.

Alternativ kann während des Sprachdialogs die Audiowiedergabelautstärke vorübergehend reduziert werden. Für den Spracherkenner ist das Ausmaß der Störung durch die

Audiowiedergabe dann zwar geringer, jedoch im Allgemeinen noch so groß, dass auf eine weitere Bereinigung des Mikrofonsignals nicht verzichtet werden kann.

In begrenztem Maße können o.g. Einkopplungen auch durch konstruktiv-akustische

Maßnahmen vermindert werden. Beispielsweise können Mikrofone mit einer geeigneten Richtcharakteristik verwendet werden, Mikrofone und Lautsprecher im Fahrzeuginneren geeignet relativ zueinander angeordnet werden oder akustische Gegebenheiten in dem

Fahrzeug geeignet ausgenutzt werden.

Da dies jedoch im Allgemeinen nicht ausreicht, werden Signalverarbeitungskomponenten zur Bereinigung der Mikrofonsignale eingesetzt. Dabei werden die von den Lautsprechern des Fahrzeug-Soundsystems in die Mikrofone eingekoppelten Signalanteile geschätzt und aus den Mikrofonsignalen entfernt. Derartige Verfahren werden als Echokompensation oder

Echounterdrückung bezeichnet. Eine weit verbreitete Art der Echokompensation ist die lineare Echokompensation.

Bei der linearen Echokompensation wird angenommen, dass die Mikrofone, Lautsprecher und ihre jeweiligen Verstärker lineare Übertrager sind und dass sich somit die an einem bestimmten Mikrofon eingekoppelten Lautsprecher-Schallanteile im Mikrofonsignal linear überlagern. Ferner wird angenommen, dass sich diese Lautsprecher-Schallanteile als lineare Faltung des jeweiligen Lautsprecher-Quellsignals mit einer jeweiligen Impulsantwort ergeben. Jede dieser Impulsantworten bezieht sich auf ein bestimmtes Mikrofon-Lautsprecher-Paar und charakterisiert den gesamten elektroakustischen Übertragungsweg vom

Lautsprecherquellsignal bis hin zum Mikrofonsignal. Damit werden in einer solchen

Impulsantwort unter anderem folgende Größen abgebildet:

der Frequenz- und Phasengang des vor den Lautsprecher geschalteten Verstärkers, der Frequenz- und Phasengang des Lautsprechers,

die räumliche Abstrahlcharakteristik des Lautsprechers,

der akustische Übertragungspfad vom Lautsprecher zum Mikrofon durch den

Fahrzeuginnenraum, einschließlich Reflexionen, Beugung, Streuung, Absorption, usw., die räumliche Empfangscharakteristik des Mikrofons, sowie

der Frequenz- und Phasengang des Mikrofons.

Diese Impulsantwort wird daher auch als LEM-Impulsantwort (Loudspeaker-Enclosure- Microphone) bezeichnet. Sie ist im Allgemeinen aufgrund von Veränderungen der

Fahrzeuginnenraumgeometrie (Insassen und deren Bewegungen, bewegliche Teile, Beladung etc.) sowie der elektroakustischen Eigenschaften von Mikrofonen und Lautsprechern (abhängig von Temperatur, Luftdruck, Feuchtigkeit, Alter, etc.) zeitveränderlich.

Ein Algorithmus zur linearen Echokompensation schätzt adaptiv die LEM-Impulsantwort für jedes mögliche Mikrofon-Lautsprecher-Paar. Auf der Grundlage der LEM-Impulsantwort werden dann die eingekoppelten Lautsprecher-Schallanteile in jedem Mikrofonsignal berechnet und davon subtrahiert. Die Adaptionsgeschwindigkeit und effektive Echounterdrückung sind begrenzt und stehen im Allgemeinen zueinander in Konkurrenz.

Verschiedene verbesserte Techniken zur Echokompensation oder Echounterdrückung sind in dem Stand der Technik bekannt, um beispielsweise die Echokompensation zu vereinfachen und somit die benötigte Rechenleistung zu verringern. Dazu offenbart beispielsweise die EP 1936939 A1 eine Echokompensation, bei der das Mikrofonsignal in Subbandsignale aufgeteilt und einer Unterabtastung unterzogen wird. Ein Referenzaudiosignal wird über einen

Lautsprecher ausgegeben. Das Referenzaudiosignal wird ebenfalls einer Unterabtastung unterzogen und unterabgetastete Subbandsignale des Referenzaudiosignals gespeichert. Ferner werden Echos in den Mikrofonsubbandsignalen geschätzt und die geschätzten Echos werden von den Mikrofonsubbandsignalen abgezogen, um verbesserte

Mikrofonsubbandsignale zu erhalten. Bei der Echokompensation ist jedoch eine häufig vorhandene Mehrkanaligkeit des auszugebenden Audiosignals problematisch. Das mehrkanalige Audiosignal kann

beispielsweise ein Stereosignal oder ein Surroundsignal in dem Fahrzeug sein.

Für den Fall mehrerer Audioquellsignale aus mehreren Lautsprechern kommt neben der erhöhten Rechenkomplexität der Algorithmen folgendes Problem hinzu: Aufgrund von

Korrelationen zwischen den verschiedenen Audioquellsignalen ist das Schätzproblem mathematisch unterbestimmt. Als Konsequenz kann bei plötzlichem Auftreten von

Audioquellsignalen die Wirksamkeit der Echokompensation stark vermindert sein. Es kann sogar auftreten, dass die LEM-Schätzung divergiert, beispielsweise wenn es zu Veränderungen im Surroundklangbild kommt. Dies kann beispielsweise auftreten, wenn sogenannte

Phantomschallquellen im Surround-Panorama erscheinen, verschwinden oder verschoben werden.

Es existieren verschiedene Ansätze, hiermit umzugehen, die jedoch entweder zu hörbaren Verzerrungen führen oder sehr rechenintensiv sind (Watermarking, Kalmanfilter-Lösungen).

Weiterhin ist in diesem Zusammenhang aus der DE 102008027848 A1 beispielsweise ein Echounterdrücker bekannt, welcher mit einer Tonausgabevorrichtung mit einer mehrkanaligen Audioeinheit zusammenarbeitet. Die Tonausgabevorrichtung sendet Ausgabetonsignale als Analogsignale mehrerer Kanäle über mehrere Lautsprecher aus. Ein Mikrofon erfasst einen Außenton und erzeugt ein Eingabetonsignal als ein Analogsignal. Der Außenton umfasst die Ausgabetonsignale als Echo. Der Echounterdrücker besitzt eine Echoauslöschfunktion zum Entfernen des Echos aus dem Eingabetonsignal. Dazu empfängt der Echounterdrücker die Ausgabetonsignale von der Tonausgabevorrichtung. Eine derartige Lösung zur Kompensation mehrkanaliger akustischer Echoquellen ist technisch jedoch sehr komplex und erfordert eine hohe Rechenleistung. Ferner existieren für Kanalzahlen größer als zwei keine expliziten Lösungen.

Eine weitere Möglichkeit besteht in einer verbesserten Trennung von Sprachsignalen und allgemeinen Störsignalen. Die allgemeinen Störsignale können auch mehrkanalige

Audiowiedergaben umfassen. Dies wird beispielsweise in der DE 102009051508 A1 betrachtet. Zur Reduzierung von Störsignalen bei der Spracherkennung wird statt einem einzelnen

Mikrofon ein Mikrofonarray verbaut. Durch das Mikrofonarray wird ein Mehrkanalsprachsignal aufgenommen, welches anstatt eines einfachen Sprachsignals zu einer

Echokompensationseinheit geleitet wird. Das durch das Mikrofonarray aufgenommene Mehrkanalsprachsignal wird vor der Eingabe in die Echokompensationseinheit in einer dem Mikrofonarray nachgeschalteten Einheit zur Verarbeitung der Mikrofonsignale durch verzögertes Aufsummieren der Signale nachbearbeitet. Hierdurch werden die Signale der autorisierten Sprecher separiert und alle anderen Sprechersignale und Störsignale reduziert. Außerdem wertet die Echokompensationseinheit die Laufzeit der verschiedenen Kanäle des

Mehrkanalsprachsignals aus und entfernt alle Anteile des Signals, die entsprechend ihrer Laufzeit nicht vom Ort des autorisierten Sprechers ausgehen. Die Verwendung eines

Mikrofonarrays oder mehrerer Mikrofone erhöht jedoch die Kosten, benötigt mehr Einbauraum und erfordert leistungsstarke Rechenressourcen.

Eine Aufgabe der vorliegenden Erfindung ist es daher, eine zuverlässige Spracheingabe in einem Fahrzeug bei gleichzeitiger Wiedergabe eines mehrkanaligen Audiosignals zu ermöglichen. Zusätzliche Kosten oder Aufwendungen für beispielsweise zusätzliche Mikrofone oder leistungsstarke Signalverarbeitungseinheiten sollen dabei vermieden werden.

Gemäß der vorliegenden Erfindung wird diese Aufgabe durch ein Verfahren für eine

Audiosignalverarbeitung in einem Fahrzeug nach Anspruch 1 und eine

Audiosignalverarbeitungsvorrichtung für ein Fahrzeug nach Anspruch 8 gelöst. Die abhängigen Ansprüche definieren Ausführungsformen der Erfindung.

Gemäß der vorliegenden Erfindung wird ein Verfahren für eine Audiosignalverarbeitung in einem Fahrzeug bereitgestellt. Bei dem Verfahren wird ein Monoaudiosignal auf der Grundlage eines mehrkanaligen Audioquellsignals erzeugt. Das mehrkanalige Audioquellsignal ist beispielsweise ein Stereosignal oder ein Surroundsignal, welches in dem Fahrzeug über mehrere Lautsprecher des Fahrzeugs auszugeben ist. Das Monoaudiosignal wird auf einen Frequenzbereich zwischen einer vorgegebenen unteren Frequenz und einer vorgegebenen oberen Frequenz begrenzt. Das Monoaudiosignal kann beispielsweise mit einem Bandpassfilter auf den Frequenzbereich zwischen der vorgegebenen unteren Frequenz und der vorgegebenen oberen Frequenz begrenzt werden. Durch das Begrenzen des Monoaudiosignals auf den Frequenzbereich wird ein begrenztes Monoaudiosignal erzeugt.

Das begrenzte Monoaudiosignal wird über die mehreren Lautsprecher in dem Fahrzeug ausgegeben. Wenn nun über ein Mikrofon ein Sprachaudiosignal von einem Fahrzeuginsassen oder einem Fahrer des Fahrzeugs empfangen wird, enthält dieses Sprachaudiosignal das über die mehreren Lautsprecher ausgegebene begrenzte Monoaudiosignal. Ein Einfluss dieses über die mehreren Lautsprecher ausgegebenen begrenzten Monoaudiosignals auf das über das Mikrofon empfangene Sprachaudiosignal wird mittels des begrenzten Monoaudiosignals kompensiert. Beispielsweise kann eine Echokompensation durchgeführt werden, welche lediglich das Monoaudiosignal berücksichtigt. Eine komplexe Echokompensation unter

Berücksichtigung eines mehrkanaligen Audiosignals ist daher nicht erforderlich. Stattdessen ist lediglich eine einkanalige Echokompensation erforderlich, welche mit verhältnismäßig geringer Rechenleistung realisiert werden kann.

Die Echokompensation unter Berücksichtigung von nur einem Echosignal (Monoaudiosignal) ist sehr zuverlässig, auch wenn das Monoaudiosignal über mehrere verschiedene Lautsprecher ausgegeben wird, da mit einem Monoaudiosignal keine Veränderungen im Mehrkanalklangbild auftreten können. Somit kann das störende Monoaudiosignal zu einem großen Teil oder vollständig aus dem Sprachaudiosignal entfernt werden.

Die vorgegebene untere Frequenz kann Beispielsweise einen Wert im Bereich von 100 Hz bis 300 Hz aufweisen und die vorgegebene obere Frequenz kann beispielsweise einen Wert im Bereich von 4kHz bis 8kHz aufweisen. Ein Spracherkenner, welcher beispielsweise für eine Sprachsteuerung oder eine Spracheingabe in einem Fahrzeug verwendet wird, wertet zur Erkennung der Spracheingaben von einem Benutzer Audiosignale in vielen Fällen in nur einem begrenzten Frequenzbereich von beispielsweise 100 Hz bis 8kHz aus. Daher ist eine

Echokompensation nur in diesem begrenzten Frequenzbereich erforderlich. Vorzugsweise beträgt die vorgegebene untere Frequenz daher 100 Hz und die vorgegebene obere Frequenz 8kHz. Dadurch kann dem Spracherkenner in dem für ihn relevanten begrenzten

Frequenzbereich ein ungestörtes Sprachsignal bereitgestellt werden.

Um dennoch eine Wirkung einer mehrkanaligen Audiowiedergabe aufrecht zu erhalten, werden bei einer Ausführungsform des Verfahrens zusätzlich mehrere begrenzte kanalspezifische Audiosignale in Abhängigkeit von dem mehrkanaligen Audioquellsignal erzeugt. Ein

kanalspezifisches Audiosignal betrifft beispielsweise ein Audiosignal, welches von der mehrkanaligen Audiosignalquelle speziell für einen dem jeweiligen Kanal zugeordneten

Lautsprecher bestimmt ist. Bei einem Stereoquellsignal kann dies beispielsweise ein

Audiosignal für den rechten Lautsprecher oder ein Audiosignal für den linken Lautsprecher umfassen. Ein jeweiliges begrenztes kanalspezifisches Audiosignal der mehreren begrenzten kanalspezifischen Audiosignale ist daher einem jeweiligen Audiosignal des mehrkanaligen Audioquellsignals zugeordnet. Ein jeweiliges begrenztes kanalspezifisches Audiosignal ist auf einen Frequenzbereich begrenzt, welcher nur noch Frequenzen unterhalb der vorgegebenen unteren Frequenz und Frequenzen oberhalb der vorgegebenen oberen Frequenz umfasst. Ein jeweiliges begrenztes kanalspezifisches Audiosignal wird durch eine entsprechende

Frequenzbegrenzung aus dem jeweils zugeordneten Audiosignal des mehrkanaligen

Audioquellsignals gebildet. Anders ausgedrückt werden die Audiosignale des mehrkanaligen Audiosignals jeweils derart begrenzt oder gefiltert, dass sie nur noch Frequenzen unter der vorgegebenen unteren Frequenz und/oder Frequenzen über der vorgegebenen oberen Frequenz umfassen. Die mehreren begrenzten kanalspezifischen Audiosignale werden über die mehreren Lautsprecher in dem Fahrzeug ausgegeben, sodass die Wirkung einer

mehrkanaligen Audiowiedergabe erzielt werden kann, beispielsweise eine Stereowiedergabe oder eine Surroundwiedergabe. Zusammenfassend wird eine Audiowiedergabe in dem

Fahrzeug so modifiziert, dass in dem Frequenzbereich zwischen der vorgegebenen unteren Frequenz und der vorgegebenen oberen Frequenz das mehrkanalige Audioquellsignal einkanalig (Mono) wiedergegeben wird und in dem übrigen Frequenzbereich mehrkanalig.

Das Monoaudiosignal und die mehreren begrenzten kanalspezifischen Audiosignale können beispielsweise gemäß nachfolgender Ausführungsform aus dem mehrkanaligen

Audioquellsignal erzeugt werden. Bei dieser Ausführungsform wird das mehrkanalige

Audioquellsignal in einen auf allen Kanälen gleichen Mittensignalanteil und einen jeweiligen Seitensignalanteil pro Audiokanal des mehrkanaligen Audioquellsignal aufgeteilt. Aus dem Mittensignalanteil wird das begrenzte Monoaudiosignal erzeugt und aus den jeweiligen

Seitensignalanteilen werden die mehreren begrenzten kanalspezifischen Audiosignale erzeugt. Der Mittensignalanteil kann beispielsweise direkt als Monoaudiosignal verwendet werden oder geeignet skaliert als Monoaudiosignal verwendet werden. Ebenso können die

Seitensignalanteile direkt als die begrenzten kanalspezifischen Audiosignale verwendet werden oder in geeignet skalierter Form. Insbesondere bei einem Stereosignal kann der

Mittensignalanteil beispielsweise aus der Summe des rechten und linken Audioquellsignals gebildet werden. Die Seitensignalanteile können gemeinsam in einem Differenzsignal aus der Differenz zwischen dem rechten und linken Audioquellsignals codiert und weiterverarbeitet werden. Dadurch können insbesondere bei der Verarbeitung eines Stereoquellsignals der Mittensignalanteil und die Seitensignalanteile auf einfache Art und Weise erzeugt und verarbeitet werden.

Bei einer weiteren Ausführungsform wird der Mittensignalanteil durch eine Mittelwertbildung von jeweiligen Abtastwerten der Audiokanäle des mehrkanaligen Audioquellsignals gebildet. Die jeweiligen Seitensignalanteile werden durch Subtraktion des Mittensignalanteils von den jeweiligen Audiosignalen des mehrkanaligen Audioquellsignals gebildet. Diese Erzeugung des Mittensignalanteils und der Seitensignalanteile ist für Audioquellsignale mit einer beliebigen Anzahl von Kanälen möglich. Darüber hinaus ist eine Implementierung in beispielsweise einem digitalen Signalprozessor auf einfache Art und Weise realisierbar.

Bei einer weiteren Ausführungsform des Verfahrens wird das über das Mikrofon empfangene Sprachaudiosignal auf einen Frequenzbereich zwischen der vorgegebenen unteren Frequenz und der vorgegebenen oberen Frequenz begrenzt. Die Echokompensation wird auf das so begrenzte Sprachaudiosignal unter Verwendung des begrenzten Monoaudiosignals

angewendet. Somit wird der Einfluss des über die mehreren Lautsprecher ausgegebenen begrenzten Monoaudiosignals auf das begrenzte Sprachaudiosignal kompensiert. Da der Spracherkenner im Allgemeinen nur in dem Frequenzbereich zwischen der vorgegebenen unteren Frequenz und der vorgegebenen oberen Frequenz arbeitet, ist eine Echokompensation in einem darauf begrenzten Sprachaudiosignal ausreichend. Ferner werden Störsignale außerhalb dieses Frequenzbereichs bereits vor der Echokompensation eliminiert und haben daher keinen Einfluss auf die Echokompensation und die Spracherkennung, wodurch sowohl die Echokompensation als auch die Spracherkennung zuverlässiger arbeiten können.

In einigen Fällen ist die Wiedergabe eines Audiosignals für einige Insassen des Fahrzeugs wichtiger als für andere. Beispielsweise sind Audioausgaben eines Navigationssystems für den Fahrer wichtiger als für die übrigen Insassen, wohingegen Audioausgaben eines im Fond des Fahrzeugs wiedergegebenen Videos für Fahrzeuginsassen im Fond wichtiger sind als für den Fahrer und Beifahrer. Gemäß einer Ausführungsform können daher mehrere den jeweiligen Lautsprechern zugeordnete Gewichtungsfaktoren in Abhängigkeit von dem mehrkanaligen Audioquellsignal erzeugt werden. Das begrenzte Monoaudiosignal wird für jeden Lautsprecher mit dem dem jeweiligen Lautsprecher zugeordneten Gewichtungsfaktor gewichtet. Dadurch kann ein Schwerpunkt der Audioausgabe in dem Fahrzeug geeignet verlagert werden.

Solange die Gewichtungsfaktoren im Wesentlichen statisch sind, hat die gewichtete Ausgabe keinen Einfluss auf die Qualität der Echokompensation. Wenn die Gewichtung geändert wird, kann sich die Echokompensation in verhältnismäßig kurzer Zeit, beispielsweise innerhalb von wenigen Sekunden oder Minuten, auf die neue Gewichtung einstellen. In dem oben genannten Beispiel der Audioausgaben des Navigationssystems kann bei einem Fahrzeug mit

beispielsweise vier Lautsprechern statt einer gleich verteilten Ausgabe des Monoaudiosignals über die vier Lautsprecher folgende Gewichtung verwendet werden. Der Lautsprecher im Bereich des Fahrers kann beispielsweise 70 % des Monoaudiosignals ausgeben und die übrigen drei Lautsprecher können beispielsweise jeweils nur 10 % des Monoaudiosignals ausgeben. Gemäß der vorliegenden Erfindung wird weiterhin eine Audiosignalverarbeitungsvorrichtung für ein Fahrzeug bereitgestellt. Die Audiosignalverarbeitungsvorrichtung ist in der Lage, ein

Monoaudiosignal auf der Grundlage eines mehrkanaligen Audioquellsignals zu erzeugen. Dazu kann die Audiosignalverarbeitungsvorrichtung beispielsweise eine Summiervorrichtung aufweisen. Die Audiosignalverarbeitungsvorrichtung ist ferner in der Lage, das Monoaudiosignal auf einen Frequenzbereich zwischen einer vorgegebenen unteren Frequenz und einer vorgegebenen oberen Frequenz zu begrenzen. Dies kann beispielsweise mit einem

Bandpassfilter realisiert werden. Das begrenzte Monoaudiosignal wird über mehrere

Lautsprecher in dem Fahrzeug ausgegeben. Ferner wird das begrenzte Monoaudiosignal zu einer Kompensationsvorrichtung ausgegeben, beispielsweise zu einer

Echokompensationsvorrichtung. Die Kompensationsvorrichtung dient dazu, einen Einfluss des über die mehreren Lautsprecher ausgegebenen begrenzten Monoaudiosignals auf ein in dem Fahrzeug über ein Mikrofon empfangenes Sprachaudiosignal mittels des begrenzten

Monoaudiosignals zu kompensieren. Die Audiosignalverarbeitungsvorrichtung ist daher zur Durchführung des zuvor beschriebenen Verfahrens und seiner Ausführungsformen geeignet und umfasst daher auch die zuvor beschriebenen Vorteile.

Die vorliegende Erfindung wird nachfolgend anhand der beigefügten Figuren im Detail beschrieben werden.

Figur 1 zeigt schematisch ein Fahrzeug mit einer Audiosignalverarbeitungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung.

Figur 2 zeigt schematisch ein Audiowiedergabesystem und ein Spracherkennungssystem in Verbindung mit einer Audiosignalverarbeitungsvorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung.

Figur 3 zeigt schematisch ein Verfahren für eine Audiosignalverarbeitung in einem Fahrzeug gemäß einer Ausführungsform der vorliegenden Erfindung.

Die vorliegende Erfindung wird nachfolgend unter Bezugnahme auf die Figuren 1-3 im Detail beschrieben werden. In Figur 1 wird zunächst das Umfeld einer erfindungsgemäßen

Audiosignalverarbeitungsvorrichtung 15 in einem Fahrzeug 10 beschrieben. In Figur 2 werden Details der Audiosignalverarbeitungsvorrichtung 15 in Verbindung mit weiteren Komponenten des Fahrzeugs 10 beschrieben werden. Figur 3 zeigt schließlich schematisch die Arbeitsweise der Audiosignalverarbeitungsvorrichtung 15. Gleiche Bezugszeichen in den Figuren betreffen gleiche oder ähnliche Komponenten.

Figur 1 zeigt ein Fahrzeug 10 in einer Draufsicht. Das Fahrzeug 10 umfasst ein

Spracherkennungssystem 1 1 . Mithilfe des Spracherkennungssystems 1 1 können gesprochene Befehle oder Anweisungen von Insassen des Fahrzeugs 10 erfasst, verarbeitet und ausgeführt werden. Beispielsweise können Konfigurationseinstellungen des Fahrzeugs 10 oder eines Multimediasystems des Fahrzeugs 10 über entsprechende Anweisungen geändert werden. Beispielsweise kann eine Audiosignalquelle, wie zum Beispiel CD oder Radio, gewählt werden. Ferner kann beispielsweise ein bestimmter Radiosender ausgewählt werden oder ein Titel einer CD. Ferner kann mit entsprechenden Anweisungen eine Telefonverbindung zu einem gewünschten Teilnehmer aufgebaut werden oder ein Navigationsziel in einem

Navigationssystem des Fahrzeugs 10 eingestellt werden. Dazu werden beispielsweise entsprechende Befehle oder Anweisungen von einem Fahrer 12 des Fahrzeugs 10 über ein Mikrofon 13 empfangen. Ein gesprochener Befehl des Fahrers 12 wird von den Mikrofon 13 als Sprachaudiosignal an eine Audiosignalverarbeitungsvorrichtung 15 weitergeleitet. Die

Funktionsweise der Audiosignalverarbeitungsvorrichtung 15 wird später unter Bezugnahme auf Figur 2 im Detail beschrieben werden. Nach der Bearbeitung des Sprachaudiosignals in der Audiosignalverarbeitungsvorrichtung 15 wird das bearbeitete Sprachaudiosignal dem

Spracherkennungssystem 1 1 zugeführt. Das Spracherkennungssystem 1 1 wertet das

Sprachaudiosignal aus und erkennt darin enthaltene Befehle und Anweisungen und führt diese aus. Das Spracherkennungssystem kann mit einem sogenannten Dialogsystem gekoppelt sein, welches über Fragen und Antworten einen Dialog mit dem Fahrer führen kann.

Das Fahrzeug 10 umfasst ferner eine Audiosignalquelle 14. Die Audiosignalquelle 14 kann beispielsweise ein Rundfunkempfänger, eine Medienwiedergabevorrichtung wie zum Beispiel ein CD Player oder ein MP3-Player, oder ein Navigationssystem des Fahrzeugs 10 umfassen. Die Audiosignalquelle 14 gibt ein mehrkanaliges Audioquellsignal aus. Das mehrkanalige Audioquellsignal wird der Audiosignalverarbeitungsvorrichtung 15 zugeführt und dort bearbeitet, wie es nachfolgend unter Bezugnahme auf Figur 2 beschrieben werden wird. Das bearbeitete mehrkanalige Audioquellsignal wird von der Audiosignalverarbeitungsvorrichtung 15 an einen Verstärker 16 ausgegeben. Der Verstärker 16 verstärkt die einzelnen Signale des bearbeiteten mehrkanaligen Audioquellsignals, sodass diese über Lautsprecher 17-20 in einem Innenraum des Fahrzeugs 10 wiedergegeben werden können. In dem in Figur 1 gezeigten Beispiel umfasst das Fahrzeug 10 vier Lautsprecher 17-20. Bei anderen Ausführungsformen der Erfindung kann das Fahrzeug 10 eine beliebige Anzahl von Lautsprechern umfassen, beispielsweise zwei, drei oder mehr als vier. In dem gezeigten Beispiel der Figur 1 sind die Lautsprecher 17-20 den Sitzplätzen des Fahrzeugs 10 zugeordnet. So ist der Lautsprecher 17 einem Fahrersitz des Fahrers 12 zugeordnet, der Lautsprecher 18 einem Beifahrersitz, der Lautsprecher 19 einem hinteren rechten Sitz und der Lautsprecher 20 einem hinteren linken Sitz.

Im Betrieb des Fahrzeugs 10 kann der Fahrer 12 Anweisungen oder Befehle an das

Spracherkennungssystem 1 1 äußern. Dies wird in Figur 1 durch den gestrichelten Pfeil zwischen dem Fahrer 12 und dem Mikrofon 13 dargestellt. Während der Fahrer 12 Befehle und Anweisungen äußert, können mehrkanalige Audioquellsignale von der Audiosignalquelle 14 über die Lautsprecher 17-20 ausgegeben werden. Die Ausgaben der Lautsprecher 17-20 erreichen ebenfalls das Mikrofon 13, wie es durch die entsprechenden gestrichelten Pfeile zwischen den Lautsprechern 17-20 und dem Mikrofon 13 in der Figur 1 dargestellt ist. Die Ausgaben aus den Lautsprechern 17-20 können jedoch die Sprachverständlichkeit stören, sodass das Spracherkennungssystem 1 1 die Befehle und Anweisungen von dem Fahrer 12 nicht oder nur unzureichend erkennt.

Figur 2 zeigt Details der Audiosignalverarbeitungsvorrichtung 15 und des

Spracherkennungssystems 1 1 , welche dazu beitragen, den Einfluss der Ausgaben aus den Lautsprechern 17-20 auf das Sprachsignal des Fahrers 12 zu verringern oder zu kompensieren. Zur Vereinfachung der Darstellung ist die Audiosignalquelle 14 in dem Beispiel der Figur 2 nur zweikanalig, also eine Stereoquelle mit einem linken Kanal L und einem rechten Kanal R. Es ist jedoch klar, dass die nachfolgend beschriebene Audiosignalverarbeitungsvorrichtung 15 in gleicher Art und Weise eine beliebige Anzahl von Kanälen einer mehrkanaligen

Audiosignalquelle verarbeiten kann.

Bevor die Funktionsweise der Audiosignalverarbeitungsvorrichtung 15 beschrieben werden wird, werden zunächst die in Figur 2 gezeigten Komponenten der

Audiosignalverarbeitungsvorrichtung 15 beschrieben. Die in Figur 2 gezeigten Komponenten der Audiosignalverarbeitungsvorrichtung 15 müssen nicht notwendigerweise tatsächlich als konkrete Bauteile oder Baugruppen ausgebildet werden, sondern können teilweise oder insgesamt programmtechnisch nachgebildet werden und durch eine geeignete Steuerung realisiert werden, beispielsweise einen Mikroprozessor oder einen digitalen Signalprozessor. Die Audiosignalverarbeitungsvorrichtung 15 umfasst Eingänge, über welche das mehrkanalige Audioquellsignal von der Audiosignalquelle 14 empfangen wird. Ein zweikanaliges

Stereoaudioquellsignal umfasst beispielsweise einen linken Kanal L und einen rechten Kanal R, welche der Audiosignalverarbeitungsvorrichtung 15 zugeführt werden. Mit einem ersten

Signalumwandler 21 werden aus dem zwei- oder mehrkanaligen Audioquellsignal ein

Mittensignalanteil M und für jeden Kanal ein Seitensignalanteil S erzeugt. Speziell für ein Stereosignal kann statt zweier Seitensignalanteile ein gemeinsamer Seitensignalanteil als Differenz aus dem linken Kanal L und dem rechten Kanal R gebildet werden. Da unabhängig von der Anzahl der Seitensignalanteile alle Seitensignalanteile nachfolgend gleich behandelt werden, ist in Figur 2 nur ein Pfad für die Seitensignalanteile S gezeigt. Dieser eine Pfad kann demzufolge bei einem Stereosignal nur einen Seitensignalanteil oder im mehrkanaligen Fall mehrere Seitensignalanteile umfassen.

Der Mittensignalanteil M kann beispielsweise ein Summensignal aus allen zugeführten Kanälen umfassen. Bei einem Stereosignal kann der Mittensignalanteil M daher das Summensignal aus dem linken Kanal L und dem rechten Kanal R umfassen (M=R+L). Ein jeweiliger

Seitensignalanteil S kann beispielsweise ein Differenzsignal zwischen dem jeweiligen

Audiosignal des jeweiligen Kanals des mehrkanaligen Audioquellsignals und dem

Mittensignalanteil umfassen. Speziell bei einem Stereosignal kann der Seitensignalanteil S auch beispielsweise ein Differenzsignal aus dem rechten Kanal R und dem linken Kanal L umfassen (S=R-L).

Die Audiosignalverarbeitungsvorrichtung 15 umfasst ferner ein erstes Bandpassfilter 23 und ein Kerbfilter oder Notch-Filter 22. Das erste Bandpassfilter 23 hat eine vorgegebene untere Frequenz und eine vorgegebene obere Frequenz. Das erste Bandpassfilter 23 lässt im

Wesentlichen nur Signale mit einer Frequenz zwischen der vorgegebenen unteren Frequenz und der vorgegebenen oberen Frequenz passieren. Signale mit einer Frequenz unterhalb der vorgegebenen unteren Frequenz sowie Signale mit einer Frequenz oberhalb der vorgegebenen oberen Frequenz werden im Wesentlichen unterdrückt oder zumindest stark gedämpft. Bei einer analogen Ausgestaltung des ersten Bandpassfilters 23 kann die Dämpfung beispielsweise 70 dB oder mehr betragen und bei einer digitalen Ausgestaltung des ersten Bandpassfilters kann das Signal oberhalb der vorgegebenen oberen Frequenz und unterhalb der vorgegebenen unteren Frequenz vollständig unterdrückt werden. Das Notch-Filter 22 hat einen Frequenzgang, welcher im Wesentlichen invers zu dem Frequenzgang des ersten Bandpassfilters 23 ist. D.h., das Notch-Filter 22 lässt im Wesentlichen nur Signale mit einer Frequenz unter der

vorgegebenen unteren Frequenz oder über der vorgegebenen oberen Frequenz passieren. Die untere vorgegebene Frequenz kann beispielsweise 100 Hz betragen und die obere vorgegebene Frequenz kann beispielsweise 8kHz betragen. Alternativ kann die untere vorgegebene Frequenz in einem Bereich von 100 Hz bis 300 Hz gewählt werden und die obere vorgegebene Frequenz in einem Bereich von 4kHz bis 8kHz gewählt werden. Je größer der Frequenzbereich zwischen der unteren vorgegebenen Frequenz und der oberen vorgegebenen Frequenz gewählt wird, umso zuverlässiger arbeitet die Spracherkennung. Allerdings wird eine Wiedergabe eines mehrkanaligen Audioquellsignals umso stärker beeinträchtigt, je größer der Frequenzbereich zwischen der unteren vorgegebenen Frequenz und der oberen vorgegebenen Frequenz gewählt wird. Für den Fall, dass mehrere Seitensignalanteile erzeugt werden, ist für jeden dieser mehreren Seitensignalanteile ein entsprechendes Notch-Filter 22 mit der unteren vorgegebenen Frequenz und der oberen vorgegebenen Frequenz vorzusehen.

Durch die Filterung des Mittensignalanteils M mit dem Bandpassfilter 23 wird ein gefilterter oder in der Frequenz begrenzter Mittensignalanteil Mb erzeugt. Durch die Filterung der

Seitensignalanteile S mit den Notch-Filtern 22 werden gefilterte oder in der Frequenz begrenzte Seitensignalanteile Sb erzeugt. Der gefiltert Mittensignalanteil Mb und die gefilterten

Seitensignalanteil Sb werden einem zweiten Signalumwandler 24 zugeführt, welcher gefilterte Audiosignale für die einzelnen Kanäle erzeugt. Das gefilterte Audiosignal für einen jeweiligen einzelnen Kanal kann beispielsweise durch Summieren des gefilterten Mittensignalanteils Mb und des entsprechenden gefilterten kanalspezifischen Seitensignalanteils Sb gebildet werden. Speziell für den Fall eines Stereoaudioquellsignals gilt beispielsweise Rb=Mb+Sb und Lb=Mb- Sb. Die gefilterten Audiosignale Lb, Rb werden aus der Audiosignalverarbeitungsvorrichtung 15 ausgegeben und kanalweise dem Verstärker 16 zugeführt.

Die Audiosignalverarbeitungsvorrichtung 15 umfasst ferner ein zweites Bandpassfilter 26. Das zweite Bandpassfilter 26 hat die gleiche Filtercharakteristik wie das erste Bandpassfilter 23. Das zweite Bandpassfilter 26 ist eingangsseitig mit dem Mikrofon 13 gekoppelt und ausgangsseitig mit einem Echokompensator 25 des Spracherkennungssystems 1 1 . Dem Echokompensator 25 des Spracherkennungssystems 1 1 wird ferner der gefilterte Mittensignalanteil Mb zugeführt. Auf der Grundlage des gefilterten Mittensignalanteils Mb führt der Echokompensator 25 eine Echokompensation auf dem gefilterten Sprachsignal von dem Mikrofon 13 durch. Das von dem Echokompensator 25 bearbeitete Sprachsignal wird einem Spracherkenner 27 des

Spracherkennungssystems 1 1 zugeführt.

Außerdem umfasst die Audiosignalverarbeitungsvorrichtung 15 eine Gewichtungsvorrichtung 28, welche mit dem mehrkanaligen Audioquellsignal und/oder der Audiosignalquelle 14 gekoppelt ist. Auf der Grundlage von Informationen des mehrkanaligen Audioquellsignals oder Informationen von der Audiosignalquelle 14 stellt die Gewichtungsvorrichtung 28

Gewichtungsfaktoren bereit, mit welchen die gefilterten Audiosignale vor ihrer Ausgabe aus dem zweiten Signalumwandler 24 gewichtet werden.

Unter Bezugnahme auf Figur 3 wird nachfolgend die Arbeitsweise der

Audiosignalverarbeitungsvorrichtung 15 in dem Fahrzeug 10 beschrieben werden. Figur 3 zeigt ein Verfahren 30 mit Verfahrensschritten 31 -37, welche von der

Audiosignalverarbeitungsvorrichtung 15 in Verbindung mit dem Spracherkennungssystem 1 1 ausgeführt werden. Es ist klar, dass die in Figur 3 dargestellten Verarbeitungsschritte mit elektronischen Hilfsmitteln ausgeführt werden können, welche beispielsweise analoge oder digitale Schaltkreise sowie Verarbeitungsvorrichtungen umfassen. Verarbeitungsvorrichtungen können beispielsweise Mikroprozessoren oder digitale Signalprozessoren umfassen. Ferner kann die gesamte Funktionalität der Audiosignalverarbeitungsvorrichtung 15 in beispielsweise eine bestehende elektronische Vorrichtung integriert werden, beispielsweise in einen digitalen Signalprozessor des Spracherkennungssystems 1 1 .

Im Schritt 31 wird ein mehrkanaliges Audioquellsignal, beispielsweise ein Stereosignal oder ein Surroundsignal, von der Audiosignalquelle 14 an der Audiosignalverarbeitungsvorrichtung 15 empfangen. In den Schritten 32 und 33 werden mit Hilfe des ersten Signalumwandlers 21 und der Filter 22 und 23 ein in der Frequenz begrenztes Monoaudiosignal und in der Frequenz begrenzte kanalspezifische Audiosignale erzeugt. Der zuvor beschriebene in der Frequenz begrenzte Mittensignalanteil Mb kann beispielsweise das in der Frequenz begrenzte

Monoaudiosignal sein. Die zuvor beschriebenen in der Frequenz begrenzten

Seitensignalanteile Sb können beispielsweise die in der Frequenz begrenzten

kanalspezifischen Audiosignale sein. Das in der Frequenz begrenzte Monoaudiosignal und die in der Frequenz begrenzten kanalspezifischen Audiosignale können jedoch auch auf beliebige andere Art und Weise aus dem mehrkanaligen Audioquellsignal gebildet werden,

beispielsweise in einem digitalen Signalprozessor.

Im Schritt 34 wird das begrenzte Monoaudiosignal über alle Lautsprecher 17-20 ausgegeben und die begrenzten kanalspezifischen Audiosignale werden über dem dem jeweiligen Kanal zugeordneten Lautsprecher ausgegeben. Das Monoaudiosignal ist auf einen für die

Spracherkennung relevanten Frequenzbereich begrenzt, beispielsweise auf einen

Frequenzbereich von 100 Hz bis 8kHz. Die kanalspezifischen Audiosignale sind auf einen Frequenzbereich außerhalb des für die Spracherkennung relevanten Frequenzbereichs begrenzt, also beispielsweise auf Frequenzen unter 100 Hz und über 8kHz. Durch die

Reduktion der Mehrkanaligkeit der Audiowiedergabe innerhalb des für den Spracherkenner 27 relevanten Frequenzbereichs liegt für die Spracherkennung als störendes Signal lediglich das einkanalige Monoaudiosignal vor. Für den oder die Fahrzeuginsassen bleibt jedoch ein

Räumlichkeitsgefühl in der Klangwahrnehmung erhalten, da für Frequenzen außerhalb des für die Spracherkennung relevanten Bereichs die Mehrkanaligkeit erhalten bleibt.

Beim Ausgeben des begrenzten Monoaudiosignals über die Lautsprecher 17-20 kann ein Audioschwerpunkt in dem Fahrzeug geändert werden. Beispielsweise kann die

Gewichtungsvorrichtung 28 auf der Grundlage der ihr zur zugeführten Informationen einen Audioschwerpunkt für die mehrkanaligen Audioquellsignale oder die aktuelle Signalquelle bestimmen und das begrenzte Monoaudiosignal gemäß diesem Audioschwerpunkt auf die Audiokanäle verteilen. Wenn beispielsweise eine Sprachausgabe eines Navigationssystems die mehrkanaligen Audiosignalquelle darstellt, kann das begrenzte Monoaudiosignal beispielsweise für den Lautsprecher 17 stärker gewichtet werden als für die Lautsprecher 18-20, da diese Information für den Fahrer 12 relevanter ist als für die übrigen Fahrzeuginsassen. Die

Gewichtungsvorrichtung 28. kann weitere Informationen des Fahrzeugs 10 in Betracht ziehen, beispielsweise eine aktuelle Sitzbelegung in dem Fahrzeug.

Für die Spracherkennung wird im Schritt 35 ein Sprachaudiosignal über das Mikrofon 13 empfangen. Im Schritt 36 wird das empfangene Sprachaudiosignal mithilfe des zweiten

Bandpassfilters 26 in der Frequenz begrenzt. Dem Echokompensator 25 werden das begrenzte Monoaudiosignal und das begrenzte Sprachaudiosignal zugeführt. Im Schritt 37 führt der Echokompensator 25 eine Echokompensation in dem Sprachaudiosignal unter Verwendung des Monoaudiosignals durch. Da sowohl das Sprachaudiosignal als auch das Monoaudiosignal auf den für die Spracherkennung relevanten Frequenzbereich begrenzt sind (z.B. 100Hz-8kHz), kann die Echokompensation ebenfalls auf diesen begrenzten Frequenzbereich eingeschränkt werden, wodurch weniger Störungen auftreten und der Echokompensator 25 einfacher aufgebaut werden kann bzw. weniger Rechenleistung erfordert. Ferner benötigt die einkanalige Echokompensation nur ein einziges Audioreferenzsignal, nämlich das Monoaudiosignal, und muss nur eine akustische Impulsantwort schätzen. Hierdurch werden Systemressourcen bei der Echokompensation eingespart, welche zum Beispiel für den Spracherkenner 27 zur Verfügung stehen. Das so bereinigte Sprachaudiosignal wird dem Spracherkenner 27 zugeführt und dort verarbeitet, um entsprechende Befehle und Anweisungen aus der gesprochenen Sprache zu extrahieren.

Bezugszeichenliste

Fahrzeug

Spracherkennungssystem

Fahrzeuginsasse

Mikrofon

Audiosignalquelle

Audiosignalverarbeitungsvorrichtung

Verstärker

-20 Lautsprecher

erster Signalumwandler

Notch-Filter

erstes Bandpassfilter

zweiter Signalumwandler

Echokompensator

zweites Bandpassfilter

Spracherkenner

Gewichtungsvorrichtung

Verfahren

-37 Schritt