Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR CONTROLLING A VOICE INPUT AND OUTPUT
Document Type and Number:
WIPO Patent Application WO/2002/014789
Kind Code:
A1
Abstract:
The invention relates to a method for controlling a voice input and output according to which a voice output is interrupted by a user input and, in doing this, a voice input is activated so that a user does not have to wait for the complete voice output before carrying out a voice input, but can directly react. As a result, the user acceptance and the security for a user is increased, in particular, when used in a motor vehicle.

Inventors:
WOESTEMEYER STEFAN (DE)
WALL HOLGER (DE)
Application Number:
PCT/DE2001/002743
Publication Date:
February 21, 2002
Filing Date:
July 20, 2001
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BOSCH GMBH ROBERT (DE)
WOESTEMEYER STEFAN (DE)
WALL HOLGER (DE)
International Classes:
G06F3/02; G01C21/36; G06F3/16; (IPC1-7): G01C21/36
Foreign References:
DE19843565A12000-03-30
US4593403A1986-06-03
DE4300927A11994-07-21
US4528687A1985-07-09
DE19704916A11997-10-30
DE19843565A12000-03-30
US4593403A1986-06-03
Download PDF:
Claims:
Ansprüche
1. Verfahren zur Steuerung einer Spracheingabe undausgabe, wobei eine Sprachausgabe aktiviert wird, dadurch gekennzeichnet, dass die Sprachausgabe durch eine Benutzereingabe unterbrochen wird und dass mittels der Benutzereingabe die Spracheingabe aktiviert wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass während der Sprachausgabe ein Mikrofon aktiviert wird und dass die Sprachausgabe dann unterbrochen wird, wenn ein gesprochenes Wort erfasst wird.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Sprachausgabe nur dann unterbrochen wird, wenn ein vorgebbares Wort erfasst wird.
4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Sprachausgabe durch einen Tastendruck unterbrochen wird.
5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß die Spracheingabe undausgabe durch einen Tastendruck deaktiviert wird.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß eine Deaktivierung der Spracheingabe undausgabe erst durchgeführt wird, wenn ein Tastendruck zweimal ausgeführt wird und/oder wenn eine vorgegebene Zeitspanne von einer Dauer des Tastendrucks überschritten wird.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daS nach Abschluss der Spracheingabe erneut die Sprachausgabe aktiviert wird.
8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass durch die Sprachausgabe eine Aufforderung zu einer Spracheingabe ausgegeben wird.
9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein von dem Mikrofon erfasstes Signal und ein über Lautsprecher ausgegebenes Signal einer Filtereinheit zugeführt werden und dass das von dem Mikrofon erfasste Signal gefiltert wird.
10. Vorrichtung zur Durchführung des Verfahrens nach einem der vorhergehenden Ansprüche, vorzugsweise zur Fahrzieleingabe in eine Navigationsvorrichtung in einem Kraftfahrzeug.
Description:
Verfahren zur Steuerung einer Spracheingabe und-ausgabe Stand der Technik Die Erfindung geht aus von einem Verfahren zur Steuerung einer Spracheingabe und-ausgabe nach der Gattung des Hauptanspruchs. Aus der WO 96/27842 ist ein Navigationssystem bekannt, bei dem ein Benutzer durch das Navigationssystem zum Beispiel zur Eingabe eines Fahrziels aufgefordert wird. Eine Aufforderung zur Eingabe wird durch das Navigationssystem in Sprachform über Lautsprecher ausgegeben. Ein Benutzer des Navigationssystems antwortet, wobei die Antworten mittels einer Spracherkennung ausgewertet werden. Damit ein Benutzer antworten kann, muss jedoch die von dem Navigationssystem gestellte Frage abgewartet werden. Hierbei muss ein Benutzer die gesamte Ausgabe der Frage abwarten, selbst wenn ihm bereits nach wenigen Worten der Frage klar ist, welche Eingabe von ihm erwartet wird, da keine Möglichkeit gegeben wird, die gestellte Frage frühzeitig abzubrechen und eine Eingabe vorzunehmen. Insbesondere dann, wenn ein Benutzer bereits Erfahrungen mit dem Navigationssystem gesammelt hat, wird hierdurch die Dauer der Eingabe eines Fahrziels unnötig verlängert, so dass eine Bereitschaft des Benutzers abnimmt, das Navigationssystem zu benutzen, beziehungsweise dass ein Benutzer im Straßenverkehr durch lange Fragesätze des

Navigationssystems, die er nicht abbrechen kann, gestört und abgelenkt wird.

Vorteile der Erfindung Das erfindungsgemäße Verfahren mit den Merkmalen des Hauptanspruchs hat demgegenüber den Vorteil, dass ein Benutzer eine Sprachausgabe jederzeit unterbrechen und im Anschluss direkt eine Spracheingabe durchführen kann. Sobald einem Benutzer folglich klar ist, welche Eingabe von ihm erwartet wird, kann er mittels einer Benutzereingabe reagieren und eine Spracheingabe vornehmen. Hierdurch wird die Benutzerakzeptanz einer Spracheingabe und-ausgabe erhöht. Die Zeit, die für einen Dialog zwischen einer Spracheingabe und-ausgabeeinheit und einem Benutzer benötigt wird, wird vor allem dann stark reduziert, wenn der Benutzer bereits Erfahrungen mit der Benutzung der Spracheingabe und-ausgabeeinheit hat.

Durch die in den Unteransprüchen aufgeführten Maßnahmen sind vorteilhafte Weiterbildungen und Verbesserungen des im Hauptanspruch angegebenen Verfahrens möglich. Besonders vorteilhaft ist, dass während der Sprachausgabe ein Mikrofon aktiviert wird, so dass die Sprachausgabe dann unterbrochen wird, wenn ein von einem Benutzer gesprochenes Wort erfasst wird. Indem eine Benutzereingabe somit durch ein gesprochenes Wort realisiert wird, kann ein Benutzer mit einem gesprochenen Wort bereits seine Spracheingabe beginnen während die Sprachausgabe noch Wörter ausgibt. Eine Betätigung eines Bedienelements ist hierbei nicht erforderlich, so dass zum Beispiel ein Fahrer eines Fahrzeugs in der Steuerung des Fahrzeugs nicht beeinträchtigt wird.

Weiterhin ist vorteilhaft, die Sprachausgabe nur durch ein bestimmtes Wort zu unterbrechen, da hierdurch das erfindungsgemäße Verfahren auch verwendet werden kann, wenn im Bereich des Mikrofons gesprochen wird, wenn zum Beispiel mehrere Personen in einem Fahrzeug sitzen und miteinander reden. Hierdurch wird vermieden, dass durch ein beliebiges, gesprochenes Wort bereits die Sprachausgabe unterbrochen und eine Spracheingabe aktiviert wird.

Weiterhin ist vorteilhaft, die Sprachausgabe durch einen Tastendruck zu unterbrechen. Dies ist insbesondere dann vorteilhaft, wenn ein Unterbrechen mittels eines gesprochenen Wortes zum Beispiel durch ein Störgeräusch erfolglos geblieben ist. Insbesondere ist hierbei vorteilhaft, dass die Spracheingabe und-ausgabe durch einen Tastendruck auch ganz deaktiviert werden kann und zum Beispiel auf eine Bedienung eines der Spracheingabe und- ausgabe zugeordneten Geräts mittels Bedienelementen umgeschaltet werden kann. Dies ist insbesondere dann vorteilhaft, wenn ein Benutzer der Spracheingabe und- ausgabe gerade telefoniert oder wenn laute Störgeräusche eine Benutzung einer Spracheingabe zu sehr beeinträchtigen.

Eine Deaktivierung der Spracheingabe und-ausgabe wird dabei vorteilhaft zum Beispiel durch einen doppelten Tastendruck oder durch einen längeren Tastendruck erreicht.

Weiterhin ist vorteilhaft, dass nach Abschluß der Spracheingabe die Sprachausgabe erneut aktiviert wird, so dass sich ein Dialog zwischen der Spracheingabe und-ausgabe sowie einem Benutzer entfalten kann. Hierbei ist insbesondere vorteilhaft, wenn der durch die Sprachausgabe ausgegebene Text eine Aufforderung zu einer nachfolgenden Spracheingabe beinhaltet, da so auch ein Benutzer, der die Spracheingabe und-ausgabeeinheit erstmalig benutzt, zu einer korrekten Benutzung angeleitet wird.

Ferner ist vorteilhaft, das erfindungsgemäße Verfahren zur Fahrzieleingabe in einer Navigationsvorrichtung in einem Kraftfahrzeug zu benutzen, da ein Fahrer eines Fahrzeugs sich stark auf den Straßenverkehr konzentrieren muss und durch eine zu lange Sprachausgabe unnötig abgelenkt wird.

Ferner wird die Navigationsvorrichtung in einem Fahrzeug im Allgemeinen von einem Benutzer immer wieder benutzt, so dass einem Benutzer die ihm von der Navigationsvorrichtung mittels der Sprachausgabe gestellten Aufforderungen zur Fahrzieleingabe nach kurzer Zeit bereits gut bekannt sind.

Zeichnung Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und in der nachfolgenden Beschreibung näher erläutert. Es zeigen Figur 1 eine Navigationsvorrichtung in einem Kraftfahrzeug mit einer erfindungsgemäßen Spracheingabe und-ausgabe, Figur 2 ein Ablauf eines erfindungsgemäßen Verfahrens zur Steuerung einer Spracheingabe und-ausgabe und Figur 3 einen zweiten Verfahrensablauf eines erfindungsgemäßen Verfahrens zur Steuerung einer Spracheingabe und-ausgabe.

Beschreibung des Ausführungsbeispiels Das erfindungsgemäße Verfahren zur Steuerung einer Spracheingabe und-ausgabe kann an allen Schnittstellen zwischen einem Menschen und einer Maschine eingesetzt werden, an denen eine Sprachausgabe durch die Maschine und eine Spracheingabe durch den Menschen erfolgt. Besonders vorteilhaft ist ein solches Verfahren bei Schnittstellen zwischen einem Menschen und einer Maschine, bei der ein Mensch eine Aufforderung zu einer Spracheingabe nicht ablesen kann, da er sich bei der Steuerung eines Fahrzeugs,

eines Flugzeugs oder einer sonstigen Maschine auf ein Verkehrsgeschehen, auf Betriebsparameter des Fahrzeugs oder einen Betriebsablauf der Maschine konzentrieren muss. Ferner kann Menschen mit einer reduzierten Sehleistung ein Dialog mit einem elektronischen Gerät, z. B. einem Haushaltsgerät, mit der erfindungsgemäßen Spracheingabe und-ausgabe erleichtert werden. Außerdem ist das Verfahren zur Fernsteuerung einer Recheneinheit mittels Telefon geeignet.

Im Folgenden wird das erfindungsgemäße Verfahren anhand einer Steuerung einer Spracheingabe und-ausgabe beschrieben, die mit einer Navigationsvorrichtung in einem Kraftfahrzeug verbunden ist.

In Figur 1 ist eine Navigationsvorrichtung 1 in einem Kraftfahrzeug mit einer Spracheingabe und-ausgabeeinheit 2 über eine Datenverbindung 3 verbunden. Die Navigationsvorrichtung 1 ist ferner mit einem GPS-Empfänger 4, einem Datenspeicher 5, einer Anzeigeeinheit 6 und einer Eingabeeinheit 7 mit Tasten 8 verbunden. Die Spracheingabe und-ausgabeeinheit 2 ist mit einem Mikrofon 9 und einem Lautsprecher 10 verbunden. Die Spracheingabe und- ausgabeeinheit 2 verfügt ferner über eine Recheneinheit 11, eine Speichereinheit 12 und eine Filtereinheit 13.

Die in der Figur 1 nicht näher dargestellte Navigationsvorrichtung 1 dient dazu, eine Fahrtroute von einem Startpunkt zu einem Zielpunkt zu berechnen, eine Fahrtroute in der Anzeigeeinheit 6 anzuzeigen und Fahrhinweise mittels der Sprachausgabefunktion der Spracheingabe und-ausgabeeinheit 2 über den Lautsprecher 10 auszugeben. Eine Fahrtroute wird dabei durch Zugriff auf eine in dem Datenspeicher 5 abgelegte digitale Straßenkarte mit einem gespeicherten Straßen-und Wegenetz berechnet.

Eine Startposition wird mittels einer Positionsbestimmung der Navigationsvorrichtung 1 durch den GPS-Empfänger 4

festgelegt (GPS = Global Positioning System). Die Eingabe eines Fahrziels kann über an der Eingabeeinheit 7 angeordnete Tasten 8 erfolgen, vorzugsweise durch eine in der Anzeigeeinheit 6 angezeigte Fahrzielauswahl.

Erfindungsgemäß kann ferner ein Fahrziel mittels der Spracheingabe und-ausgabeeinheit 2 eingegeben werden.

Hierbei wird durch die Spracheingabe und-ausgabeeinheit 2 neben Fahrhinweisen auch eine Aufforderung zur Eingabe eines Fahrziels ausgegeben. Eine Aufforderung, eine Sprachausgabe zu starten, wird von der Navigationsvorrichtung 1 über die Datenverbindung 3 an die Spracheingabe und-ausgabeeinheit 2 übermittelt. Die Recheneinheit 11 ermittelt die entsprechende Sprachausgabe und gibt Wörter über den Lautsprecher 10 aus, indem in der Speichereinheit 12 in digitaler Form gespeicherte Sprachbausteine zu Wörtern zusammengesetzt werden. Bei der Ausgabe eines Fahrhinweises ist eine Antwort eines Benutzers nicht erforderlich. Gibt ein Benutzer jedoch nach Aufforderung durch die Spracheingabe und-ausgabeeinheit 2 ein Fahrziel mittels Sprache ein, so werden von dem Benutzer gesprochenen Wörter über das Mikrofon 9 erfasst. Die Filtereinheit 13 filtert aus dem über das Mikrofon 9 erfassten Signal Störungen heraus, zum Beispiel Hintergrundgeräusche oder ein zeitgleich über den Lautsprecher 10 ausgegebenes Audiosignal. Von der Recheneinheit 11 wird das von der Filtereinheit 13 ausgegebene und über das Mikrofon 9 erfasste Signal analysiert und durch Zugriff auf die in der Speichereinheit 12 abgelegten Sprachbausteine wird eine Spracherkennung durchgeführt. Anhand der Spracherkennung wird das ermittelte Fahrziel über die Datenverbindung 3 an die Navigationsvorrichtung 1 weitergegeben. Für die Eingabe eines Fahrziels ist jedoch im Allgemeinen eine komplexe Eingabe erforderlich, zum Beispiel die Eingabe einer vollständigen Adresse. Damit jedoch eine Spracheingabe zu lange, so sinkt die Wahrscheinlichkeit einer erfolgreichen

Spracherkennung ab. Deshalb werden in einem Dialog zwischen der Spracheingabe und-ausgabeeinheit 2 und einem Benutzer einzelne Merkmale des Fahrziels, zum Beispiel die Adressdaten Ort, Straße und Hausnummer einzeln abgefragt.

Hierbei wird zum Beispiel von der Spracheingabe und- ausgabeeinheit über den Lautsprecher 10 die Frage ausgegeben :"In welcher Stadt liegt das Fahrziel ?" Der Benutzer spricht nun eine Stadt in das Mikrofon 9, die mittels Spracherkennung durch die Recheneinheit 11 erkannt und an die Navigationsvorrichtung 1 übermittelt wird. In einem bevorzugten Ausführungsbeispiel wird anschließend die von der Spracheingabe und-ausgabeeinheit 2 verstandene Stadt zur Kontrolle über den Lautsprecher 10 ausgegeben.

Wird der ausgegebene Städtename von einem Benutzer nicht korrigiert, so wird in einem nächsten Schritt die Frage ausgegeben :"In welcher Straße liegt das Fahrziel ?" Es wird nun so lange ein Dialog zwischen der Spracheingabe und- ausgabeeinheit 2 und dem Benutzer durchgeführt, bis ein Fahrziel eindeutig bestimmt ist. Ein Dialog ist dabei nicht auf die Eingabe von Adressen beschränkt, sondern kann sich zum Beispiel auch auf die Suche nach einem Hotel, nach einer Gaststätte oder nach einer Sehenswürdigkeit beziehen. In einem weiteren, in der Figur 1 nicht dargestellten Ausführungsbeispiel ist es auch möglich, die Spracheingabe und-ausgabeeinheit 2 mit der Navigationsvorrichtung 1 in einem Gerät zusammenzufassen und/oder hierbei Recheneinheit 11 mit einer Recheneinheit der Navigationsvorrichtung 1 zu kombinieren.

In der Figur 2 ist ein erstes erfindungsgemäßes Verfahren zur Steuerung der Spracheingabe und-ausgabeeinheit 2 dargestellt. In einem Initialisierungsschritt 20 wird die Spracheingabe und-ausgabe in der Spracheingabe und- ausgabeeinheit 2 von der Navigationsvorrichtung 1 aktiviert, indem zum Beispiel der Befehl übergeben wird, ein Fahrziel

von einem Benutzer abzufragen. In einem anschließenden Ermittlungsschritt 21 wird eine Frage von der Spracheingabe und-ausgabeeinheit 2 festgelegt. Wird der Ermittlungsschritt 21 zum Beispiel das erste Mal erreicht, so wird ein Benutzer gefragt, welcher Art ein einzugebendes Fahrziel sein soll, zum Beispiel Adresse, Hotel oder Sehenswürdigkeit. Wird der Ermittlungsschritt 21 im weiteren Verfahren erneut erreicht, so werden Details des einzugebenden Fahrziels erfragt, zum Beispiel Straße, Hausnummer, Art des Hotels, Art der Sehenswürdigkeit. In einem an den Ermittlungsschritt 21 anschließenden Sprachausgabeschritt 22 wird eine erste Sequenz der auszugebenden Frage von der Recheneinheit 11 über den Lautsprecher 10 ausgegeben, zum Beispiel das erste Wort der Frage. Danach wird zu einem ersten Prüfschritt 23 weiterverzweigt. In dem ersten Prüfschritt 23 wird geprüft, ob von dem Mikrofon 9 ein von einem Benutzer der Spracheingabe und-ausgabeeinheit 2 gesprochenes Wort erfasst wurde. Ist dies der Fall, so wird zu einem Spracheingabeschritt 24 weiterverzweigt. In einem bevorzugten Ausführungsbeispiel wird von dem ersten Prüfschritt 23 nur dann zu dem Spracheingabeschritt 24, wenn ein vorgegebenes, von dem Benutzer gesprochenes Wort, zum Beispiel"Stopp", erfasst wurde. In dem Spracheingabeschritt 24 werden nachfolgende, von dem Benutzer gesprochene Wörter erfasst und von der Recheneinheit 11 ausgewertet. Wird in dem ersten Prüfschritt 23 festgestellt, dass von dem Mikrofon 9 kein gesprochenes Wort bzw. kein vorgegebenes gesprochenes Wort eines Benutzers aufgenommen wurde, so wird zu einem zweiten Prüfschritt 25 weiterverzweigt. In dem zweiten Prüfschritt 25 wird überprüft, ob die in dem Ermittlungsschritt 21 festgelegte Frage bereits vollständig ausgegeben wurde. Ist dies der Fall, so wird ebenfalls zu dem Spracheingabeschritt 24 weiterverzweigt. Ist dies nicht der Fall, so wird zu dem Sprachausgabeschritt 22

zurückverzweigt und es wird die nächste Sequenz der Frage, zum Beispiel das zweite Wort der Frage, ausgegeben. Der Spracheingabeschritt 24, der in der Figur 2 nicht näher dargestellt ist, wird zum Beispiel dann beendet, wenn von dem Mikrofon 9 keine weiteren gesprochenen Wörter oder Buchstaben erfasst werden. Anschließend wird zu einem dritten Prüfschritt 26 weiterverzweigt. In dem dritten Prüfschritt 26 wird überprüft, ob das Fahrziel bereits eindeutig bestimmt ist. Ist dies der Fall, so wird zu einem Endschritt 27 weiterverzweigt, in dem die Spracheingabe und-ausgabe beendet wird. Das ermittelte Fahrziel wird an die Navigationsvorrichtung 1 übermittelt und für eine Routensuche verwendet. Wird in dem dritten Prüfschritt 26 festgestellt, dass das Fahrziel noch nicht eindeutig bestimmt ist, so wird zu dem Ermittlungsschritt 21 zurückverzweigt und es wird eine neue Frage an den Benutzer ausgegeben, mit der weitere Details des Fahrziels abgefragt werden. In einem bevorzugten Ausführungsbeispiel wird zunächst gefragt, ob die in dem Spracheingabeschritt 24 eingegebene Sequenz korrekt eingegeben wurde. Ferner ist es auch möglich, das erste vor dem ersten Prüfschritt erfasste Wort als das erste Wort der Spracheingabe in dem Spracheingabeschritt 24 zu berücksichtigen.

In der Figur 3 ist ein weiteres Ausführungsbeispiel zur erfindungsgemäßen Steuerung einer Spracheingabe und- ausgabeeinheit 2 dargestellt. Das Verfahren beginnt mit einem Initialisierungsschritt 20, an den sich ein Ermittlungsschritt 21 und ein Sprachausgabeschritt 22 anschließen, die den anhand der Figur 2 erläuterten, gleichnamigen Schritten entsprechen. Bei dem Verfahren gemäß der Figur 3 schließt an den Sprachausgabeschritt 22 ein erster Prüfschritt 31 an, in dem überprüft wird, ob seit dem letzten Erreichen des ersten Prüfschrittes 31

beziehungsweise bei einem ersten Erreichen des ersten Prüfschrittes 31 seit dem Initialisierungsschritt 20, eine Taste 8 der Eingabeeinheit 7 gedrückt wurde. Wird in dem ersten Prüfschritt 31 ein Tastendruck festgestellt, so wird zu einem zweiten Prüfschritt 32 verzweigt, in dem in einem ersten Ausführungsbeispiel überprüft wird, ob die Taste 8 zweimal gedrückt wurde. Ist dies der Fall, so wird zu einem Endschritt 34 weiterverzweigt, in dem die Spracheingabe und-ausgabe beendet wird. Eine Fahrzieleingabe erfolgt nun über die an der Eingabeeinheit 7 angeordneten Tasten 8. Wird in dem zweiten Prüfschritt 32 kein zweimaliger Tastendruck festgestellt, so wird zu dem Spracheingabeschritt 24 verzweigt, der dem Spracheingabeschritt 24 gemäß der Figur 2 entspricht. In einem weiteren Ausführungsbeispiel wird von dem zweiten Prüfschritt 32 dann zu dem Endschritt 34 weiterverzweigt, wenn eine Taste 8 länger als ein vorgegebener Zeitraum gedrückt wurde, zum Beispiel länger als zwei Sekunden. Wird in dem ersten Prüfschritt 31 kein Tastendruck festgestellt, so wird zu einem dritten Prüfschritt 25'verzweigt, der inhaltlich dem zweiten Prüfschritt 25 gemäß der Figur 2 entspricht. An den Spracheingabeschritt 24 schließt ein vierter Prüfschritt 26' an, der dem dritten Prüfschritt 26 gemäß der Figur 2 entspricht. Der Endschritt 27 entspricht ebenfalls dem Endschritt 27 gemäß der Figur 2.