Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DEVICE AND METHOD FOR DIFFERENTIATED SPEECH OUTPUT
Document Type and Number:
WIPO Patent Application WO/2002/050815
Kind Code:
A1
Abstract:
The invention relates to a device and to a method for differentiated speech output. The systems available in a motor vehicle, such as on-board computer, navigation system and others can be linked with a speech output device. The speech output of different systems can be differentiated by voice characteristics.

Inventors:
OBERT GEORG (DE)
BENGLER KLAUS (DE)
Application Number:
PCT/EP2001/013488
Publication Date:
June 27, 2002
Filing Date:
November 21, 2001
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BAYERISCHE MOTOREN WERKE AG (DE)
OBERT GEORG (DE)
BENGLER KLAUS (DE)
International Classes:
G06F3/16; G10L13/00; G10L13/033; (IPC1-7): G10L13/02
Domestic Patent References:
WO2000023982A12000-04-27
Foreign References:
EP0901000A21999-03-10
Other References:
RUTLEDGE J C ET AL: "SYNTHESIZING STYLED SPEECH USING THE KLATT SYNTHESIZER", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP). DETROIT, MAY 9 - 12, 1995. SPEECH, NEW YORK, IEEE, US, vol. 1, 9 May 1995 (1995-05-09), pages 648 - 651, XP000658077, ISBN: 0-7803-2432-3
KLATT D H: "REVIEW OF TEXT-TO-SPEECH CONVERSION FOR ENGLISH", JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, AMERICAN INSTITUTE OF PHYSICS. NEW YORK, US, vol. 82, no. 3, 3 September 1987 (1987-09-03), pages 737 - 793, XP002915849, ISSN: 0001-4966
Attorney, Agent or Firm:
Bullwein, Fritz (Patentabteilung AJ-3, München, DE)
Download PDF:
Claims:
Patentansprüche
1. Vorrichtung zur differenzierten Sprachausgabe (1), die mit einem ersten Sys tem (31) und mindestens einem weiteren System (32,33 bis 3N) verbindbar ist, wo bei der Sprachausgabe des ersten Systems (31) eine erste Stimmcharakteristik zu geordnet ist und der weiteren Sprachausgabe des weiteren Systems (32,33 bis 3N) eine weitere Stimmcharakteristik zugeordnet ist, die sich von der ersten Stimmcha rakteristik hörbar unterscheidet.
2. Vorrichtung nach Anspruch 1 mit einer Sprachsyntheseeinrichtung (10), die Steuerparameter erhält, die eine erste Klasse von dynamischen Parametern und eine zweite Klasse von statischen Parametern aufweisen, wobei die dynamischen Parameter die Artikulation, entsprechend der Bewegung eines Sprachtraktes, und die statischen Parameter die stimmcharakteristischen Merkmale steuert.
3. Vorrichtung nach Anspruch 2, wobei die statischen Parameter eine Genera torgrundfrequenz und/oder feststehende Formanten aufweisen, die vorzugsweise der unterschiedlichen geometrischen Dimension des Sprachtraktes bei einem Kind, einer Frau oder einem männlichen Sprecher entsprechen.
4. Vorrichtung nach Anspruch 3, wobei Generatorund/oder Formantparameter für die Sprachausgabe von verschiedenen Systemen änderbar sind und vorzugs weise hörbare Unterschiede in der Prosodie wie der Dauer und/oder Betonung von Silbensegmenten und/oder der Satzmelodie bewirkt werden.
5. Vorrichtung nach einem der Ansprüche 2 bis 4, wobei die Sprachsynthese einrichtung (10) ein Formantsynthetisator ist, mit dem die stimmcharakteristischen Eigenschaften beeinflußbar sind.
6. Vorrichtung nach Anspruch 5, wobei der Formantsynthetisator geeignet ist, stimmhafte und stimmlose Laute getrennt zu generieren, und wobei insbesondere durch weitere Parameter zusätzliche Resonatoren oder Dämpfungsglieder ein schaltbar sind und/oder die dynamischen Parameter für die Artikulation beeinflußbar sind.
7. Vorrichtung nach einem der Ansprüche 2 bis 6, wobei die dynamischen Pa rameter entsprechend der Abfolge von Wörtern, Sätzen und Satzfolgen in jedem System abgespeichert sind.
8. Vorrichtung nach einem der Ansprüche 2 bis 7, wobei die statischen Para meter als Parametersatz in jedem System gespeichert sind und bei einer erforderli chen Sprachausgabe dieser Parametersatz zur Sprachsyntheseeinrichtung (10) übertragen wird.
9. Vorrichtung nach einem der Ansprüche 2 bis 7, wobei die statischen Para meter für die Systeme als zugeordnete Parametersätze in einem Speicher (20) der Sprachausgabevorrichtung gespeichert sind und abhängig von einem Auswahlsig nal eines Systems ein zugeordneter Parametersatz von der Sprachsyntheseeinrich tung (10) für die Sprachausgabe verwendet wird.
10. Vorrichtung nach einem der Ansprüche 2 bis 9, wobei die Sprachsynthese einrichtung (10) mit einem Verstärker (12) verbunden ist und über einen Audioaus gang (14) des Verstärkers (12) eine Sprachausgabe erfolgt.
11. System zur Verwendung mit einer Vorrichtung nach einem der Ansprüche 1 bis 10, mit einem ersten Ausgang zur Ausgabe von dynamischen Parametern und einem zweiten Ausgang zum Ausgeben eines Auswahlsignals zum Umschalten ei nes Parametersatzes in der Sprachausgabevorrichtung (10).
12. System zur Verwendung mit einer Vorrichtung nach einem der Ansprüche 1 bis 10, mit einem Ausgang zur Ausgabe von dynamischen Parametern und stati schen Parametern vorzugsweise als ein Parametersatz an die Sprachausgabevor richtung (10).
13. Kombination einer Vorrichtung nach einem der Ansprüche 1 bis 10 mit min destens einem ersten und einem weiteren System, wie ein Bordcomputer (31), ein Navigationssystem (32), ein Verkehrsinformationssystem (33), ein EMailSystem (34), oder ein Informationssystem (3N), vorzugsweise zur Verwendung in einem Fahrzeug.
14. Verfahren zur differenzierten Sprachausgabe unter Verwendung einer Vor richtung nach einem der Ansprüche 1 bis 10.
Description:
Vorrichtung und Verfahren zur differenzierten Sprachausgabe Die vorliegende Erfindung betrifft eine Vorrichtung zur differenzierten Sprachausga- be bzw Spracherzeugung und ein zugehöriges Verfahren, Systeme zur Verwendung mit der Sprachausgabevorrichtung und Kombinationen einer Sprachausgabevorrich- tung mit mindestens zwei Systemen, insbesondere zum Einsatz in einem Fahrzeug.

In Fahrzeugen werden einzelne Systeme eingesetzt, die über eine akustische Mensch-Maschine-Schnittstelle zur Sprachausgabe verfügen. Bei diesen Systemen ist jeweils ein Sprachausgabemodul direkt zugeordnet. Die verwendeten sprachpro- duzierenden Verfahren beruhen meist auf Puls-Code-Modulation (= PCM), wobei eine nachfolgende Komprimierung (z. B. MPEG) angeschlossen sein kann. Andere Systeme verwenden Sprachsyntheseverfahren, die hauptsächlich über das Zusam- menstellen von Silbensegmenten (Phoneme) Worte und Sätze bilden (Signalmani- pulation).

Bei den genannten Sprachausgabeverfahren besteht auch eine Sprecherabhängig- keit, die es erfordert, bei Erweiterung des Wort-oder Textumfanges immer wieder den gleichen menschlichen Sprecher für Aufnahmen zu bemühen. Des weiteren erfordern PCM-VerFahren genauso wie eine qualitativ hochwertige Phonemsynthese durch Signalmanipulation erheblichen Speicherplatz, um Texte oder Silbensegmen- te abzulegen. Bei beiden Verfahren nimmt der Speicherplatz noch erheblich zu, wenn unterschiedliche Landessprachen ausgegeben werden sollen.

Weiterhin sind Verfahren bekannt, die auf einer Vollsynthese der Sprache beruhen. Bekannt sind insbesondere Verfahren, die den menschlichen Vokaltrakt als elektri- sche Entsprechung umsetzen und mit einem Tongenerator und mehreren nachge- schalteten Filtern arbeiten (Quelle-Filter-Modell). Ein nach diesem Verfahren arbei- tendes Gerät ist ein sog. Formantsynthetisator (z. B. KLATTALK). Ein solcher For- mantsynthetisator hat den Vorteil, daß die stimmcharakteristischen Eigenschaften beeinflußbar sind.

Der Erfindung liegt die Aufgabe zugrunde, eine Vorrichtung und ein zugehöriges Verfahren bereitzustellen, mit denen eine differenzierte Sprachausgabe möglich ist, sowie Systeme zur Verwendung mit der Sprachausgabevorrichtung und Kombinati- onen einer Sprachausgabevorrichtung mit mindestens zwei Systemen, insbesonde- re zur Verwendung in Fahrzeugen bereitzustellen.

Diese Aufgabe wird mit den Merkmalen der Patentansprüche gelöst.

Die Erfindung hat den Vorteil, daß mit einer einzigen Sprachausgabeeinrichtung bzw Sprachsyntheseeinrichtung Sprachausgaben für verschiedene Systeme mög- lich sind, wobei jedes System durch stimmcharakteristische Unterschiede identifi- zierbar ist.

Gemäß einer bevorzugten Ausführungsform der Erfindung ist für jedes System ein Parametersatz zugeordnet, der von der Sprachsyntheseeinrichtung bei einer Sprachausgabe von diesem System verwendet wird. Beispielsweise wird ein erster Parametersatz für einen Bordcomputer, ein zweiter Parametersatz für ein Navigati- onssystem, ein dritter Parametersatz für Verkehrsinformationen, ein vierter Parame- tersatz für ein TTS-System (Text to Speach-System), wie E-Mail und ein oder meh- rere weitere Parametersätze für zusätzliche Systeme bereitgestellt.

Abhängig von dem zugeordneten Parametersatz erzeugt die Sprachsyntheseein- richtung die Sprachausgabe beispielsweise mit einer weichen weiblichen Stimme, z.

B. für Sprachausgaben eines Navigationssystems, oder mit einer harten männlichen Baßstimme, z. B. für die Sprachausgabe von Verkehrsmeldungen.

Gemäß einer bevorzugten Ausführungsform der Erfindung wird ein Verfahren und eine Vorrichtung für eine Vollsynthese der Sprache verwendet, vorzugsweise ein Formantsynthetisator. Dabei werden die steuerparameter für den Synthetisator in Klassen geteilt. Eine Klasse von dynamischen Parametern steuert die Artikulation, wie die Bewegung des Sprachtraktes beim Sprechen. Eine zweite Klasse von stati- schen Parametern steuert sprechercharakteristische Merkmale, wie die Generator- grundfrequenz und feststehende Formanten, die bei einem Kind, einer Frau oder

einem männlichen Sprecher durch die unterschiedliche geometrische Dimension des Sprachtraktes gebildet werden.

Bei einem erweiterten Modell des Formantsynthetisators ist eine getrennte Generie- rung von stimmhaften und stimmlosen Lauten möglich. Dabei können durch weitere Parameter zusätzliche Resonatoren oder Dämpfungsglieder eingeschaltet oder die dynamischen Parameter für die Artikulation beeinflußt werden.

Die erfindungsgemäße Vorrichtung bzw. das erfindungsgemäße Verfahren ist ins- besondere einsetzbar in Systemen eines Fahrzeuges. Jedes System hat für eine Sprachausgabe zwei Möglichkeiten, die Sprachausgabe zu steuern. Die erste Mög- lichkeit der Sprachausgabe umfaßt das Senden einer Ausgabe von Steuerbefehlen für die Sprachartikulation, wobei die Abfolge der Steuerparameter für Wörter, Sätze und Satzfolgen im System abgespeichert sind. Die zweite Möglichkeit zur Steuerung der Sprachausgabe erfolgt über eine zweite Ausgabe, die einen Parametersatz um- schaltet, der für die Sprechercharakteristik bestimmend ist.

Alternativ oder zusätzlich ist es auch möglich, diesen Parameterdatensatz direkt im System zu speichern und bei einer erforderlichen Sprachausgabe den Parameterda- tensatz in die Sprachsyntheseeinrichtung zu laden.

Gemäß einer weiteren bevorzugten Ausführungsform, die alternativ oder zusätzlich zu den vorstehenden Ausführungsformen einsetzbar ist, können zur Unterscheidung der Informationsquellen, d. h. der Systeme, die eine Sprachausgabe durchführen, die Generator-und Formantparameter zusätzlich dynamisch geändert werden. Da- durch können hörbare Unterschiede in der Prosodie erreicht werden, wie die Dauer und/oder Betonung von Silbensegmenten und/oder der Satzmelodie. Im speziellen kann eine prosodische Modulation in Abhängigkeit z. B. von einer Verkehrslage o- der einer Verkehrssituation für die Sprachausgabe von Ansagetexten genutzt wer- den. Schließlich kann die Brisanz einer Information durch Modulation der Stimme ausgedrückt werden.

Die Erfindung hat den Vorteil, daß z. B. in einem Fahrzeug nur ein einziger Sprach- generator mit kleinem Parameterspeicher von mehreren Informationsquellen ange-

steuert werden kann. Die Informationsquellen können dabei mit unterschiedlichen Stimmcharakteristiken ausgestattet werden.

Bei dem Einsatz einer Vollsyntheseeinrichtung, z. B. einer Vokaltrakt- Syntheseeinrichtung ergibt sich, daß das Verfahren sprecherunabhängig ist und keine hochwertigen Studioaufzeichnungen benötigt werden.

Bei einem erweiterten Formantsynthetisator kann erfindungsgemäß auch emotiona- fer Ausdruck in der Stimme mitgegeben werden.

Durch vorgefertigte Parameterschablonen kann sehr einfach die Stimmcharakteristik verändert werden. Das Verfahren eignet sich auch für die Umsetzung freier Texte in Sprache (Text to Speech), z. B. das Vorlesen von E-Mail.

Die Erfindung wird nachstehend anhand eines Ausführungsbeispiels und der Zeich- nung näher erläutert.

Fig. 1 zeigt eine Prinzipdarstellung einer bevorzugten Ausführungsform der Erfin- dung zur differenzierten Sprachausgabe mit mehreren erfindungsgemäßen Syste- men.

Die in Fig. 1 dargestellte bevorzugte Ausführungsform der Erfindung weist eine Sprachausgabeeinheit 1 mit einer Sprachsyntheseeinrichtung 10 auf, die in dem Beispiel ein Vokaltraktsynthesemodul ist und auf einer Vollsynthese der Sprache beruht. Beispielsweise kann ein Formantsynthetisator wie KLATTALK eingesetzt werden. Die Sprachsyntheseeinrichtung 10 ist mit einem Verstärker 12 verbunden, dessen Ausgang 14 ein Audiosignal liefert, das über einen Lautsprecher (nicht dar- gestellt) Sprache ausgibt. Der Sprachsyntheseeinrichtung 10 sind N Parametersätze 21,22 bis 2N zugeordnet, die in dem gezeigten Beispiel in einem Speicher 20 der Sprachausgabeeinheit 1 gespeichert sind. Weiterhin sind N Systeme 31,32 bis 3N gezeigt, die jeweils über eine Datenverbindung, wie einzelne Leitungen, ein Bussys- tem oder Datenkanäle, mit der Sprachausgabeeinheit 1 verbunden sind. Jedes Sys- tem kann über die Sprachausgabeeinheit eine Sprachausgabe durchführen. Im ein- zelnen ist ein Bordcomputer 31 mit einem zugehörigen Parametersatz für den Bord-

computer 21, ein Navigationssystem 32 mit einem zugehörigen Parametersatz für die Navigation 22, ein Verkehrsinformationssystem 33 mit einem zugehörigen Pa- rametersatz für die Verkehrsinformation 23, ein E-Mail-System wie TTS-System 34 mit einem zugehörigen Parametersatz für E-Mail 24 vorhanden. Es können weitere Systeme 3N mit einem jeweiligen zugeordneten Parametersatz 2N vorgesehen werden. In dem gezeigten Beispiel ist es möglich, unter Verwendung einer einzigen Sprachausgabeeinheit 1 das Navigationssystem 32 zum Beispiel mit einer weichen weiblichen Stimme sprechen zu lassen, die durch den Parametersatz für das Navi- gationssystem 22 bestimmt ist. Weiter kann beispielsweise für Verkehrsmefdungen ein Parametersatz 23 vorgesehen sein, mit dem eine harte männliche Baßstimme bei der Sprachausgabe verwendet wird.

Die Reihenfolge der Sprachausgaben kann zeitlich nacheinander erfolgen entspre- chend dem Eingang des Auftrags zur Sprachausgabe von den Systemen. Vorzugs- weise werden Informationen mit höherer Priorität, z. B. Verkehrsinformationen bei Gefahrsituationen wie Falschfahrer zuerst per Sprachausgabe ausgegeben. Beson- ders bevorzugt werden Informationen mit höchster Priorität, z. B. Informationen vom Bordcomputer über Fehlfunktionen des Fahrzeuges oder einsetzende Fahrbahnglät- te sofort ausgegeben, wobei eine laufende Sprachausgabe unterbrochen werden kann. Die unterbrochene Sprachausgabe kann anschließend zu Ende geführt oder wiederholt werden.

Die Erfindung hat den Vorteil, daß Systeme mit akustischer Anzeige dem Fahrer, ohne ihn von seiner Aufgabe abzulenken, wie das bei visuellen Anzeigen der Fall ist, Auskunft von verschiedenen Systemen bereitzustellen. Durch den Einsatz einer Sprachsyntheseeinrichtung, die von verschiedenen Bordcomputern verwendbar ist, lassen sich Kosten sparen. Gegenüber bisher verwendeten sprachproduzierenden Verfahren bei beispielsweise Navigationssystemen läßt sich der Speicherplatzbe- darf verringern.

Die Erfindung ist insbesondere in vorteilhafter Weise einsetzbar in Kraftfahrzeugen.