Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
DEVICE AND METHOD FOR DIGITAL VOICE PROCESSING
Document Type and Number:
WIPO Patent Application WO/2000/016310
Kind Code:
A1
Abstract:
The invention relates to a device for digital voice processing which comprises a sentence melody generating device for generating a sentence melody for a text, and an editing device for displaying and modifying the generated sentence melody.

Inventors:
KULL HANS (CH)
Application Number:
PCT/EP1999/006712
Publication Date:
March 23, 2000
Filing Date:
September 10, 1999
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
KULL HANS (CH)
International Classes:
G10L13/00; G10L13/02; G10L13/033; (IPC1-7): G10L13/02
Domestic Patent References:
WO1996008813A11996-03-21
Foreign References:
DE19610019A11997-09-18
US5559927A1996-09-24
EP0762384A21997-03-12
Attorney, Agent or Firm:
BETTEN & RESCH (Reichenbachstrasse 19 München, DE)
Download PDF:
Claims:
Patentansprüche
1. Vorrichtung zur digitalen Sprachbearbeitung, welche aufweist : eine SatzmelodieErzeugungseinrichtung zur Erzeugung einer Satzmelodie für einen Text ; und eine Editiereinrichtung zum Anzeigen und Modifizieren der erzeugten Satzmelodie.
2. Vorrichtung nach Anspruch 1, welche ferner aufweist : eine Übersetzungseinrichtung zur Übersetzung des Textes in eine Lautschrift ; wobei die Editiereinrichtung ferner aufweist : eine Einrichtung zum Anzeigen und Modifizieren der erzeugten Lautschrift.
3. Vorrichtung nach Anspruch 1 oder 2, bei der die SatzmelodieErzeugungseinrichtung und/oder die Übersetzungs einrichtung die Satzmelodie und/oder die Lautschrift basierend auf bzw. in Abhängigkeit von einem bestimmten Sprechermodell erzeugen.
4. Vorrichtung nach einem der Ansprüche 1 bis 3, welche ferner aufweist : eine Einrichtung zur Auswahl und/oder Modifikation eines oder mehrerer Sprechermodelle.
5. Vorrichtung nach Anspruch 4, bei der die Einrichtung zur Modifikation von Sprechermodellen aufweist : eine Einrichtung zur Modifikation von Lautschriftelementen zur Erzeugung von Akzenten.
6. Vorrichtung zur Erzeugung digitaler Sprache, welche aufweist : eine Vorrichtung zur digitalen Sprachbearbeitung nach einem der Ansprüche 1 bis 5 ; und eine Einrichtung zur Erzeugung von Sprachsignalen basierend auf der gegebenenfalls mittels der Editiereinrichtung modifizierten Lautschrift und/oder Satzmelodie.
7. Vorrichtung nach Anspruch 6, bei der die Sprachsignal Erzeugungseinrichtung ferner aufweist : eine SprechermodellVerarbeitungseinrichtung zur Erzeugung der Sprachsignale basierend auf bzw. in Abhängigkeit von einem bestimmten Sprechermodell.
8. Vorrichtung nach Anspruch 7, bei der die Sprechermodell Verarbeitungseinrichtung eines oder mehrere der folgenden Merkale aufweist : ein digitales Filtersystem ; eine Einrichtung zur Übernahme eines Satzes von Filterparametern, der ein bestimmtes Sprechermodell reprasentiert.
9. Vorrichtung nach Anspruch 7 oder 8, bei der die Sprechermodell Verarbeitungseinrichtung ferner aufweist : eine Einrichtung Auswahl und/oder Modifikation eines Sprechermodells.
10. Vorrichtung nach einem der Ansprüche 6 bis 9, welche ferner aufweist : eine EffektEinrichtung zur Generierung von Toneffekten.
11. Vorrichtung nach Anspruch 10, wobei die EffektEinrichtung eines oder mehrere der folgenden Merkmale aufweist : eine digitale Filtereinrichtung zur Modifikation der erzeugten Sprachsignale und/oder einen Hallgenerator zur Erzeugung eines HallEffekts.
12. Vorrichtung nach einem der Ansprüche 6 bis 11 welche ferner aufweist : eine ArchivEinrichtung zur Speicherung von Geräuschen ; und eine Mischeinrichtung zur Mischung der erzeugten Sprachsignale mit in der ArchivEinrichtung gespeicherten Geräuschen.
13. Vorrichtung nach einem der vorhergehenden Ansprüche, welche ferner aufweist : eine grafische Benutzerschnittstelle zur Editierung der erzeugten Lautschrift und/oder Satzmelodie.
14. Vorrichtung nach einem der vorhergehenden Ansprüche, welche ferner aufweist : eine Einrichtung zur Modifikation von Sprechrythmus und/oder Aussprache und/oder Betonung.
15. Vorrichtung nach einem der vorhergehenden Ansprüche, welche ferner aufweist : eine Anzeigeeinrichtung, welche die Satzmelodie mittels einer Symbolschrift anzeigt.
16. Vorrichtung nach einem der vorhergehenden Ansprüche, welche ferner aufweist : eine WörterbuchEinrichtung, in der die Wörter einer oder mehrerer Sprachen zusammen mit ihrer Aussprache gespeichert sind.
17. Vorrichtung nach Anspruch 16, bei der in der WörterbuchEinrichtung für mindestens einen Wörterbucheintrag unterschiedliche phonetische Einträge gespeichert sind.
18. Vorrichtung nach einem der Ansprüche 6 bis 17, welche ferner aufweist : eine Einrichtung zur Umsetzung der digitalen Sprachsignale in akustische Signale.
19. Verfahren zur digitalen Sprachbearbeitung, welches folgende Schritte aufweist : Erzeugung einer Satzmelodie für einen Text ; Anzeigen der erzeugten Satzmelodie ; und Editieren der erzeugten und angezeigten Satzmelodie.
20. Verfahren nach Anspruch 19, welches ferner folgenden Schritt aufweist : Verwenden einer Vorrichtung gemäß einem der Ansprüche 1 bis 18 zur Erzeugung digitaler Sprache.
21. Computerprogramprodukt, welches aufweist : ein Medium, insbesondere ein Datenträger, zur Speicherung und/oder Übertragung von digitalen von einem Computer lesbaren Daten, wobei die gespeicherten und/oder übertragenen Daten folgendes aufweisen : eine Abfolge von einem Computer ausfürbarer Befehle, welche diesen veranlassen, ein Verfahren gemäß einem der Ansprüche 19 oder 20 auszuführen.
Description:
VORRICHTUNG UND VERFAHREN ZUR DIGITALEN SPRACHBEARBEITUNG Die vorliegende Erfindung betriffl eine Vorrichtung und ein Verfahren zur digitalen Sprachbearbeitung bzw. Spracherzeugung. Derzeitige Systeme zur digitalen Sprachausgabe werden bisher in Umgebungen eingesetzt, in denen eine synthetische Stimme akzeptabel oder gar erwünscht ist. Die vorliegende Erfindung dagegen betrifft ein System, das es ermöglicht, natürlich wirkende Sprache synthetisch zu erzeugen.

In derzeitigen Systemen zur digitalen Spracherzeugung werden die Informationen zur Satzmelodie und zur Betonung automatisch erzeugt, wie z. B. beschrieben in EP 0689706. In manchen Systemen ist es möglich, zusätzliche Kommandos in den Textstrom einzubauen, bevor dieser dem Spracherzeuger übergeben wird, z. B. in EP 0598599. Diese Kommandos werden z. B. als (nicht aussprechbare) Sonderzeichen eingegeben, wie etwa beschrieben in EP 0598598.

Die in den Textstrom eingebauten Kommandos können auch Angaben zur Charakteristik des Sprechers (d. h. Parameter des Sprechermodells) enthalten. In EP 0762384 wird ein System beschrieben, in dem am Bildschirm auf einer graphischen Benutzeroberfläche diese Sprechercharakteristiken eingegeben werden können.

Die Sprachsynthese erfolgt unter Verwendung von Hilfsinformationen, die in einer Datenbank gespeichert werden (z. B. als"waveform sequence"in EP 0831460).

Für die Aussprache der Wörter, die nicht in der Datenbank gespeichert sind, müssen aber dennoch Regeln zur Aussprache im Programm vorhanden sein. Die Zusammensetzung der einzelnen Sequenzen führt zu Verzerrungen und akustischen Artefakten, wenn keine Massnahmen zu ihrer Unterdrückung getroffen werden. Dieses Problem (man spricht von"segmentaler Qualität) gilt aber heute als weitgehend gelöst (vgl. dazu z. B. Volker Kraft : Verkettung natürlichsprachlicher Bausteine zur Sprachsynthese : Anforderungen, Techniken und Evaluierung. Fortschr.-Ber. VDI Reihe 10 Nr 468, VDI-Verlag 1997). Dennoch besteht auch bei modernen Sprachsynthesesystemen eine Reihe von weiteren Problemen.

Ein Problem in der digitalen Sprachausgabe ist beispielsweise die Mehrsprachen-fähigkeit.

Ein weiteres Problem besteht in der Verbesserung der prosodischen Qualität, d. h. der Güte der Intonation, man vergleiche hierzu etwa"Volker Kraft : Verkettung natürlichsprachlicher Bausteine zur Sprachsynthese : Anforderungen, Techniken und Evaluierung, Fortschr.-Ber. VDl Reihe 10 Nr 468, VDI-Verlag 1997".

Die Schwierigkeit ist darauf zurückzuführen, daß die Intonation aus der orthographischen Eingabeinformation nur unzureichend rekonstruiert werden kann.

Sie ist auch abhängig von höheren Ebenen wie Semantik und Pragmatik sowie Sprechersituation und Sprechertyp.

Allgemein kann gesagt werden, daß die Qualität der heutigen Sprachausgabesysteme den Anforderungen dort genügen, wo der Zuhörer eine synthetische Stimme erwartet oder akzeptiert. Vielfach wird jedoch die Qualitat synthetischer Sprache als nicht ausreichend oder als unbefriedigend empfunden.

Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Vorrichtung und ein Verfahren zu digitalen Sprachbearbeitung zu schaffen, das es ermöglicht, synthetische Sprache von besserer Qualität zu erzeugen.

Es ist ein weiteres Ziel der Erfindung, natürlich wirkende Sprache synthetisch zu erzeugen. Die Anwendungen reichen von der Erzeugung einfacher Texte für Multimedia-Applikationen bis hin zu Filmvertonungen (Synchronisation), Hörspielen, und Hörbüchern.

Selbst wenn die synthetisch erzeugte Sprache natürlich wirkt, sind manchmal Eingriffsmöglichkeiten für die Erzeugung dramaturgischer Effekte erforderlich. Eine weitere Aufgabe der vorliegenden Erfindung besteht daher in der Bereitstellung derartiger Eingriffsmöglichkeiten.

Die vorliegende Erfindung ist in den unabhängigen Ansprüche definiert. Die abhängigen Ansprüche definieren besondere Ausführungsbeispiele der Erfindung.

Im wesentlichen wird die Aufgabe der Erfindung gelost, indem die für einen Text erzeugte Satzmelodie mittels eines Editors modifiziert werden kann.

Besondere Ausführungsformen der Erfindung ermöglichen neben der Editierung der Satzmelodie eine Editierung weiterer Charakteristiken der synthetisch erzeugten Sprache.

Ausgangspunkt ist dabei der geschriebene Text. Um aber eine ausreichende (insbesondere prosodische) Qualität zu erreichen, sowie zur Erzieiung dramaturgischer Effekte werden dem Anwender in einer bevorzugten Ausführungsform weitreichende Möglichkeiten zum Eingreifen gegeben. Der Anwender ist in der Funktion des Regisseurs, der die Sprecher auf dem System definiert und ihnen Sprechrhythmus und Satzmelodie, Aussprache und Betonung vorgibt.

Vorzugsweise umfaßt die vorliegende Erfindung auch das Erzeugen einer Lautschrift für einen geschriebenen Text, sowie das Vorsehen der Möglichkeit die erzeugte Lautschrift zu modifizieren, bzw. die Lautschrift basierend auf modifizierbaren Regeln zu erzeugen. Dadurch kann beispielsweise ein besonderer Akzent eines Sprechers generiert werden.

In einem weiteren bevorzugten Ausführungsbeispiel umfaßt die Erfindung eine Wörterbucheinrichtung, in der die Wörter einer oder mehrerer Sprachen zusammen mit ihrer Aussprache gespeichert sind. In letzteren Fall ermöglicht dies die Mehrsprachenfähigkeit, d. h. die Bearbeitung von Texten verschiedener Sprache.

Vorzugsweise erfolgt die Editierung der erzeugten Lautschrift bzw.

Satzmelodie mittels eines leicht bedienbaren Editors, etwa einer grafischen Benutzerschnittstelle.

In einem weiteren bevorzugten Ausführungsbeispiel werden in die Sprachbearbeitung Sprechermodelle mit einbezogen, die entweder vordefiniert oder vom Benutzer definiert bzw. modifiziert sein können. Dadurch können Charakteristiken verschiedener Sprecher realisiert werden, seien es nun Männer-oder Frauenstimmen, oder aber auch verschiedene Akzente eines Sprechers, etwa ein bayerischer, schwäbischer oder norddeutscher Akzent.

In einer besonders bevorzugten Ausführungsform besteht die Vorrichtung aus einem Wörterbuch, in dem zu allen Wörtern auch die Aussprache in Lautschrift gespeichert sind (wenn nachstehend von Lautschrift die Rede ist, so ist damit eine beliebige Lautschrift gemeint, wie z. B. die SAMPA-Notation, vgl. z. B."Multilingual speech input/output assessment, methodology and standardization, standard computer-compatible transscription, pp 29-31, in Esprit Project 2589 (SAM) Fin.

Report SAM-UCC-037", oder die aus Sprachlehrmitteln bekannte internationale phonetische Schrift, vgl. z. B."The Principes of the International Phonetic Association : Adescription of the International Phonetic Alphabet and the Manner of Using it.

International Phonetic Association, Dept, Phonetics, Univ. College of London"), einem Übersetzer, der eingegebene Texte in Lautschrift wandelt und eine Satzmelodie erzeugt, einem Editor, mit dem Texte eingegeben und Sprecher zugeordnet werden können und in dem sowohl die erzeugte Lautschrift als auch die Satzmelodie angezeigt und verändert werden kann, einem Eingabemodul, in dem Sprechermodelle definiert werden können, einem System zur digitalen Spracherzeugung, das aus der Lautschrift zusammen mit der Satzmelodie gesprochene Sprache repräsentierende Signale bzw. solche Signale repräsentierende Daten erzeugt und das in der Lage ist, verschiedene Sprechermodelle zu verarbeiten, einem System von digitalen Filtern und anderen Geräten (für Hall, Echo usw.) mit dem besondere Effekte erzeugt werden können, einem Geräusch-Archiv, sowie einem Misch-Gerät, in dem die erzeugten

Sprach-Signale zusammen mit Geräuschen aus dem Archiv zusammen gemischt und mit Effekten versehen werden können.

Die Erfindung kann entweder hybrid in Soft-und Hardware oder ganz in Software realisiert werden. Die erzeugten digitalen Sprachsignaie können über ein spezielles Gerät für digital Audio oder über eine PC-Soundkarte ausgegeben werden.

Die vorliegende Erfindung wird nachfolgend anhand mehrerer Ausführungsbeispiele und der Bezugnahme auf die beiliegende Zeichnung in Detail beschrieben.

Figur 1 zeigt ein Blockschaltbild einer Vorrichtung zur digitalen Spracherzeugung gemäß einem Ausführungsbeispiel der vorliegenden Erfindung.

Im nachfolgend beschriebenen Ausführungsbeispiel der vorliegenden Erfindung besteht diese aus mehreren Einzelkomponenten, die mittels einer oder mehrerer digitaler Rechenanlagen realisiert werden können, und deren Funktionsweise und Zusammenwirken nachfolgend genauer beschrieben wird.

Das Wörterbuch 100 besteht aus einfachen Tabellen (für jede Sprache eine), in der die Wörter einer Sprache zusammen mit ihrer Aussprache gespeichert sind. Die Tabellen können für die Aufnahme zusätzlicher Wörter und ihrer Aussprache beliebig erweitert werden. Für besondere Zwecke, z. B. für das Erzeugen von Akzenten können in einer Sprache auch zusätzliche Tabellen mit unterschiedlichen phonetischen Einträgen erzeugt werden. Den verschiedenen Sprechern wird je eine Tabelle des Wörterbuches zugeordnet.

Der Übersetzer 110 erzeugt einerseits die phonetische Schrift, indem er die Wörter des eingegebenen Textes durch ihre phonetischen Entsprechungen im Wörterbuch ersetzt. Falls im Sprechermodell Modifikatoren, die später genauer

beschrieben werden, hinterlegt sind, so verwendet er sie zur Modifikation der Aussprache.

Zusätziich erzeugt er die Prosodie unter Verwendung von in der Sprachverarbeitung bekannten Heuristiken. Solche Heuristiken sind z. B. das Modell von Fujisaki (1992) oder andere akustische Methoden, dann die perzeptuellen Modelle, z. B. das von d'Alessandro und Mertens (1995). Diese, aber auch ältere linguistische Modelle sind z. B. beschrieben in"Thierry Dutoit : An Introduction to Text- to-Speech Synthesis, Kluwer 1997". Dort finden sich auch Verfahren für die Segmentation (setzen von Pausen), welche ebenfalls vom Übersetzer erzeugt wird.

Die Wahl der Verfahren ist dabei von eher untergeordneter Bedeutung, da der Übersetzer lediglich eine Vorgabe der Prosodie erzeugt, welche vom Anwender noch geändert werden kann.

Mit dem Editor 120 hat der Anwender ein Instrument in der Hand, mit dem er Aussprache, Intonation, Betonung, Tempo, Lautstärke, Pausen usw. eingeben und verändern kann.

Zuerst ordnet er den zu verarbeitenden Textabschnitten ein Sprechermodell 130 zu welches später bezüglich Aufbau und Funktionsweise noch genauer erläutert wird. Der Übersetzer reagiert auf diese Zuordnung, indem er die Phonetik und gegebenenfalls die Prosodie dem Sprechermodell anpaßt und neu generiert. Die Phonetik wird dem Anwender in Lautschrift angezeigt, die Prosodie z. B. in einer der Musik entnommenen Symbolik (Notenschrift). Der Anwender hat dann die Möglichkeit, diese Vorgaben zu verändern, sich einzelne Textabschnitte anzuhören und seine Eingaben nochmals zu verbessern usw.

Selbstverständlich können im Editor auch die Texte selbst erfaßt werden, falls sie nicht direkt aus einem anderen Textverarbeitungssystem importiert werden können.

Sprechermodelle 130 sind beispielsweise Parametrisierungen für die Spracherzeugung. In den Modellen werden die Charakteristiken des menschlichen Sprechtrakts nachgebildet. Die Funktion der Stimmbänder wird durch einen Impulsfolge dargestellt, von der nur die Frequenz (pitch) verändert werden kann. Die übrigen Charakteristiken (Mundhöhle, Nasenraum) des Sprechtrakts werden mit digitalen Filtern realisiert. Ihre Parameter werden im Sprechermodel hinterlegt. Es werden Standardmodelle hinterlegt (Kind, junge Dame, alter Mann usw.). Der Anwender kann aus ihnen zusätzliche Modelle erzeugen, indem er die Parameter geeignet wählt oder abändert und das Modell abspeichert. Die hier hinterlegten Parameter werden wahrend der Spracherzeugung, die später genauer erläutert wird, zusammen mit der Prosodie-Information für die Intonation verwendet.

Dabei können auch Besonderheiten des Sprechers wie z. B. Akzente oder Sprachfehler eingegeben werden. Diese werden vom Übersetzer zur Modifikation der Aussprache verwendet. Ein einfaches Beispiel eines solchen Modifikators ist z. B. die Regel, jeweils (in der Lautschrift)"Jt"durch"st"zu ersetzen (für die Erzeugung des Akzents eines Hamburgers).

Ein Sprechermodell kann also beispielsweise die Regeln betreffen, nach denen der Übersetzer die Lautschrift erzeugt, unterschiedliche Sprechermodelle können dabei nach unterschiedlichen regeln verfahren. Es kann jedoch auch einem bestimmten Satz von Filterparametern entsprechen, um die Sprachsignale entsprechend der dadurch vorgegebenen Sprechercharakteristik zu verarbeiten.

Selbstverständlich sind auch beliebige Kombinationen dieser beiden Aspekte eines Sprechermodells denkbar.

Die Aufgabe der Spracherzeugungseinheit 140 besteht darin, aus dem vorgegebenen Text zusammen mit den vom Übersetzer erzeugten und vom Anwender editierten phonetischen und prosodischen Zusatzinformationen einen numerischen Datenstrom zu erzeugen, welcher digitale Sprachsignale reprasentiert. Dieser

Datenstrom kann dann von einem Ausgabegerät 150, etwa einem digitalen Audio-Gerät oder einer Soundkarte im PC, in analoge Tonsignale, den auszugebenden Text, umgewandelt werden.

Für die Spracherzeugung kann ein herkömmliches Text-to-Speech Konversions-verfahren angewendet werden, wobei allerdings die Aussprache und die Satzmelodie bereits erzeugt worden sind. Im allgemeinen unterscheidet man zwischen regelbasierten und verkettungsbasierten Synthesizern.

Regelbasierte Synthesizer arbeiten mit Regeln für die Generierung der Laute und die Übergänge dazwischen. Diese Synthesizer arbeiten mit bis zu 60 Parametern, deren Bestimmung sehr aufwendig ist. Dafür können mit ihnen auch sehr gute Ergebnisse erzielt werden. Eine Übersicht über derartige Systeme und Hinweise zu weiterer Literatur findet sich in"Thierry Dutoit : An Introduction to Text-to-Speech Synthesis, Kluwer 1997".

Verkettungsbasierte Synthesizer sind dagegen einfacher zu handhaben.

Sie arbeiten mit einer Datenbank, welche alle möglichen Lautpaare speichert. Diese können einfach verkettet werden, wobei allerdings qualitativ gute Systeme hohen Rechenzeitbedarf haben. Derartige Systeme sind beschrieben in"Thierry Dutoit : An Introduction to Text-to-Speech Synthesis, Kluwer 1997"und in"Volker Kraft : Verkettung natürlichsprach. icher Bausteine zur Sprachsynthese : Anforderungen, Techniken und Evaluierung. Fortschr.-Ber. VDI Reihe 10 Nr 468, VDI-Verlag 1997".

Grundsätzlich können beide Systemarten verwendet werden. In den regelbasierten Synthesizern fließt die prosodische Information direkt in das Regelwerk ein, wahrend diese in verkettungsbasierten Systemen in geeigneter Weise überlagert wird.

Für die Erzeugung besonderer Effekte 160 werden bekannte Techniken aus der digitalen Signalverarbeitung eingesetzt, wie z. B. digitale Filter (z. B.

Bandpassfilter für Telefon-Effekt), Hallgeneratoren usw. Diese können auch auf in einem Archiv 170 gespeicherte Geräusche angewendet werden. lm Archiv 170 sind Geräusche wie z. B. Straßenlärm, Eisenbahn, Kindergeschrei, Meereswogen, Hintergrundmusik usw. gespeichert. Das Archiv kann mit eigenen Geräuschen beliebig erweitert werden. Das Archiv kann einfach eine Sammlung von Dateien mit digitalisierten Geräuschen sein, es kann aber auch eine Datenbank sein, in der die Geräusche als Blobs (binary large objects) untergebracht sind.

In der Misch-Einrichtung 180 werden die erzeugten Sprachsignale mit den Hintergrundgeräuschen zusammengebaut. Die Lautstarke aller Signale kann dabei vor dem Zusammensetzten reguliert werden. Zudem ist es möglich, jedes Signal einzeln oder alle zusammen mit Effekten zu versehen.

Das Ergebnis des so erzeugten Signals kann an ein geeignetes Gerät für digitales Audio 150, etwa eine Soundkarte eines PC, übergeben und so akustisch überprüft bzw. ausgegeben werden. Zudem ist eine (nicht gezeigte) Speichereinrichtung vorgesehen, um das Signal abzuspeichern, damit es später in geeigneter Weise auf das Zielmedium übertragen werden kann.

Als Misch-Einrichtung kann ein klassisch in Hardware realisiertes Gerät verwendet werden, oder es kann in Software realisiert und in das gesamte Programm eingebunden werden.

Für den Fachmann ergeben sich leicht Modifikationen des oben geschriebenen Ausführungsbeispiels. So kann beispielsweise in einem weiteren Ausführungsbeispiel der vorliegenden Erfindung das Ausgabegerät 150 durch einen weiteren Computer ersetzt sein, der mittels einer Netzwerkverbindung an die Mischeinrichtung 180 angekoppelt ist. So kann beispielsweise über ein

Computernetz, etwa das Internet, das erzeugte Sprachsignal auf einen anderen Computer übertragen werden.

In einem weiteren Ausführungsbeispiel kann auch das von der Spracherzeugungs-einrichtung 140 erzeugte Sprachsignal direkt an das Ausgabegerät 150 übertragen werden, ohne den Umweg über die Mischeinrichtung 180. Weitere vergleichbare Modifikationen ergeben sich für den Fachmann auf zwanglose Weise.