Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
ACOUSTIC OUTPUT OF NETWORKED DOCUMENTS
Document Type and Number:
WIPO Patent Application WO/2002/031811
Kind Code:
A1
Abstract:
The invention relates to a device for acoustic access to networked documents through a voice network. A control unit divides the commands of a user into navigation commands and output commands and conveys the commands to a processor for navigation and to a synthesis module for output, respectively.

Inventors:
WEGGE KLAUS-PETER (DE)
Application Number:
PCT/DE2000/003550
Publication Date:
April 18, 2002
Filing Date:
October 10, 2000
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
WEGGE KLAUS PETER (DE)
International Classes:
G10L13/04; H04M3/493; (IPC1-7): G10L13/04; H04M3/493
Domestic Patent References:
WO2000021057A12000-04-13
Foreign References:
EP0847179A21998-06-10
EP0848373A21998-06-17
Other References:
BROWN M: "PhoneBrowser : A Web-Content-Programmable Speech Processing Platform", W3.ORG WORKSHOP 1998, XP002175282, Retrieved from the Internet [retrieved on 20010820]
Attorney, Agent or Firm:
SIEMENS AKTIENGESELLSCHAFT (Postfach 22 16 34 München, DE)
SIEMENS AKTIENGESELLSCHAFT (Postfach 22 16 34 München, DE)
Download PDF:
Claims:
Patentansprüche
1. Einrichtung zum akustischen Zugriff über ein Sprach netzwerk auf vernetzte Dokumente, die in einer Markie rungssprache vorliegen, welche Verweise auf über ein Datennetzwerk (20) aufzulösende weitere Objekte ent hält, wobei die Einrichtung mindestens ein mit einem Sprachnetzwerk (20) verbundenes Modem (12), eine Steue rung (14), einen Aufbereiter (16) und ein Synthesemodul (18) aufweist, welche folgende Merkmale aufweisen : das Modem (12) überträgt vom Benutzer eintreffende Kommandos an die Steuerung (16), die Steuerung trennt die Kommandos in solche, die die Navigation im Dokument betreffen und daher an den Aufbereiter gegeben werden, und solche, die die Sprachausgabe betreffen und daher an die Synthesemo dule gegeben werden, der Aufbereiter (16) führt die Naviagtion in den ver netzten Dokumenten durch und gibt eine textuelle Auf bereitung der Dokumente an die Synthesemodul (18), die Synthesemodul (18) wandelt die textliche Aufbe reitung der Dokumente in Sprachausgabe um, welche über das Modem (12) an den Benutzer übertragen wird, wobei die Art der Sprachausgabe durch die Steuerung (14) bestimmt wird.
2. Einrichtung nach Anspruch 1, wobei die Kommandos von der Steuerung an die Synthesemodul auf in der textuel len Aufbereitung von dem Aufbereiter (16) übermittelten Markierungen Bezug nimmt.
3. Einrichtung nach Anspruch 2, wobei die Steuerung in die Ausgabe des Aufbereiters Indices einfügt und die Kom mandos an den Synthesemodul auf einen oder mehrere In dices bezogen sind.
4. Einrichtung nach Anspruch 1, wobei der Aufbereiter die Markierungen der Dokumente mit textlichen Mitteln dar stellt ; insbesondere die Verweise durchnumeriert.
Description:
Akustische Ausgabe vernetzter Dokumente Technisches Gebiet Die Erfindung betrifft eine Einrichtung zur akustischen Ausgabe vernetzter Dokumente.

Stand der Technik In der Patentschrift US 5,825,854 wird ein Telefon- Zugriffssystem für den Zugriff auf einen Computer mittels eines Telefonapparats beschrieben.

Die dort dargestellte Einrichtung umfaßt die Möglichkeit, einen codiert, d. h. als Zeichenfolge, abgespeicherten Text durch eine Sprachausgabeeinheit auszugeben. Ferner ist dar- in dargestellt, daß die Struktur eines Textes analysiert wird und eine Steuerung vorgesehen ist, mittels derer eine Ausgabe entlang den ermittelten Strukturelementen erfolgen kann. Dieses System muß für jeden Typ von Dokument neu pro- grammiert werden ; als Beispiele sind'electronic Mail', das Dateisystem und sonstige Textdokumente, bei denen die er- wänte Strukturanalyse ansetzt, erwähnt.

Zwar kann ein in der Schrift angesprochenes Mail-oder Ter- min-System eine an sich unbegrenzte Zahl von Dokumenten speichern. Es sind aber immer nur Dokumente, die einen Be- zug zu dem Benutzer aufweisen ; indem sie zu seiner Post ge- hören, in seinem Terminkalender auftauchen oder Teil des ihm zugänglichen Dateisystems sind. Jede neue Anwendung, die einen weiteren Bereich von Dokumenten zugänglich macht,

muß erneut programmiert werden, um eine anwendungsspezifi- sche Navigation durch das Dokument zuzulassen.

Darstellung der Erfindung Wünschenswert ist ein System, bei eine a priori unbestimmte und unbegrenzte, nicht dem Benutzer zugeordnete Menge von Dokumenten in einheitlicher Art zugreifbar ist, welches einfach herzustellen ist und dennoch einfach und genau durch einen über ein Sprachnetzwerk zugreifenden Benutzer steuerbar ist.

Die Erfindung benutzt die Erkenntnis, daß eine Markierungs- sprache mit Verweiselementen, wie beispielsweise die Hy- pertext-Markup-Language HTML, in Verbindung mit einem offe- nen Datennetzwerk wie dem Internet eine Möglichkeit bietet, auf eine a priori unbestimmte und unbegrenzte, nicht dem Benutzer zugeordnete Menge von Dokumenten in einheitlicher Art zuzugreifen. Dieser Ansatz wird kombiniert damit, daß die Aufbereitung der Markierungssprache von der Ausgabe ge- trennt ist. Ferner wird von einer Sprachsynthese Gebrauch gemacht, die es erlaubt, eine laufende Sprachausgabe ohne störende Geräusche oder Pausen zu beeinflussen. Eine solche ist beispielsweise in der parallel eingereichten Anmeldung mit dem Titel §Steuerung für eine Sprachausgabe"desselben Erfinders enthalten. Diese verwendet eine Kette von Umset- zern, wobei eine Steuerung die innerhalb der Kette übertra- genen Daten überwacht und bei Eintreffen eines asynchronen Kommandos dieses an den betroffenen Umsetzer sendet und bei zusätzlich zu den Daten Indices erzeugt werden und die Überwachung bevorzugt die Indices betrifft.

Es handelt sich also um eine Einrichtung zum akustischen Zugriff über ein Sprachnetzwerk auf vernetze Dokumente, wo- bei eine Steuerung die Kommandos eines Benutzers in Naviga- tions-und Ausgabekommandos trennt und jeweils einem Aufbe- reiter für die Navigation und einem Synthesemodul für die Ausgabe zuführt.

Weitere Merkmale und Vorteile der Erfindung ergeben sich aus der folgenden Beschreibung, welche in Verbindung mit den beigefügten Zeichnungen die Erfindung an Hand eines Ausführungsbeispiels erläutert.

Kurzbeschreibung der Zeichnungen Es zeigt Fig. 1 ein Blockschaltbild einer Einrichtung zur akusti- sche Ausgabe vernetzter Dokumente nach der Erfin- dung.

Beschreibung einer Ausführungsform der Erfindung In Fig. 1 ist eine Ausführungsform der Erfindung als Block- schaltbild dargestellt. Die im folgenden dargestellten Kom- ponenten sind teils als physische Einschübe, teils als lo- gische Moduln in einem Computer enthalten, der bevorzugt unter dem Betriebssystem Linux betrieben wird. Dieses er- laubt es insbesondere, eine Mehrzahl der beschriebenen Ein- richtungen parallel zu betreiben. Die folgende Beschreibung beschränkt sich auf eine einzelne Einrichtung, da die ent- sprechende Vervielfachung für den Fachmann problemlos mög- lich ist.

Ein Sprachnetzwerk 10, in der Regel das übliche Telefon- netzwerk, ist mit einem Modem 12 verbunden. Es handelt sich dabei um ein Modem, welches insbesondere die Tonwählsigna- le, wie sie ein üblicher Handapparat auszusenden vermag, auf einer Ausgabeschnittstelle auszugeben. Diese normaler- weise im Zweitonverfahren (DTMF) codierten Signale werde auf der Schnittstelle als Zeichen ausgegeben, in der Regel als die Ziffern 0.. 9 und die Sonderzeichen * und #. Diese werden einer Steuerung 14 zugeführt.

Die Steuerung ist ihrerseits mit einem Aufbereiter 16 für vernetzte Dokumente verbunden, der Zugriff auf ein Daten- netzwerk 20 hat. Die vernetzten Dokumente werden bevorzugt in der Sprache HTML gespeichert und über das Internet als Datennetzwerk abgerufen. Hierzu dient ein Aufbereiter, ins- besondere eine leicht modifizierte Form des Programms LYNX, welches die in HTML vorliegenden Seiten in eine textuelle Form bringt. Die Modifikation des LYNX beziehen sich dar- auf, daß die Markierungen, insbesondere die Verweise, durch textliche Mittel gekennzeichnet, insbesondere durchnume- riert, werden.

Ein Teil der Kommandos des Benutzers dient dabei der Na- viagation inerhalb der vernetzten Dokumentenstruktur. So bedeuten die Folge"*0", daß zu dem vorigen Dokument zu- rückgegangen werden soll, und"*5", daß das Dokument des fünften Verweises abgerufen und angesagt werden soll.

Andere Kommandos des Benutzers können die Lautstärke und die Abspielgeschwindigkeit regeln. Diese werden von der Steuerung unmittelbar der Sprachsynthese 18 zugeführt.

Hierzu gehört auch ein Kommando, das die laufende Ansage abbricht.

Dabei ist ein sofortiger abrupter Wechsel oder Abbruch der Ansage regelmäßig unangenehm, da dies als Aufmerksamkeit erheischende Unregelmäßigkeit empfunden wird.

Es ist also eine weitere Aufgabe der Erfindung, eine gat- tungsgemäße Einrichtung anzugeben, bei der die Kontrolle über die Ausgabe vom Benutzer als natürlich empfunden wird.

Hierzu werden Indices benutzt, die bei der Eingabe in die Sprachsynthese eingefügt werden und auf die sich die Befeh- le an die Spracheingabe beziehen. Dabei kann entweder die Steuerung über Parameter den Aufbereiter veranlassen, die Indizes bereits in den aufbereiteten Text einzufügen. Wenn dies nicht möglich oder sinnvoll ist, wird die Ausgabe des Aufbereiters nicht, wie in Fig. 1 gezeigt, direkt an die Sprachsynthese gegeben, sondern zunächst von der Steuerung übernommen, die vor der Weitergabe die Indices einfügt. Ein solcher Index kann beispielsweise einen Verweis markieren.

Gibt der Benutzer über das Sprachnetz das Kommando, den nächsten Verweis anzusagen, dann ermittelt die Steuerung den Index desselben, gibt an den Synthesemodul das Komman- do, die Ausgabe nach dem laufenden Wort abzubrechen und da- nach mit der Ausgabe des indizierten Verweises zu beginnen.

Wird der oben angesprochene Synthesemodule verwendet, der eine gezielt beeinflußbare Pipeline von Komponenten verwen- det, dann kann folgendes erreicht werden : Da das Kommando zum Abbruch nicht unmittelbar, sondern nach dem Ende des Wortes wirkt, können die Komponenten neu geladen werden und die Aufbereitung beginnen, so daß mit Ende des Wortes der syntheseprozeß für die Ansage des Verweises bereits soweit fortgeschritten ist, daß diese in natürlicher Art an das Ende des laufenden Wortes angeschlossen ist.

Ähnliches Überlegungen gelten, wenn eine Beschleunigung der Ausgabe gewünscht wird. Je nach Konfigurierung, die zudem benutzerspezifisch wählbar ist, kann die neue Geschwindig- keit nach dem aktuellen Wort oder aktuellen Satz gelten.

Die Steuerung ermittelt hierfür den passenden Index und be- zieht die neue Geschwindigkeit auf diesen Index. Da die restlichen Teile der Aufbereitung in der Pipeline verblei- ben können, wird ein Abbruch mit nachfolgendem Neustart vermieden.

Da die Steuerung sich auf bereits strukturierte und ver- netzte Dokumente bezieht, ist keine besondere, über die be- reits vorliegende Aufbereitung durch z. B. das Programm LYNX notwendig. Es sind daher nur wenige Steuerbefehle notwen- dig, um auf eine große Anzahl von Dokumenten zugreifen zu können.

Sofern die Steuerung in der Programmiersprache PERL imple- mentiert wird, kann sie sich anstelle des Programms LNYX auch des Moduls"LWP : simple" bedienen, wie er über llhttp ://www. perl. com/CPAN/modules" beziehbar ist. Dieser Modul stellt eine alternative Form eines Aufbereiters mit einer funktionalen Schnittstelle dar.