Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUTOMATIC GENERATION OF MULTIDIMENSIONAL GRAPHIC REPRESENTATIONS REPRESENTING SIGN LANGUAGE
Document Type and Number:
WIPO Patent Application WO/2005/031701
Kind Code:
A2
Abstract:
The invention relates to the automatic generation of multidimensional graphic representations representing sign language elements, wherein a text to be translated is broken down into a series of text elements associated with sign language elements in a data base. A series of sign language elements is allocated to said series of text elements. A sequence with multidimensional graphic representations of the sign language elements is generated from said sequence of sign language elements.

Inventors:
Gehne, Claus (Erlkamer Str. 30, Holzkirchen, 83607, DE)
Application Number:
PCT/EP2004/052183
Publication Date:
April 07, 2005
Filing Date:
September 15, 2004
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AKTIENGESELLSCHAFT (Wittelsbacherplatz 2, München, 80333, DE)
Gehne, Claus (Erlkamer Str. 30, Holzkirchen, 83607, DE)
International Classes:
G09B21/00; G09B21/00; (IPC1-7): G10L/
Attorney, Agent or Firm:
SIEMENS AKTIENGESELLSCHAFT (Postfach 22 16 34, München, 80506, DE)
Download PDF:
Claims:
Patentansprüche
1. Verfahren zur automatisierten Generierung Gebärdensprach elemente repräsentierender mehrdimensionaler graphischer Dar stellungen, bei dem ein zu übersetzender Text in eine Folge von Textelementen zerlegt wird, deren zugeordnete Gebärdensprachelemente in einer Datenbank abgespeichert sind, der Folge von Textelementen eine Folge von Gebärdensprach elementen zugeordnet wird, aus der Folge von Gebärdensprachelementen eine Folge mit mehrdimensionalen graphischen Repräsentationen der Gebär densprachelemente erzeugt wird.
2. Verfahren nach Anspruch 1, bei dem eine gesprochene Tonfolge mittels eines Spracherken nungsverfahrens in den zu übersetzenden Text umgewandelt wird.
3. Verfahren nach Anspruch 2, bei dem eine zur gesprochenen Tonfolge korrespondierende Fol ge mit mehrdimensionalen graphischen Repräsentationen von Ge bärdensprachelementen zwischengepuffert und um eine durch ei ne Erzeugung der Folge mit mehrdimensionalen graphischen Rep räsentationen der Gebärdensprachelemente aus der gesprochenen Tonfolge bestimmte Zeitdauer verzögert wiedergegeben wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem eine Übersetzung von Texten und/oder gesprochenen Tonfolgen in Gebärdensprache in einem Kommunikationssystem als Dienst bereitgestellt wird.
5. Verfahren nach Anspruch 4, bei dem der Dienst an einem ComputerTelefonieEndgeräte mit Anzeigeeinrichtung zur Übersetzung von Sprachnachrichten ei nes Gesprächtsteilnehmers in Gebärdensprache bereitgestellt wird.
6. Verfahren nach einem der Ansprüche 1 bis 3, bei dem eine Übersetzung von Texten und/oder gesprochenen Tonfolgen in Gebärdensprache zur Aufbereitung von Radio und/oder Fernsehsendungsinhalten bereitgestellt wird.
7. Automatisiertes Übersetzungssystem mit einer Einheit zur Zerlegung eines zu übersetzenden Texts in eine Folge von Textelementen, deren zugeordnete Gebär densprachelemente in einer Datenbank abgespeichert sind, einer Einheit zur Zuordnung der Folge von Textelementen zu einer Folge von Gebärdensprachelementen, einer Einheit zur Erzeugung einer Folge mit mehrdimensio nalen graphischen Repräsentationen von Gebärdensprachele menten aus der Folge von Gebärdensprachelementen.
8. Computerprogramm, das in einen Arbeitsspeicher einer Com putereinrichtung ladbar ist und zumindest eine Codesequenz aufweist, bei deren Ausführung eine Zerlegung eines übersetzenden Texts in eine Folge von Textelementen veranlaßt wird, deren zugeordnete Gebärden sprachelemente in einer Datenbank abgespeichert sind, eine Zuordnung der Folge von Textelementen zu einer Folge von Gebärdensprachelementen veranlaßt wird, eine Erzeugung einer Folge mit mehrdimensionalen graphi schen Repräsentationen von Gebärdensprachelemente aus der Folge von Gebärdensprachelementen veranlaßt wird, wenn das Computerprogramm in der Computereinrichtung abläuft.
Description:
Beschreibung Automatisierte Generierung Gebärdensprachelemente repräsen- tierender mehrdimensionaler graphischer Darstellungen Die vorliegende Erfindung betrifft ein Verfahren zur automa- tisierten Generierung Gebärdensprachelemente repräsentieren- der mehrdimensionaler graphischer Darstellungen, ein automa- tisertes Übersetzungssystem und ein Computerprogramm.

Weltweit sind zahlreiche hörbehinderte Menschen auf Hilfe von Gebärdendolmetschern angewiesen, um über öffentliche Medien bereitgestellte Informations-und Unterhaltungsangebote nut- zen zu können. Als Alternative zu gängigen Untertiteln ist eine simultane Übersetzung in Gebärdensprache insbesondere bei Fernsehsendungen bekannt. Jedoch werden Gebärdendolmet- scher auch bei Informations-und Unterhaltungsangeboten mit hohem Anteil von Wortbeiträgen vornehmlich aus Kostengründen nur äußerst selten eingesetzt.

In WO 98/53438 ist ein Verfahren zur Erzeugung zusammengefüg- ter Zeichensprachbilder beschrieben, bei dem Originalbilder von Sprechern aufgenommen wird und den Originalbild zugeord- nete Charakteristika ermittelt werden. Außerdem werden Sprachsignale der Sprecher aufgenommen und auf korrespondie- rende Zeichensprachbilder untersucht. Dabei ermittelte Zei- chensprachbilder werden an die Charakteristika der Original- bilder der Sprecher angepaßt und zur Erzeugung zusammengefüg- ter Zeichensprachbilder den Originalbildern der Sprecher ü- berlagert. Eine derartige Bildbearbeitung erfordert einen ho- hen Signalverarbeitungsaufwand, der eine Simultan-Übersetzung insbesondere von Live-Sendungen bis zur Unmöglichkeit er- schwert. Außerdem ist bei dem aus WO 98/53438 bekannten Ver- fahren stets ein Originalbild des jeweiligen Sprechers erfor- derlich. Aufgrund dessen ist die Anwendung dieses Verfahrens stets ausgeschlossen, sofern das Originalbild für eine Über- lagerung von Zeichensprachbildern nicht geeignet ist oder gar

nicht vorliegt, wie dies beispielsweise bei zahlreichen Doku- mentarsendungen oder bei Radiosendungen der Fall ist.

Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein einfach zu implementierendes Verfahren zur automatisier- ten Generierung Gebärdensprachelemente repräsentierender Dar- stellungen zu schaffen, das sich für eine Vielzahl von Anwen- dungsumgebungen eignet, und zur Durchführung des Verfahrens geeignete Anordnungen und Gegenstände anzugeben.

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren mit den in Anspruch 1, ein automatisiertes Übersetzungssystem mit den in Anspruch 7 und ein Computerprogramm mit den in An- spruch 8 angegebenen Merkmalen gelöst. Vorteilhafte Weiter- bildungen der vorliegenden Erfindung sind in den abhängigen Ansprüchen angegeben.

Ein wesentlicher Aspekt der vorliegenden Erfindung liegt dar- in, daß aus einer ermittelten Folge von Gebärdensprachelemen- ten unanhängig von einem Sprecher oder einer Nachrichtenquel- le eine Folge mit mehrdimensionalen graphischen Repräsentati- onen der Gebärdensprachelemente erzeugt wird. Die Folge von Gebärdensprachelementen resultiert aus einer Zuordnung zu ei- ner Folge von Textelementen. Diese Folge von Textelementen resultiert wiederum aus einer Zerlegung eines zu übersetzen- den Texts in eine Folge von Textelementen, deren zugeordnete Gebärdensprachelemente in einer Datenbank abgespeichert sind.

Das Vorteil der vorliegenden Erfindung liegt daher darin, daß eine simultane Übersetzung in Gebärdensprache mit vergleichs- weise geringem Rechenaufwand möglich ist. Des weiteren weist die vorliegende Erfindung aufgrund eines nicht erforderlichen Originalbildes eines Sprechers ein weites Anwendungsgebiet auf, das beispielsweise Radiosendungen und Telefonanwendungen umfaßt. Da die Repräsentationen der Gebärdensprachelemente unabhängig vom jeweiligen Sprecher bzw. der jeweiligen Nach- richtenquelle sind können die Repräsentationen der Gebärden-

sprachelemente nach generischen Regel erzeugt werden, was ei- ne Implementierung weiter vereinfacht.

Entsprechend einer vorteilhaften Ausgestaltung der vorliegen- den Erfindung wird eine gesprochene Tonfolge mittels eines Spracherkennungsverfahrens in den zu übersetzenden Text umge- wandelt. Durch eine damit vorausgehende Sprach-Text-Konver- tierung können sprecher-bzw. nachrichtenquellenindividuelle Faktoren bei einer Übersetzung in Gebärdensprache weitgehend eliminiert werden.

Vorteilhafterweise wird eine zur gesprochenen Tonfolge kor- respondierende Folge mit mehrdimensionalen graphischen Reprä- sentationen von Gebärdensprachelementen zwischengepuffert und um eine durch eine Erzeugung der Folge mit mehrdimensionalen graphischen Repräsentationen der Gebärdensprachelemente aus der gesprochenen Tonfolge bestimmte Zeitdauer verzögert wie- dergegeben. Hierdurch läßt sich eine Synchronität zwischen Gebärdensprache und einer mit der gesprochenen Tonfolge ver- knüpften Bildsequenz erzielen.

Entsprechend einer vorteilhaften Anwendung der vorliegenden Erfindung wird eine Übersetzung von Texten bzw. gesprochenen Tonfolgen in Gebärdensprache in einem Kommunikationssystem als Dienst bereitgestellt. Ein solcher Dienst kann insbeson- dere an einem Computer-Telefonie-Endgeräte mit Anzeigeein- richtung zur Übersetzung von Sprachnachrichten eines Gesprächtsteilnehmers in Gebärdensprache bereitgestellt wer- den. Auf diese Weise wird einer großen Anzahl hörbehinderter Menschen die Nutzung des wichtigen Kommunikationsmittels Te- lefon ermöglicht.

Eine weitere vorteilhafte Anwendung der vorliegenden Erfin- dung ist eine Übersetzung von Texten bzw. gesprochenen Ton- folgen in Gebärdensprache zur Aufbereitung von Radio-bzw.

Fernsehsendungsinhalten. Auf diese Weise kann das für hörbe- hinderte Menschen in Radio und Fernsehen zur Verfügung ste-

hende Informations-und Unterhaltungsangebot kostengünstig erheblich erweitert werden.

Die vorliegende Erfindung wird nachfolgend an einem Ausfüh- rungsbeispiel anhand der Zeichnung näher erläutert.

Es zeigt die Figur ein Übersetzungssystem zur automatisierten Generierung Gebärdensprachelemente repräsentierender mehrdi- mensionaler graphischer Darstellungen.

In der Figur sind neben einem automatisierten Übersetzungs- system 101 ein das automatisierte Übersetzungssystem steuern- der Computer 102, ein Mikrophon 103 und ein Monitor 104 zur Wiedergabe von Bildinformationen dargestellt. Das Überset- zungssystem 101 umfaßt einen Analog-Digital-Wandler 111, eine Spracherkennungseinheit 112, eine Textdekompositionseinheit 113, eine Textzuordnungseinheit 114, eine Animationserzeu- gungseinheit 115 sowie eine Datenbank 116. Der Analog- Digital-Wandler 111 ist mit dem Mikrophon 103 verbunden und wandelt von dem Mikrophon 103 aufgenommene analoge Tonfolgen in digitale Datenwörter um, die der Spracherkennungseinheit 112 zugeführt werden. Mit dem Mikrophon 103 werden in Gebär- densprache zu übersetzende Wortbeiträge eines Sprechers auf- genommen.

Die Spracherkennungseinheit 112 wandelt die vom Analog- Digital-Wandler 111 empfangenen digitalen Datenwörter in ei- nen in Gebärdensprache zu übersetzenden Text um. Zur Sprach- erkennung werden in der Spracherkennungseinheit 112 Musterer- kennungsalgorithmen mit hochentwickelten Schätzverfahren auf Basis linguistischer Regeln und einer kontextbezogenen Wis- sensbasis kombiniert. Der durch die Spracherkennungseinheit 112 erzeugte zu übersetzende Text wird nachfolgend durch die Textdekompositionseinheit 113 in eine Folge von Textelementen zerlegt, deren zugeordnete Gebärdensprachelemente in der Da- tenbank 116 abgespeichert sind.

Die von der Textdekompositionseinheit 113 erzeugte Folge von Textelementen wird anschließend der Textzuordnungseinheit 114 zugeführt, welche die Folge von Textelementen unter Rückgriff auf die Datenbank 116 einer Folge von Gebärdensprachelementen zuordnet, die jeweils durch einen Gebärdsprachelement Identi- fikator eindeutig bestimmt sind. Aufgrund dessen erzeugt die Textzuordnungseinheit 114 vorzugsweise keine Folge von kom- pletten Gebärdensprachelementen, sondern lediglich eine Folge von Gebärdensprachelement-Identifikatoren.

Die Folge von der Textzuordnungseinheit 114 erzeugten Folge von Gebärdensprachelement-Identifikatoren wird anschließend der Animationserzeugungseinheit 115 zugeführt. Dort wird aus der Folge von Gebärdensprachelement-Identifikatoren wiederum unter Rückgriff auf die Datenbank 116 eine Folge mit mehrdi- mensionalen graphischen Repräsentationen der Gebärdensprach- elemente erzeugt. Vorzugsweise werden dabei dreidimensionale Graphiken aus einem in der Datenbank 116 abgespeicherten Vor- rat von Graphikprimitiven erzeugt und in einer filmsequenz- ähnlichen graphischen Animation dargestellt. Die Animation kann dabei beispielsweise im MPEG-Format, im QuickTime-Format oder in einem anderen gängigen über Plattformgrenzen portier- baren Format erzeugt werden. Die von der Animationserzeu- gungseinheit 115 erzeugte Animation wird abschließend an den Monitor 104 übermittelt und dort zur Anzeige gebracht. Eine Darstellung der Animation mit einer Gebärdensprachübersetzung kann beispielsweise in einem eigenen Bildbereich 142 darge- stellt werden, der über einen Bildbereich 141 zur Darstellung einer mit der in Gebärdensprache übersetzten Tonfolge ver- knüpften Videosequenz geblendet wird.

Zur Steuerung der automatisierten Generierung Gebärdensprach- elemente repräsentierender mehrdimensionaler graphischer Dar- stellungen ist auf dem Computer 102 ein Programm 123 instal- liert, das in einem Arbeitsspeicher 122 des Computers 102 ladbar und durch einen Prozessor 121 des Computers 102 abar- beitbar ist. Das Computerprogramm 123 weist eine Codesequenz

auf, bei deren Ausführung eine Zerlegung des zu übersetzenden Textes in eine Folge von Textelementen veranlaßt wird, deren zugeordnete Gebärdensprachelemente in der Datenbank 116 abge- speichert sind. Außerdem wird bei Ausführung des Cornputerpro- gramms 123 eine Zuordnung der Folge von Textelementen zur ei- ner Folge von Gebärdensprachelementen veranlaßt. Darüber hin- aus wird bei Ausführung eine Erzeugung einer Folge mit mehr- dimensionalen graphischen Repräsentation von Gebärdensprach- elementen aus der Folge von Gebärdensprachelementen veran- laßt. Diese Schritte werden ausgeführt, wenn das Programm 123 im Computer 102 abläuft. Durch das Programm 123 werden damit der Analog-Digital-Wandler 111, die Spracherkennungseinheit 112, die Textdekompositionseinheit 113, die Textzuordnungs- einheit 114 und die Animationserzeugungseinrichtung 115 des Übersetzungssystems 101 angesteuert. Alternativ dazu ist es möglich, daß der Computer 102 als Modul bzw. die Funktionali- tät des Computers 102 mit dem geladenen Programm 123 in das Übersetzungssystem 101 integriert wird.

Um eine Synchronisierung der auf dem Monitor 104 dargestell- ten Videosequenz mit der Gebärdensprachübersetzung zu erzie- len, wird eine zur gesprochenen Tonfolge korrespondierende Folge mit mehrdimensionalen graphischen Repräsentationen von Gebärdensprachelementen zwischengepuffert. Anschließend wird die zwischengepufferte Folge um eine durch eine Erzeugung der Folge mit mehrdimensionalen graphischen Repräsentationen der Gebärdensprachelemente aus der gesprochenen Tonfolge bestimm- te Zeitdauer verzögert wiedergegeben.

Eine Anwendungsmöglichkeit der vorliegenden Erfindung kann beispielsweise eine Bereitstellung einer Übersetzung von Tex- ten bzw. gesprochenen Tonfolgen in Gebärdensprache als Dienst in einem Kommunikationssystem sein. Ein solcher Dienst kann beispielsweise an einem Computer-Telefonie-Endgerät mit An- zeigeeinrichtung zur Übersetzung von Sprachnachrichten eines Gesprächteilnehmers in Gebärdensprache bereit gesteLlt wer- den. Eine andere Anwendungsmöglichkeit ist eine Bereitstel-

lung einer Übersetzung von Texten bzw. gesprochenen Tonfolgen in Gebärdensprache zur Aufbereitung von Radio-bzw. Fernseh- sendungsinhalten. Durch das vorangehend beschriebene Verfah- ren zur automatisierten Generierung von Übersetzungen in Ge- bärdensprache lassen sich derartige Inhalte deutlich kosten- günstiger als bisher mit Simultanübersetzungen in Gebärden- sprache versehen.

Ein weiterer Dienst auf Basis der vorliegenden Erfindung kann eine Bereitstellung eines Zugriffs auf eine Datenbank sein, in der Textbausteine Gebärdensprachelementen zugeordnet sind.

Eine derartige Datenbank kann kunden-bzw. anwenderseitig zu- sätzlich fachspezifisch erweitert werden. Darüber hinaus kann ein derartiger Dienst für zahlreiche Medienbibliotheken ver- wendet werden, sogar für archivierte bildlose Sprachaufzeich- nungen. Eine Vermarktung von Diensten auf Basis der vorlie- genden Erfindung ist beispielsweise über Archivdienste oder Applikation Service Provider möglich. Generell bieten derar- tige Dienste große Einsparung auf Anbieterseite sowie eine deutliche Steigerung von Informations-und Unterhaltungsange- boten für hörbehinderte Menschen andererseits. Fernsehsendun- gen können beispielsweise durch eine automatisiert generierte Simultanübersetzung in Gebärdensprache anstelle von Bild- schirmuntertiteln begleitet werden.

Die Anwendung der vorliegenden Erfindung ist nicht auf die hier beschriebenen Ausführungsbeispiele beschränkt.