Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
COMPUTER-ASSISTED AID FOR A METHOD FOR DRAWING UP FOREIGN LANGUAGE DOCUMENTS
Document Type and Number:
WIPO Patent Application WO/2005/088471
Kind Code:
A2
Abstract:
The invention relates to a method wherein formatting errors of a machine-assisted translation device are listed (5) and are subjected to a test method (8). Formatting commands in the source text (1) are compared with a list of rules (6, 7). Deviations and/or errors thus ascertained are displayed in a dialog box or electronically stored for further processing.

Inventors:
FINKLER STEPHAN (CH)
Application Number:
PCT/CH2005/000159
Publication Date:
September 22, 2005
Filing Date:
March 16, 2005
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
STAR AG (CH)
FINKLER STEPHAN (CH)
International Classes:
G06F17/21; G06F17/27; G06F17/28; (IPC1-7): G06F17/28
Domestic Patent References:
WO2003065245A12003-08-07
WO1994006086A11994-03-17
Foreign References:
US6338033B12002-01-08
Other References:
"METHOD TO MAKE A TRANSLATED TEXT FILE HAVE THE SAME PRINTER CONTROL TAGS AS THE ORIGINAL TEXT FILE" IBM TECHNICAL DISCLOSURE BULLETIN, IBM CORP. NEW YORK, US, Bd. 32, Nr. 2, 1. Juli 1989 (1989-07-01), Seiten 375-377, XP000033460 ISSN: 0018-8689
Attorney, Agent or Firm:
Seifert, Hans Ulrich (Pestalozzistrasse 2 P.O. Box 1416, Schaffhausen, CH)
Download PDF:
Claims:
Patentansprüche
1. Computergestütztes Hilfsmittel, insbesondere ein Prüfverfahren für ein Verfahren zur Erstellung von fremdsprachigen Dokumenten, bei welchem ein formatierter Quelltext (1 ) mit Hilfe einer maschinellen Übersetzungsvorrichtung (Machine Translation System) und/oder unter Verwendung eines Übersetzungsspeichers (Translation Memory) in einen Zieltext übersetzt wird, dadurch gekennzeichnet, dass mit diesem Hilfsmittel der formatierte Quelltext (1 ) vor einer maschinell unterstützten Übersetzung auf Abweichungen und/oder Fehler bei den Formatierungsbefehlen geprüft (8) wird.
2. Hilfsmittel nach Anspruch 1 , dadurch gekennzeichnet, dass zur Prüfung der Abweichungen und/oder Fehler die Formatierungsbefehle im Quelltext (1 ) mit einer Regelliste (6, 7) verglichen werden.
3. Hilfsmittel nach Anspruch 2, dadurch gekennzeichnet, dass dieses eine Konvertierungsroutine (2) umfasst.
4. Hilfsmittel nach Anspruch 3, dadurch gekennzeichnet, dass die Konvertierungsroutine (2) den zu prüfenden Quelltext (1) aus einem beliebigen Ausgangsformat sowohl als Piain Text (3) als auch in XMLFormat ausgibt.
5. Hilfsmittel nach Anspruch 4, dadurch gekennzeichnet, dass die anhand der Regelliste (6, 7) festgestellten Abweichungen und/oder Fehler in einem Dialogfeld (9) anzeigt werden.
6. Hilfsmittel nach Anspruch 5, dadurch gekennzeichnet, dass die anhand der Regelliste (6, 7) festgestellten Abweichungen und/oder Fehler in einem LogFile (10) gespeichert werden.
7. Datenträger für die Implementierung eines computergestützten Hilfsmittels, insbesondere eines Prüfverfahrens gemäss Anspruch 1 in eine maschinenunterstützte Übersetzungsvorrichtung.
Description:
Computerqestutztes Hilfsmittel für ein Verfahren zur Erstellung von fremdsprachigen Dokumenten

Die vorliegende Erfindung betrifft ein computergestutztes Hilfsmittel für ein Verfahren zur Erstellung von fremdsprachigen Dokumenten gemass Oberbegriff des Anspruchs 1 , sowie einen Datenträger für dieses Hilfsmittel

Verfahren zur Erstellung von fremdsprachigen Dokumenten finden ihre Anwendung ganz allgemein in der Kommunikationstechnologie und insbesondere in technischen Bereichen, wie beispielsweise in der Fahrzeugindustrie, Maschinenindustrie oder Uhrenindustrie, wo Bedienungsanleitungen, Ersatzteilkataloge, Serviceanleitungen und viele andere Dokumentationen in mehrere Sprachen übersetzt werden Derartige Dokumentationen wurden bisher im Wesentlichen von Übersetzern in eine andere Sprache übersetzt, anschliessend von anderen Fachpersonen mit einem vorgegebenen Layout versehen und von weiteren Fachpersonen gedruckt bzw publiziert Es versteht sich, dass diese Vorgehensweise viel Zeit und Geld kostet

Es ist deshalb das allgemeine Bestreben in der Kommunikationstechnologie, das Erstellen von Publikationen in verschiedenen Sprachen zu automatisieren Technische Dokumentationen dieser Art enthalten viele Wiederholungen und eigenen sich deshalb, in einer Terminologie- Datenbank abgelegt zu werden, um die Übersetzer von Routinearbeiten zu entlasten

So sind verschiedene Terminologie-Datenbanken bekannt, welche spezielle Begriffe auf den angesprochenen Gebieten verwalten und den Ubersetzungsprozess bei der Erstellung von mehrsprachigen Publikationen rationalisieren Die dazu verwendeten Computerprogramme machen Gebrauch vom sogenannten Delta-Prinzip, d h dass bei der Übersetzung von nur wenig geänderten Dokumenten lediglich die Teile der Dokumentation manuell bearbeitet werden müssen, welche neu eingebracht worden sind So lassen sich technische Dokumentationen schneller und kostengünstiger erstellen Weiterentwicklungen dieser computerunterstutzten Ubersetzungstechnik sind im Stand, Querverbindungen zwischen einzelnen Publikationen, bspw zwischen einem Ersatzteilkatalog und einer Service-Anleitung, herzustellen

Zur Steigerung der Bearbeitungseffizienz und Ubersetzungsqualitat, insbesondere der konsequenten Verwendung einer fachspezifischen Terminologie, werden heute bei der Übersetzung von Texten maschinenunterstützte Verfahren verwendet, welche als Machine Translation Systems oder Translation Memory Systems bekannt sind. Ein derartiges Translation Memory System ist bspw. aus der EP 1 349 079 oder der EP 0 952 532 bekannt und beruht darauf, einmal erbrachte Übersetzungsarbeiten automatisch wieder zur Verfügung zu stellen, insbesondere übersetzte Begriffe, Sätze oder ganze Textsegmente. Dabei können auch nur teilweise zutreffende Textpassagen aus der Translation Memory zur Wiederverwendung vorgeschlagen werden. Bei der Machine Translation-Technik wird im Wesentlichen über die Kombination von Syntax- und/oder Semantik-Analyse eine automatische Übersetzung maschinell generiert. Ein derartiges Verfahren wird bspw. in der WO 99/57651 oder WO 02/093416 beschrieben.

Die mit Hilfe der Machine Translation oder Translation Memory Systeme übersetzten Originaltexte werden in der Regel direkt wieder als Dokumentationen, d.h. Printmedien, elektronische Publikationen oder als maschinenlesbare Information ausgegeben. Dabei liegen die zu übersetzenden Texte meist in einem proprietären Format vor, typischerweise in einem maschinenlesbaren Code.

Die zu bearbeitenden Originaltexte werden mit Hilfe von unterschiedlichen Layoutgeneratoren (DTP-Programme, wie Word®, QuarkXPress®, FrameMaker®, etc.) erstellt. Diese Layoutgeneratoren verwenden wiederum produktspezifische Hilfsmittel, z.B. Satz- oder Layoutprogramme.

Fehler oder Unregelmässigkeiten der Formatierungsbefehle (Titel, Leerschläge, Zeilenumbruch, Trennzeichen, etc.) bei den mit diesen Layoutgeneratoren erzeugten maschinenlesbaren Codes reduzieren die Trefferquote bei den genannten maschinenunterstützen Übersetzungshilfen (Translation Memory und/oder Machine Translation) und tragen zur Verschlechterung der Übersetzungsergebnisse wesentlich bei.

Es erweist sich deshalb als besonders nachteilig für die Trefferquote bei der maschinenunterstützten Übersetzung, dass die Originaltexte mit gleichen oder ähnlichen semantischen Inhalten wegen ihrer unterschiedlichen Erstellungswege mit unterschiedlichen Layouthilfsmitteln / Layoutcodes erstellt worden sind. Insbesondere führen diese unterschiedlichen Layoutcodes dazu, dass bei der anschliessenden maschinenunterstützten Übersetzung, d.h. beim maschinellen Vergleich der semantischen Inhalte, die Trefferquote schlechter ausfällt, als bei einem Vergleich von Texten mit ähnlichen oder gleichen Layoutcodes. Dies ist die wesentliche Ursache, weshalb Machine Translation und/oder Translation Memory Systeme teilweise weniger hohe Trefferquoten liefern, als auf Grund der Oπgmaltexte selbst zu erwarten wäre Bei der Vorbereitung von Daten für die Übersetzung, insbesondere den Import in eine Ubersetzungsumgebung eines Machine Translation und/oder Translation Memory Systems, werden die vom Erstellungsverfahren erzeugten Layoutbefehle nach Möglichkeit automatisch von den Textdaten getrennt und für die automatische Layoutgeneπerung der übersetzten Daten nach Möglichkeit wieder verwendet (vergleiche WO 99/57651)

Es ist deshalb Aufgabe der vorliegenden Erfindung, die bei der Erstellung und/oder Übernahme von maschinenlesbaren Formatierungscodes entstandenen Fehler oder Unregelmassigkeiten zu bereinigen

Es wird deshalb vorgeschlagen, für die Überprüfung und Verbesserung von maschinenlesbaren Layoutcodes und im Hinblick auf die bei der Erstellung oder Übernahme von maschinenlesbaren Codes entstandenen Fehler oder Unregelmassigkeiten, Mittel (mit oder ohne direkte Interaktionsmoghchkeit) für die Bereinigung dieser Fehler und/oder Unregelmassigkeiten zu schaffen

Erfindungsgemass weisen diese Mittel die Merkmale des Anspruchs 1 auf Insbesondere sieht die vorliegende Erfindung vor, ein computergestutztes Hilfsmittel, insbesondere ein Prüfverfahren für ein Verfahren zur Erstellung von fremdsprachigen Dokumenten einzusetzen, bei welchem ein formatierter Quelltext mit Hilfe einer maschinellen Ubersetzungsvorπchtung (Machine Translation System) und/oder unter Verwendung eines Ubersetzungsspeichers (Translation Memory) in einen Zieltext übersetzt wird, wobei der formatierte Quelltext vor einer maschinellen Übersetzung auf Abweichungen und/oder Fehler bei den Formatierungsbefehlen geprüft wird Dabei werden Abweichungen und/oder Fehler bei den Formatierungsbefehlen im Quelltext mit einer Regelliste verglichen, welche Regelliste Semantik- und Syntax-Regeln, wie auch Regeln für die Formatierung aufweist Mit diesem Hilfsmittel können festgestellte Abweichungen und/oder Fehler bei den Formatierungsbefehlen im Quelltext in einem Log-File gespeichert werden und/oder für eine manuelle Korrektur über ein Dialogfeld angezeigt werden

Weitere bevorzugte Ausfuhrungsformen weisen die Merkmale der Unteranspruche auf Die Vorteile des vorliegenden Hilfsmittels sind dem Fachmann unmittelbar ersichtlich und sind dann zu sehen, dass die vorgeschlagene Bereinigung dazu fuhrt, dass die folgende Weiterverarbeitung und Weiterverwendung der Formatierungscodes, vor allem bei der Übersetzung und der maschinengestutzten automatischen Generierung der Zielpublikation, zu besseren Ubersetzungsergebnissen fuhrt Ganz allgemein kann gesagt werden, dass durch die Verwendung des erfindungsgemässen Hilfsmittels die Fehlerquote bei der automatischen Übersetzung wesentlich verringert wird, weil die Trefferquote bei den Translation Memory und/oder Machine Translation Systemen erhöht wird. Damit reduziert sich auch der Aufwand für die jeweiligen Sachbearbeiter.

Im Folgenden soll die Erfindung anhand eines Ausführungsbeispiels und mit Hilfe der Figur näher erläutert werden. Es zeigt:

Fig. 1 ein Flussdiagramm zum erfindungsgemässen Verfahren.

Diese Figur macht deutlich, wie mit dem erfindungsgemässen Hilfsmittel (Format Checker) die DTP-Qualität (Formatierungsqualität) der einem Übersetzungsverfahren zugeführten Quelldaten geprüft wird. Insbesondere werden alle in einem spezifischen Übersetzungsprogramm auszuschliessenden Fehler (z.B. unzulässiges Leerfeld am Zeilenanfang) in einem Fehlerscript festgehalten. Das erfindungsgemässe Hilfsmittel prüft das Vorkommen bestimmter Fehler und erzeugt für jede Datenprüfung ein Log-File mit einer Rückmeldung über Art und Häufigkeit dieser Fehler. Im Folgenden soll unter dem Begriff „Formatierungsfehler" eine definierte Abweichung von einer Standard gemässen Gestaltung eines vorgegebenen Satzspiegels verstanden werden. Der zu prüfende Text 1 oder Textbaustein wird mit Hilfe eines Konverters 2 aus einem beliebigen Ausgangsformat sowohl als Piain Text 3 als auch im XML-Format (STAR OWN FORMAT) ausgegeben. Der Konverter lässt sich für die Bearbeitung von beliebigen Quellformaten (z.B. WinWord®, FrameMaker®) programmieren und ist im erfindungsgemässen Hilfsmittel integriert. Der Piain Text 3 wird vorzugsweise in Unicode abgebildet. Das XML-Format wird hier ebenfalls in Unicode als Piain Text angezeigt und verwendet zusätzlich die Zeichen der User Defined Area (EOOO - F8FF), um die Formateigenschaften von Dokumentenbausteinen zu beschreiben. Diese Zeichen werden Control Characters oder Controls genannt und können per Definition einfache wie auch komplexe Formatierungsinformationen indizieren. Controls können somit auf kleinste formatierungsrelevante Werte, wie „fett - Anfang", „fett - Ende" etc. oder auf Bilder respektive Graphiken verweisen. Einfache wie auch komplexe Formateinstellungen werden jeweils nur durch ein einziges Control wiedergegeben.

Bei dem erfindungsgemässen Hilfsmittel werden bestimmte Formatierungsfehler in einer Fehlerliste 5 aufgeführt. Bei den Fehlerregeln handelt es sich um reguläre Ausdrücke (regulär expressions), die nach Zeichenketten suchen. Diese Fehlerliste ist im vorliegenden Fall eine ini- Datei, aus welcher das erfindungsgemässe Hilfsmittel die Regeln lädt. Die Regeln werden entweder im Piain Text oder im XML-Format gesucht. Bei den aufgelisteten Fehlerregeln wird zwischen rein Text-bezogene Regeln 6 und solchen Regeln 7 unterschieden, die formatierungsrelevante Daten benötigen, welche über die Controls geliefert werden. Handelt es sich um eine durch eine Text-bezogene Regel definierte Abweichung, steuert das erfindungsgemässe Hilfsmittel den in Piain Text Format abgebildeten Dokumentenmodus an. Im anderen Fall wird der Fehler in der Dokumentenansicht des XML-Format gesucht. Eine Text-bezogene Regel definiert z.B. zwei hinter einander gesetzte Leerschritte als Fehler. Eine Regel, die Controls enthält, könnte beispielsweise einen unzulässigen Formatwechsel anzeigen. Die Liste der Regulär Expressions ist beliebig erweiterbar. Das erfindungsgemässe Hilfsmittel ist über eine Schaltfläche in das Ausgangsprogramm, beispielsweise WinWord®, eingebunden und wird über diese Schaltfläche ansteuert. Durch Aktivieren der Schaltfläche wird der im Bildschirmfenster angezeigte Text in Piain Text und XML-Format umgewandelt. Dies geschieht gleichsam im Hintergrund 8, ohne dass der Text für den Benutzer sichtbar im XML-Format auf dem Bildschirm angezeigt wird. Wird das erfindungsgemässe Hilfsmittel über die Schaltfläche angesteuert, beginnt die Prüfroutine an der jeweiligen Cursor Position im aktuell geladenen Dokument. Da das erfindungsgemässe Hilfsmittel somit an jeder beliebigen Stelle im Dokument mit der Fehlersuche beginnen kann, lässt sich der zu prüfende Bereich beliebig auswählen. Das erfindungsgemässe Hilfsmittel vergleicht formatierungstechnisch bearbeitete Dokumente nach dem Prinzip des Pattern Matching mit Hilfe der unterlegten Regellisten 6 oder 7, wobei die Regelliste der Reihe nach abgearbeitet wird. Übereinstimmungen mit in der Liste definierten Fehlern und dem Dokument werden durch eine Rückmeldung im Ausgangsprogramm auf dem Bildschirm angezeigt. Der Cursor wird von dem erfindungsgemässen Hilfsmittel automatisch an die fehlerhafte Stelle im Dokument gesetzt und es wird ein Dialogfenster 9 mit einer inhaltlichen Beschreibung des Fehlers geöffnet. Mit Hilfe einer Stop-Funktion hat der Benutzer nun die Möglichkeit, das erfindungsgemässe Programm anzuhalten und den Fehler manuell zu korrigieren oder das Programm nach der nächsten Übereinstimmung mit der unterlegten Regelliste weitersuchen zu lassen. Die gefundenen Fehler werden in diesem Fall in einem Log-File 10 ausgegeben.