Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
TRANSCRIPTION DEVICE FOR AUTOMATIC TRANSCRIPTION AND TRANSPHRASING AND CORRESPONDING METHODS
Document Type and Number:
WIPO Patent Application WO/2008/086889
Kind Code:
A1
Abstract:
The invention relates to a transcription device and corresponding methods for the computer-aided transcription and/or transphrasing of non bijectively associated elements of a first (20) and second (50) group by means of an automated transcription device (10), wherein by means of a filter module (113) based on a coding of a first transcription (40), a plurality of transcription variations are generated by variation with indexed filler elements. Each transcription variation is associated with an increment stack (116). For each transcription variation, a corresponding search element is generated. By means of the transcription device (10), databases (71, …, 74) that are arranged in a decentralized manner are accessed via a network (70), wherein the corresponding increment stack (117) is incremented accordingly by means of a trigger module (111) with each triggering of a search element (1211,…,1212). Based on the cumulative increment stacks (117), probability parameters are generated, and, by means of a comparison module (114), a certain transcription is clearly selected based on the probability parameter.

Inventors:
MUELLER EMIL (CH)
RUEF FRANCOIS (CH)
Application Number:
PCT/EP2007/050418
Publication Date:
July 24, 2008
Filing Date:
January 16, 2007
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
NETBREEZE GMBH (CH)
MUELLER EMIL (CH)
RUEF FRANCOIS (CH)
International Classes:
G06F17/22; G06F17/28
Domestic Patent References:
WO2003065248A22003-08-07
Other References:
GREGORY GREFENSTETTE, YAN QU AND DAVID A. EVANS: "Mining the Web to Create a Language Model for Mapping between English names and phrases and Japanese", PROCEEDINGS OF THE IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE (WI04)), 20 September 2004 (2004-09-20) - 24 September 2004 (2004-09-24), Beijing, China, XP002454892, Retrieved from the Internet [retrieved on 20071015]
Attorney, Agent or Firm:
LEIMGRUBER, Fabian (Reussstrasse 22, Basel, CH)
Download PDF:
Claims:

Ansprüche

1. Verfahren zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordenbarer Elemente einer ersten (20) und zweiten (50) Gruppen mittels automatisierten Transkriptionsvorrichtung (10), dadurch gekennzeichnet,

dass mittels MonteCarlo-Modul (1 12) der Transkriptionsvorrichtung (10) unterschiedliche Kombinationen von indexierten Füllelementen generiert und in einer Datenbank (1 15) basierend auf den zugeordneten Indexparameter abgespeichert werden,

dass mittels definierbaren Transkriptionsparametern eines

Basismoduls für ein selektiertes Element der ersten Gruppe (20) eine erste Transkription (40) generiert wird, wobei die jeweiligen verwendeten Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codiert werden,

dass mittels eines Filtermoduls (1 13) basierend auf der Codierung der ersten Transkription (40) und den entsprechenden Transkriptionsstellen eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generiert werden, wobei jede Transskritpionsvariation einem Inkrementationsstack (1 16) zugeordnet ist,

dass für jede Transkriptionsvariation ein entsprechendes Suchelement generiert und mittels Transkriptionsvorrichtung (10) über ein Netzwerk (70) auf dezentralisiert angeordnete Datenbanken (71 ,...,74) zugegriffen wird, wobei der entsprechende Inkrementationsstack (1 17) mittels Triggermodul (1 1 1 ) bei jedem Triggern eines Suchelementes (121 1 ,...,1212) inkrementiert wird,

dass basierend auf den kumulierten Inkrementationsstacks (1 17)

Wahrscheinlichkeitsparameter generiert und mittels Vergleichsmodul (1 14) basierend auf den Wahrscheinlichkeitsparameter eine bestimmte Transkription eindeutig selektiert wird.

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, dass die automatisierte Transkriptionsvorrichtung (10) ein Steuerungs- und Kontrollmodul umfasst zum Steuern von Web-Engines und/oder Konvertierungsvorrichtungen, wobei mittels der Transkriptionsvorrichtung (10) zusätzlich Quelldatenbanken (71 ,...,74) zugreifbar werden.

3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die Füllelemente phonetisch nicht relevante Lautzeichen umfasst.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Füllelemente sinnerhaltende, bekräftigende oder abschwächende Füllworte umfasst.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass mittels der Transkriptionsvorrichtung Elemente der ersten Gruppe (20) Elementen der zweiten Gruppe (59) zugeordnet werden, wobei die Zuordnung der ersten Gruppe (20) in die zweite Gruppe (50) nicht surjektiv ist, während mittels eines Codierungsmoduls (1 1 ) der Transkriptionsvorrichtung die zweiten Gruppe in die erste Gruppe zugeordnet wird, wobei die Zuordnung der zweiten Gruppe zur ersten Gruppe surjektiv ist.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die zweite Gruppe auf kyrillischem Alphabet beruht.

7. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Füllelemente und/oder Transkriptionsvariationen kyrillische oder hebräische Buchstaben umfassen.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass das Netzwerk (70) das internationale Backbone IP- Netzwerk umfasst.

9. Transkriptionsvorrichtung (10) zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordenbarer Elemente einer ersten (20) und zweiten (50) Gruppen, dadurch gekennzeichnet,

dass die Transkriptionsvorrichtung (10) ein MonteCarlo-Modul (122) umfasst zum Generieren unterschiedlicher Kombinationen von indexierten Füllelementen, wobei die Kombinationen in einer Datenbank (125) basierend auf den zugeordneten Indexparameter abgespeichert werden,

dass die Transkriptionsvorrichtung (10) ein Basismodul umfasst zum Generieren einer ersten Transkription basierend auf definierbaren Transkriptionsparametern, wobei die jeweiligen verwendeten

Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codierbar sind,

dass die Transkriptionsvorrichtung (10) ein Filtermodul (123) umfasst, mittels welchem basierend auf der Codierung der ersten Transkription und den entsprechenden Transkriptionsstellen eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generierbar sind, wobei jede Transskritpionsvariation einem Inkrementationsstack (126) zugeordnet ist,

dass die Transkriptionsvorrichtung (10) ein Triggermodul (121 ) umfasst, mittels welchem für jede Transkriptionsvariation ein entsprechendes Suchelement generierbar ist, wobei mittels Netzwerkinterface der Transkriptionsvorrichtung (10) über ein Netzwerk (70) dezentralisiert angeordnete Datenbanken (71 ,...,74) zugreifbar sind, und wobei der entsprechende Inkrementationsstack (126) mittels Triggermodul (121 ) bei jedem Triggern eines Suchelementes (121 1 ,...,1212) entsprechend inkrementiert wird,

dass mittels Transkriptionsvorrichtung (10) basierend auf den kumulierten Inkrementationsstacks (126) Wahrscheinlichkeitsparameter generierbar und mittels Vergleichsmodul (124) basierend auf den Wahrscheinlichkeitsparameter eine bestimmte Transkription eindeutig selektierbar ist.

10. Transkriptionsvorrichtung (10) zur Transkription und/oder Transphrasierung bei automatisierten Search-Engines und Konversionsvorrichtungen, wobei erste Suchbegriffe oder erste Suchsätze (20) mittels Transkriptionsvorrichtung (10) mit zweiten Suchbegriffen oder Suchsätzen (50) verknüpfbar sind, dadurch gekennzeichnet,

dass die Transkriptionsvorrichtung (10) ein MonteCarlo-Modul (122) umfasst zum Generieren unterschiedlicher Kombinationen von indexierten Füllelementen, wobei die Kombinationen in einer Datenbank (125) basierend auf den zugeordneten Indexparameter abgespeichert werden,

dass die Transkriptionsvorrichtung (10) ein Basismodul umfasst zum

Generieren einer ersten Transkription basierend auf definierbaren Transkriptionsparametern, wobei die jeweiligen verwendeten Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codierbar sind,

dass die Transkriptionsvorrichtung (10) ein Filtermodul (123) umfasst, mittels welchem basierend auf der Codierung der ersten Transkription und den entsprechenden Transkriptionsstellen eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generierbar sind, wobei jede Transskritpionsvariation einem Inkrementationsstack (126) zugeordnet ist,

dass die Transkriptionsvorrichtung (10) ein Triggermodul (121 ) umfasst, mittels welchem für jede Transkriptionsvariation ein entsprechendes Suchelement generierbar ist, wobei mittels Netzwerkinterface der Transkriptionsvorrichtung (10) über ein Netzwerk (70) dezentralisiert angeordnete Datenbanken (71 ,...,74) zugreifbar sind, und wobei der entsprechende Inkrementationsstack (126) mittels Triggermodul (121 ) bei jedem Triggern eines Suchelementes (121 1 -1212) entsprechend inkrementiert wird,

dass mittels Transkriptionsvorrichtung (10) basierend auf den kumulierten Inkrementationsstacks (126) Wahrscheinlichkeitsparameter generierbar sind und mittels Vergleichsmodul (124) basierend auf den

Wahrscheinlichkeitsparameter eine bestimmte Transkription eindeutig selektierbar ist.

1 1. Computerprogrammprodukt, welches in den internen Speicher eines digitalen Computers ladbar ist und Softwarecodeabschnitte umfasst, mit denen die Schritte gemäss einem der Ansprüche 1 bis 8 durchführbar sind, wenn das Produkt auf einem Computer läuft.

Description:

Transkriptionsvorrichtung zur automatisierten Transkription und Transphrasierung sowie entsprechendes Verfahren

Die Erfindung betrifft eine Transkriptionsvorrichtung und ein entsprechendes Verfahren zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten und zweiten Gruppe. Die Erfindung betrifft insbesondere Transkriptionsvorrichtungen zur Transkription und/oder Transphrasierung bei automatisierten Search-Engines und Konversionsvorrichtungen, wobei erste Suchbegriffe und/oder erste Suchsätze mittels Transkriptionsvorrichtung mit zweiten Suchbegriffen und/oder Suchsätzen verknüpfbar sind.

Transkription vom lateinischen "trans" hinüber und "scribere" schreiben, also die Umschrift in einen Begriff in einen anderen oder allgemeiner die Zuordnung eines Elementes einer Gruppe zu einer anderen ist ein in der Technik seit langem bekanntes Problem, das in den unterschiedlichsten Gebieten und Ausprägungen auftaucht. So z.B. in der Biologie das

Umschreiben eines Gens von DNA in RNA, in den Sprachwissenschaften die übertragung einer Schreibung oder eines Phonems in eine andere als die ursprüngliche bzw. der jeweiligen Sprache entsprechende Schrift (z.B. vom kyrillischen Alphabet in das lateinische Alphabet), in der Musikwissenschaft neben der Umschreibung von einer Notenschrift in die andere (z.B. bei

Schlüsselwechsel) aber auch die übertragung eines klingenden Werkes in eine Notenschrift, in der qualitativen Sozialforschung das übertragen eines Interviews in eine auswertbare Form, in der Linguistik und insbesondere der Konversationsanalyse das übertragen von gesprochener Sprache, Gesprächen oder auch Gebärden in eine schriftlich fixierte Form, in der

Editionswissenschaften die buchstabengenaue Abschrift eines Textes, in der Filmanalyse der Transfer eines Filmes in eine schriftliche Form, oder in der Wirtschaft die übliche Bezeichnung für die Verschriftlichung des gesprochenen Worts durch eine Schreibkraft, den firmeninternen Schreibdienst oder ein externes Schreibbüro, etc. etc.

All diesen Problemen liegt technisch schlussendlich ein Zuordnungsoder Abbildungsproblem zugrunde. Können die Elemente bijektiv zugeordnet

werden, dass heisst ist die Zuordnung umkehrbar eindeutig, dann ist es häufig ein blosses Codierungsproblem. Bijektivität ist dann vorhanden, wenn jedes Element durch die Transkription auch tatsächlich in ein anderes Element "umgeschrieben" werden kann und zwar nur in ein einziges anderes Element. Die beiden mittels der Transkription verknüpfbaren Elementgruppen sind somit eineindeutig durch die Transkription verbindbar. Bijektive Transkriptionen sind jedoch bei vielen technischen Problemen häufig nicht möglich. Dies ist der Fall, wenn sich z.B. ein Element durch Transkription gleich mehreren anderen zuordnen lässt, z.B. bei der Transkription von Begriffen (z.B. Personen-, Firmen-, Ortsnamen etc.) von einem Alphabet in ein anderes Alphabet (z.B. lateinische Buchstaben in kyrillische). Dieser Art von Transkription kann insbesondere versucht, die phonetischen Regien, die in der einen Sprache (Alphabet) gelten, Lesenden einer anderen Sprache (Alphabet) zugänglich zu machen. Deshalb lassen sich beispielsweise nicht gesprochene Stummzeichen in der Regel nicht kodieren, da sie häufig durch den Sprachgebrauch gegeben sind und mehr oder weniger willkürlich erscheinen können. Ebenfalls ist die Zuordnung meist nicht einfach, wenn die Zuordnung zwar bijektiv möglich ist, aber es zu viele Elemente einer Gruppe gibt und allgemeine Regeln sich nicht aufstellen lassen. Dies kann z.B. bei der Transkription kontinuierlicher Gruppen oder analoger Gruppen (Gruppen mit einer sehr grossen Anzahl von Elementen) in Gruppen mit diskreten Elementen geschehen.

Schriftbasierte Transkription kann z.B. die Darstellung bestimmter Begriffe aus einer Schrift mit Hilfe einer Lautschrift oder angepasst an die Ausspracheregeln einer Zielsprache sein. Jedes Transkriptionssystem ist abgestellt auf Benutzer, die eine Zielsprache sprechen. Die deutsche

Transkription, wie sie z.B. im Duden verwendet wird, kann als Richtlinie für die Wiedergabe kyrillisch geschriebener Namen dienen. Entsprechendes kann z.B. auch für griechische Namen oder Phrasen gelten. Im Stand der Technik werden üblicherweise unterschieden: a) Transkription als aussprachebasierte Darstellung von Sprache mit Hilfe einer phonologischen Notation oder einer phonetischen Lautschrift, oder eines anderen Basisalphabetes als Lautschriftersatz. Vorteile bestehen darin, dass z.B. Nichtmuttersprachlem eine halbwegs richtige Aussprache des Wortes ermöglicht wird; b) Transliteration als schriftbasierte, buchstabengetreue, bei Bedarf wieder umkehrbare Umsetzung

eines Wortes aus einer Schrift (z. B. Kyrillisch) in eine andere (z. B. Lateinisch), oft mit Hilfe von diakritischen Zeichen. Einer der Vorteile davon ist, dass Fachleute die genaue Schreibweise des Wortes in der anderen Schrift darstellen können, die aus bestimmten Gründen nicht direkt abgedruckt werden kann - weil früher keine entsprechenden Typen oder Zeichensätze vorhanden waren oder weil (etwa in Bibliothekskatalogen) ein einheitliches Alphabet zur Sortierung nötig ist; c) Transkription bezeichnet in der Wissenschaft (z.B. Soziologie, Pädagogik, Wirtschaftswissenschaften) auch das Verschriftlichen verbaler Daten (meist Interviews oder Videos). Diese werden in der qualitativen Sozialforschung für die qualitative Datenanalyse benötigt.

Als Beispiel für Transkription kann der Vergleich verschiedener Transkriptionen vom Kyrillischen (am Beispiel der Namen zweier russischer Schriftsteller) in Lateinische Buschstaben genommen werden:

Tabellen von Transkriptions- und Transliterationssystemen existieren für viele Sprachen wie z.B. Bulgarisch, Makedonisch, Russisch, Serbisch, Ukrainisch, Weißrussisch. Auf Japanisch nennt man die Transkription des Japanischen in die lateinische Schrift P — ^ψ {Rδmaji Römerzeichen). Es gibt verschiedene Transkriptionssysteme. Zwei bekannte und auch anerkannte sind das Hebonshiki-System (auf Deutsch: Hepburn-System) und das Kunreishiki-System (auf Deutsch: Kunrei-System). Ersteres wurde durch den amerikanischen Missionar Hepburn verbreitet; letzteres wurde von der damaligen japanischen Regierung erdacht und folgt der Systematik der Kana-Tafel. Transkription z.B. von Japans heiligem Berg, der a ±lll, (wird im Deutschen oft als "Fudschijama" wiedergegeben), schreibt sich nach dem Kunrei-System "Huzisanönach" und nach dem Hepburn-System "Fujisan"

Für die Stimme in Seh und Vokalen gilt:

Beim Hebräischen gibt es die Sonderschwierigkeit, ob man es für eine Sprache hält oder mehrere (biblisches, tiberianisches Hebräisch, Hebräisch der Haskala, Israelisch). Und fürs Israelische gibt es mehrere Aussprachen. Am Hebräisch lässt sich leicht der Unterschied zwischen einer rein phonologischen und einer morpho-phonologischen Transkription zeigen. Als Beispiel kann hier Kibύts - QibbύD genommen werden. Die erste

Schreibung ist rein israelisch und gibt die moderne Standardaussprache wieder. Die Zweite notiert die klassische Schreibung mit q weil p und nicht s (dass heute beide Laute von den meisten Israelis gleich gesprochen werden, ist irrelevant, denn diejenigen die sie gleich aussprechen, sprechen sie immer gleich, schreiben sie aber immer korrekt). Das "bb" entsteht, weil ein Dagsch im bet istn und D statt ts. Dadurch wird die Verwandtschaft mit dem arabischen D bewahrt und gleichzeitig entspricht ein hebräisches Zeichen einem Transkriptionszeichen oder Umschriftzeichen. Mischformen wie Kibbuz und Qibutz sind weniger überzeugend. Der Akut als Transkription gibt z.B. beide Male die betonte Silbe an. In anderen

Transkriptionen werden die Nuancen der Vokalzeichen wiedergegeben, die im Israelischen weder geschrieben noch gesprochen werden oder es kann angezeigt werden, ob ein Vokal ungeschrieben bzw. durch Vokalzeichen geschrieben oder (zusätzlich) durch einen Konsonanten notiert wird. Als weiteres Beispiel kann tapuach - tapύaπ, michtav - miotav genommen werden. Die jeweils erste Umschrift macht keinen Unterschied zwischen n und D, weil die meisten Israelis keinen sprechen. Nachrichtensprecher müssen ihn aber machen (er ist offiziell), ebenso sprechen Israelis, die n wie D sprechen, ihn dann häufig "falsch" aus: die genauere Transkription ist auch bei falscher Aussprache eindeutig. Gleiches gilt z.B. für bayäd ba-yäd, kDshetire kD-se-tire. Im ersten Fall wird zusammengeschrieben, was im Hebräischen zusammengeschrieben wird. Auch im zweiten Fall werden Buchstabencluster respektiert (Leerzeichen und Satzzeichen werden als solche wiedergegeben), aber zusätzlich werden Worte bzw. Funktionspartikel durch Bindestrich abgetrennt und verbunden.

Wie gezeigt, sind die Regeln für Transkription von einem Element in ein anderes meist nicht eindeutig, sondern können nur im Zusammenhang mit dem Sprachgebrauch gefunden werden. Dies hat eine Automatisierung der Transkription bis heute in den meisten Fällen erschwert bzw. verunmöglicht. Codierungen waren nur schwer zu erstellen, da Sprachen typischerweise sehr umfangreich sein können. Gleichzeitig mussten die Codierungen (eins zu eins Zuordnung der Elemente in einem Lookup-Table) permanent und unter grossem Aufwand auf dem neusten Stand gehalten werden.

Die verfügbaren Search-Engines aus dem Stand der Technik lassen sich grob in vier Kategorien unterteilen: Robots/Crawlers, Metacrawlers, Suchkataloge mit Suchmöglichkeiten und Kataloge oder Linksammlungen. Die Funktionsweise von Robots/Crawlers, d.h. Search-Robots oder Crawlers zeichnen sich durch einen Prozess aus (d.h. den Crawler), welcher sich durch das Netzwerk, z.B. das Internet, von Netzwerk-Node zu Netzwerk-Node bzw. von Web-Site zu Web-Site bewegt und dabei den Inhalt jedes Web- Dokumentes, welches er findet, an seinen Host-Rechner zurückschickt. Der Host-Rechner indexiert die durch den Crawler geschickten Web-Dokumente und speichert die Information in einer Datenbank ab. Jede Suchanfrage

(Request) durch einen Benutzer greift auf die Informationen der Datenbank zu. Die Crawlers des Standes der Technik betrachten normalerweise jede Information als relevant, weshalb alle irgendwo gefundenen Web-Dokumente durch den Host-Rechner indexiert werden. Beispiele solcher Robots/Crawlers sind u.a. Google™, Altavista™ und Hotbot™. Die sog. Metacrawlers unterscheiden sich von den Robots/Crawlers durch die Möglichkeit, mittels einer einzigen Sucheinrichtung zu suchen, wobei die Antwort zusätzlich durch eine Vielzahl von weiteren Systemen des Netzes erzeugt wird. Der Metacrawler dient somit als ein Front-End zu einer Vielzahl von weiteren Systemen. Die Antwort auf einen Suchrequest von einem Metacrawler wird typischerweise durch die Anzahl seiner weiteren Systeme begrenzt. Beispiele von Metacrawlers sind u.a. MetaCrawler™, LawCrawler™ und LawRunner™.

Eine weitere Möglichkeit sind Kataloge mit oder ohne Suchmöglichkeiten. Sie zeichnen sich durch eine spezielle Auswahl von Links aus, welche von Hand strukturiert und/oder organisiert und in einer entsprechenden Datenbank abgespeichert werden. Im Fall eines Kataloges mit Suchmöglichkeiten wird bei einem Suchrequest die manuell gespeicherte Information durch das System nach den gewünschten Suchtermen abgesucht. Im Fall eines Kataloges ohne Suchmöglichkeiten muss der Benutzer die gewünschte Information selbst aus der Liste der gespeicherten Links suchen, indem er z.B. manuell durch die Liste klickt oder scrollt. Im letzteren Fall entscheidet der Benutzer selbst, welche Information aus der Liste ihm relevant und welche ihm weniger relevant erscheint. Kataloge sind natürlicherweise durch das Leistungsvolumen und die Prioritäten des/der Editor(en) begrenzt.

Beispiele solcher Kataloge sind u.a. Yahoo!™ und FindLaw™. Kataloge fallen unter die Kategorie der Portale und/oder Vortale. Portale und bis zu einem gewissen Mass z.B. auch proprietäre Datenbanken, wie FindLaw.com™ oder WestLaw.com™, versuchen das Problem auf unterschiedliche Weise zu lösen. Portale versuchen manuell einen überblick über ausgewählte Computer-Sites zu erhalten, indem sie Editoren durchs Internet "surfen" lassen, d.h. den Inhalt beurteilen lassen, und relevante Datenquellen oder Sites zusammenstellen lassen. Die Editoren können pro Tag im Schnitt etwa 10-25 Sites durchsuchen, lesen und evaluieren, wobei von 25 meist nur gerade 1 oder 2 Sites Dokumente mit der gewünschten Qualität oder Information enthalten. Es leuchtet ein, dass Portale für den Anbieter (Provider) bezüglich Zeit-, Kosten- und Arbeitsaufwand sehr ineffizient sind, falls das Ziel eines Portals eine umfassende Indexierung aller verfügbaren Daten zu einem Thema im Internet sein soll. Aus diesem Grund ist es meist so, dass Internet-Portale auch nur Links zu den Start- /Hauptseiten der verschiedenen Sites angeben. Da das Datenangebot auf dem Internet einer starken Dynamik unterliegt, darf sogar gesagt werden, dass mit diesem Verfahren eine vollständige und aktuelle Erfassung aller verfügbaren Daten kaum je möglich sein wird. Unter Vertikale Portale, sog. Vortale, versteht man allgemein Portale, welche ihr Angebot/Auswahl an Informationen auf ein bestimmtes Gebiet beschränken. Vortale besitzen deshalb intrinsisch die gleichen Nachteile wie die oben diskutierten Portale. Im Gegenteil treten die genannten Nachteile bei Vortalen noch mehr in den Vordergrund, da durch ihre Themenbeschränkung der Anspruch an die Qualität und Genauigkeit des Indexierens viel höher angesetzt wird. Dies macht die Aufgabe des Suchens, Lesens und Beurteilens eines kritischen Masses an Informationen noch schwieriger und noch zeitaufwendiger. Ein Beispiel eines solchen Vortals ist u.a. FindLaw.com™, das seit 1995 angeboten und entwickelt wird.

Eines der Hauptprobleme vieler Erfassungssysteme, insbesondere Web-Engines, bildet das Sprachenproblem und das Problem der Transkription. Neu erscheinende Namen und Begriffe können kaum je durch ein System in ihrer Transkription in allen Sprachen und Schreibweisen erfasst werden. Mit den Web-Engines werden deshalb viele relevante Daten und Informationen nicht gefunden. Die internationale Patentanmeldung WO 03/065248 A2 zeigt ein System, welches das Sprachen- und Transkriptionsproblem mittels

Mehrsprachenindex zu lösen versucht. Dabei können Dokumente nach Sprachen parallel gesucht werden oder entsprechend gewertet. Schlussendlich offenbart die US-Patentanmeldung US2005/0102270A1 ein System, welches zusätzlich zur Indexierung versucht, die Dokumente mittels eines Tabellierung basierend auf hierarchischen Indexparameter (Index, Subindex, etc.) für den Benutzer so zu Gliedern, dass er bei einer Vielzahl von gefundenen Dokumenten einen thematisch gegliederten Zugriff zu den Dokumenten bekommt. Das rein tabellarische Aufgliedern der Dokumente kann dem Benutzer jedoch keine Information geben, wie die Themengebiete miteinander verknüpft sind und wie sie sich bezüglich ihrer Relevanz zueinander verhalten. Bei einer grossen Menge von gefundenen Dokumenten ist der Benutzer ebenso verloren, wie bei dem herkömmlichen Relevanzlisting. Mit anderen Worten beruhen beide Anmeldungen auf einer Codierung, in welcher Art auch immer und lassen sich basierend auf diesem Ansatz kaum je automatisieren.

Es ist eine Aufgabe dieser Erfindung, eine neue

Transkriptionsvorrichtung und ein entsprechendes Verfahren zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordenbarer Elemente einer ersten und zweiten Gruppe vorzuschlagen, welches die oben genannten Nachteile des Standes der Technik nicht aufweist. Insbesondere soll die Erfindung ermöglichen, eine Transkriptionsvorrichtung zu realisieren, die sich ohne weiteres Zutun dynamisch an einen neuen Wortgebrauch, insbesondere neu erscheinende Namen, anpasst und automatisiert die richtige Transkription vorschlägt. Ebenso soll die Transkriptionsvorrichtung ohne aufwendige Codierung von Worten auskommen, sondern mit einem minimalen Aufwand erstellbar sein.

Gemäss der vorliegenden Erfindung wird dieses Ziel insbesondere durch die Elemente der unabhängigen Ansprüche erreicht. Weitere vorteilhafte Ausführungsformen gehen zudem aus den abhängigen Ansprüchen und der Beschreibung hervor.

Insbesondere werden diese Ziele durch die Erfindung dadurch erreicht, dass zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten und zweiten Gruppen mittels

automatisierter Transkriptionsvorrichtung mit einem MonteCarlo-Modul unterschiedliche Kombinationen von indexierten Füllelementen generiert und in einer Datenbank, basierend auf den zugeordneten Indexparametern, abgespeichert werden, so dass mittels definierbaren Transkriptionsparametem eine erste Transkription generiert wird, wobei die jeweiligen verwendeten

Transkriptonsparameter entsprechend ihrer Transkriptionsstelle codiert werden, dass mittels eines Filtermoduls basierend auf der Codierung der ersten Transkription und den entsprechenden Transkriptionsstellen, eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generiert werden, wobei jede

Transskritpionsvariation einem Inkrementationsstack zugeordnet ist, dass für jede Transkriptionsvariation ein entsprechendes Suchelement generiert und mittels Transkriptionsvorrichtung über ein Netzwerk auf dezentralisiert angeordnete Datenbanken zugegriffen wird, wobei der entsprechende Inkrementationsstack mittels Triggermodul bei jedem Triggern eines Suchelementes entsprechend inkrementiert wird, dass basierend auf den kumulierten Inkrementationsstacks Wahrscheinlichkeitsparameter generiert und mittels Vergleichsmodul basierend auf den Wahrscheinlichkeitsparametern eine bestimmte Transkription eindeutig selektiert wird. Insbesondere können die Füllelemente z.B. in der Zielsprache phonetisch nicht relevante Lautzeichen umfassen. Ebenso können die Füllelemente z.B. sinnerhaltende, bekräftigende oder abschwächende Füllworte umfassen. Die Erfindung hat u.a. den Vorteil, dass Transkriptionsvorrichtungen erstmals vollständig automatisiert werden können, auch für Transkriptionsprobleme, die sich nicht vollständig durch definierbare Transkriptionsverfahren erfassen lassen. Das Netzwerk kann z.B. das internationale Backbone IP-Netzwerk umfassen. Weiter hat es den Vorteil, dass Transkriptionen, die nur mit grossem Arbeits- und Zeitaufwand z.B. mittels Lookup-Table, d.h. einer eins-zu-eins Codierung der zu zuordnenden Elemente, realisiert werden können, direkt erfassbar sind. Auch neue Namen und Begriffe werden durch die erfindungsgemässe Transkriptionsvorrichtung dynamisch richtig erfasst und verwendet. Dies war mit keinem Stand der Technik bis anhin möglich.

In einer Ausführungsvariante umfasst die automatisierte Transkriptionsvorrichtung ein Steuerungs- und Kontrollmodul zum Steuern von

Web-Engines und/oder Konvertierungsvorrichtungen, wobei mitteis der Transkriptionsvorrichtung zusätzlich Quelldatenbanken zugreifbar werden. Diese Ausführungsvariante hat u.a. den Vorteil, dass diese Systeme auf einer vorgängig definierbaren Gesamtheit an Quellendatenbanken aus einem Netzwerk, insbesondere aus dem Internet (z.B. Web-Sites, Chat Rooms, E-mail Foren etc.) automatisiert zugreifen können, welche ebenfalls nach vorgängig definierbaren Suchkriterien gescannt werden, unabhängig von Sprache, Schrift und Schreibweise. Das System ermöglicht also nicht nur die Generierung einer "Trefferliste" von im Internet gefundenen Web-Sites mit entsprechendem Inhalt, sondern das System ermöglicht das erwähnte Screening von vordefinierbaren Quellen und deren systematische und dadurch quantitativ relevante Auswertung, entsprechend den gewünschten und definierten inhaltlichen Kriterien unabhängig von Sprach- Schreib- und Schriftkriterien. Durch das dynamische Aktualisieren der Transkriptionsvorrichtung kann das System die definierten Quellen zum ersten Mal im Stand der Technik tatsächlich selbständig und über einen grosseren Zeitraum 'monitoren', selbst wenn sich Sprach- und Schreibgebrauch ändern, wie z.B. bei der Einführung neuer Rechtschreibungen z.B. des Dudens oder neu erscheinenden Namen.

In einer anderen Ausführungsvariante wird mittels der Transkriptionsvorrichtung die erste Gruppe der zweiten Gruppe zugeordnet, wobei die Zuordnung der ersten Gruppe in die zweite Gruppe nicht surjektiv ist, während mittels eines Codierungsmoduls der Transkriptionsvorrichtung die zweite Gruppe der ersten Gruppe zugeordnet wird, wobei die Zuordnung der zweiten Gruppe zur ersten Gruppe surjektiv ist. Diese Ausführungsvariante hat u.a. die gleichen Vorteile wie die vorhergehenden Ausführungsvarianten. Insbesondere kann die zweite Gruppe z.B. auf dem kyrillischen Alphabet beruhen. Dies hat den Vorteil, dass sich Transkriptionen in Sprachen wie Bulgarisch, Makedonisch, Russisch, Serbisch, Ukrainisch, Weißrussisch ohne weiteres erfassen lassen. Ein weiterer Vorteil besteht darin, dass Web-Engines basierend auf der erfindungsgemässen Transkriptionsvorrichtung Web-Sides, insbesondere auch New-Groups etc. ohne weiteres erfassen können. Insbesondere können die Füllelemente und/oder Transkriptionsvariationen nicht nur kyrillisch sondern z.B. auch hebräische Buchstaben umfassen. Dies

hat den Vorteil, dass Transkriptionsbegriffe in die entsprechenden Sprachen wie alt/neu Hebräisch erfasst werden.

In einer weiteren Ausführungsvariante wird die Wertungsliste mit den gefundenen Datensätzen und/oder Verweisen auf die gefundenen Datensätze in einem Contentmodul einer Zentraleinheit für einen Benutzer zugreifbar abgespeichert. Diese Ausführungsvariante hat u.a. den Vorteil, dass das System z.B. als Monitor-, überwachungs- und/oder Warnsystem für den Benutzer eingesetzt werden kann.

In einer anderen Ausführungsvariante wird ein Benutzerprofil anhand von Benutzerinformationen erstellt, wobei basierend auf den im Contentmodul abgespeicherten, gefundenen Datensätzen, und/oder Verweisen auf gefundene Datensätze mittels eines Repackagingmoduls unter Berücksichtigung der Daten des Benutzerprofils, benutzerspezifisch optimierte Daten erzeugt werden, welche benutzerspezifisch optimierte Daten dem Benutzer im Contentmodul der Zentraleinheit abgespeichert zur Verfügung stellt. Dem Benutzer können als Ausführungsvariante verschiedene Benutzerprofile für unterschiedliche Kommunikationsvorrichtungen des Benutzers zugeordnet abgespeichert werden. Weiter können z.B. auch Daten zum Benutzerverhalten von der Zentraleinheit automatisch erfasst und dem Benutzerprofil zugeordnet abgespeichert werden. Diese Ausführungsvariante hat u.a. den Vorteil, dass unterschiedliche Accessmöglichkeiten des Benutzers benutzerspezifisch berücksichtigt werden können und das System so benutzerspezifisch optimiert werden kann.

An dieser Stelle soll festgehalten werden, dass sich die vorliegende Erfindung neben dem erfindungsgemässen Verfahren auch auf eine

Transkriptionsvorrichtung zur Ausführung dieses Verfahrens bezieht. Ferner beschränkt es sich nicht auf die genannte Triggervorrichtung und ein entsprechendes Verfahren, sondern bezieht sich ebenso auf ein Computerprogrammprodukt zur Realisierung des erfindungsgemässen Verfahrens.

Nachfolgend werden Ausführungsvarianten der vorliegenden Erfindung anhand von Beispielen beschrieben. Die Beispiele der Ausführungen werden durch folgende Figuren illustriert:

Figur 1 zeigt schematisch die Funktionsweise einer erfindungsgemässen Transkriptionsvorrichtung 10 zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten 20 und zweiten 50 Gruppe mittels der automatisierten Transkriptionsvorrichtung 10.

Figur 2 illustriert schematisch ebenfalls die Funktionsweise einer erfindungsgemässen Transkriptionsvorrichtung 10 zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten 20 und zweiten 50 Gruppe mittels der automatisierten Transkriptionsvorrichtung 10. Dabei wird schematisch genauer das Verfahren gezeigt.

Figur 3 illustriert ebenfalls eine schematische Darstellung einer

Ausführungsvariante des Transkriptionsverfahrens mittels der Transkriptionsvorrichtung 10.

Figur 1 illustriert schematisch eine Architektur, die zur Realisierung der Erfindung verwendet werden kann. In diesem Ausführungsbeispiel werden zur computergestützten Transkription und/oder Transphrasierung nicht bijektiv zuordbarer Elemente einer ersten 20 und zweiten 50 Gruppen mittels automatisierter Transkriptionsvorrichtung 10 mit einem MonteCarlo-Modul 112 der Transkriptionsvorrichtung 10, unterschiedliche Kombinationen von indexierten Füllelementen generiert und in einer Datenbank 115 basierend auf den zugeordneten Indexparameter abgespeichert. Die Füllelemente können z.B. phonetisch nicht relevante Lautzeichen umfassen. Die Füllelemente können z.B. aber auch sinnerhaltende, bekräftigende oder abschwächende Füllworte umfassen. Das Monte-Carlo-Modul 112 kann z.B. probabilistisch Transkriptionen (z.B. rein zufällig oder gemäss einer Wahrscheinlichkeits- Verteilung) generieren, die hernach zur Weiterverarbeitung/Analyse benützt werden. Es ist jedoch wichtig darauf hinzuweisen, dass das Einsetzen der

Füllelemente im Normalfall wie unten beschrieben nach vordefinierbaren Regeln erfolgt. Ob ein Regel zum Einsetzen eines Füllelementes bei der Generierung der unterschiedlichen Transkriptionen jedoch angewandt wird oder nicht, erfolgt dann z.B. probabilistisch mittels des Monte Calro Moduls. Ebenso ist es auch hier bereits wichtig darauf hinzuweisen, dass die

Transkriptionsvorrichtung bzw. das entsprechende Verfahren als Ganzes auf der Wahrscheinlichkeitsverteilung aller möglicher generierbarer Transkriptionen basiert und entsprechend triggert. Mit anderen Worten werden die Transkriptionen selbst i.N. betreffend der Füllelemente nicht probabilistisch generiert, da wie gesagt das Einsetzen der Füllelemente vordefinerten Regeln folgen kann, sondern nur betreffend des Anwendens einer Füllregel bzw. des Nichtanwendens.

Mittels definierbaren Transkriptionsparametern eines Basismoduls wird für ein selektiertes Element der ersten Gruppe 20 eine erste Transkription 40 generiert, wobei die jeweiligen, verwendeten Transkriptionsparameter entsprechend ihrer Transkriptionsstelle codiert werden. Mittels eines Filtermoduls 113, basierend auf der Codierung der ersten Transkription 40 und den entsprechenden Transkriptionsstellen, werden eine Vielzahl von Transkriptionsvariationen durch Variation mit den Kombinationen von indexierten Füllelementen generiert, wobei jede Transskritpionsvariation einem Inkrementationsstack 116 zugeordnet ist. Für jede Transkriptionsvariation wird ein entsprechendes Suchelement generiert und mittels Transkriptionsvorrichtung 10 wird über ein Netzwerk 70 auf dezentralisiert angeordnete Datenbanken 71 ,...,74 zugegriffen, wobei der entsprechende Inkrementationsstack 117 mittels Triggermodul 111 bei jedem Triggern eines Suchelementes 1211 , ...,1212 inkrementiert wird. Basierend auf den kumulierten Inkrementationsstacks 117 werden Wahrscheinlichkeitsparameter generiert und mittels Vergleichsmodul 114 basierend auf den Wahrscheinlichkeitsparameter wird eine bestimmte Transkription eindeutig selektiert. Das Netzwerk 70 kann z.B. das internationale Backbone IP-Netzwerk umfassen. Das Netzwerk 70 kann aber auch z.B. Kommunikationsnetze umfassen wie beispielsweise ein GSM- oder ein UMTS-Netz, oder ein satellitenbasiertes Mobilfunknetz, und/oder ein oder mehrere Festnetze, beispielsweise das öffentlich geschaltete Telefonnetz, das weltweite Internet

oder ein geeignetes LAN (Local Area Network) oder WAN (Wide Area Network). Insbesondere umfasst es auch ISDN- und XDSL-Verbindungen. Eine Transkriptionsvorrichtung 10 greift folglich über das Netzwerk 70 auf mit Quelldatenbanken 71 ,...,74 verbundene Netzwerknodes zu und Daten der Quelldatenbanken 71 ,...,74 werden basierend auf den Transskritpions- variationen selektiert bzw. getriggert. Gemäss der vorliegenden Erfindung ist die Transkriptionsvorrichtung 10 mit den Netzwerknodes bzw. Quelldatenbanken 71 , ...,74 über das Kommunikationsnetz 70 bidirektional verbunden.

Die basierend auf den Suchbegriffen zu triggernden Daten können, wie dargestellt, an unterschiedlichen Orten in unterschiedlichen Netzen oder lokal für die Transkriptionsvorrichtung 10 zugreifbar abgespeichert sein. Die Netzwerknodes mit den Datenbanken 71 ,...,74 können WWW-Server (HTTP: Hyper Text Transfer Protocol / WAP: Wireless Application Protocol etc.), Chat- Server, E-Mail-Server (MIME), News-Server, E-Journal-Server, Group-Server oder beliebige andere File-Server, wie z.B. FTP-Server (FTP: File Transfer Protocol), ASD (Active Server Pages) basierende Server oder SQL basierende Server (SQL: Structured Query Language) etc. umfassen. Mittels der Transkriptionsvorrichtung können z.B. Elemente der ersten Gruppe 20 Elementen der zweiten Gruppe 50 zugeordnet werden, wobei die Zuordnung der ersten Gruppe 20 in die zweite Gruppe 50 nicht surjektiv ist, während mittels eines Codierungsmoduls 11 der Transkriptionsvorrichtung die zweite Gruppe in die erste Gruppe zugeordnet wird, wobei die Zuordnung der zweiten Gruppe zur ersten Gruppe surjektiv ist. Die Elemente der ersten Gruppe 20 und/oder der zweiten Gruppe 50 können z.B. Multimediadaten umfassen u.a. digitale Daten wie Texte, Graphiken, Bilder, Karten, Animationen, bewegte Bilder, Video, Quicktime, Tonaufnahmen, Programme (Software), programmbegleitende Daten und Hyperlinks oder Verweise auf Multimediadaten. Dazu gehören z.B. auch MPx (MP3) oder MPEGx (MPEG4 oder 7) Standards, wie sie durch die Moving Picture Experts Group definiert werden. Insbesondere können die Elemente der ersten 20 und/oder zweiten 50 Gruppe Daten im HTML- (Hyper Text Markup Language), HDML- (Handheld Device Markup Language), WMD- (Wireless Markup Language), VRML- (Virtual Reality Modeling Language) oder XML- (Extensible Markup Language) Format

umfassen. Die zweite Gruppe kann z.B. auf kyrillischem und/oder hebräischem Alphabet beruhen. Die Füllelemente und/oder Transkriptionsvariationen können z.B. kyrillische oder hebräische Buchstaben umfassen.

Für Transkriptionen zwischen kyrillisch und lateinisch geschriebenen Elementen ist die gängige Richtung der Transliteration die Verwandlung von kyrillischen Bezeichnungen und Begriffen, für die es keine übersetzung gibt (also Personen- und Ortsnamen etc.), in Begriffe in lateinischer Schrift. Ziel dieser Transliteration ist es, z.B. russische Begriffe so in lateinische Zeichen zu überführen, dass die Lesenden diese phonetisch richtig aussprechen. Für diese Richtung sind im Stand der Technik zahlreiche Standards bekannt. So z.B. (i) ALA-LC (American Library Association & Library of Congress): Wird in Nordamerikanischen Publikationen oft verwendet; (ii) BGN/PCGN: Ist die gängigste Norm, die für anglophone Menschen relativ intuitiv zu phonetisch guten Resultaten führt; (iii) GOST: Wurde 1971 in der UdSSR entwickelt und wird bis heute weiterentwickelt. Die neuste Version dieses Standards (GOST 7.79) ist die offizielle Norm, die in Russland und den anderen Ex-UdSSR- Staaten angewandt wird.

Bei der Transliteration von kyrillisch in lateinisch gibt es üblicherweise kein richtig oder falsch, was sich schon aus den unterschiedlichen Standards ergibt. So kann etwa Muxami TopöaneB als

Michail Gorbatschov, Mikhail Gorbachev, Michail Gorbatschev etc. geschrieben werden. Anders verhält es sich bei der Transkription von lateinisch in kyrillisch. Diese Richtung kann z.B. benützt werden, um englische, französische, deutsche etc. Namen in kyrillische zu verwandeln. Auch dies ist relativ einfach, da es kein richtig oder falsch gibt. Sollen jedoch ursprünglich russiche Namen, die nur in der lateinisch geschriebenen Form vorliegen, wieder in Kyrillisch transformiert werden, wird die Sache schwieriger. Denn von russischen Namen gibt es auf kyrillisch nur eine richtige Schreibweise. Es ist ein Vorteil der Erfindung, dass sich mittels der erfindungsgemässen Transkriptionsvorrichtung 10 die oben erwähnten Standards (ALA-LC, BGN/PCGN etc.) umkehren und schliesslich die transliterierten Namen mittels Datenbanken 71 ,...,74, wie insbesondere z.B. Google, auf ihre Richtigkeit überprüfen lassen. Für Begriffe, die nicht in den Datenbanken 71 ,...,74, insbesondere dem Internet existieren,

kann die Transkriptionsvorrichtung z.B. eines der oben erwähnten Standardverfahren verwenden. Es ist jedoch ein klarer Vorteil, dass wenn die Transkriptionsvorrichung 10 einen Transliterierungsvorschlag basierend auf dem erfindungsgemässen Verfahren mittels der Datenbanken 71 ,...,74 macht, dieser mit Sicherheit der Richtige ist.

Zur Generierung der ersten Transkription mittels definierbaren Transkriptionsparametern des Basismoduls für ein selektiertes Element der ersten Gruppe 20 kann die Transkriptionsvorrichtung z.B. einen Zusammenzug der beiden Standards ALA-LC und BGN/PCGN benutzen. Beiden Normen ist eigen, dass die entsprechenden Abbildungen des kyrllischen Schriftsatzes auf den Lateinischen nicht injektiv sind. Das bedeutet, dass zwei verschiedene kyrillische Zeichen auf das gleiche lateinischen Zeichen abgebildet werden können. Für die Umkehrung der Abbildung heisst dies, dass ein lateinisches Zeichen zwei unterschiedliche kyrllische Varianten erzeugen kann. Zudem existieren im Russischen stumme Zeichen (vergleichbar mit dem N rT in Fehler), die dazu führen, dass Konsonanten weicher oder härter ausgesprochen werden. Die beiden stummen Zeichen sind V , das den vorhergehenden Konstanten weicher, und " V, das den vorhergehenden Konsonanten härter macht. Diese beiden Zeichen können von keinem der Transliteratoren und Transkriptionsvorrichtungen des Standes der Technik berücksichtigt werden. Erst durch die erfindungsgemässe Transkriptionsvorrichtung 10 können z.B. russische Namen korrekt von ihrem lateinischen in das kyrillische Pendant verwandelt werden. Prominentestes Beispiel, bei dem alle Transliteratoren des Standes der Technik versagen, ist Boris Yeltsin noch Bopnc Eπbu,w-i. Der dritte Buchstabe im Nachnamen ist der „Weichmacher" V.

In der Transkriptionsvorrichtung 10 kann in einem ersten Schritt z.B. der lateinisch geschriebene Text Zeichen für Zeichen in kyrillische Zeichen übersetzt werden. Dabei wird für jede mögliche Verzweigung eine Kopie des Resultats erstellt. Am Schluss dieses Prozesses gibt es für jede theoretisch, aufgrund der phonetischen Regeln möglichen Variante eine Schreibweise. Ein Beispiel findet sich in Fig. 3. Bei der Verwandlung einzelner Buchstaben können folgende Kriterien berückstichtig: (i) Ist der Buchstabe ein Konsonant oder ein Vokal; (ii) Ist der Zielbuchstabe jotiert (ju statt u); (iii) Folgt als nächstes

ein Konsonant oder ein Vokal; (iv) Steht der Buchstabe am Schluss oder am Anfang eines Wortes; (v) Ist der Buchstabe teil einer Buchstabenkombination, die immer gleich transliteriert wird. Diese fünf Kriterien bestimmen die möglichen Transliterierungen. Sie können z.B. aus den Normen ALA-LC und BGN/PCGN abgeleitet. BGN/PCGN ist ein Verfahren, mittels welchem kyrillische Begriffe, insbesondere russische Ausdrücke, in lateinische Ausdrücke übertragen werden können. Das Verfahren für kyrillische Ausdrücke ist ein Verfahren einer grosseren Auswahl von BGN/PCGN Verfahren (zurzeit werden 29 verschiedenen Sprachen durch BGN/PCGN erfasst). Die BGN/PCGN Verfahren wurden durch das United States Board on Geographical Names und durch das Permanent Commitee on Geographical Names for British Official Use entwickelt. Die Verfahren zur Unterstützung von Transliterationen in kyrillischen Buchstaben, insbesondere russischen Ausdrücken, wurde 1944 durch BGN und 1947 durch PCGN aufgenommen. Die Transliteration basiert dabei ausschliesslich auf der Verwendung der Grundbuchstaben und Punktuationen, welche sich auf der Englischen Ausführung von Standard-Tastaturen und Keyboards befinden. Damit werden für BGN/PCGB keine Sonderzeichen benötigt, obwohl zur Vermeidung von Doppeldeutigkeiten die Verwendung des Zeichens ( ) zugelassen wird. In vielen Publikationen wird eine vereinfachte Form des BGN/PCGN verwendet, z.B. zur Transkription von Englischen in Russische Ausdrücke, indem typischerweise e zu yo konvertiert wird, -iy und -yy Endungen zu -y vereinfacht werden, und Apostrophe für t und b vermieden werden. Edward Allworth, als Beispiel, verwendet ein BGN/PCGN basierendes Verfahren in seinem Buch "Nationalities of the Soviet East - Publications and Writing Systems". Er überträgt e und e immer zu e bzw. e und substituiert ein i für y von M, K> und fi, was das Verfahren ähnlich zu eine Version des ALA-LC Systems ohne diakritische Zeichen macht. Die folgende Tabelle illustriert das BGN/PCGN Verfahren mit Beispiel:

Z " hen Spezieile Bestimmungen [ Beispiele

(russisch)

,ä3OB = äZOV

(A (a) :A(a) Keine

TaiviδoB = Tambov

' BapHayn = Barnaul

•B(6) ; B(b) Keine KyOaHb = Kuban'

BπaßMMMp = Vladimir

I B (B) V(V) « Keine YjibfiHOBCK = Ul'yanovsk

!r(r) ' rpo3HbiPi = Groznyy

G(g) Keine

, BoπroflOHCK = Volgodonsk

jfl3ep>KMHCKMM = Dzerzhinskiy ifl(fl) D(d) Keine HennflOBo = Nelidovo

1. EπM3OBO = Yelizovo

1. Wort (anfänglich);

2. nach Vokalen; 2. HaπaβBCK = Chapayevsk;

:γe (ye) 3. nach M;

!E(e) 3. Ma^ep = May_yer;

4. nach b;

5. nach t.

Ba3bMa = Vyaz'ma

_ MpKyrcK = Irkutsk

[H(M) (i) Keine AπaTMTbi = Apatity j Vora, y, bi, odera. Hauptsächlich verwendet I zur Transliteration von Namen aus nichtrussischen Sprachen non-

Y- (y) Kaήaφa = Kay-afa ■ Russian-Ianguage names

\A (M) .von der Russischen «Schreibweise. Die I Verwendung des Digraph ; ist optional.

λoujκap-Oπa = Yoshkar-Ola

»Y (y) ■ Alle anderen Fälle : EMMCK = Biysk

KnpoB = Kirov

K(κ) ;K(k) Keine

! EHHcekicK = Yeniseysk iJloMOHocoB = Lomonosov JI(Ji) L(I) [Keine

I ! HennflθBθ = Nelidovo

! MeHfleπeeB = Mendeleyev

M (M) M(m) ] Keine ! KawieHKa = Kamenka jHoßocHöMpcK = Novosibirsk

I H (H) N(n) Keine i KaHflaπaKiua = Kandalaksha j

,OMCK = Omsk

O (o) O(o) [Keine KpacHOfipcK = Krasnoyarsk ,π(π) πeτpo3aßθflcκ = Petrozavodsk

P(P) i Keine CepπyxoB = Serpukhov j POCTOB = Rostov

I P (P) R(r) Keine j CeBepo6aMκaπbcκ = ! Severobaykal'sk

C(c) CκoBopoflHHθ = Skovorodino

S(s) I Keine MaPiKOBCKMM = Chaykovskiy

TaiviδoB = Tambov T(τ) τ(t) j Keine I MbITMIi(M = Mytishchi

[YmMH = Uglich v(y) U(U) Keine

; flyflMHKa = Dudinka φ(φ) |φypMaHθB = Furmanov

F(f) (Keine "Yφa = Ufa

[XaβapoBCK = Khabarovsk iX ( x ) Kh (kh) j Keine ■ npoxnaflHbiM = Prokhladnyy

U404) Ts (ts) : Keine i = TSimlyansk

EπbuiHH = Yel'tsin

He6oκcapbi = Cheboksary

M (H) ,Ch (Ch) Keine rienopa = Pechora

UJaxrepcK = Shakhtersk

LU (LU) «Sh (Sh) Keine MbiujKMH = Myshkin

L14enκoBθ = Shchelkovo

LH (U-O ϊShch (shch) Keine PTMLμeBo = Rtishchevo

Diese Zeichen kommt am

" b " " Anfang eines Wortes nicht πofli3e3flHθki = Pod"yezndoy ivor.

Vor a, y, bi, oder a Hauptsächlich verwendet zur Transliteration von Namen aus nichtrussischen Sprachen non-

1 Y- (y) BbiyflMTb = Vy-udit' ; Russian-language names ' von der Russischen [Schreibweise. Die Verwendung des Digraph ist optional.

. Nach jedem Vokal. ( Hauptsächlich verwendet

I bI (bi) jzur Transliteration von ; Namen aus nichtrussischen Sprachen non-

IΎ Russian-Ianguage names von der Russischen [ Schreibweise. Die j Verwendung des Digraph , ist optional.

; Für alle anderen Fälle. ! Diese Zeichen kommt am blTTbiK-Kenb = Yttyk-KeT

Y (y) {Anfang eines Wortes mit TbiHfla = Tynda i Ursprung im Russischen i nicht vor.

Diese Zeichen kommt am b (b) ] Anfang eines Wortes nicht TKDMeHb = Tyumen' !vor.

3 (3)

[ Nach jedem Konsonanten flßyxaneivieHTHbiM = ^ausser M. Hauptsächlich Dvukh-elementnyy verwendet zur aus nicht-russischen Sprachen non-Russian- language names von der

Russischen Schreibweise. Die Verwendugn dieses Digraph ist optional.

, 3πeκτporopcκ = Elektrogorsk

E (e) Alle anderen Fälle Paflno3πeκτpoHHκa = Radioelektronika

K36nπefiHbiM = yubileynyy

KD (K)) I Yu (yu) Keine ; Knκ)HeBcκaa = Klyuchevskaya

" 5lκyτcκ = Yakutsk ifl (*) Ya (ya) Keine 1 Epymc« = Bryansk

Hauptsächlich verwendet zur Transliteration von . Namen aus nichtrussischen Sprachen non-

ITc (TC) iT-s (t-s) i Russian-language names CooτBeτcτBne = Sootvet-stviye ;von der Russischen Schreibweise. Die Verwendugn dieses ; Digraph ist optional.

. Hauptsächlich verwendet ,zur Transliteration von I Namen aus nichtrussischen Sprachen non-

' Sh-ch : BecHyujHaτbiM =

LUM (LJJM) j Russian-Ianguage names i (sh-ch) von der Russischen iVesnush-chatyy 'Schreibweise. Die ! Verwendugn dieses Digraph ist optional.

Als Referenz siehe z.B. U.S. Board on Geographie Names Foreign Names Committee Staff, 1994. Romanization Systems and Roman-Script Spelling Conventions, Seite 84- 85ff .

Das ALA-LC umfasst Tabellen des Slawischen Alphabets und ist eine Gruppe von Standards für Transliterationsverfahren von Texten und Begriffen in den unterschiedlichsten Schreibweisen und wird vor allem in Nordamerikanischen Bibliotheken und Publikationen verwendet. Die neuste Version wurde durch die American Library Association & Library of Congress 1997 veröffentlicht. Die nicht zweideutige Version des Verfahrens benötigt diakritische Zeichen und Verbindungszeichen zwischen den einzelnen Buchstaben, welche in der Praxis jedoch häufig weggelassen werden. ALA-LC

publiziert ebenfalls Transliterationstabellen für die unterschiedlichsten Sprachen.

Kyrilliche

Zeichen Lateinisch

Spezielle Bestimmungen Beispiele (russisch i e Zeichen

) I

ä3OB = äZOV

!A(a) !A(a) ! Keine fTaMβoB = Tambov

BapHayn = Barnaul

3(6) |B(b) Keine KyOaHb = Kuban C

BπaflwviMp = Vladimir

;B(B) ■V(v) Keine yjibfiHOBCK = Ulciahovsk

ir(r) fpo3Hbiki = Groznyϊ

G(g) (Keine BonroflOHCK = Volgodonsk

fl3ep>KMHCKMM = Dzerzhinskiϊ ifl(fl) iD(d) Keine HennflOBO = Nelidovo

jEnn3OBO = Elizovo

E (e) |E(e) Keine jMe6oκcapbi = Cheboksary

iE(e) EπKMH = Elkin

E(e) (Keine 03βpHbiPi = Ozernyϊ

>KyκoB = Zhukov

>K(>κ) I Zh (zh) I Keine ifly>KHMKM = Luzhniki

3ßeHMropofl = Zvenigorod

|3(3) Z(z) Keine Bfl3bMa = Viazüma

MpKyTCK = Irkutsk

H(M) ;l(i) Keine Ana™™ = Apatity

MoiüKap-Oπa = ϊoshkar-Ola ß (M) ϊ(ϊ) Keine i BMMCK = Biϊsk

KnpoB = Kirov

,K(κ) K(k) Keine EHncePicK = Eniseϊsk

JγIOMOHOCOB = Lomonosov

Jl(Ji) L(I) Keine HejiMflOBo = Nelidovo

MeHfleneβB = Mendeleev

M(M) M (m) Keine KawieHKa = Kamenka

HOBOCM6MPCK = Novosibirsk

, H(H) IN(n) Keine KaHflanaκtiia = Kandalaksha

OMCK = Omsk

!θ(o) .0(0) Keine KpacHoapcκ = Krasnoiarsk

πeτpo3aßθflcκ = π (π) P(p) i Keine ι Petrozavodsk CepπyxoB = Serpukhov

POCTOB = Rostov

P(p) [R (r) (Keine CeBepo6aMκanbcκ

Severobaϊkalπsk

CκoBopoflMHθ = Skovorodino

C(c) :S(s) i Keine HaMKOBCKMM = Chaϊkovskiϊ

TaiviδoB = Tambov

T(τ) iT (t) (Keine MbiTMLMM = Mytishchi

; 3neκτporopcκ = Elektrogorsk

3 (3) 'E (e) Keine ;PaflMθ3neκτpoHnκa = i Radioelektronika

[K)6nneiiHbiPi = lübileϊnyϊ

K) (K)) lO (iu) Keine

1 Knκ)HeBcκaa = Kliuchevskaial

ϊ fl KyTCK = Kkutsk fl ( a ) l lä (ia) ' Keine < BpHHCK = Briahsk

Es ist darauf hinzuweisen, dass in einer Ausführungsvariante die automatisierte Transkriptionsvorrichtung 10 ein Steuerungs- und Kontrollmodul zum Steuern von Web-Engines und/oder Konvertierungsvorrichtungen umfassen kann, wobei mittels der Transkriptionsvorrichtung 10 zusätzlich Quelldatenbanken 71 , ...,74 zugreifbar werden. Mit "zusätzlich zugreifbar" ist hier gemeint, dass Daten bzw. Datenbanken mit Daten in anderen Schrift- oder Schreibarten von den Web-Engines erfasst und einheitlich interpretiert werden können. Als Ausführungsbeispiel könne die selektierten Transkriptionen in einem Contentmodul der Transkriptionsvorrichtung 10 für einen Benutzer zugreifbar abgespeichert werden. Um auf das Contentmodul zugreifen zu können, kann es sinnvoll sein (z.B. zum Verrechen der beanspruchten Dienstleistung) einen bestimmten Benutzer von der Transkriptionsvorrichtung 10 mittels einer Benutzerdatenbank zu identifizieren. Zur Identifikation können z.B. Personal Identification Numbers (PIN) und/oder so genannte Smartcards verwendet werden. Smartcards setzen im Normalfall ein Karten lesegerät bei der Kommunikationsvorrichtung voraus. In beiden Fällen wird der Name oder eine andere Identifikation des Benutzers sowie die PIN zur Transkriptionsvorrichtung 10 oder einem trusted Remote-Server übermittelt. Ein Identifikationsmodul bzw. Authentifikationsmodul entschlüsselt (falls notwendig) und überprüft die PIN über die Benutzerdatenbank. Kreditkarten können als Ausführungsvariante ebenfalls zur Identifikation des Benutzers verwendet werden. Verwendet der Benutzer seine Kreditkarte, kann er ebenfalls seinen PIN eingeben. Typischerweise enthält der Magnetstreifen der Kreditkarte die

Kontonummer und die verschlüsselte PIN des autorisierten Inhabers, d.h. in diesem Fall des Benutzers. Die Entschlüsselung kann direkt im Kartenlesegerät selbst erfolgen, wie im Stand der Technik üblich. Smartcards haben den Vorteil, dass sie eine grossere Sicherheit vor Betrug durch eine zusätzliche Verschlüsselung der PIN erlauben. Diese Verschlüsselung kann entweder durch einen dynamischen Zahlenschlüssel, welcher z.B. Zeit, Tag oder Monat enthält oder einen anderen Algorithmus erfolgen. Die Entschlüsselung und Identifikation geschieht nicht im Gerät selbst, sondern extern über das Identifikationsmodul. Eine weitere Möglichkeit bildet eine direkt in die Kommunikationsvorrichtung des Benutzers eingeführte Chipkarte. Bei der Chipkarte kann es sich z.B. um SIM-Karten (Subscriber Identification Module) oder Smart-Cards handeln, wobei den Chipkarten jeweils eine Rufnummer zugeordnet ist. Die Zuordnung kann z.B. über ein HLR (Home Location Register) erfolgen, indem im HRL die IMSI (International Mobile Subscriber Identification) einer Rufnummer z.B. einer MSISDN (Mobile Subscriber ISDN) zugeordnet abgespeichert ist. über diese Zuordnung ist dann eine eindeutige Identifikation des Benutzers möglich.

Als Ausführungsbeilspiel kann beispielsweise der Benutzer um die Transkriptionsvorrichtung 10 zu starten, über ein Front-End ein Transkriptions- Request für die entsprechende Abfrage von einer Kommunikationsvorrichtung über das Netzwerk 70 an die Transkriptionsvorrichtung 10 übermitteln. Die Transkriptions-Request-Daten können über Eingabeelemente der Kommunikationsvorrichtung eingegeben werden. Die Eingabeelemente können z.B. Tastaturen, graphische Eingabemittel (Maus, Trackball, Eyetracker bei Virtual Retinal Display (VRD) etc.), aber auch IVR (Interactive Voice Response) etc. umfassen. Der Benutzer hat die Möglichkeit, mindestens einen Teil der Transkriptions-Request-Daten selber zu bestimmen. Dies kann z.B. dadurch geschehen, dass der Benutzer durch die Kommunikationsvorrichtung aufgefordert wird, ein entsprechendes Front-End-Query über ein Interface auszufüllen. Das Front-End-Query kann insbesondere eine zusätzliche Authentifikation und/oder Gebühren für die Abfrage umfassen. In der Transkriptionsvorrichtung 10 können die Transkriptionsdaten-Request-Daten z.B. überprüft werden und, falls sie bestimmbaren Kriterien genügen, wird die Transkription ausgeführt. Für benutzerspezifische Anforderungen kann es

sinnvoll sein, dass z.B. ein Benutzerprofil anhand von Benutzerinformationen erstellt wird, wobei z.B. basierend auf den im Contentmodul abgespeicherten Transkriptionen und/oder Verweisen auf durchgeführte Transkriptionen mittels eines Repackagingmoduls unter Berücksichtigung der Daten des Benutzerprofils benutzerspezifisch optimierte Daten erzeugt werden. Die benutzerspezifisch optimierten Daten können dann z.B. dem Benutzer im Contentmodul der Transkriptionsvorrichtung 10 abgespeichert zur Verfügung gestellt werden. Es kann vorteilhaft sein, dass einem Benutzer verschiedene Benutzerprofile für unterschiedliche Kommunikationsvorrichtungen dieses Benutzers zugeordnet abgespeichert werden. Für das Benutzerprofil können z.B. auch Daten zum Benutzerverhalten von der Transkriptionsvorrichtung 10 automatisch erfasst und dem Benutzerprofil zugeordnet abgespeichert werden.

Referenzliste

10 Transkriptionsvorrichtung 5 11 Codierungsmodul 12 Transkriptionsmodul

121 Triggermodul

1211 - 1212 Getriggerte Elemente

122 MonteCarlo-Modul io 123 Filtermodul

124 Vergleichsmodul

125 Datenbank mit Kombination von Füllelementen

126 Speichereinheit mit Transkriptionsvarianten und zugeordnetem Inkrementationsstack

15 20 Erste Gruppe von Elementen

30 Codierte Transkription

31 übernommene Transkription

40 Erste Transkription

41 - 47 Transkriptionsvarianten 20 45 übernommene Transkription

50 Zweite Gruppe von Elementen

70 Netzwerk

71 ,...,74 dezentralisiert angeordnete Datenbanken