METHOD FOR AUTOMATICALLY DETECTING MEANING AND MEASURING THE CLEARNESS OF TEXT

Title:

METHOD FOR AUTOMATICALLY DETECTING MEANING AND MEASURING THE CLEARNESS OF TEXT

Document Type and Number:

WIPO Patent Application WO/2015/113578

Kind Code:

Abstract:

The invention relates to a method for automatically detecting meaning patterns in a text using a plurality of input words, in particular a text with at least one sentence, comprising a database system containing words of a language, a plurality of defined categories of meaning in order to describe the properties of the words, and meaning signals for all the words stored in the database, wherein a meaning signal is a clear numerical characterization of the meaning of the words using the categories of meaning.

Inventors:

ZORZIN LUCIANO (DE)

Application Number:

PCT/EP2014/002111

Publication Date:

August 06, 2015

Filing Date:

July 29, 2014

Export Citation:

Click for automatic bibliography generation Help

Assignee:

ZORZIN LUCIANO (DE)

International Classes:

G06F17/27

Other References:

LIM BENG TAT ET AL: "Primitive-Based Word Sense Disambiguation For SENSEVAL-2", SENSEVAL '01 THE PROCEEDINGS OF THE SECOND INTERNATIONAL WORKSHOP ON EVALUATING WORD SENSE DISAMBIGUATION SYSTEMS, 2001, pages 103 - 106, XP055170384, Retrieved from the Internet [retrieved on 20150218]
JIM COWIE ET AL: "Lexical disambiguation using simulated annealing", PROCEEDINGS OF THE WORKSHOP ON SPEECH AND NATURAL LANGUAGE , HLT '91, vol. 242, 1992, Morristown, NJ, USA, pages 238, XP055170394, ISBN: 978-1-55-860272-4, DOI: 10.3115/1075527.1075580
IDE AND J VERONIS N: "Introduction to the special issue on word sense disambiguation: the state of the art", COMPUTATIONAL LINGUISTICS, M I T PRESS, US, vol. 24, no. 1, 1 March 1998 (1998-03-01), pages 2 - 40, XP002107193, ISSN: 0891-2017

Attorney, Agent or Firm:

GROSS, FELIX (DE)

Download PDF:

View/Download PDF PDF Help

Claims:

Patentansprüche

1. Verfahren zur automatischen Sinnmustererkennung in einem Text mit einer Vielzahl von Input-Wörtern, insbesondere einem Text mit mindestens einem Satz, mit einem Datenbanksystem umfassend Wörter einer Sprache, eine Vielzahl von vordefinierten

Sinnkategorien zur Beschreibung der Eigenschaften der Wörter, Sinn-Signalen zu allen in der Datenbank gespeicherten Wörtern, wobei ein Sinn-Signal eine eindeutige numerische

Charakterisierung der Bedeutung der Wörter anhand der

Sinnkategorien ist und wobei mindestens folgende Schritte durchgeführt werden: a) Einlesen des Textes mit Input-Wörtern in eine Vorrichtung zur Dateneingabe, verknüpft mit einer Vorrichtung zur

Datenverarbeitung, b) Vergleich aller Input-Wörter mit den Wörtern im

Datenbanksystem, das mit dem System zur Datenverarbeitung direkt und/oder per Datenfernleitung gekoppelt ist, c) Zuordnung mindestens eines Sinn-Signals zu jedem der Input- Wörter, wobei im Fall von Homonymen zwei oder mehr Sinn-Signale zugeordnet werden; d) in dem Fall, dass die Zuordnung der Sinn-Signale zu den

Input-Wörtern eindeutig ist, ist die Sinnmustermusterkennung abgeschlossen, e) in dem Fall, dass einem Input-Wort mehr als ein Sinn-Signal zugeordnet werden konnte , werden die relevanten Sinn-Signale ausschließlich kontext-gesteuert miteinander verglichen, wobei f) anhand der Kombination der Sinn-Signale der Input-Wörter untereinander wird festgestellt, ob ein Widerspruch oder eine Übereinstimmung -insbesondere bei Homonymen- in der Bedeutung des Input-Wortes zum Kontext vorliegt; g) Sinn-Signal -Kombinationen, die zu Widersprüchen führen, werden aussortiert, Sinn-Signal Kombinationen für

Übereinstimmungen, werden nach dem Grad der Übereinstimmung ihrer Sinn-Signale anhand eines vorgegebenen Übereinstimmungs- Kriteriums automatisch numerisch bewertet und registriert , h) automatische Zusammenstellung aller Input-Wörter, die sich aus den Schritten d) und g) ergeben, werden als das Sinnmuster des Textes, insbesondere des Satzes, ausgegeben.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in Abhängigkeit von dem vorgegebenen Übereinstimmungs-Kriterium automatisch entschieden wird, ob das Sinnmuster für mindestens ein Inpüt-Wort des Textes mehr als eine Verbleibende Bedeutung ^: aufweist, so dass kein eindeutiges Sinnmuster und/oder kein: eindeutiger Sinn des Satzes im Kontext vorliegt und eine Anzeige der Nichteindeütigkeit und deren Ursache erfolgt und/oder dem Benützer-Interaktiöns-Manager (7) bei Bedarf zur Verfügung steht .

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,

■ dass der Text. mit_; den Input-Wörtern eine Zeichenfolge; ist, die aus_:^: einem schriftlichen Text stammt und / oder aus einer:

sonstigen Quelle, wie akustisch aufgenommener Text mittels eines Spracherkennungsprogrammes , oder fotografierter Text,; OCR, usw..

4. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ein weiterverarbeitbares Signal ^: für den Eindeutigkeitsgrad eines Textes generiert wird, wenn nach dem Schritt e) des Anspruchs, die verbleibende Anzahl Sinn- Signale für alle Input-Wörter eines Textes bekannt ist.

5. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass nachdem für alle Wörter des Textes, insbesondere denen eines Satzes durch einen Sinn-Modulator (2): ein Wort-Sinn-Score „SW" berechnet wird und ein Satz-sinn-Score „SS", wobei der Wort-Sinn-Score die Anzahl der Einträge des jeweiligen Wortes in dem Datenbankbahksystem ist, gekoppelt mit der Relevanz des Sinnmusters des jeweiligen Wortes im Kontext des Satzes :

a) Ist: der Sinn-Score „SW" für ein Wort des Satzes gleich 0 (Null) so ist das Wort falsch geschrieben und der Satz erhält den Satz-Score „SS" = 0,

:b) Ist der Sinn-Score „SW" für ein Wort des Satzes größer 1, so ist der analysierte Satz falsch, und/oder uneindeutig

formuliert, denn Wörter mit SW > 1 haben mehr als 1 mögliche Bedeutung im Satz und seinem Kontext, wobei dann der Satz-Score „SS" = „SW" gesetzt wird,

c) haben mehr als ein Wort des Satzes Sinn-Score „SW" > 1, so wird der Satz-Score „SS" auf den maximalen Wert „SW" der Sinn- Scores der Wörter des jeweiligen Satzes gesetzt, d) haben alle Wörter des Satzes einen Sinn-Score „SW"=1 so ist der Satz eindeutig und erhält den Satz-Score „SS" = 1 e) haben Wörter einen Sinn-Score „SW" =,-2, dann lasseh sie _; sowohl Groß- als auch Kleinschreibung zu, wobei der Satz-Score „SS" dann den Wert „SS" = -2 bekommt, solange, bis über;

weitere, iterative Schritte die körrekte Groß-/Klein- Schreibweise der -Wörter mit „SW" = -2 , in diesem Satz, endgültig berechnet ist,

f) handelt es sich um Text. aus Sprachinpüt und haben Wörter einen Sinnscore „SW" ungleich 1, und gehören zu einer

Homofongruppe - identifiziert aus Datenverarbeitungssystem (1 ) , dann erhalten sie den Sinn-Score „SW"=-3, und der Satz-Score „SS" behält den Wert -3, solange, bis über weitere, iterative Schritte, das korrekte Homofon der Gruppe in diesem Satz und seinem: Kontext, endgültig berechnet ist, g) haben Wörter des Satzes Sinn-Score „SW" >1, so wird mit Wörtern von beliebig vielen „v" vorhergehenden oder „n"

nachfolgenden Sätzen des Textes überprüft, ob hier Wörter enthalten sind, die durch die Modulation ihrer Sinn-Signale zu „SW" = 1 im Input-Satz führen, wobei für normale

Sprachanwendungen und gut verständliche Texte ist üblicherweise „v" =1 und „n" = 0.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass bei Wörtern mit SW = 0, eine speicherbare Fehlermeldung generiert wird, die insbesondere Rechtschreibfehler aller Wörter des Textes angibt und insbesondere die berechneten Möglichkeiten zur Fehlerbehebung und in einem Fehler-Meldungs-Speicher (4) sequenziell gespeichert werden und dem Benutzer-Interaktions- Manager (7) bei Bedarf zur Verfügung stehen.

7. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass bei Wörtern mit „SW" = -2 , eine speicherbare Fehlermeldung gestartet wird, die insbesondere das Vorhandensein von Fehlern in der Groß-/Kleinschreibung aller Wörter des Satzes angibt, mit Nennung der Wortposition im Satz, Fehlerursache und Anzeige von aus dem Speicher des Datenbanksystems (1) berechneten

Möglichkeiten zur Fehlerbehebung und im Fehler-Meldungs-Speicher (4) sequenziell gespeichert wird und dem Benutzer-Interaktions- Manager (7) bei Bedarf zur Verfügung stehen.

8. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für den Fall, dass für kein Wort SW=0 ist, ein Sinn-Modulator (3) das Haupt-Thema - als

häufigster, gültiger Einschränkungsverweis (EV) aus (3) in Form seines Sinn-Signals - des laufenden Absatzes in Form der Sinn- Signale der Einschränkungs-Verweise rollierend aktualisiert und hierarchisch abrufbar gemacht wird und dem Benutzer- Interaktions-Manager (7) bei Bedarf zur Verfügung stehen.

9. Verfahren nach mindestens einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei Sätzen mit SS > 1 eine

Autotranslation-Meldung generiert wird, welche die noch

vorhandenen #SW Bedeutungsmöglichkeiten jedes Wortes listet, und jeweils die gängigsten Synonyme jedes Wortes aus dem

Datenbanksystem (1) über seine gültigen Sinn-Signale abruft und im Autotranslation-Speicher (5) sequenziell abspeichert und dem Benutzer-Interaktions-Manager (7) bei Bedarf zur Verfügung stellt.

10. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet, dass es Teil einer

computerimplementierten Übersetzungsvorrichtung zur Übersetzung von Texten, insbesondere Sätzen einer natürlichen Sprache in eine Zielsprache, unter Verwendung von „Recht-Sinn-Prüfung" ist, wobei eine automatische Übernahme eines Satzes mit Score SS = 1 erfolgt, oder der Text verarbeitet wird, solange, bis mindestens ein Satz mit Satz-Score=l vorliegt, und / oder keine

unbearbeiteten Sätze mit SS ungleich 1 mehr vorliegen.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Übersetzung des Textes in die gewählte Zielsprache erfolgt, unter Berücksichtigung der vorgegebenen, eindeutigen Sinn- Signale aller Wörter und allen Zusatzinformationen die in den Speichern (4), (5), (6) und Interatkions-Manager (7) verfügbar sind.

12. Verfahren nach Anspruch 10 oder 11, gekennzeichnet durch eine Anwendung von Sprachpaarungs-bestimmten Regeln aus dem Datenbanksystem (1), die durch Anpassung der Reihenfolge der Wörter im Input-Satz, bezogen auf ihre Morphologie und Flexion, und der Reihenfolge der Satzelemente, Hauptsätze, Nebensätze, eingeschobene Nebensätze, Subjekte, Prädikate, Objekte, Text- Teile zwischen Gedankenstrichen, Textteile zwischen zwei

Klammern (auf/zu) usw. bestimmt und in Speicher (6), den Satz in der Zielsprache in eine Reihenfolge, stellt, die in der Zielsprache semantisch, morphologisch, grammatikalisch und syntaktisch mindestens so korrekt ist wie der Inputsatz und Berücksichtigung aller satzbezogenen Einträge in Speichern ( (6) und (7) .

13. Verfahren nach mindestens ..einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet, dass eine Anzeige und / oder akustische Widergabe, oder durch andere Sinnesorgane

wahrnehmbare Darstellung der Ergebnis-Wörter der Übersetzung auf einem Ausgabemittel erfolgt.

14. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet, dass bei Anwesenheit von Wörtern mit Homofonen in einem Satz und entsprechender Vorgabe,, eine Überprüfung des Sinn-Signal-Übereinstimmungsgrades des vorhandenen Wortes und aller seiner weiteren homofonen

Schreibweisen aus Datenbanksystem (1) im Bezug zum Kontext automatisch durchgeführt wird, und daraufhin ein automatischer Ersatz durch das Homofon mit der höchsten Sinn-Modulation im Satz, und / oder Fehlermeldung über Fehlermeldüngsspeicher (4) und Interaktions-Manager (7) erfolgt, wenn keine ausreichende, rechnerische Differenzierung unter: den Sinn-Signalen der Wörter einer gleichen Homofongruppe im Kontext vorliegt.

15. Verfahren nach ^: mindestens einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet, dass zur Verarbeitung und / oder Rekonstruktion von verstümmelten Texten aus automatischer . Spracherkennung bei Hintergrundgeräuschen einer natürlichen Sprache, und/oder Text mit Tippfehlern, OCR, usw. und bei der Bedingung für mindestens ein Wort SS=0, systematisch,

automatisch die Möglichkeiten ermittelt werden, den Satz

umzuformulieren, durch korrekte Rechtschreibung fehlerhafter Wörter, insbesondere nach „Sounds-Like" oder „Looks-Like"

Methoden oder ähnlichen Suchalgorithmen anhand von Daten aus dem Datenbanksystem (1) ierfolgen, wobei zunächst mit Priorität, ^: basierend auf Wörtern die Homofonen des betreffenden Wortes ähnlich sind, oder Auslassungen von Buchstaben, Leerzeichen ode typischen Tippfehlern beim Bedienen einer Tastatur, inkl.

Groß/Klein-Schreibung, Akzentuierung usw. entsprechen.

16. Verfahren nach Anspruch 15., gekennzeichnet dadurch, dass mit den Sinn-Signalen korrigierbarer Wörter ausprobiert wird, o sich Sätze mit Satz-Score SS=1 ergeben die der Benutzer dann al priorisierten Output erhält, und/oder ein Abbruch der Prozedur erfolgt, wenn sich nach einer vom Benutzer vorgegebenen Zeit - z.B. 5 Sekunden - keine brauchbaren Treffer ermitteln lassen (Maßstab = ca. 500 ... 1000 Ausprobier-Versuche pro Sekunde), wobei dann der Input-Satz mit der Information der zur Korrektur analysierten Wörter getaggt wird und liegen nur Sätze mit Score ungleich 1 vor, diejenigen für das Tagging priorisiert werden, die die wenigsten Wörter mit SW=0 aufweisen, wobei das

ermittelte Gesamtergebnis über Fehlermeldungsspeicher (4) und Autotranslationspeicher (5) dem Benutzer-Interaktions-Manager (7) zur Verfügung gestellt wird.

17. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, dadurch gekennzeichnet, dass für eine Suchmaschine zur Suche in Datenbeständen, deren Texinhalte durch „Recht-Sinn Prüfung" getaggt sind und auf dem automatischen Tagging basierend automatisch abfragbar sind.

18. Verfahren nach Anspruch 17, gekennzeichnet dadurch, dass eine automatische Datenbank-Ergänzung entsprechend der Sinn- Signale aller seiner Wörter erfolgt, vor dem Suchprozess und insbesondere - jedoch nicht ausschließlich -, von allen Sätzen die einen Satz-Score SS=1 haben und entsprechend automatisch getaggt wurden.

19. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, gekennzeichnet dadurch, dass ein automatischer

Einbezug aller, gleichsprachigen Synonyme und fremdsprachigen Synonyme in allen ihren gültigen Flexionen in die Suche (gleiches Sinn-Signal wie gesuchter Begriff) einbezogen wird.

20. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, gekennzeichnet dadurch, dass bei Verwendung mehrerer Suchwörter, eine Kombination der Sinn-Signal-Treffer nach der Verknüpfungslogik der Suchwörter erfolgt.

21. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, gekennzeichnet dadurch, dass es eine

computerimplementierte, Bewertung der Nützlichkeit von Aussagen in Form von Text in natürlicher Sprache zu einem schriftlich vorgegebenen Thema vornimmt, indem bei einem automatisch übernommenen Satz mit Satz-Score SS=1 ein automatischer

Vergleich der Sinn-Signale der Wörter des Satzes mit

vorgegebenen Kombinationen bzw. Mustern von Sinn-Signalen, mit getaggten Wörtern des Vergleichs-Themas durchgeführt wird.

22. Verfahren nach Anspruch 21, gekennzeichnet dadurch, dass eine Wertung der Überdeckung der Sinn-Signale der Thema-Vorgabe und des Input-Satzes mit vorgegebenen Sinn-Modulations-Mustern erfolgt und dabei die Existenz von Sinn-Signalen von logischen Operatoren und/oder Disjunktoren und/oder andere Junktoren, (z.B. „nicht", „auch", „oder", „immer", „nie", "selten", „aber nicht" usw. ) innerhalb der Satz-Struktur des Inputsatzes berücksichtigt werden.

23. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, gekennzeichnet durch eine computerimplementierte Führung automatischer Dialoge von Computern und/oder

„antwortenden Computern" mit Benutzern, so dass der gesprochene Input eines Benutzers durch den antwortenden Computer als Text erfasst wird und nach mindestens einem der vorhergehenden

Ansprüche mit „Recht-Sinn-Prüfung" bearbeitet ist.

24. Verfahren nach Anspruch 23 , gekennzeichnet dadurch, dass eine Aufteilung des Input-Textes in einzelne Sätze durch den antwortenden Computer durchgeführt wird und eine automatische Bewertung erfolgt, welche davon Aussage-, Fragesätze,

Exklamationssätze, usw. sind, z.B. durch Anwesenheit von dafür typischen Satzzeichen - am Satzende und / oder am Satzende und / oder im Satz, wie , Fragezeichen, Hochkommas, Ausrufezeichen, Gedankenstrichen usw., und / oder derer typischer Satzstruktur und /oder Sinngebung.

25. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, gekennzeichnet dadurch, dass ein Abgleich der Sinn- Signale der Aussage- und Frage-Sätze des Benutzers durchgeführt wird, nach ihrem jeweiligen Matching/Übereinstimmung mit einem getaggten Datenbeständ der Aussage-Sätze, Antwortsätze und

Standard-Fragesätze einer maschinenlesbaren Text-Ontologie des antwortenden/dialogbeteiligten Computers, welche in der

gleichen, natürlichen Sprache vorliegt - aber nicht

zwingenderwiese-, wie die natürliche Sprache, in welcher der Benutzer interagiert, wobei mindestens einer der folgenden

Schritte durchgeführt wird: a): bei Matching-Werten der Sinn-Signale der. Input-Sätze des Benutzers oberhalb eines bestimmten Niveaus, mit der

Computerontologie des antwortenden Computers, die im

atching/Übereinstimmungs-Wert jeweils am höchsten bewerteten Antwort-, Aussagesätze usw. aus der jeweils genutzten

Computerontologie identifiziert werden, b) durch den -antwortenden Computer eine strukturierte,

automatische Antwort für den Benutzer generiert wird, durch Bestätigen der höchstrangigsten Sätze des Benutzers bezüglich der Computerontologie durch den antwortenden Computer über ein Sprachausgabesystem nach Stand der Technik und / oder anderen sensoriell erfassbaren Übertragungsverfahren, c) anbieten des höchstrangigsten Antwort-Satzes der

Computerontologie des antwortenden Computers über ein

Sprachausgabesystem nach Stand der Technik und / oder anderen sensoriell erfassbaren Übertragungsverfahren, welches dem Benutzer nach Abfrage nur kontrollierte Antworten erlaubt, z.B. „Ja" oder „Nein", d) versenden eines Links und / oder sensoriell erfassbarer Information durch den antwortenden Computer - nach bestimmten Regeln der Ontologie und passend zum Sinn der Fragen des

Benutzers -, den der Benutzer erhält, um daraus genauere

Informationen zu seinen Fragen abzurufen und / oder abzulesen und dann gezieltere Fragen an den antwortenden Computer stellen zu können, die der Benutzer ansonsten in der für Ihn lesbaren Computerontologie nur nach einigem, eigenem Suchaufwand selbst gefunden hätte, e) bei Matchingwerten der Sinn-Signale unterhalb eines gewissen Übereinstiummüngs-Niveaus, im antwortenden Computer ein auf seinen vorhergehenden Fragen basierter Standard-Dialog abgerufen wird, den der Benutzer nur mit „Ja" oder „Nein" beantworten kann, und /oder mit der Nennung von kontrolliert vorgegebenen, insbesondere gesprochenen, alphanumerischen, hörbaren, fühlbaren oder optisch wahrnehmbaren Optionen, und / oder dass im

antwortenden Computer eine automatische Erkennung des

Zeitpunktes erfolgt, ab dem das Eingreifen eines Menschen erforderlich ist, durch automatische Bewertung der Redundanz des Dialoges oder inhaltlichen Mustern wie Ärger oder Ungeduld, von Sinn-Signal-Mustern in den verbalen Reaktionen des Nutzers während des Dialoges und / oder optisch wahrnehmbarer Reaktionen des Nutzers über eine Kamera im unmittelbaren Umfeld seines Dateneingabegerätes.

26. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, gekennzeichnet durch eine computerimplementierte, erweiterte Rechtschreib-Prüfung, unter Verwendung der „Recht- Sinn-Prüfung", wobei insbesondere eine automatische Ausführung erfolgt, aber ohne dass der Satz mit den Sinn-Signalen selbst getaggt wird, nachdem er Satz-Score > 0 erreicht hat,

gleichbedeutend damit, dass der Text lediglich auf

Rechtschreibfehler geprüft und interaktiv vom Benutzer

korrigiert wird, ohne dass jedoch notwendigerweise ein Tagging des Satzes mit z.B. semantischen oder logischen ZusatzInformationen erfolgt.

27. Verfahren nach mindestens einem der vorhergehenden

Ansprüche, gekennzeichnet durch eine computerimplementierte-;

Worterkennung beim Eintippen von Wörtern über Tastaturen die z.B. mehrfach belegte Tasten enthalten können unter Verwendung von „Recht-Sinn-Prüfung" und automatischem Ergänzen der Wörter mit Wörtern aus dem Datenbanksystem (1), die am besten zu der zu diesem Zeitpunkt vorhandenen Syntax und .Kontext passen.

; 28.. Cömputerimplementiertes Verfahren zur semantischen

Verschlüsselung von Sätzen einer natürlichen Sprache, unter /Verwendung von „Recht-Sinn-Prüfung" nach mindestens einer der

Nr. 1 bis 31. , gekennzeichnet dadurch, dass. ,ΠΓ Wörter in.:jedem:

Satz grammatikalisch/semantiseh passend .ausgetauscht werden .

und/oder „n" Wörter :^:grammatikalisch/semantisch: passend

hinzugefügt werden/ die geeignete Sinn-Signale besitzen, . im

Vergleich zu ihrem unmittelbaren, kontextuellen Umfeld, die anzeigen, dass durch Einfügung, Negation, Relativierung oder Weglassung Und /^;oder durch Verwendung derer Antonyme aus dem ..^· Datenbestand des Datenbanksystems (1 ) der Satz-Sinn maßgeblich verändert werden kann, jedoch ohne dass der Sätz-Seore verändert wird, gleichtbedeutend damit , :dass der Text nach der .

automatischen- Veränderung keine zusätzlichen semantisch/fachlich sinnloseren Sätze enthält, als das Original aus dem er erzeugt wird, mit >=1 bzw.: ,η' >= 0 und wobei mindestens einer der: folgenden Schritte durchgeführt ird: a) alle alfanumerischen . Ketten> die Eigennamen und/oder

Datumsangaben und/oder reihe Zahlen sind, die eigene Sinn- Signale aufweisen, oder^' denen äütomatisch passende^' Sinnsignäle .· automatisch zugewiesen werden können, und/oder .besonders: durch- : den Benutzer,: vorab gekennzeichnete Einzelworte, jeweils durch codierte, anonyme Schlüsselwörter ausgetauscht werden, denen zum Anonymisierungsgrad pässend, gekürzte Sinnsignale automatisch hinzugefügt werden, b) die Start-Sätze des Benutzers unter Berücksichtigung der Original-Reihenfolge auf dem System des Benutzers gespeichert werden, sowie ein Log-File aller Änderungen gespeichert wird, die als Satz-Varianten oder Anonymisierungen erstellt wurden, unter Registrierung jeder Änderung und ableitbarem Inhalt der Änderung und Position im jeweiligen Satz des Textes. c) der Benutzer wird dabei mit „Recht-Sinn-Prüfung" unterstützt, aus anderen, abrufbaren Text-Datenbeständen auf dem von ihm benutzten System, als dem aktuellen Text selbst, Sätze zu identifizieren, die Sätzen vom zu verschlüsselnden Input-Text semantisch ähnlich sind - jedoch nicht logisch-, und einen Satz- Score SS = 1 haben, d) die Anzahl Sätze des Original-Textes auf mindestens 7 erhöht wird, falls über Input-Text plus Satz-Varianten weniger als 7 Sätze zum Verschlüsseln vorliegen, e) ein Text erstellt wird, welcher die Start-Sätze des Benutzers enthält, sowie „m" angehängte Sätze, seiner automatisch

erstellten Varianten. f) eine stochastische Verwürfelung der Reihenfolge der

vorliegenden Sätze erfolgt und die explizite Reihenfolgeänderung vor und nach der Verwürfelung zu einem Log-File hinzugefügt wird, g) bei Vorliegen des unveränderten, aber verwürfelten Textes und der erzeugten Log-Files, der Originaltext, den der Benutzer ursprünglich eingab, fehlerlos - dem Original entsprechendrekonstruiert werden kann. h) eventuelle System-Rückfragen des verschlüsselten Textes so an den einzelnen Wörtern und Sätzen getaggt werden, dass sich nach Rekonstruktion des Originaltextes Autotranslation-Rückfragen, Fehlermeldungen und semantische Informationen der Sätze

gegenseitig, automatisch annulieren können, so dass

konktextbezogene Informationen, die durch die Verwürfelung zunächst nicht mehr im Zusammenhang stehen, im Originaltext automatisch rekonstruiert werden, und zwar ohne

Benutzerinteraktion, wenn diese im unverwürfelten Text nicht erforderlich war.

Description:

Verfahren zur automatischen Sinnerkennung und

Messung der Eindeutigkeit von Text.

1. Allgemeine Punkte 1.1 Zusammenfassung

Das beanspruchte Verfahren der computerimplementierten Erfindung „Recht-Sinn-Prüfung" ist: für jeden Satz eines Textes einer natürlichen Hochsprache automatisch, deterministisch

festzustellen, ob er eindeutig formuliert ist, indem automatisch berechnet wird, ob für jedes Wort, das den Satz bildet, - rechnerisch - jeweils nur 1 einzige, relevante Bedeutung des Wortes im Kontext vorliegt und welche diese Bedeutung ist.

Die Bedeutungen und gekoppelten Assoziationen aller relevanten Wörter der natürlichen Hochsprache in welcher der Satz verfasst ist, sind in speziellen, vorab erzeugten, normierten,

numerischen Feldern - so genannten Sinn-Signalen - abgespeichert und automatisch abrufbar.

Diese werden in der Erfindung - nur durch den eingegebenen Satz und seinem Kontext an sich gesteuert - automatisch, arithmetisch so kombiniert und vergleichend analysiert, dass als Ergebnis des Ablaufes entweder ein Formulierungsfehler gemeldet wird - wenn der Satz nicht eindeutig ist -, oder jedes Wort mit dem

einzigen, zugehörigen Sinn-Signal fest verknüpft ist, das in diesem Kontext für das Wort gültig ist.

Dies entspricht, der Aufgabenstellung dem Satz Informationen zu entnehmen, die in ihm nicht explizit vorhanden sind, sondern i.d.R. nur implizit.

Diese implizite Information des Satzes, die von der Erfindung im Kontext berechnet werden kann, liegt im erfindungsgemäßen

Verfahren der arithmetischen und logischen Kombination der Sinn- Signale der vorhandenen Wörter des Satzes einzig und allein gesteuert durch die spezielle Anordnung und Morphologie die die Wörter im Satz haben. Anmerkung zu Fachbegriffen:

Spezielles Fachvokabular und erfindungsspezifische, neue

Begriffe (wie z.B. Sinn-Signal, Komplementär oder Wort-Ligatur), sind in Tabelle 4 gelistet. Standard-Fachbegriffe der Linguistik und Computerlinguistik in Tabelle 7 gelistet.

1.2 Grundlegende Vorgehensweise

1.2.1. Verfahren zur automatischen Sinnmustererkennung in einem Text mit einer Vielzahl von Input-Wörtern, insbesondere einem Text mit mindestens einem Satz, mit einem Datenbanksystem umfassend Wörter einer Sprache (Zeile 1 in Bild 3.1), eine

Vielzahl von vordefinierten Sinnkategorien zur Beschreibung der Eigenschaften der Wörter (Spalten 1-4 in Bild 3-1, siehe Bild 3.1 und Erläuterungen dazu in Abschnitt 3.2), Sinn-Signalen zu allen in der Datenbank gespeicherten Wörtern, wobei ein Sinn- Signal eine eindeutige numerische Charakterisierung der

Bedeutung der Wörter anhand der Sinnkategorien ist und wobei mindestens folgende Schritte durchgeführt werden: a) Einlesen des Textes mit Input-Wörtern in eine Vorrichtung zur Datenverarbeitung, b) Vergleich aller Input-Wörter mit den Wörtern im

Datenbanksystem, c) Zuordnung mindestens eines Sinn-Signals zu jedem der Input- Wörter, wobei im Fall von Homonymen zwei oder mehr Sinn-Signale zugeordnet werden; d) in dem Fall, dass die Zuordnung der Sinn-Signale zu den

Input-Wörtern eindeutig ist, ist die Sinnmustermusterkennung abgeschlossen, e) in dem Fall, dass einem Input-Wort im Kontext mehr als ein Sinn-Signal zugeordnet werden konnte , werden die relevanten Sinn-Signale ausschließlich kontext-gesteuert miteinander verglichen, wobei f) anhand der Kombination der Sinn-Signale der Input-Wörter untereinander festgestellt wird, ob ein Widerspruch oder eine Übereinstimmung -insbesondere bei Homonymen- in der Bedeutung des Input-Wortes zum Kontext vorliegt;

g) Sinn-Signal Kombinationen, die zu Widersprüchen führen, werden aussortiert (siehe Bild 3.2 und Erläuterungen dazu in Abschnitt 3.3), Sinn-Signal Kombinationen für Übereinstimmungen werden nach dem Grad der Übereinstimmung (Sinnmodulation) anhand eines vorgegebenen Relevanz-Kriteriums (siehe Abschnitt 3.3) automatisch numerisch bewertet und registriert, h) automatische Zusammenstellung aller Input-Wörter, die sich aus den Schritten d) und g) ergeben, werden als das Sinnmuster bzw. die numerische Sinnintersektions-Matrix (Bild 3.2) des Textes, insbesondere des Satzes, ausgegeben. i) bei Text mit Anwesenheit von Wörtern mit Homofonen z.B. aus Spracherkennung und bei entsprechender Triggerung, u.a.

Überprüfung des Sinn-Signal-Übereinstimmungsgrades, jedoch auch morphologisch-syntaktische Kompatibilität des vorhandenen Wortes und seiner weiteren homofonen Schreibweisen im Bezug zum Kontext und ggf. automatischer Ersatz bzw. Fehlermeldung bei nicht ausreichender Differenzierung unter den Sinn-Signalen der Wörter einer gleichen Homofongruppe im Kontext des geprüften Satzes.

1.2.2 Gelöstes Problem

Die „Recht-Sinn-Prüfung" löst das technische Problem bei der automatischen Verarbeitung von Texten, dass insbesondere bei deren Wörtern mit mehreren Bedeutungen (= Homonyme) nicht explizit vorliegt, in welcher seiner Bedeutungen das Homonym vom Autor des Satzes im Text tatsächlich verwendet wurde.

Bei gesprochenen Texten löst „Recht-Sinn-Prüfung", die gleiche Problematik wie für Homonyme auch für Homofone. Für Homofone liegt beim Hören eines Textes die Schreibweise des benutzten Wortes nicht fest.

Beispiele für Homofone Wörter: Lehre - Leere; oder DAX - Dachs; auch, speziell im Deutschen, in Groß-Kleinschreibung z.B. wagen (mutig sein) - Wagen (Fahrzeug) ; wegen (Grund) - Wegen (Plural/ Dativ von Weg) ;

im Englischen z.B. to - two - too; oder knew - new - gnu.

Aber auch Wort-Ligaturen (keine Komposita): z.B. „an die" - „Andy" ;

oder z.B. im Spanischen „del fin" (i.e. „vom Ende") - delfin (Säugetier) .

Die Anzahl homofoner Wörter (ohne häufige Wort-Ligaturen mitzuzählen) sind z.B.: Im Deutschen ca. 8000 Wörter, im

Englischen ca. 15.000 Wörter, im Französischen 20.000 Wörter, im Japanischen ca. 30.000 Wörter).

Diese nicht explizite Information eines Satzes z.B. bezüglich Homonymen und Homofonen - die aber in jedem eindeutigen Satz einer natürlichen Sprache implizit über die Kombination der verwendeten Wörter selbst, in Satz und Kontext, vorliegt - kann bis heute nur von Menschen zuverlässig festgestellt werden, die die Sprache beherrschen, in welcher der Satz erzeugt wurde (sei es nun phonetisch oder alfanumerisch) .

Homonyme und Homofone gehören in allen Sprachen zu deren am häufigsten verwendeten Wörtern. Z.B. im Deutschen sind von den 2000 am häufigsten benutzten Wörtern ca. 80% Homonyme und ca. 15% Homofone. In anderen Hochsprachen sind diese Werte z.T.

deutlich größer.

Will man z.B. die Bedeutung jedes Wortes eines Satzes in einer einem vollkommen unbekannten Sprache deuten, muss man für jedes Wort des Satzes seine Bedeutungen in seiner Grundform ausfindig machen - z.B. mittels eines Wörterbuches - und dann - in der einem unbekannten Sprache - ermitteln, welche der Bedeutungen vom Autor des Satzes im Zusammenhang mit den anderen Wörtern des Satzes wohl gemeint war.

Dies ist umso schwieriger, je mehr Homonyme der Satz enthält.

Es ist bereits bei Sätzen mit 5 oder 8 Wörtern gängig, dass hunderte, bis tausende, prinzipielle Kombinations-Möglichkeiten des Sinns der Wörter eines Satzes vorliegen können, obwohl nur eine einzige der möglichen Kombinationen im Kontext richtig ist. Siehe z.B. in Bild 2 die Sätze 2.1. AI und 2.1.A2.

In Satz 2.1.A2 ist nach Anwendung der Erfindung, die Bedeutung jedes Wortes identifiziert und durch Hochzahlen am jeweiligen Wort erkennbar. (Siehe Einzelbedeutungen im Kasten rechts daneben)

Dieser Satz aus Bild 2 ist eindeutig, obwohl fast 2 Millionen prinzipielle Sinn-Kombinationsmöglichkeiten der Bedeutungen seiner Wörter für ihn bestehen. Siehe Informationen dazu in den Feldern J4-J6 und J15-J17 in Bild 2. Weitere Informationen im Einzelnen zu anderen Bedeutungen der Homonyme dieses Beispiels in Tabelle 1.

Dieses Problem - das Ermitteln der Grundform, der möglichen Bedeutungs-Varianten, und das Berechnen der richtigen Sinn- Kombination eines Wortes in jedem beliebigem Satz und Kontext - für alle Wörter, die in den an die Erfindung gekoppelten

Datenbeständen mit Sinn-Signalen registriert sind, löst die Erfindung automatisch.

Und zwar einzig und allein, durch automatische Analyse und numerischen Abgleich der Sinn-Signale des eingegebenen Textes (Satz + Satzkontext) an sich und ohne irgendwelche anderen Text- Datenbestände, Korpora, Lexika usw. analysieren zu müssen; weder statistisch, noch graphenbezogen (z.B. Berechnung von

Kantenlängen in euklidischen Vektorräumen) noch mittels

künstlicher neuronaler Netze usw.

Hier von Sinn-Signalen zu sprechen ist wichtig, denn die

gewählte Struktur und Arithmetik zum informatischen Umgang mit Sinn-Signalen, entspricht dem rechnerischen Umgang mit

numerischen Mustern, im Gegensatz zu einem eher neurologischen Begriff wie „Assoziationen". Sinn-Signale stellen zwar auf numerische Art Assoziationen dar, sind aber selbst keine Assoziationen.

Auch die Analogie der Vorgehensweise des gegenseitigen

Modulierens der Sinn-Signale aus der Nachrichtentechnik, sowie die Existenz von elektrischen „Strömen" im Gehirn, beim

Verarbeiten von Assoziationen, wenn Sprache von Menschen

wahrgenommen wird, empfiehlt die Benutzung des neuen Ausdrucks „Sinn-Signale" .

1.3 Technische Anwendungsmöglichkeiten / Vergleich zum Stand der Technik

Eine unmittelbare, praktische Anwendung davon, über die Recht- Sinn-Prüfung hinaus sind z.B.:

• Automatische Übersetzungsmaschinen hoher Qualität denn:

zum einen können nur eindeutige Sätze korrekt übersetzt werden. Zum anderen kann man einem eindeutigen Satz nur korrekte

Übersetzungen zuordnen, wenn man die - einzige - relevante

Bedeutung jedes einzelnen Wortes des Satzes im Kontext kennt. Wahrgenommener Stand der Technik anhand namhafter Produkte - egal ob kostenlos oder nicht - = 50% falsche Übersetzungen, z.B. bei statistischen Übersetzungsmaschinen. Der zu durchsuchende Datenbestand bei der Erfindung ist trotzdem um den Faktor

500...1000 kleiner, als bei gängigen, auf Statistik basierten Übersetzungsmaschinen, bei gleichzeitiger Steigerung der

Übersetzungsqualität auf besser 95%. (vergl. Tab 5 + 6)

• Das Kennen der relevanten, einzigen Bedeutung jedes Wortes im Kontext erlaubt u.a. eine neuartige, automatische, semantische Indizierung von Text-Datenbeständen nach Sinn, die dann sehr viel präzisere Suchergebnisse von Suchmaschinen erlaubt (Faktor 99% bis 99,99% weniger irrelevante Treffer), als der Stand der Technik. Wahrgenommener Stand der Technik anhand namhafter

Produkte = ist das Suchwort ein Homonym, werden Treffer für alle Bedeutungen des Wortes und nicht nur für die eine, beabsichtigte Bedeutung angezeigt. • Des Weiteren erlaubt diese Kenntnis der relevanten, einzigen Bedeutung jedes Wortes im Kontext bei Spracherkennung oder

Mensch-Maschine-Dialogen eine präzise - sinnhafte - Erfassung und Weiterverarbeitung des Inputs - auch in Form automatisch generierter, auf den Input bezogener, sinnhafter, interaktiver Dialoge - die es so bislang nicht gibt.

Wahrgenommener Stand der Technik anhand namhafter Produkte = 100% fehlerhafte Interpretation von Homofonen, sowie keine zuverlässige Erfassung von Wörtern die für logische inferenzen von Bedeutung sind. Siehe auch Beispiel 2.2 Sätze 2.2. Bl und 2.2.B2.

1.4 Zusammengefasste Beschreibung

Den computerimplementierten Ablauf der Erfindung kann man. rein formell, dem einer Recht-Schreib-Prüfung gegenüberstellen. Das abstrahierte Flüssdiagramm der (neuen) Recht-Sinn-Prüfung (B) ist sehr ähnlich, wie das der (bekannten) automatischen Recht- Schreib-Prüfung ^■ :(A) . Bild 1

(B) - der Erfindung - liegt eine neuartige, numerische

Verarbeitung zu Grunde, die die Relevanz aller möglichen, in Sinn-Signalen registrierten Assoziationen eines Wortes zu seinem Kontext automatisch berechenbar macht.

Sinn-Signale sind die zugrunde gelegten Daten für jedes einzelne Wort und jede seiner unterschiedlichen Bedeutungen. Sinn-Signale sind fest vorgegeben _:und sind mehrdimensionale, numerische

: Felder: die untereinander, numerisch und logisch verglichen werden können. In der Erfindung sind für alle relevanten; Wörter einer Hochsprache Sinn-Signale definiert und automatisch

abrufbar - Bild 4.7.

Ein Sinn-Signal eines Wortes wird im Kontext „gültig" (Bild .1, Kasten in Zeile 3, rechts) _/ wenn es nur ein Sinn-Signal hat,: - ^■:. entweder, weil es nur eine einzige Bedeutung hat, oder weil das Sinn-Sighal mindestens eines weiteren Wortes im Kontext, mehrere Übereinstimmungen mit ihm aufweist und: zwar deutlich mehr/ als andere Wörter im Kontext. Wörter die sich in ihrer Bedeutung gegenseitig „gültig" machen, werden im Rahmen der Erfindung „Komplementäre" genannt. (Ausführliche Definition erfolgt im Anfang von Abschnitt 2)

Wörter jedes Satzes können mehr als 1 Assoziation im Kontext haben denn:

In allen Sprachen existieren 10-tausende von Wörtern (z.B.

Deutsch ca. 3:5.000, Englisch ca. 50.000), die bei exakt gleicher Schreibweise mehrere unterschiedliche Bedeutungen haben (genannt Homonyme): Z.B. Lauf [13 Bedeutungen], Zug [43], Geschoss [4], anziehen [12 ] .

Homonyme werden in allen Sprachen besonders häufig verwendet, im Vergleich zu Nicht-Homonymen.

Auch Satz-Partikel sind i.d.R. Homonyme, die mehrere, meistens stellungsabhängige Bedeutungen und syntaktische Funktionen haben, je nachdem welchem Wort oder Satzteil sie zugeordnet sind. . .. .. . ..

Allein für Satzpartikel gibt es somit insgesamt ca. 5300

Homonyme, wenn man Adverbien (sie sind in ihrer Funktion nicht flektierbare Wörter) dazuzählt.

Fast jeder Satz Text einer natürlichen Sprache enthält Homonyme. Die reih lexikalischen ⁷ Analysemöglichkeiten des Standes der Technik der EDV - faktisch gleich einem Setzkasten von Gutenberg mit 255 ASCII-Zeichen - sind damit bezüglich sinnhafter ;

Verarbeitung .von Text bei weitem unzureichend.

Das gilt für alle gesprochenen, natürlichen Hochsprachen.

Die ^: Bedeutung die einem Homonym durch den Autor eines Textes zugewiesen ist, ist durch den Kontext bestimmt, in welchem das Homonym auftritt, sie ist dem Text an sich aber nicht explizit zu entnehmen. . ...

Erst nach der Anwendung von der Recht-Sinn-Prüfung (B) ist bekannt (Im Bild 2 Wandlung des Textes 2.1. AI in die indizierte Form 2.1.A2), ob und welche Bedeutung jedes Homonyms, einen relevanten Sinn im Satz-Kontext hat. . Diese Eigenschaft von natürlichen Sprachen - dass der eindeutige Sinn der verwendeten Wörter mit mehreren Bedeutungen dem Text selbst nicht explizit zu entnehmen ist, sondern nur implizit zum Kontext durch Sprachkenntnisse assoziiert werden kann - hat international keine allgemein gültige Definition in der

Linguistik.

Innerhalb der Fachrichtung Satzsemantik, wird diese Eigenschaft; im weitesten Sinne umschrieben, u.a. über die Begriffe

„Äquivökation ⁷", „Homonymie ⁷", „Ambiguität ⁷" und „Polysemie ⁷". Im Stand der Technik wird üblicherweise von „Wort Sinn

Disambiguierung (word-sense-disambiguation) " gesprochen oder „Reduzierung der Ambiguität". Es ist aber formell, logisch inkorrekt bzw. sehr irreführend, zu sagen, dass man ein Wort „disambiguieren kann" oder dass man die „Ambiguität eines

Satzes" reduzieren kann,

denn:

Ein Wort in einem Satz oder ein Satz sind ambig oder :sie sind es nicht. Das kann nur der Autor des Satzes und des Kontextes des . Satzes beheben.

D.h. man kann die Ambiguität eines Satzes lediglich

a) als Mensch feststellen oder

b) mit den geeigneten Verfahren (beanspruchte Erfindung) ;

maschinell berechnen.

Im folgenden Text wird deshalb das gesamte,- neue, beanspruchte ^: Verfahren, das in der Lage: ist, trotz der in natürlicher Sprache immer vorhandenen „Äquivökation", „Homonymie", „Ambiguität" und „Polysemie" die: Anzahl der verwendeten Bedeutungen aller Wörter eines Satzes zu berechnen, und welche, mit folgendem Namen benannt:

„Determination des impliziten Sinns eines Satzes, durch

Berechnung der komplementären, assoziierbaren, semantischen. Verknüpfungen zwischen seinen Wörtern".

Auf Englisch, abgekürzt:

SenSzCöre - Sentence sense determinatiori by Computing of complementary, associative, semantical rel tionships . Ohne Recht-Sinn-Prüfüng bzw. ohne SenSzCore ist es nicht möglich z.B. für Spracherkennung öder Übersetzungen, wirklich präzise, automatische, sinn-orientiert-korrekte Arbeit mit den Texten - an sich - durchzuführen. Ohne Recht-Sinn-Prüfung treten bei automatischer Sinnverarbeitung ständig eklatante

Interpretationsfehler auf - wie es bei Anwendung des Standes der Technik der Fall ist.

Recht-Sinn-Prüfung mit SenSzCore ist; für die automatische

Verarbeitung von Texten mit Erfassung der Bedeutung der Wörter entscheidend und stellt die operative Voraussetzung dar, für elektronische Sinnverarbeitung (ESV ⁴) von Texten natürlicher Hochsprachen,, im Gegensatz zum Stand der Technik: elektronische Datenverarbeitung (EDV) . Stellungnahme zu Übersetzuhgs-Software öder

Spracherkennungssoftware nach dem Stand der Technik:

Alle Anmeldungen, die den Sinn von Sätzen auf der Analyse von Wörtern selbst basieren - und nicht auf derer Assoziationen im Kontext und egal wie groß die Menge analysierter Wörter ist - können nur in ca. 50% der Fälle die korrekte Bedeutung der analysierten Wörter im Kontext treffen.

Beweis :

Ca.- 50% Trefferrate z.B. marktüblicher Übersetzungsmaschinen .

Ursache :

Die Analyse expliziter. - also rein lexikalischer - Daten des Satzes, vorliegend in der Form von 255 ASCII-Zeichen - z.B.

durch statistische Methoden mit anderen, ähnlichen Sätzen - kann

- per se - keine implizite Information liefern - weil diese naturgemäß nicht in den alfanumerischen Zeichenkombinationen vorhanden ist, sondern im Kopf des Lesers des Textes, im Moment wo er diesen Text liest; vorausgesetzt, er hat ^; ausreichend gute Sprachkenntnisse in der Sprache in welcher der Text geschrieben ist .

In anderen Worten: Die implizite Information des Satzes ist :nur . monolinguäl ¹, und über informatisch verarbeitbare Assoziationen

- ähnlich derer im Gehirn eines Lesers des Textes - zwischen den Wörtern der Sprache in welcher der Text geschrieben ist, informatisch erfassbar.

In übertragenen Sinne liegt mit der Erfindung also ein

neuartiges Verfahren vor, welches mit der Anwendung von

„assoziierbar digitalisiertem Sinn" (Sinn-Signale) von Wörtern in ihrem Kontext eine informatische Verarbeitung zulässt, ähnlich wie eine CCD-Kamera durch Verpixelung von belichteten, lichtsensiblen Flächen, Voraussetzung für die informatische Verarbeitung von Bildern ist.

Sinn-Signale sind allerdings logisch und strukturell um ein vielfaches komplizierter aufgebaut, als die kurze, numerische Information von Bildpixeln die aus einer lichtempfindlichen Fläche resultieren.

Weitere Beispiele zu diesem Sachverhalt sind im nächsten

Abschnitt enthalten.

1.5 Funktions-Prinzip und Vergleich zum Stand der Technik

Treten für einen Menschen im Kontext eines Satzes (Z.B. „Wir werden die Preise anziehen."), Wörter auf (hier: Preise), die für alle Bedeutungs-Assoziationen seiner Homonyme (hier:

anziehen) nur jeweils 1 Bedeutung gültig machen, so ist der Satz für einen Leser eindeutig.

Inhalt der Erfindung ist, diese Art Entscheidung, die bei

Menschen sehr schnell und unbewusst abläuft, automatisch herbeizuführen und zwar nur über die informatische Verarbeitung des Satzes selbst, seines Kontextes und seiner dazugehörenden, erfindungsspezifischen Sinn-Signale.

Speziell bei Übersetzungen oder Spracherkennung werden Mängel bei der automatischen Bedeutungsfestlegung von Wörtern schnell deutlich:

Automatische Übersetzungsmaschinen nach dem Stand der Technik übersetzen z.B. den Satz:

„Ich nahm einen langen Zug aus der Zigarette."

vollkommen falsch, mit:

„I took a long train from the cigarette." Oder den Satz (Bild 2.1. AI):

„Der Züg im Lauf verleiht dem Geschoss eine Drehung um seine

Längsachse."

vollkommen falsch, mit:

„The train in the course gives the floor a rotation about its longitudinal axis." (Bild 2 Koordinate H8). Siehe. auch die Einzelbedeutungen der Wörter in Tabelle 1.

Es sei denn, der Satz und sei e korrekte Übersetzung liegt bei den Programmen als Textkonserve vor, weisen

Übersetzungsprogramme nach Stand der Technik diese Art

gravierende Fehler in ca. 50 % ihrer Übersetzungen auf.

Bislang sind im Stand der Technik nur indirekte Verfahren der 'Bedeutungszuordnung in Übersetzungsmaschinen bekannt (Z.B. US 8548795, US8260605 B2,US 8190423 B2 ). Diese versuchen die korrekte Zuordnung von Wörtern im Kontext,,, automatisch, nach ^: statistischen oder graphenbezogenen Methoden durch Analyse großer Text-Korpora (Sammlungen großer Mengen Text z.B.

Übersetzte EU-Protokolle, mit Millionen von Sätzen.) oder sogenannten „World-Knowledge-Dätabases" zu bestimmen.

Es wird im Stand: der Technik gar nicht erst: versucht, den eigentlichen, assoziierbaren Sinn des Inputtextes - an sich - direkt zu erfassen.

Um im Stand der : Technik eine korrekte Übersetzung ^; zuzuordnen (=indirekte Sinnerfassung), wird nur versucht Sätze oder

Satzstücke zu finden, die häufig mit dem Inpüttext der einen Sprache, in der anderen Spräche - parallel - auftreten und diese zu einer halbwegs gut lesbaren Übersetzung zusammenzufügen.

Das Ergebnis ist: nachweislich lunvorhersehbar bezüglich Qualität: Nur etwa 50% der übersetzten Sätze von Übersetzungsmaschinen nach dem Stand der Technik sind sinnbezogen und grammatikalisch korrekt. (Siehe auch Beispiele in Tabelle 5)

Nach dem neuen Verfahren (B) Bild 1 der „Recht-Sinn-Prüfung" sind alle relevanten Sinne von Wörtern einer Sprache, inklusive aller ihrer relevanten Flexionen (Abwandlung vört Worten nach

grammatischen Regeln, z . B. ^: Deklination, Pluralbildüng usw. : der Zug, des Zuges, die Züge, den Zügen ... gehen, ging, gegangen, gehend _/ am gehen, ... ) numerisch erfasst und in einer computerimplementierten Datenbank (z.B. Bild 4.7) einzeln, sozusagen als digitale Sinn-Signale, fest gespeichert.

Die Erstellung der Sinn-Signale ist ein manueller, einmaliger Arbeitsgang vorab. Der daraus resultierende Datenbestand entspricht mit etwa 50 Mio. Wörtern im Hochdeutschen, etwa dem Umfang von 20 einsprachigen Großwörterbüchern, ist also ca. 1000 x kleiner, als Datenbestände die z.B. in Übersetzungsprogrammen nach dem Stand der Technik verwendet werden.

Durch Vergleichen der Wörter eines Satzes untereinander, mittels aller ihrer in der o.g. Datenbank gespeicherten Sinn-Signale, kann für alle Wörter automatisch berechnet werden, welche ihre korrekten Bedeutungen im Satzkontext, im Einzelnen sind. Für beliebige Sätze und in beliebigem Kontext.

Dies stellt eine neue, direkte, deterministische Vorgehensweise dar .

Sie erlaubt die Verwendung reiner Arithmetik und benötigt keine statistischen oder graphenbezogenen Algorithmen die den Satz, oder Teile von ihm mit großen Korpora vergleichen, um

statistische Schlussfolgerungen zu bilden.

Bei der Erfindung wird der Satz nicht mit anderen Sätzen

verglichen - wie im Stand der Technik -, sondern die Bedeutungen seiner Wörter mit denen der anderen Wörter des Satzes selbst und ggf. denen seines unmittelbaren Kontexts und zwar numerisch, auf Ebene von Worten oder Wortketten.

Im engeren Sinne erfolgt mit der Erfindung eine lokale Messung - wie bei einem digitalen Messgerät durch Aufaddieren von

digitalen Signalen aus einer Signalquelle- hier aus einer

Datenbank - (inhaltlicher Auszug siehe Tabelle 1) indem Sinn- Signale abgerufen werden (Bild 3.1), die bestimmten Wörtern und all deren korrekten Flexionen fest zugeordnet sind.

Bei Wörtern mit nur einer Bedeutung liegt nur ein einziges, komplettes Sinn-Signal des Wortes und aller seiner Flexionen in der Datenbank vor. Bei Wörtern mit „n" Bedeutungen (Homonyme) liegen „n" und nur „n" unterschiedliche Sinn-Signale des einzelnen Wortes und aller seiner Flexionen in der Datenbank vor .

Alle Sinn-Signale eines Wortes sind - über seine geschriebene Form als Text - aus der Datenbank abrufbar; egal in welcher Flexion es vorliegt. Ein Sinn-Signal liegt in einer normierten, alphanumerischen, arithmetisch auswertbaren, mehrdimensionalen Form vor. (Bestand-Teile der Sinn-Signale, siehe Bild 3.1;

Erläuterungen Abschnitt 3.2)

Um das kontextuell korrekte Sinn-Signal eines Homonyms mit „n" Bedeutungen innerhalb des Kontexts eines Satzes zu bestimmen, werden die „n" Sinn-Signale in allen seinen Kategorien jeweils mit denen aller anderen Sinn-Signale der Wörter des Satzes paarweise, arithmetisch aufaddiert (siehe Bilder 3.2 und Bild 5) . Dies geschieht so oft, wie unterschiedliche

Bedeutungskombinationen aller Homonyme und Wörter im Satz vorhanden sind. Das durch die arithmetische Operation veränderte Sinn-Signal des Homonyms wird jeweils - für späteren Vergleich - temporär abgespeichert. Z.B. matriziell, wie in Bild 3.2.

Kann nach dem arithmetischen Verfahren der Erfindung unter den Rechenergebnissen vom Satz, im lokalen Kontext ein Homonym festgestellt werden, das in allen seinen Sinn-Signalen durch keines der anderen Wörter des Satzes relevant verändert wird, dann ist der Satz nicht eindeutig und es erfolgt automatisch - ähnlich wie bei einer Rechtschreibprüfung - eine Meldung an den Benutzer, dass kein zulässig formulierter Text im eingegebenen Satz vorliegt (Bild 1, Bild 4, Bild 6) . Mit der Erfindung erfolgt damit sozusagen eine automatische -„Recht-Sinn-Prüfung" - des Satzes. (Vergleich zu einer Recht-Schreib-Prüfung siehe Bild 1)

Sinn-Signale können nicht nur einzelnen Wörtern fest zugeordnet werden, sondern auch vordefinierten Wortketten (u.a. sogenannte „Wendungen" z.B. „schwer auf Draht sein" = „fit sein"). Wenn im Folgenden von „Wort" oder „Wörtern" gesprochen wird, gelten sämtliche Aussagen auch für Wortketten, die kürzer sind, als der Satz selbst, in dem sie auftreten. Ist ein Wort in einer

Wortkette enthalten, für die ein eigenes Sinn-Signal existiert, so. wird für die arithmetischen Berechnungen die Wortkette wie ein einziges Wort behandelt.

Uneindeutige Sätze können weder korrekt übersetzt noch korrekt indiziert werden; sind also unbrauchbar für eine „elektronische Sinnverarbeitung" = ESV.

Deshalb ist es für „intelligente" Verarbeitung von Sprache entscheidend, ein Verfahren zu haben, das die Eindeutigkeit von Sätzen messen kann.

2. Theoretischer Hintergrund und erfindungsspezifische

Begrifflichkeiten

Der Erfindung liegt u.a. der linguistische, sprachunabhängige Sachverhalt zugrunde dass:

in Sätzen mit Homonymen - oder deren unmittelbarem Kontext - mindestens ein weiteres Wort der gleichen Hochsprache je Homonym existieren muss, : welches ein und nur- ein Sinn-Signal der ^:

■Homonyme jeweils gültig macht, damit der Satz einen eindeutigen Sinn in dieser bestimmten Hochsprache bekommt.

Diese Wörter - die eines der Sinn-Signale eines Homonyms im _; ^: Kontext „gültig" machen - werden im Folgenden.

„Sinnkomplementäre", bzw. „Komplementäre" genannt.

In der Linguistik ist der Begriff Komplement aus der

strukturellen Syntax bekannt und hat eine vollkommen andere . Funktion, als das hier heu definierte ^: Sinnkomplementär . Es wird, außerdem die Neutrum-Form gewählt „das Komplementär", um. eine ^■■: Unterscheidung zu „der Komplementär" aus dem Wirtschaftsrecht herzustellen.

Sinnkomplementäre verändern das Sinn-Signal eines. Homonyms in Einzel-Kategorien größer Null numerisch Je größer die

arithmetische Veränderung im Sinn-Signal eines Homonyms durch andere Wörter, ^: desto stärker ihre Komplementarität zueinander. In Worten der Nachrichtentechnik:

Erfahren die „n" Sinn-Signale eines Homonyms in einem Satz durch seinen Kontext, in allen seinen Bedeutungsvarianten keine

Amplitudenmodulation in Amplituden seines Sinn-Signals die >0 sind, dann ist der Satz nicht eindeutig.

Im Folgenden wird beim Überlagern von Sinn-Signalen von

„Modulation" gesprochen, da dies den Vorgang am besten

umschreibt. .::

Jedes Wort kann für beliebig viele, andere Wörter ein

Komplementär sein. Deshalb muss jedes Wort einer Spräche ein eigenes. Sinn-Signal besitzen, um von Recht-Sinn-Prüfung. mit SenSzCore erkannt zu werden.

Die Sinn-Signal-Struktür in der Erfindung ist als Ergebnis empirischer Versuche so aufgebaut, dass die Komplementarität in. den gleichen Fällen auftritt, wie es ein durchschnittlich gebildeter Mensch beim Lesen eines Satzes intuitiv feststellt.

Die Sinn-Signal-Struktur ist in der Definition und Position von/ Sinn-Einzelkategorieri für alle Wörter gleich (Bild 3.1) . Sinn- Signale unterscheiden sich. lediglich in den Werten ihrer :

Einzelkategorien .

Sinn-Signale kann man sich wie mehrdimensionale, numerische Felder vorstellen;

Wörter; mit wenig Sinn, wie:„Dings" (kann fast alles bedeuten) haben in fast allen Sinn-Einzelkategorien Werte = 0.

Abstrakte Wörter: wie z.B. „Heldenmut", oder , Wörter mit: vielen Bedeutungs-Facetten wie z.B. „Lehrling" haben in vielen

Positionen Werte größer 0. Bei Komposita kann das Sinn-Signal■ des Wortes in manchen ihrer Bedeutungen weitestgehend aus der Addition der Sinn-Signale: seiner Komponenten gebildet werden.

Z.B. das Sinn-Signal von „Pferdewagen" ist die/Addition des Sinn-Signals von „Pferd 1" <zool> und

„Wagen 3" <2D Gefährt mit Roll_RädernXkein eigen_Antrieb> . Dieses Beispiel soll den grundlegenden Unterschied zwischen einem Sinn-Signal und der Definition des Wortes verdeutlichen.

- Ein Sinn-Signal ist ein numerischer Speicher von normierten Assoziationen.

- Eine Bedeutungs-Definition ist hingegen eine Kette Wörter die im Gehirn, beim Lesen Assoziationen hervorrufen kann. Siehe Vergleiche in Bild 3.1 ...

Aktuell bestehen die Sinn-Signale in der Erfindung aus 512 Sinn- Einzelkategorien und 15 Grund-Signal-Gruppen (Bild 3.1). Diese angegebenen Zahlen sind lediglich ein empirisch ermittelter, pragmatischer Wert, der im neuen Verfahren gute Ergebnisse liefert, wenn man Berechnungen der Erfindung mit den

Wahrnehmungen von Menschen - zur Eindeutigkeit von Sätzen - vergleicht. Es kann aber auch mit anderen Werten gearbeitet werden. Weniger als 50 Einzelkategorien und weniger als 3 Grund- Signal-Gruppen führen jedoch i.d.R. zu unbrauchbaren

Ergebnissen, die darum ähnlich schlecht sind, wie z.B.

Übersetzungsmaschinen nach dem Stand der Technik.

Für die deutsche Sprache liegt der Erfindung eine Datenbank von ca. 50 Millionen Wörtern vor (ca. 0,1% gegenüber dem Volumen an Wörtern in statistischen Übersetzungsprogrammen nach dem Stand der Technik), die sich aus den flektierten Formen von ca. 1 Million unterschiedlichen Wörtern in Grundform zusammensetzen, die wiederum aus Sinn-Signalen bestehen, die man aus ca. 20.000 relevanten Grund-Sinn-Signälen einer Hochsprache zusammensetzen kann.

Diese feine Auflösung entspricht dem Sprachgebrauch aus dem geschäftlichen Alltag - technisch, kaufmännisch,

wissenschaftlich.

Eingeschränktere Fach-Sprachräume wie z.B. die Gastronomie könnten bereits mit 1/10 dieses Wortvolumens ausreichend gut beschrieben werden. Für gute Ergebnisse in eingeschränkten

Ontologien ⁷ muss aber der volle Umfang aller Homonyme von

Allgemeinsprache und dem eingeschränkten Fach-Sprachraum mit in der Auswahl enthalten sein. 2.1 Strukturelle Hinweise zum SenSzCore Datenbestand:

Wörter A, Α ^λ, ... mit gleichem Sinn-Signal und unterschiedlich geschrieben wie ein anderes Wort B sind Synonyme von B.

Wörter A, A ... mit unterschiedlichem Sinn-Signal und gleich geschrieben wie ein anderes Wort B sind Homonyme von B.

Wörter A, A ... mit weitgehend ähnlichem, aber kürzerem Sinn- Signal als ein anderes Wort B können Hyperonyme von B sein

Wörter A, A ... mit weitgehend ähnlichem, aber längerem Sinn- Signal als ein anderes Wort B können Hyponyme von B sein.

Es existieren je Hochsprache ca. 50.000 relevante

Synonymgruppen mit durchschnittlich ca. 8 Synonymen.

Wörter einer Hochsprache die keine relevanten Synonyme haben, werden^ im Folgenden „Einzelgänger" genannt.

100%ige Synonyme sind i.d.R. lediglich Schreibvarianten eines Wortes (z.B. Photo/Foto). In den- Datenbeständen der Erfindung werden Wörter mit Sinn-Signalen die zueinander eine Überdeckung Von > 85% haben, als Synonyme geführt. Die Entscheidung wird aber bei Erstellung der Daten -vorab- manuell ¹ getroffen und folgt der Regel: Synonyme sind Wörter, die in einem Satz untereinander ausgetauscht werden können, ohne; den Satz-Sinn relevant zu verändern.

Eine weitere wichtige Eigenschaft; von Sinn-Signalen ist, dass sie sprachinvariant sind. Daraus folgt: Alle Wörter äquivalenter ■Synonymgruppen haben in allen Sprachen die gleichen Sinn- Signale .

Die Berechnungen von „Recht-Sinn-Prüfung" anhand von ;Sinn- ■. Signalen, können also unabhängig von der Ausgangssprache;

erfolgen .

Sinn-Signale sind bereichsweise additiv. Innerhalb eines Sinn- . Signales sind, ebenfalls mehrdimensionale Valenzbezüge zwischen Sinn-Einzelkategorien möglich und vorhanden (siehe

Einschränkungsverweise (EV) in Bild 3.1; Abschnitt 3.2).

2.2 Hinweise zu Funktion und Begrifflichkeiten anhand von

Beispielen Beispiel AI : „Wir; werden sie anziehen": ^:

Hier liegt für den Satz eine transitive Bedeutung des Verbs „anziehen" vor, für die in der SenSzCore Datenbank 10

unterschiedliche, transitive Sinn-Signale enthalten sind.

U.a. (stark vereinfachte Darstellung) Homonym Kurzbeschreibung Beispiel anzlehenl ;= Kleidung anlegen, ... (z.B. Hose)

anziehen2 = Kraftschluss erhöhen, ... (z.B. Schraube) anzie _.hen3 = Wertstellung erhöhen, ... (z.B. ^' Preise)

anziehen4 = attraktive Feld-Kraft ausüben, ...

(z.B. mit Magnet) anziehen5 = auf jdri. mental attraktiv wirken, (z.B. durch Worte] anziehenö = Daten verfügbar machen, ... (z.B. Zitat) ^"1 ·

anziehen7 = retrahieren, nicht strecken, ... (z.B. Bein) anziehen8 = mittelbare, attraktive-Kraft ausüben, ; ^!...

(z.B. Klotz mit Seil)

Im Beispiel AI: „Wir werden sie anziehen" würde das Hinzufügen z.B. von „Hose" Eindeutigkeit schaffen:

„Wir werden die Hose anziehen".

Das Sinn-Signal von „Hose" trägt in mehreren Sinn-Signal- Kategorien Werte, die auch mit belegten Kategorien vom: Sinn- ^: Signal von „änziehenl": „Kleidung anlegen" übereinstimmen.

Das Sinn-Signal von „anziehen" in der Bedeutung „Kleidung anlegen" ändert sich also durch die Anwesenheit von „Hose" im ^: Satz siqnifikant . ^; „Hose" und „anziehen" sind deshalb im Satz „Wir werden die Hose anziehen." komplementär.

Die Sinn-Signale von „Hose" und „anziehen" modulieren sich signifikant in jeweils 1 ihrer Bedeutungsmöglichkeiten. In allen anderen ihrer Bedeutungen modulieren sie sich gegenseitig nicht oder: deutlich schwächer.:

Desgleichen entstünde Eindeutigkeit des Satzes, mit den jeweils anderen Sinn-Signalen von „anziehen", wenn man schreibt: _:

Wir werden die Preise anziehen." (=erhöhen) , oder

Wir werden die Beine anziehen" (=anwinkeln) , oder

Wir werden die Schraube anziehen" (=festziehen) usw.

Jedes der : hinzugefügten Wörter zu Beispiel : AI moduliert als Komplementär eine andere Bedeutung von „anziehen" und ^: validiert automatisch eine einzige, bestimmte, andere, korrekte Messung und macht sie damit automatisch verarbeitbar. Das Homonym wird : durch das Komplementär „gültig gemacht":.

Bei jedem Satz der „anziehen" - transitiv - enthält, wird

SenSzCore in einer ähnlichen Form auf Komplementäre reagieren. z.B. „Rock 2 <Kleidung>", „Gehälter <econ>", „Arm <anat>", „Dehnschraube <mech>", „Bremse 3 <mech>" u.v.a. führen genauso zu einer korrekten _/ automatischen Berechnung der lokalen, transitiven Bedeutung von „anziehen" _/ wie die bereits oben

: genannten Komplementäre in Beispiel AI.

^■Würde man die genannten Komplementäre in einen: Satz davor schreiben:

Beispiel A2 :

„Wir haben die Marktpreise sorgfältig geprüft. Wir werden si anziehen.", so erkennt die. Erfindung den Bezug zwischen „sie vom Satz 2 und „Marktpreise" vom Satz 1 und berechnet die

Bedeutung :„erhöhen" von „anziehen" automatisch als relevant.

Diesen Zustand nennen wir im Folgenden: „Satzübergreifende

Komplementarität". Diese tritt sehr häufig mit .„deiktischen Verweisen im Satz. auf. Die Funktion der Erfindung erlaubt auch die automatische Auswahl der korrekten Bedeutung eines Homonyms, wenn mehrere

Komplementäre im Satz vorkommen:

Beispiel A3:

„Er nimmt den Schraubenschlüssel aus der Hose und wird die Schraube anziehen."

Hier wird „Schraube" und nicht „Hose" das Komplementär von „anziehen". Die Erfindung erkennt durch die Konjunktion „und" das Subjekt „Schraube" im zweiten Hauptsatz, wodurch die Suche nach Komplementären auf diesen zweiten Hauptsatz beschränkt wird.

Sind mehrere Homonyme syntaktisch voneinander nicht scharf getrennt (z.B. wie es durch Konjunktionen der Fall wäre), erfolgt grundsätzlich die gleiche Standard-Prozedur, wie wenn der Satz nur ein einziges Homonym hat. Alle Sinn-Signale der Wörter des Satzes werden mit allen Sinn-Signalen aller anderen Wörter syntaktisch abgrenzbarer Satzteile verglichen. I.d.R. treten die Komplementäre in dieser Art Sätze nur in

unmittelbarer Nähe zu ihren Homonymen auf - ansonsten wären diese Sätze nämlich nur sehr schwer verständlich. Deshalb wird in der Erfindung bei Sequenzen von mehreren Homonymen die

Distanz im Satz zueinander mitbewertet. I.d.R. kann bei diesem Vorgehen auch die Subjekt-Ob ekt-Relation hilfreich sein.

Moduliert ein Homonym mit mehreren anderen Homonymen, dann _. wird dasjenige Sinn-Signal der anderen Homonyme bevorzugt, worin sie sich untereinander am meisten ähneln. Diesen Zustand nennen wir im Folgenden „multiple Komplementarität". Bestehen zum Abschluss der Berechnungen mehr als eine gleichwertige Möglichkeit, ist der Sinn des Satzes nicht eindeutig und die „Recht-Sinn-Prüfung" erzeugt automatisch eine Fehler-Meldung.

Zur Vollständigkeit noch ein Beispiel.

Beispiel A4: „Er ist am anziehen", bei dem die intransitiven ⁷. Bedeutungen von "anziehen" verwendet werden müssen.

Diese sind:

Homonym Kurzbeschreibung Beispiel anziehenll = antriebsbehaftete Kraft ausüben, ...

(z.B. Lokomotive) anziehenl2 = stoffliche Struktur aktiv verändern, ...

; (z.B. Klebstoff)

Hier ist der Satz A4 an sich logischerweise nicht eindeutig . _: ■Erst passende Komplementäre des Sinn-Signals von

antriebsbehafteten Objekten wie „Lok" für anziehenll „Die Lok ist am anziehen", oder chemisch aktive Materialien wie „Kleber" für anziehenl2 „Der Kleber ist am anziehen", führen mit in der Erfindung zu einer korrekten Sinn-Zuordnung. Die Verwendung z.B. von „Hose" in „Die Hose ist am anziehen" führt hingegen - mangels Komplementarität - zu einer Fehler-Meldung der „Recht- Sinn-Prüfung".

Hose hat nämlich im■; Sinn-Signal keine Werte in- Kategorien wie „kann antriebsbehaftete Kraft ausüben" oder/„kann stoffliche Struktur aktiv verändern" die anziehen in intransitiver,

syntaktischer Funktion modulieren.

2.3 Hinweise zu Funktion und. Begrifflichkeiten anhand von

Beispielen mit Übersetzungen nach dem Stand der Technik

Besonders eindrucksvoll wird die Schwierigkeit der

automatischen, elektronischen Sinnverarbeitung „ESV" und die präzise, einfache Funktion der Erfindung deutlich, durch

typische Fehler von namhaften Übersetzungsmaschinen nach dem Stand der Technik. ^'

/Zuerst Bemerkungen zum Stand der Technik: (Tabelle 2 )

In Bl und;B2 wird offensichtlich die häufigste Verwendung von Zug in der Übersetzung verwendet: "train". Dies ist das typische Ergebnis einer statistischen Vorgehensweise um den „Sinn" zu ermitteln. Im Beispiel Bl ist sogar jedes der 3 Homonyme Zug, Lauf und Geschoss im Sinn falsch erfasst und somit falsch übersetzt .

In Bl wird für „Lauf" der Sinn von „Rennen" verwendet, anstatt der Bedeutung des „Gewehrlaufes".

In Bl wird für „Geschoss" die Bedeutung „floor" verwendet, also das Geschoss eines Hauses und nicht das Projektil.

In B3 und B4 wird für „Geschoss" die Bedeutung „bullet"

verwendet, anstatt die des Geschosses eines Hauses, „floor".

Durch „Recht-Sinn-Prüfung" erhält man in diesen 4 Beispielen ausschließlich korrekte Interpretationen, weil in jedem Beispiel ausreichend Komplementäre enthalten sind, die die Eindeutigkeit jedes Satzes arithmetisch bestimmen:

In Bl : verleiht „Geschoss" den Bedeutungen von „Zug" und „Lauf" eine hohe Priorität in deren „waffenbezogenen" Bedeutungen, (engl.: „groove" für Zug und „barrel" für Feuerwaffen-Lauf) und ergibt damit - unter Verwendung multipler Komplementarität - die korrekte Übersetzung der Erfindung ins Englische: „In the groove of the barrel the projectile gets a rotation around his

longitudinal axis." Siehe auch Bild 2 und Tabelle 1.

In B2 verleiht „Zigarette" dem „Zug" vom „Lungenzug" die

Priorität. (Engl. = „puff") und ergibt damit die korrekte

Übersetzung von SenSzCore ins Englische: „In the course of the last minute I took just one deep puff from the; cigarette . "

In B3 sind Gefahrenausgang und Gebäude die Komplementäre für „Geschoss" eines Gebäudes (engl, „floor") und ergeben damit die korrekte Übersetzung der Erfindung ins Englische: „The floor must have an emergency exit on the rear of the building."

In B4 sind „Personen" und „sperren" die Komplementäre für „Geschoss" eines Gebäudes (engl, floor). Im zweiten Satzteil verleiht das Wort „Sturm" u.a. über seine Mobilitäts- und

Dimensions-Werte im Sinn-Signal der Wortgruppe „im Anzug sein" die Komplementarität von der Synonymgruppe „heranziehen" (engl. „be approaching") und ergibt damit: die korrekte Übersetzung von SenSzCore ins Englische: „The floor wasibarred for persons, because a storm was approaching." Man beachte, dass eine

Komplementarität für Anzug im Sinne Kleidung, in diesem Satz nicht vorhanden ist.

Wichtige Anmerkung:

Die Qualität einer ^: Übersetzung wird u.a. dadurch bestimmt, dass Homonyme in der Zielsprache auch die korrekten Komplementäre der anderen Sprache im Satz vorfinden. Auch dies ist durch die Struktur und den Aufbau der Erfindung automatisch

sichergestellt: Durch Auswahl der Übersetzungen aus

Synönymgruppen, die in allen Sprachen einem gleichen Sinn-Signal zugeordnet sind, ^"■. bleibt die Sinnkomplementärität der Wörter nach der Übersetzung zwangsweise erhalten.

Zur Übersicht typischer Schwierigkeiten der Sinnzuordnungen im Stand der Technik, gegenüber der Erfindung sind die letzten Beispiele nochmals in Tabelle 3 zusammengefasst .

3. Detaillierte Beschreibung der Erfindung Die Bilder

3.1 .: Übersicht der Struktur und inhaltlichem Aufbau von

Sinn-Signalen ^' ··

3.2 : Typische Werte-Abgleich-Matrix für den Abgleich von

: Sinn-Signalen .

4 u. 6 : -System-Übersicht von Recht-Sinn-Prüfung:

5 : Flussdiagramm : zur Berechnung der Sinn-Scores von Wörtern

(Ablauf Box 4.11 in Bild 4)

erläutern die Grundbausteine und die Abläufe der Erfindung im : Detail.

3.1 Erläuterung der Abläufe in Bildern 4 + 6 :

Über eine Dateneingabe z.B. mittels eines Datensichtgerätes oder eine Spracherkennung und entsprechende Signalumwandlung, erreicht verarbeitbarer Text das computerimplementierte System Recht-Sinn-Prüfung (Bildabschnitte 4.5 bis 4.13 in Bild 4) ..

Die Erfindung kann auch in abstrakter Form als:

„computerimplementierter, kontext-sensitiver Signal-Wandler + Messgerät" beschrieben werden.

In der Erfindung werden nämlich reine Buchstaben-Signale in Sinn-Signale umgewandelt, mit Hilfe eines Messgerätes, das a) feststellt ob der Text-Input eindeutig ist und

b) wenn ja, zu jeder Buchstabenkette ohne Leerzeichen ein korrektes Sinn-Signal - bezogen auf den Kontext des Satzesverknüpft.

Die Recht-^Sinn-Prüfung verarbeitet den Text Satzweise.

:Die Verarbeitung von Einzelwörtern ist nicht vorgesehen, · es sei denn, es sind Sätze der Länge = l_Wort die eine besondere, semantische/syntaktische Funktion haben (z.B. Interjektionen wie „Hallo!", „Bitte!"; oder unpersönliche Verben z.B. in

romanischen Sprachen: Spanisch: „Llueve.", Italienisch: „Piove." ... = „Es regnet.").

Nachdem in 4.5.1 ^: die Existenz aller Wörter des Satzes mit den Daten des EDV-Systems ^■ 4.7 abgeglichen und positiv ist _; (also alle Fälle, wo die Buchstabenkömbination selbst nicht zum Ausschluss führt, z.B. „haven" anstatt „haben" oder „haken" usw.), erfolgt ein rekursiver, automatischer Arbeitsgang, in dem für alle

Wörter, deren Syntaktische Funktion im Satz ermittelt wird.

Dafür ist die Nützung klassischer „Parse-Trees" nicht

erforderlich. Über die Sinn-Signale von Partikeln und der nachfolgenden Wörter ist in über 85% { Eigene, empirische

Auswertungen von tausenden von Sätzen.} der praktischen Fälle die Bestimmung der syntaktischen Funktion jedes Wortes möglich, wenn keine strukturellen Rechtschreibfehler vorliegen

(strukturelle Rechtschreibfehler = falsche Buchstaben) .

Ist die Bestimmung der syntaktischen Funktion jedes Wortes nicht möglich (ca. 15% der Fälle = alle: Wörter existieren, _:aber. deren syntaktische Funktion ist nicht eindeutig feststellbar) wird sie mit der Berechnung vört Sinn-Signalen in einzelnen Wort-Paarungen unterstützt, deren. syntaktische Funktion nicht ^; ausschließlich über ihre Position zueinander bestimmt werden kann.

Dies berücksichtigt auch bereits eventuelle syntaktische

Rechtschreibfehler, von Wörtern die z.B. im Deutschen sowohl Groß- und Kleinschreibung eines Wortes zulassen, die aber beim vorliegenden Satz nicht korrekt ist (z.B. „Wir Karren den Mist vom Hof."). Hier sind mehrere rekursive Schleifen zwischen 4.5.1 und 4.5.2 möglich.

Z.B. „Die liegen am Pool waren Besetzt." ... wird 2 Durchläufe erfordern. (Die komplett falsche, strukturelle Rechtschreibung ist ja bereits über 4.5.1 ausgeschlossen).

Man beachte, dass gängige Rechtschreibprüfungen nach dem Stand der Technik z.B. bei „Wir Karren den Mist vom Hof.", im

Gegensatz zu SenSzCore - vom Funktionsprinzip her -, keinen Fehler anzeigen können ... und es auch nicht tun.

Besteht keine Eindeutigkeit in der Syntax selbst - d.h. ein Wort kann z.B. nur ein Substantiv sein, wird aber mit einem Adverb benutzt, z.B. „Ich will schnell Auto.", erfolgen automatische Benutzerdialoge 4.9 bzw. über den Benutzer-Interaktions-Manager Bild 6 (7) auf höherer Ebene, welche die grundsätzliche, syntaktische Fehlerhaftigkeit des Satzes anzeigen. Es erfolgt die automatische Anzeige der Ausschlusskriterien, jedoch in diesem Falle keine Angabe von Korrekturmöglichkeiten.

Ist die Syntax des Satzes eindeutig, erfolgt eine Recht-Sinn- Prüfung 4.11 nach dem in Bild 5 dargestellten, automatischen Ablauf.

Dieser wird durch das EDV-System 4.7 und entsprechende

Datenbestände, Zwischenspeicherungsmöglichkeiten, sowie

arithmetischen Berechnungsfunktionen unterstützt. (Siehe auch Erläuterungen zu Bild 3.1 und 3.2).

Es ist zu berücksichtigen, dass SenSzCore zunächst keine

Uneindeutigkeiten bewertet, die rein logischer Natur sind:

Z.B. der Satz „Meine alte Freundin hatte gestern Husten.": Nach Sinn-Signalen ist der Satz eindeutig. Ob nun die „Freundin alt ist" oder es sich um „eine langjährige Freundin handelt" bleibt ein Geheimnis des Autors des Satzes. Diese logische

Uneindeutigkeit wird bei Übersetzungen mit SenSzCore

aufrechterhalten, ohne dass sie zu einem semantischen Fehler in der anderen Sprache führt. Es ist u.a. ein Qualitätsmerkmal jeder Übersetzung, dass logische Inhalte des Satzes in der Zielsprache nicht unnötig verändert werden.

Mit SenSzCore liegen nach Abschluss der Berechnungen 4.11 - wenn der Satz eindeutig ist - nun auch für alle Wörter, deren gängigste Synonyme vor. Diese werden dem Benutzer auf Wunsch in der Autotranslation 4.8 angezeigt. Hat der Benutzer z.B. den Satz eingegeben: „Ich nahm einen tiefen Zug aus der Zigarette", erhält er über die Autotranslation, 4.8 einen Satz, bei dem die flektierbaren Homonyme durch ihre relevantesten Synonyme aus der Datenbank 4.7 ersetzt sind. In diesem Fall erhält der User: „Ich nahm einen tiefen , Lungenzug ^λ aus der , Filterzigarette . Diese Funktion soll dem Nutzer auf Wunsch - in seiner Sprache - anzeigen, dass der Sinn den er ausdrücken wollte, von SenSzCore korrekt erkannt wurde, indem es sinngemäß korrekte Synonyme ersetzt.

Man beachte nochmals den fundamentalen Unterschied zwischen den Aussagen 4.4 (-vor- Recht-Sinn-Prüfung) und 4.12 (-nach- Recht- Sinn-Prüfung) in den Positionen 1) und 2).

Die Erfindung hat nun einen Text ohne semantische Informationen z.B. 2.1. AI in einen Text mit semantischen Informationen 2.1.A2 umgewandelt, die ausschließlich aus dem Abgleich der Sinn- Signale zwischen den Wörtern des Satzes berechnet wurde und im Inputsatz - explizit - vorher nicht enthalten war. Siehe auch weitere Informationen in Bild 2.

Nach Abschlüss der Berechnungen kann für den Satz, informatisch eine Ersatz-Darstellung mit codierten Werten erstellt werden, die den Sinn-Signalen der Wörter entsprechen (Bild 4.13) inklusive ihrer syntaktischen und morphologischen Information die ja auch von SenSzCore ermittelt wurde. Diese Zusatz- Information ist damit auf mehrfache Art indizierbar.

Entscheidend ist, dass die mathematische Univozität zwischen Sinn-Signalen und codierten Werten der Indizierung

informationstechnisch bekannt bleibt. Die Indizierung erfolgt vorteilhafterweise über das Sinn-Signal selbst, kann aber auch durch andere, userspezifische Codes ergänzt, bzw. ersetzt werden, die das Sinn-Signal erst bei späterer Nutzung aus gekoppelten Daten abrufen. Ein so codierter Satz kann nun vorteilhaft in den gelisteten Funktionen 4.14 bis 4.19 weiterverarbeitet werden.

Eine serielle Verarbeitung wird bei Übersetzungen (4.14) und User-Dialogen (4.16), sowie Suchmaschinen (4.17) erfolgen.

Bei den anderen Funktionen wird häufig bereits vorher, ein rekursiver Ablauf mit (4.7), (4.9), (4.11) erforderlich sein. Rekursive Schleifen vorab, geschehen insbesondere bei der

Spracherkennung (4.15), der Rechtschreibprüfung (4.18) oder der Worterkennung (4.19). Hier spielen auch die Abläufe 4.5.1 und 4.5.2 eine stärkere Rolle in der Interaktion mit dem Benutzer als bei den anderen Funktionen.

Ein ganz wichtiger, operativer Vorteil der Erfindung ist, dass bei interaktiver Arbeitsweise für den Benutzer ständig klar ist, wie gut sein Text im Sinne semantischer Eindeutigkeit ist und dass er sofort eingreifen kann. Personen die gut schreiben, im Sinne Verständlichkeit, Grammatik und Syntax erhalten kaum

Rückfragen des Systems.

Erfolgt die Benutzung offline, z.B. beim Übersetzen großer

Mengen Text, kann das System so geschaltet werden, dass

sämtliche Rückfragen im Batch, als Nacharbeit abgearbeitet werden können.

Erläuterungen zu BILD 6

Für die Zuordnung der Ansprüche in Abschnitt 4, wurde die

Darstellung in Bild 6 gewählt. In Bild 6 ist die Rekursivität der Abläufe der Schritte 4.5 bis 4.11 formeller dargestellt und mit Einzelergebnissen verknüpft um die Ansprüche einfacher formulieren zu können. Für das Verständnis der Abläufe an sich, im System, sind mit Bild 4 die einfacheren Erläuterungen für einen Fachmann möglich.

Modulator (2) von Bild 6 stellt praktisch die mehrfachen

Durchläufe 4.5 bis 4.11 dar, bis kein Wort mehr mit

grundsätzlichen Rechtschreibfehlern vorliegt. Modulator (3) von Bild 6 stellt die mehrfachen rekursiven Durchläufe dar, bis die Analyse des Satzes selbst, in syntaktischem, morphologischen Sinne, sowie seiner Eindeutigkeits-Messung abgeschlossen ist. In diesem Sinne enthält Bild 4 eine stark operative Darstellung der Erfindung zur besseren Erläuterung der Einzelfunktionen.

Bild 6. enthält eine formell vereinfachte Darstellung der

Erfindung zur besseren Darstellung unterschiedlicher,

beanspruchter Anweridungsmöglichkeiten der Erfindung.

Bilder 4 und 6 weisen also nur Unterschiede im Abstraktionsgrad der Darstellung auf, jedoch keine funktionellen Unterschiede.

3.2 Erläuterungen zu BILD 3.1

Die Tabelle von Bild 3.1 ist im übertragenen Sinne, wie die 2- . Dimensionale-Prinzipskizze eines mehr als 3-dimensionalen

Zählenräümes zu sehen. Sie erläutert das Aufbau-, Anordnungsund Züördnüngsprinzip von Sinn-Signalen, nicht aber eine visuell erfassbare Struktur an sich.

Auf stark vereinfachte Form ausgedrückt, ist ein Sinnsignal der Inhalt einer Spalte in Bild 3.1 ab Spalte „D" .

Sinn-Signale stellen ein informatisches Hilfsmittel dar, das den Softwarealgorithmen der Erfindung erlaubt - die durch den vorhandenen Text und Kontext automatisch gesteuert werden — implizite Informationen^ aus Texten zu extrahieren.

Bild 3.1 zeigt ein in 2 Dimensionen lesbaren Auszug der Sinn- Signale für 9 Wörter. (Wörter .siehe Koordinaten Dl bis Ml) : Bild 3.1 ist auch eine Hilfestellung um Bild 3.2 einfacher

nachyollziehen zu können . Dort wird der Satz: „Der _. Stift _:

schreibt nicht ; ^; analysiert . Diese Wörter sind in _: Bild 3.1 gelistet .

In den Kopfzeilen C1-M5 sind allgemeine Erlauterungen zu den Wörtern enthalten. Ab Zeile 6 sind erfindungsspezifische Inhalte dargestellt. Man beächte, dass die Informationen in Zeile 3, übliche Wörterbuch-Informationen darstellen, die keine

erfindungsspezifische Relevanz haben, da mit ihnen keine

Modulation zwischen Homonymen und Komplementären berechnet werden kann. Zeilen 9 bis 42 zeigen für jedes Wort einen Auszug (cä. 10% des Gesamtumfangs) seines Sinn-Signals. Spalten B und C (Sinnsignal-Kategorie 2 und Sinn-Signal-Kätegorie 4) stellen eine verbale Zuordnung - also eine Merkmalsbeschreibung - des j eweiligen Sinn-Signal-Einzelwertes dar. Sie sind nur zu

Erläuterungszwecken dargestellt. In Zeile 7 steht für jedes Wort die Anzahl belegte Felder im Sinn-Signal Und rechts neben dem Schrägstrich die Anzahl Einschränkungsverweise (EV) . Z.B. für „schreiben 1" 86 \ 3.

Einschränkungsverweise stellen situative Attribute dar, nach denen die Werte von Kategorien in Sinn-Signalen in Abhängigkeit des Kontextes ¹ automatisch zu- oder abgeschaltet werden können. Z.B. sind einem Gebäude („Stift 4.1". Spalte I, Zeilen 10, 37., ^: 39, 41) während der Herstellung Eigenschaften (= Merkmale + : Werte) mit dem Kürzel H (von Herstellung) zugeordnet, die das Gebäude während seiner späteren Nützung nicht hat, sondern nur: während seiner Bauzeit.

Der Zusatz F, z.B. in Zelle F27 bei „Stift 1" vermerkt eine Funktionsanforderung. Homonyme eines Wortes ohne regelmäßige, feste Oberfläche werden mit Stift 1 schlechter modulieren, als die, die eine feste, regelmäßige Oberfläche haben.

Andere: Attribute werden z.B. durch die Einschränkungs^Verweise (EV) aktiviert, wenn im Umfeld des Wortes Sinn-Signale

auftreten, die den Triggerworten in Zeile 6 des Sinn-Signals zugeordnet sind.

Man beachte, dass auf diese Weise im Satz auch ein Muster der Einschränkungsverweise (EV) entsteht, welches ebenfalls - wie die Modulation von Homonymen mit. Komplementären - nicht

explizite,: kontextuelle Information erzeugt.

Z.B. ist im Satz: „Der Stift (3) hört dem Lehrer nicht zu." ein (EV) -Muster von u.a. „Schule 9 (Institution oder Gebäude)" enthalten, welches wiederum für andere Homonyme im Kontext des Satzes ais Sinn-Signal zum Komplementär werden: kann. Die Sinn- Signale von (EV) -Mustern werden von SenSzCore bei den

Berechnungen automatisch abgerufen, und über mehrere Sätze, oder bis zum Absatzende eines Textes kombiniert, automatisch

gespeichert bzw. laufend ergänzt.

Diese Effekte sind Grundlage dafür, dass mit Sinn-Signalen über (EV) auch logische Schlüsse aus dem Kontext gezogen werden können. (EV) sind also auch eine der Grundlagen, dass SenSzCore bei eindeutigen Sätzen, auch automatisch „zwischen den Zeilen" lesen kann.

Vor allem auch bei Kombination mit z.B. Adverbien aller Art, zeitlichen\örtlichen\begründenden\bzw. modalen Präpositionen oder logischen Operatoren (nicht, und, oder, usw. ) , können in vielen Sätzen logische Inferenzen erkannt und zur

Weiterverarbeitung in geeigneter Weise gespeichert

werden. (Ausführungsformen Nr. 44 -47)

Da für (EV) die Sinn-Signale bekannt sind, können auch alle Synonyme, Hyperonyme und Hyponyme des (EV) auf die gleiche Weise aktiv werden, inklusive aller ihrer Flexionen, wie der explizit angegebene (EV) selbst. Z.B., wenn „Gebäude" in einem Wort als (EV) eingetragen ist, werden auch z.B. „Bauwerk", „Hochhaus", „Haus", „Regierungsgebäude", usw. sowie alle ihre Deklinationen und Plurale in der „Recht-Sinn-Prüfung" automatisch aktiviert sein, wobei auch zwischen allgemeineren Ausdrücken oder

konkreteren wie Regierungsgebäude im Sinn-Signal Unterschiede vorhanden sind. Im Regierungsgebäude sind im Sinn-Signal

Positionen belegt, die Sozial-Politische Komponenten enthalten, die wiederum mit dem Einschränkungsverweis Berufsausübung verknüpft sind.

Man beachte, dass in der operativen Ausführung, die Markierung der (EV) mit nicht-numerischen Zeichen in einer anderen Index- Ebene stattfindet. Sinn-Signale enthalten also immer, im

arithmetischen Teil arithmetisch verarbeitbare Werte. Alle anderen Komponenten sind in anderen Index-Dimensionen enthalten und automatisch abrüfbar bzw. kombinierbar.

Die Merkmale in Spalten A, B und C der einzelnen Sinn-Signal- Werte stellen keine Teildefinitionen der Wörter an sich dar, sondern u.a. Assoziationen des gesunden Menschenverstandes, in etwa, wie wenn man eine Bildgeschichte zum jeweiligen Wort zeichnen würde. Es muss in dieser Bildgeschichte dargestellt sein, welche Merkmale - auch in abstrahierter Form- assoziiert werden. Es muss dargestellt sein, welche handelnden Subjektarten / Objektarten, welche Trigger, welche Dimensionen beim Gebrauch des Wortes relevant assoziiert werden, usw. Zum Verständnis der Struktur von Sinn-Signalen können im weitesten Sinne auch die Grundzüge des Aufbaus von Konstruktionskatalogen { Konstruieren mit Konstruktionskatalogen ISBN 3-540-67026-2} dienen.

Da Kategorisierungen immer willkürlich und relativ sind, kann auch die Kategorisierung für Sinn-Signale keinen absoluten Anspruch erheben. Für jede Kategorisierung kann höchstens ihr Nützlichkeitsgrad in Bezug zu ihrer bezogenen Anwendung bewertet werden. Der primäre Nutzen dieser Form der Kategorisierung der Sinn-signale für Wörter ist, dass sie so aufgebaut ist, dass:

1. So wenige Merkmale genutzt werden müssen wie nötig.

2. So viele Merkmale enthalten sind, dass für alle Wörter einer Sprache, ausreichend viele, relevante Assoziationen vermerkt sind, so dass Homonyme nur durch die richtigen

Komplementäre moduliert werden.

3. Verknüpfungsebenen enthalten sind, welche je nach

Applikationsumfeld des Wortes das Sinn-Signal beeinflussen können (= Einschränkungs-verweise (EV) in Zeile 6) . Man beachte, dass alle Triggerworte der (EV) in Homonym-Notation auftreten (= Wort + lfd. Homonym- ummer in unseren

Datenbeständen) . Damit ist auch jeweils ihr eigenes Basis-Sinn- Signal fixiert, egal in welcher Flexion sie auftreten.

4. Die Modulation von Homonymen eines Satzes durch

Komplementäre mit maximaler Häufigkeit im Satz/Kontext so ausfällt, wie sie ein Mensch mit guten Kenntnissen der

Hochsprache den Satz bezüglich Eindeutigkeit beurteilt hätte.

Die Herleitung der Sinn-Signal-Kategorien selbst, basiert in weiten Teilen auf einer Baumstruktur, aufbauend auf den

Grundelementen Materie, Informationen, Energie, und Zeit ergänzt durch emotionale, vegetative, Trigger-, Ablauf- und Raum\Ort- Merkmale. Kategorie 1 ist Kategorie 2 vorgeschaltet. Kategorie 3 ist in dieser Darstellung - aus Platzgründen- in Kategorie 2 enthalten. Kategorie 4 stellt den Hinweis dar, den die Ersteller von Sinn-Signalen lesen - beim Erstellen des Datenbestandes der Erfindung -, um dem Sinn-Signal einen Wert zuzuordnen oder nicht. Das Arbeitsvolumen Sinn-Signale zu erstellen, entspricht etwa dem Aufwand ein Großwöfterbuch zu erstellen, allerdings mit einer ganz speziellen, numerischen Notation .. Die Zuordnung der Einzelwerte im Sinn-Signal erfolgt in den meisten Fällen unscharf (eher ja, eher nein) und im Falle von ja, mit Werten die größer als 1 sind, wenn von der Eirtzel-Assoziation „viel" vorhanden ist. Andere Zuordnurtgsformen werden z.B. bei

Materieeigenschaften wie Dichte zu Wasser verwendet (Bild 3.1 Zeile 17). Hier sagt der Wert 1 = leichter, 2 = gleich, 3= schwerer. Genauso bei Luft.

Solche Werte haben zur Folge, z.B. im Satz: „Das Fahrzeug:, schwebt in der Luft.", dass das Sinn-Signal eines Zeppelins mit dem (EV) „Nutzung" eine höhere Modulation mit „schweben" erhält, als z.B. ein "Auto" oder ein „Flugzeug . Im Falle von Auto oder Flugzeug, sogar : eine Kömpatibilitäts-Rückfrage eines Logik- Inferenz-Programms ausgelöst werden kann.

3.3 Erläuterungen zu Bild 3.2:

Zu sehen ist der Auszug der Berechnungen für den Satz: „ Der Stift schreibt nicht." Dieser Satz ist nicht eindeutig.

Das Verb „schreiben" hat 4 Bedeutungen und „Stift" hat 12. ^: Felder, 1.1 bis 4.20 sind irrelevant, denn sie sind symmetrisch zu den belegten, ohne Zusatzinformation.

Schwarze, diagonale Felder sind irrelevant, da Vergleich jedes Wortes mit sich selbst..

Felder 1.1 bis 4.4 und 6.6 bis 20.20 sind hier; ebenfalls

irrelevant, da sie lediglich Bedeutungen eines Homonyms .

untereinander vergleichen.

In der Matrix sind 35 Zellen mit „XX" . Markiert . Weitere Felder.: enthalten Zahlen zwischen 30% und 100%.

„XX" bedeutet, dass rechnerische, logische und oder

morphologische/syntaktische Vergleiche zwischen den Sinn- Signalen der beteiligten Bedeutungen zum Ausschluss der

Kombination geführt haben.

Prozent-Werte stellen den Sinn-Modulationsgrad der Sinn-Signale der Wörter dar, die sich im Feld kreuzen. Die mit XX markierten Zellen verweisen in diesem Fall konkret darauf, dass a. bei „schreiben 1" , das Verb keine motorische Tätigkeit vom Subjekt des Satzes zulässt, wenn dieses eine Sache ist: dann kann lediglich eine Funktion ausgeübt werden, wie hier

„schreiben 3"

b. „schreiben 3" - also die Schreibfunktion eines

Werkzeuges/Gerätes - kann nicht auf ein Lebewesen als Subjekt („Stift") appliziert werden

c. bei „das Stift" (Zeilen 9, 10, 13, 14, 15, 16) z.B. hinzukommt, dass der Artikel (Genus) mit dem des Beispiel-Satzes nicht übereinstimmt.

d. In Zeile 4 sind keine „XX" eingetragen, da die Variante insgesamt entfällt (Im Beispielsatz liegt keine reflexive

Anwendung von schreiben vor) .

Schreibt man nun automatisch eine Liste, die die Modulations^ Ergebnisse nach Größe absteigend sortiert, erhält man ein Sinn- Sig al-Intersection-Ranking (SSIR) .

Um die verbleibenden Möglichkeiten übersichtlich anzuzeigen, wird die Funktion , Autotranslation ^λ genutzt: sie zeigt jede einzelne der Alternativen, indem die relevanten Wörter durch deren gängigsten Synonyme (in den Beispielen unterstrichen): des Homonyms im Kontext in. der Input-Sprache des Nutzers angezeigt werden.

Der Anzahl und dem Wert der größten ^'Werte folgend, wird aus dem SSIR folgende; Analyse bzw. Autotranslation automatisch

generiert .. Der Wert 66% ist ein empirisch festgelegter Wert, der je nach Ontologie und Sprache : individuell festgelegt werden kann und eine untere, relative Relevanzgrenze für Sinn-Modulation darstellt: ^{' ' :}

1. Der ^: Satz ,: Der . Stift schreibt nicht . ^λ ist nicht eindeutig und lässt [5] : relevante Interpretations-Möglichkeiten ; >66% zu. :

(Unterstrichehe Wörter = Synonyme für Stift oder schreiben) i. schreiben 3 (als Funktion), mit Stift 1 (Schreibstift) . Autotranslation: Der Schreibstift funktioniert nicht. ii. schreiben 2 (lesbares Opus mit Text erstellen), mit Stift 3 (Lehrling) oder Stift 5 (Steppke, Göre) Autotranslation : Der Lehrling schriftstellert nicht. Autotranslation : Der Steppke schriftstellert nicht. iii. schreiben 1 (motorische Tätigkeit), mit Stift 3

(Lehrling) oder Stift 5 (Steppke, Göre)

Autotranslation: Der Lehrling schreibt nicht auf. Autotranslation: Der Steppke schreibt nicht auf .

Die restlichen Kombinationen ergeben niedrigere Werte.

Als Übersetzungs-Maschine z.B. im Anwendungsbereich

Geschäftsalltag (technische, kaufmännische, wissenschaftliche Sprache), würden die Varianten ii. und iii. ausgeschlossen, da „Stift 3" im Sinn-Signal nur für <regionale Anwendung>, bzw. „Stift 5" als <Scherzhaft> definiert ist. Es bleibe also nur die Interpretation, dass der Schreibstift nicht funktioniert.

2. Dem Benutzer wird von SenSzcore automatisch die Option 1 zur Übernahme angeboten und es erfolgt ein automatischer Hinweis auf die verbleibenden Möglichkeiten in ii. und iii.

Wichtige Anmerkung: die numerischen Modulations-Werte beruhen auf den Eigenschaften der Sinn-Signale, die für das System vorab, manuell „geteacht" und fest gespeichert sind. Insofern spiegeln die Werte des Sinn-Signals die Assoziationen „einer" Person wieder, nämlich der, die die betroffenen Sinn-Signale erstellt hat und keine absolute Entscheidung an sich. Folglich ist natürlich auch der Modulationswert von 2 Sinn-Signalen keine absolute, sondern eine relative Aussage.

Außerdem liegt bei der Entscheidung für i. auch keine

statistische Bewertung vor, denn es wurde konkret gezählt - nicht hochgerechnet - und Alternativen z . B. unterhalb der Grenze 66% verworfen.

Erläuterungen zu Tabelle 5

Tabelle 5 zeigt den Vergleich von den besten, marktüblichen Programmen (Stand Januar 2014), anhand von 5 Beispielsätzen: I) Der Stift kauft ein Stift.

II) Der Stift kauft einen Stift.

III) Das Stift kauft einen Stift.

IV) Der Stift schreibt nicht.

V) Das Stift wurde in einem Zug geräumt.

Die 13 unterschiedlichen Bedeutungen für Stift sind in Bild 3.2 registriert. Insgesamt liegen bei den 5 Beispielsätzen 21 mögliche, relevante Bedeutungen vor. Im Stand der Technik sind nur 3 von 189 Möglichkeiten korrekt erkannt / übersetzt.

Der Vergleich zeigt deutlich, dass marktübliche Programme - egal ob gratis oder nicht-, mehrere grundlegende Fakten für

Sinnerkennung nicht/bzw. zu selten berechnen können, so dass bei diesen _; Beispielen eine durchschnittliche Trefferrate von

lediglich 1.5 % auftritt:

Zum Beispiel scheitern Programme nach dem Stand der Technik - neben zahlreichen anderen Schwächen - bei:

a) Erfassung: des Genus der Substantive, sogar bei vorhandenem Artikel .

b) Differenzierung zwischen totem Objekt / Lebewesen /

Institution.

c) Zulässige Handlungen des Aktanden (z.B. können Sachen nichts "kaufen") . ^:

d) : Erfassung: der relativen Proportionen von Subjekt und bjekt: was passt wo hinein? Z.B. passt „das Stift"

(Institution) nicht in einen Zug (Satz Nr. V).

e) Differenzierung von Homonymen und derer korrekten

Übersetzung.

f) Warnung des Benutzers, wenn Fehler im Text, oder

Uneindeutigkeit vorliegen .

u.v.a.

Weitere., vergleichende Details zu Schwächen von . Programmen nach dem Stand der Technik anhand von .Beispielen, siehe unteren

Kasten in Tabelle 5 „linguistic comparison" ab Koordinate C34).

Weitere typische, verfahrensbedingte Fehler des Standes der Technik bei Übersetzungssoftware der: größten Unternehmen der Branche siehe Tabelle 6.

Es wird deutlich, dass mit diesem Stand der. Technik (an welchem seit über 25 Jahren optimiert wird, kein ernsthaftes Arbeiten möglich ist. Egal welche die Ausgangssprache und Zielsprache - z.B. innerhalb europäischer Sprachen - ist.

Im Folgenden werden einige unterschiedliche Ausführurigsformen der Erfindung in strukturierter Form beschrieben.

1. Ausgangspunkt ist ein computerimplementiertes Verfahren „Recht-Sinn-Prüfung", welches automatisch die in einem Satz natürlicher Sprache nicht explizit vorhandenen, semantischen Bedeutungen der Wörter des Satzes in Zahlen umwandelt - genannt Sinn-Signale - und die : für den Satzkontext korrekten Bedeutungen aller Wörter des Satzes mit den Sinn-Signalen deterministisch berechnet , gekennzeichnet dadurch dass: es in _. einem nichttransitorischen, _: maschinenlesbaren

Speichermedium gespeichert ist und mit durch einen Computer ausführbaren Anweisungen ausgestattet ist dass, wenn diese durch einen Computerprozessor ausgeführt werden bewirken dass, für einen zu analysierenden Satz - begonnen und beendet nach gültigen Regeln der natürlichen Sprache - eines Textes der natürlichen Sprache, alle verfügbaren, erfindungsgemäßen Sinn- Signale für jedes Wort automatisch aus dem.

computerimplementierten Speicher (1) entnommen: werden und der arithmetische und logische Vergleich der Sinn-Signale aller Wörter des Satzes untereinander - nur durch die Wörter selbst und durch deren spezifische Anordnung im analysierten Satz gesteuert - in den Sinn-Modulatoren (2) und (3) so durchgeführt wird, das jedes Wort über seine für diesen Kontext als gültig berechneten Sinn-Signale, durch für jedes Wort separat, dem Wort zuordenbare, bei der Analyse automatisch, erstellten,

gekoppelten, ; verarbeitungsreleyanten Vergleichsdat.en |zu anderen Sinn-Signalen mit anderen Wörtern des Satzes, anschließend explizit mit der Information maschinenlesbar getaggt ist, dass diesem Tagging automatisch entnommen werden kann, ob das Wort im Kontext korrekt geschrieben ist und ob das Wort, nur eine oder mehrere Sinn-Signale im Kontext hat und welche diese Sinn- Signale sind. 2. Verfahren nach Nr. 1, dadurch gekennzeichnet, dass nachdem für alle Wörter eines Satzes im Sinn-Modulator (2) deren Sinn- Score berechnet wurde, folgende Informationen maschinenlesbar verfügbar werden:

2.1. Ist der Sinn-Score „SW" für ein Wort des Satzes gleich 0 (Null) so ist das Wort falsch geschrieben und der Satz erhält den Satz-Score „SS" = 0.

2.2. Ist der Sinn-Score „SW" für ein Wort des Satzes größer 1, so ist der analysierte Satz falsch, bzw. uneindeutig formuliert, denn Wörter mit SW > 1 haben mehr als 1 mögliche Bedeutung im Satz. Der Satz erhält den Satz-Score „SS" = „SW". Haben mehr als 1 Wort des Satzes Sinn-Scores > 1, so wird der der Satz-Score „SS" auf den maximalen Wert „SW" der Sinn-Scores der Wörter des Satzes gesetzt.

2.3. Haben alle Wörter des Satzes einen Sinn-Score „SW"=1 so ist der Satz eindeutig und erhält den Satz-Score „SS" = 1

2.4. Haben Wörter einen Sinn-Score „SW" = -2, dann lassen sie sowohl Groß- als auch Kleinschreibung zu. Der Satz-Score SS bekommt dann den Wert SS = -2 , solange, bis über weitere, iterative Schritte die korrekte Groß-/Klein-Schreibweise der Wörter mit SW = -2, in diesem Satz, endgültig berechnet ist.

3. Verfahren nach Nr. 1 oder 2, dadurch gekennzeichnet, dass für Sätze die keine Wörter mehr mit SW=0 enthalten, in

Einschränkungs-Modulator (3) berechnet wird, welchen Satz-Score „SS" sie haben, wenn die in den Sinn-Signalen vorhandenen

Einschränkungsverweise (EV) angewendet werden und daraus

folgende Information maschinenlesbar verfügbar werden:

3.1. Ist der Sinn-Score „SW" für ein Wort des Satzes größer 1, so ist der analysierte Satz falsch bzw. uneindeutig formuliert, denn Wörter mit SW>1 haben mehr als 1 mögliche Bedeutung im Satz. Der Satz erhält den Satz-Score „SS" = „SW".

Haben mehr als 1 Wort des Satzes Sinn-Scores SW > 1, so wird der Satz-Score „SS" auf den maximalen Wert „SW" der Sinn-Scores der Wörter des Satzes gesetzt.

3.2. Haben alle Wörter des Satzes einen Sinn-Score „SW"=1 so ist der Satz eindeutig und erhält den Satz-Score „SS" = 1

4. Verfahren nach mindestens einer der Nr. 1 bis 3, dadurch gekennzeichnet, dass bei. Wörtern mit SW = 0, eine speicherbare Fehlermeldung gestartet wird, die insbesondere

Rechtschreibfehler aller Wörter des Satzes angibt, mit Nennung der relativen Wortposition im Satz, der Fehlerursache und

Anzeige von aus dem Speicher des Datenbanksystems (1)

berechneten Möglichkeiten zur Fehlerbehebung und im Fehler- Meldungs-Speicher (4) sequenziell gespeichert wird.

5. Verfahren nach Nr. 4, dadurch gekennzeichnet, dass bei

Wörtern mit SW: = -2 , eine speicherbare Fehlermeldung. gestartet wird, die insbesondere das Vorhandensein von Fehlern in der Groß-/Kleinschreibung aller Wörter des Satzes angibt, mit

Nennung der Wortposition im Satz, : Fehlerursache und Anzeige von aus Speicher des Datenbanksystems (1) berechneten Möglichkeiten zur Fehlerbehebung und im Fehler-Meldungs-Speicher (4)

sequenziell gespeichert wird.

6. Verfahren nach mindestens einer der Nr. 1 bis 5, dadurch gekennzeichnet, dass mit dem aktuellen Satz, je nach

Verfügbarkeit, bis zu „n" unmittelbar vorhergehende Sätze die bereits nach. Nr. 1 bearbeitet sind und Satz-Score .= SS = 1 haben , eingelesen werden und die Sinn-Signale von deren Wörtern im Sinn-Modulator (3) verarbeitet werden.

.7. Verfahren nach mindestens einer der Nr. 1 bis 6, dadurch gekennzeichnet, dass die syntaktischen Satzkomponenten, soweit im Satz vorhanden (Hauptsätze, Nebensätze, eingeschobene:

Nebensätze, Subjekte, Prädikate, Objekte, Text-Teile zwischen Gedankenstrichen, ^; Textteile zwischen zwei Klammern (auf/zu) usw.) bestimmt und im Satzteil-Speicher (6) mit allen sie jeweils bildenden Wörtern, einzeln , sequenziell, abrüfbar abgespeichert wird.

8. Verfahren nach mindestens einer der Nr. 1 bis 7, dadurch gekennzeichnet, dass im Sinn-Modulator (3) das Haupt-Thema der laufenden 3 Sätze, wenn deren Satz-Score jeweils = 1 ist, - soweit vorhanden - rollierend aktualisiert wird.

9. Verfahren nach mindestens einer der Nr. 1 bis 8, dadurch gekennzeichnet, dass im Einschränkungs-Modulator (3) das Haupt- Thema - als häufigster, gültiger Einschränkungsverweis (EV) aus (3) z.B. auch in Form seines Sinn-Signals - des laufenden

Absatzes in Form der Sinn-Signale der Einschränkungs-Verweise rollierend aktualisiert und hierarchisch abrufbar gemacht wird. ^;

10. Verfahren nach mindestens einer der Nr.: 1 bis: 9, dadurch gekennzeichnet, dass bei Sätzen mit SS > 1 eine Autotranslation- Meldung generiert wird, welche die noch vorhandenen #SW

Bedeutungsmöglichkeiten jedes Wortes auflistet, und jeweils die gängigsten Synonyme jedes Wortes aus dem Datenbanksystem (1): über seine gültigen Sinn-Signale abruft und im Autotranslation^ Speicher (5) sequenziell abspeichert.

11. Verfahren nach mindestens einer der Nr. 1 bis 10, dadurch gekennzeichnet, dass für Wörter, bei denen SW üngleich 1 ist, im Fehler-Meldungs-Speicher und dem Benutzer-Interaktions-Manager (7) Formatierungs-Elemente, vorgegeben werden, welche in

Textverarbeitungsprogrammen verwendet werden können,: um den Status des Wortes aus dem Autotranslätion-Speicher (5) oder dem Fehlermeldungs-Speicher (6) für jedes betroffene Wort z.B. ^■' optisch am Datensichtgerät des Benutzers zu hinterlegen und z.B. „Moüse-Gver" Informationen am Daten-Sichtgerät des Benutzers ^' zu generieren .

12. Verfahren; nach mindestens einer der Nr. 1 bis 11, dadurch gekennzeichnet, dass aus Interaktionen des Benutzers bezogen über den- Benutzer-Interaktioris-Ma _.nager (7) auf Korrekturvorschläge die aus dem Autotranslation-Speicher (5) oder dem Fehlermeldungs-Speicher (4) stammen, der Text im Satz aktualisiert wird, und ein neuer Berechnungslauf nach Nr. 1 für den Satz durchgeführt wird, wobei alle Einträge im

Autotranslation-Speicher (5) oder dem Fehlermeldungs-Speicher (4) auf den neuesten Abarbeitungs-Stand · des Satzes angeglichen werden .

13. Verfahren nach mindestens einer der Nr. 1 bis 12, dadurch gekennzeichnet, dass die laufende Thema-Struktur aus Modulator (3) dem Benutzer - laufend aktualisiert - über den Benutzer- Interaktions-Manager (7) in einem separaten Fenster z.B. am benutzten Datensichtgerät angezeigt wird.

14. Verfahren nach mindestens einer der Nr. 1 bis 13, dadurch gekennzeichnet, dass wenn der Satz den Score SS = 1 erreicht, eine Autotranslation generiert wird, die das nun einzige Sinn- Signal jedes Wortes aus dem Datenbanksystem (1) abruft und jeweils das gängigste Synonym jedes Wortes aus dem

Datenbanksystem (1) über das gültige Sinn-Signal abruft und jedes Wort des Satzes jeweils mit beiden Informationen, oder entsprechenden, maschinenlesbaren Ersatzbezeichnungen taggt (8).

15. Verfahren nach mindestens einer der Nr. 1 bis 14, dadurch gekennzeichnet, dass der Benutzer beim Freigeben der

Autotranslation, auch mehr als das gängigste der Synonyme des getaggten Wortes mit SW=1 aus dem Datenbanksystem (1) abfragen kann, um das Original-Wort des Satzes dann mit dem gewählten, aus diesen anderen Synonymen zu ersetzen.

16. Verfahren nach Nr. 15, - genannt „Autotranslation" - dadurch gekennzeichnet, dass wenn der Nutzer einen Satz mit Score 1 kennzeichnet - z.B. mit der Maus über sein Datensichtgerät- , aus den getaggten Informationen des Satzes, automatisch ein grammatisch korrekter Satz formuliert wird, in dem z.B. die flektierbaren Homonyme des Satzes durch ihre gängigsten Synonyme ersetzt werden:.

17. Verfahren nach mindestens einer der Nr. 1 bis 16 , dadurch gekennzeichnet, dass wenn der Nutzer ein Wort mit SW=1 bei. einem Satz- mit Satz-Score SS - 1 aktiv markiert - z.B. mit Doppelklick der Maus über sein Datensichtgerät-, aus der getaggten Information des Satzes, das: gängigste Synonym des aktivierten Wortes -im vorhandenen Kontext - automatisch angezeigt wird

18. Verfahren nach mindestens einem der vorhergehenden Nr. 1 bis 17, dadurch ^'gekennzeichnet, dass für Wörter des Textes in Sätzen deren Score SW ungleich 1 ist, mit den für das jeweilige; Wort vorhandenen Informationen aus Autotranslation-Speicher (5) oder dem Fehlermeldungs^-Speicher (4) über, den Benutzer-Interaktions- _: Manager (7) neu _. taggt wann immer ^' in. diesen beiden Speichern die Information für das jeweilige Wort verändert wird.

19. Verfahren nach mindestens einer der Nr. 1 bis 18, ^;

gekennzeichnet dadurch,, dass alle Informationen die aus Sätzen, davor, für den analysierten Satz erforderlich sind, um einen Score SS=1 zu erreichen am Satz, zur späteren Weiterverarbeitung getaggt werden . ,. ^;

20. Verfahren nach Nr. 19, gekennzeichnet dadurch, dass alle Korrekturen des Satzes für Wörter mit SW ungleich 1 automatischdurchgeführt werden, soweit die Korrektur des Wortes jeweils nur

1 gültige Möglichkeit in Modulator 1 öder Fehlerspeicher (4) aufweist

21. ^' Verfahren nach mindestens Nr . 19 oder 20, gekennzeichnet dadurch, dass sämtliche Meldungen die bei der Verarbeitung des Satzes■ generiert werden und nicht nach Nr. 20 automatisch gelöst werden können, im Offline-Modus am Satz getaggt werden und das . Verfahren mit dem nächsten Satz mit Status Satz-Score SS = „unbekannt" fortfährt . 22. Computerimplementierte Übersetzungsmaschine zur Übersetzung von Sätzen einer natürlichen Spräche in eine andere, unter :: Verwendung von „Recht-Sinn-Prüfung" nach mindestens Nr. 1 bis Nr. 21.

23. Verfahren nach Nr. 22, gekennzeichnet dadurch, dass eine automatische Übernahme eines Satzes mit Score SS = 1 erfolgt, oder der Text nach Nr. 1 verarbeitet wird, solange, bis

mindestens 1 Satz mit Satz-Scöre=l vorliegt oder keine

unbearbeiteten Sätze mehr vorliegen.

24. ^" Verfahren nach mindestens Nr. 22 ^oder 23, gekennzeichnet dadurch, dass die Übersetzung des Textes in die gewählte

Zielsprache des Benutzers erfolgt, unter Berücksichtigung der vorgegebenen, eindeutigen Sinn-Signale aller Wörter und allen Zusatzinformationen mit denen sie jeweils getaggt sind.

Dafür Verwendung des Datenbestandes des Datenbanksystems (1), de alle Sinn-Signale enthält, und damit gekoppelt, die

korrekten Übersetzungen aller Wörter in Start- und Zielsprache in Zusammenhang mit ihren gültigen Sinn-Signalen, in allen Flexionen^ in Start und Zielsprache.

25. Verfahren nach mindestens leiner der Nr. 1 bis:;24,

gekennzeichnet dadurch, dass eine Anwendung von Sprachpaarungs- bestimmten Regeln aus dem Datenbanksystem (1) erfolgt, die durch Anpassung der Reihenfolge der Wörter bezögen auf ihre

Morphologie und Flexion, und der Reihenfolge der Satzielemente aus- Nr. 7 in Speicher (6), den Satz in der Zielsprache in eine : Reihenfolge stellt, die in der Zielsprache semantisch, ^:

morphologisch, grammatikalisch und syntaktisch korrekt ist.: ^; Dabei besondere Berücksichtigung z.B. der getaggten Satz- Struktur der Start-Sprache aus Nr. 7, welche Sprachpaarungs- bedingt auch die korrekte, neue Reihenfolge der Satzteile in der Zielsprache vorgeben. 26. Computerimplementierte Verarbeitung von Texten stammend aus einer .: automatischen Spracherkennüng einer natürlichen Sprache, nach Stand der Technik, unter Verwendung von „Recht-Sinn- Prüfung" nach mindestens einer der Nr. 1 bis 21 gekennzeichnet durch :

27. Verfahren nach Nr. 24, gekennzeichnet dadurch, dass

automatisch Text mit Sätzen aus einem Spracherkennungsystem nach dem Stand der Technik übernommen wird.

28. Verfahren .nach Nr . 26 oder 27, gekennzeichnet dadurch, dass eine Berechnung der Existenz von Homöfonen in einem Satz/ durch Äbgleich der Wörter des Satzes mit den bekannten Homofön-Gruppen in der natürlichen Sprache des Benutzers aus Datenbestand: des Datenbanksystems: ( 1 ) erfolgt .

29. Verfahren nach mindestens einer der Nr. 24 bis 28,

gekennzeichnet dadurch,' dass eine Erzeugung von allen möglichen;' Satz-Varianten durch sequenzielles, gegenseitiges

Ersetzen/Austauschen der relevanten Homofon-Varianten im Satz erfolgt;.

30. Verfahren nach Nr. 29, gekennzeichnet dadurch, dass eine Bewertüng jedes Satzes nach mindestens einem Verfahren nach Nr. 1 bis 22 erfolgt; und mit Meldungen aus dem Autotranslatiön- Speicher (5) .öder dem Fehlermeldungs-Speicher (4) im Offline- Modus getaggt wird.

31. Verfahren nach Nr. 30, gekennzeichnet dadurch, dass eine Auswertung der Satz-Scores aller erzeugten Sätze erfolgt und. wenn nur ein einziger Satz von allen, den Score SS=1 aufweist, diesen Satz als Ergebnis verwertet und gemäß Nr. 14 taggt. 32. Verfahren nach Nr. 31, gekennzeichnet dadurch, dass : eine Auswertung der Satz-Scores aller erzeugten Sätze erfolgt und wenn mehr als 1 Satz Score = 1 hat, der mit der maximalen, arithmetischen Übereinstimmung bei allen Homofonen genommen wird.

33. Verfahren nach mindestens einer der Nr. 1 bis 32,

gekennzeichnet dadurch, dass wenn keine eindeutige Entscheidung möglich ist, weil keiner der Sätze Score SS = 1 hat, der Input- _: Satz mit der Information der analysierten Homofone, den

Meldungen aus dem Autotranslation-Speicher (5) bzw. dem

Fehlermeldungs-Speicher (6) getaggt wird.

Vorteil dieser Variante gegenüber dem Stand der Technik:

Spracherkennung nach dem Stand der Technik kann Homofone, sowie Groß-/Kleinschreibung nicht erkennen. Durch den in Nr. 26 dargestellten Ablauf, können bei allen bekannten Homofonen einer natürlichen Sprache, die in Datenbestand des Datenbanksystems (1) registriert sind (z.B. ca. 10.00 im Deutschen und z.T. sehr häufige wie er/eher, ist/isst, jäh/je, sie/sieh, Feld/fällt, usw. In anderen Sprachen 10.000 - Englisch - , bis 25.000 - _: Japanisch -) , die korrekten Schreibweisen im Satzkontext über ihre Sinn-Signale identifiziert werden. Dies reduziert den

Trainingsaufwand zum Betrieb der Software und erhöht die

Qualität des erkannten Textes erheblich ^'.

34. Computerimplementierte Verarbeitung / Rekonstruktion von verstümmelten Texten z.B. aus : automatischer Spracherkennung bei Hintergrundgeräuschen einer natürlichen Sprache, nach Stand der Technik, mit Rechtschreibfehlern aber keinen komplett fehlenden Wörtern unter Verwendung von:„Recht-Sinn-Prüfung" nach

mindestens einem der Ansprüche 1 bis 21.

35. Verfahren nach Nr. 34, gekennzeichnet dadurch, dass bei einem automatisch ^; übernommenen Text , systematisch die

Möglichkeiten ermittelt werden, den Satz umzuformulieren, durch korrekte Rechtschreibung fehlerhafter Wörter. Dies kann z.B.; nach „Sounds-Like" Methoden oder ähnlichen Suchalgorithmen anhand von Daten aus dem Datenbahksystem (1) erfolgen. Zunächst mit Priorität basierend auf Wörtern die Homofon-Gruppen ähnlich sind, oder Auslassungen von Buchstaben oder typischen

Tippfehlern beim Bedienen einer Tastatur, inkl. Groß/Klein- Schreibung, Akzentuierung usw. entsprechen.

36. Verfahren nach Nr. 34 gekennzeichnet dadurch, dass mit den Möglichkeiten nach Nr. 35 ausprobiert wird, ob sich Sätze mit Satz-Score SS=1 ergeben.

37. Verfahren nach mindestens einer der Nr. 34 bis 36,

gekennzeichnet, dadurch,: dass ein Abbruch der Prozedur erfolgt, wenn sich nach einer vom Benutzer vorgegebenen: Zeit - z.B. 5 Sekunden - keine brauchbaren Treffer ermitteln lassen (Maßstab = ca. 500 ... 1000 Versuche pro Sekunde) .

38. ^; Verfahren nach mindestens einer der r.' 34 bis 37, _;

gekennzeichnet dadurch, dass der Input-Satz mit der Information der ^; analysierten Homofone, den Meldungen aus dem

Äutotranslation-Speicher (5) bzw. dem Fehlermeldungs-Speicher (6) getaggt wird. Liegen: nur Sätze mit Score ungleich 1 vor, werden diejenigen für das Tagging priorisiert, die die wenigsten Wörter mit SW=0 aufweisen.

39. _.Computerimplementierter Betrieb von Suchmaschinen die in Datenbeständen suchen, deren Texte natürlicher Sprache dürch „Recht-Sinn-Prüfung"' nach mindestens einer der Nr. 1 bis 21 getaggt sind und auf dem Tagging basierend indexiert sind .

40. Verfahren nach Nr. 39, gekennzeichnet dadurch, dass eine automatische Datenbank-Indexierung nach den Sinn-Signalen aller seiner^ Wörter nach Nr. 1 erfolgt, vor dem Suchprozess und von allen Sätzen die nach mindestens einem Nr. 1 bis 21 einen Satz- Scöre SS=1 haben und entsprechend getaggt wurden. 41. Verfahren nach mindestens einer der Nr. 39 oder 40, gekennzeichnet dadurch, dass ein automatischer Einbezug aller gleichsprachigen Synonyme in allen ihren gültigen Flexionen in die Suche (gleiches Sinn-Signal wie Suchwort) einbezogen wird.

42. Verfahren nach mindestens einer der Nr. 39 bis 41,

gekennzeichnet dadurch, dass ein automatischer Einbezug von fremdsprachigen Synonymen in allen ihren gültigen Flexionen in die Suche (gleiches Sinn-Signal wie Suchwort) einbezogen wird.

43. Verfahren nach mindestens einer Nr. 39 bis 42,

gekennzeichnet dadurch, dass bei Verwendung mehrerer Suchwörter, eine Kombination der Sinn-Signal-Treffer nach der

Verknüpfungslogik der Suchwörter erfolgt.

Der Betrieb von Suchmaschinen nach der Nr. 39 bis 43

dargestellten Ablauf, hat den enormen Vorteil, dass bei der Suche nur noch Treffer entstehen, die dem Sinn-Signal des

Suchwortes entsprechen. Dies Reduziert die Anzahl Treffer in Suchmaschinen um über 99% wenn das Suchwort ein Homonym ist. Außerdem wird auch automatisch nach den gültigen Flexionen des Suchwortes und aller derer seiner Synonyme gesucht, auf Wunsch auch in Fremdsprachen. Dies erhöht die Qualität des Such- Ergebnisses vor allem für Business-Intelligence-Anwendungen maßgeblich und reduziert den Leseaufwand der Benutzer um die endgültigen Treffer auszuwählen, umgekehrt proportional zum Qualitätsgewinn.

44. Computerimplementierte, Bewertung der Nützlichkeit von

Aussagen in Form von Text in natürlicher Sprache zu einem vorgegebenen Thema nach mindesteins einer der Nr. 1 bis 21.

45. Verfahren nach Nr. 44, gekennzeichnet dadurch, dass bei einem automatisch übernommenen Satz mit Satz-Score SS=1 ein automatischer Vergleich der Sinn-Signale der Wörter des Satzes mit vorgegebenen Kombinationen bzw. Mustern von Sinn-Signalen, mit nach Nr. 1 getaggten Worten des Vergleichs-Themas

durchgeführt wird. 46. Verfahren nach Nr. 44 öder 45, gekennzeichnet dadurch, dass eine Wertung der Überdeckung der Sinn-Signale der Thema-Vorgabe und des Input-Satzes mit vorgegebenen Überdeckungsmustern erfolgt und dabei die Existenz von Sinn-Signalen von logischen Operatoren, (z.B. „nicht", „auch", „oder" usw. ) innerhalb: der Satz-Struktur des Inputsatzes nach einer der Nr. 1 bis 22 berücksichtigt werden.

47. Computerimplementierte Führung automatischer Dialoge von Computern/bzw. „antwortenden Computern" mit. humanen Benutzern, durch Kombination der Ansprüche von ; ;,Recht-Sinn-Prüfung" nach Nr. 26, 34, 39, 04.

48.; Verfahren nach Nr. ;47, gekennzeichnet dadurch, dass der gesprochene Ihput eines Benutzers, durch Nutzung der Nr. 26,. 34, 39, 04 durch den antwortenden Computer ^: als Text erfasst wird.

49. Verfahren nach Nr. 47 oder 48, gekennzeichnet dadurch, dass eine Aufteilung des Input-Textes in einzelne Sätze durch den . antwortenden Computer durchgeführt wird urid eine automatische Bewertung erfolgt, welche davon Aussage- und welche Fragesätze sind. Z.B. durch Anwesenheit von Fragezeichen am ^: Satzende, oder nicht, bzw. derer typischer Satzstruktur .

50. Verfahren nach mindestens einem der vorhergehenden Nr., •gekennzeichnet dadurch, dass ein Abgleich der Sinn-Signale der . Aussage- Und Frage-Sätze des Benutzers nach Nr. 1 durchgeführt wird, nach ihrem jeweiligen Matching/Übereinstimmung ;mit einem nach Nr. 47 getaggten Datenbestand der Aussage-Sätze,

Antwortsätze und Standard-Fragesätze einer maschinenlesbaren Text-Ontolögie des antwortenden/dialögbeteiligten Computers, welche in :der gleichen, natürlichen Sprache vorliegt, wie die natürliche Sprache, in welcher der Benutzer interagiert.

(Maßstab für die Ontologie des antwortenden Computers = z.B. 500 präzise Sätze eines FAQ-Datönbestandes einer Dienstleistung z.B. jeweils mit Satz-Score SS=1). 51. Verfahren nach mindestens einer der vorhergehenden Nr . , gekennzeichnet dadurch, dass bei atching-Werten der Sinn- Signale der Sätze des Benutzers oberhalb eines bestimmten Niveaus, mit der Computerontölogie des antwortenden Computers, die im Matching/Übereinstimmungs- ert jeweils am höchsten bewerteten Antwort- und Aussagesätze aus der Computerontölogie identifiziert werden.

52. Verfahren nach mindestens einer der vorhergehenden Nr., gekennzeichnet dadurch, dass durch den antwortenden Computer eine strukturierte, automatische Antwort für den Benutzer generiert wird, z.B. nach dem Muster: a) Bestätigen maximal der z.B. 2 höchstrangigsten Sätze A und B von Nr. 50 des Benutzers bezüglich der Computerontölogie . in gesprochener Form, durch den antwortenden Computer über ein Sprachausgabesystem nach Stand der Technik. (Z.B. „Wenn ich Sie richtig verstanden habe, sagten Sie das ... "Wortlaut von; Satz A ... und außerdem „Wortlaut . von Satz B" b) Anbieten des höchstrangigsten Antwort-Satzes der

Computerontölogie nach Nr. ; 50 und; Abschließen mit dem;

höchstrangigsten Antwortsatz aus Nr. 50 des/antwortenden.

Computers ; über ein Sprachausgabesystem nach Stand der Technik, welches dem Benutzer nach Abfrage; nur kontrollierte Antworten erlaubt, z.B. „Ja" oder „Nein". c) Alternativ mit der Versendung eines Links durch den

antwortenden Computer antwortet - nach bestimmten- Regeln-, den der User erhält, um daraus genauere Införmationen zu seinen Fragen abzulesen und gezieltere Fragen an den antwortenden Computer stellen zu können, die der Benutzer in der

Computerontölogie z.B. nur nach einigem, eigenen Suchaufwand selbst gefunden hätte. 53. Verfahren; nach mindestens einer der vorhergehenden Nr., gekennzeichnet dadurch, dass bei Matchingwerten unterhalb eines gewissen Niveaus, im antwortenden Computer z.B _.. ein Standard- Dialog abgerufen wird, den der Benutzer nur mit Ja oder Nein beantworten kann, bzw. mit der Nennung von kontrolliert

vorgegebenen, gesprochenen, alphanumerischen Optionen.

54. Verfahren nach mindestens einer der vorhergehenden Nr., gekennzeichnet dadurch, dass im antwortenden Computer eine automatische Erkennung des Zeitpunktes erfolgt, ab dem das

Eingreifen eines Menschen erforderlich ist, z.B. durch

automatische Bewertung der Redundanz des Dialoges oder

inhaltlichen Mustern von Sinn-Signalen in den Reaktionen des Nutzers .

Man beachte die enorme Flexibilität der Nr. 47 im Vergleich zum Stand der Technik, die er dadurch erhält, dass mit Sinn-Signalen nach mindestens einem der Nr. 1 bis 21 gearbeitet wird:

- Der Benutzer kann relativ frei sprechen (Einschränkung sind lediglich

die Anzahl unterschiedlicher Sinn-Signale und deren

satzweisen

Kombinationen, die in der Computer-Ontologie enthalten sind) .

- Die Erkennungsrate in der Computer-Ontologie ist durch die Arbeit mit

Sinn-Signalen hoch und präzise, ohne dem großen

Programmieraufwand, der

heute mühsam, auf die Vorgabe von bestimmten Einzelwörtern eingeschränkt

ist, bzw. Limitierungen in den zulässigen Flexionsarten der erkannten

Wörter aufweist.

55. Computerimplementierte, erweiterte Rechtschreib-Prüfung, unter Verwendung von „Recht-Sinn-Prüfung" nach mindestenes einer der Nr. 1 bis 22.

56. Verfahren nach Nr. 55, gekennzeichnet dadurch, dass die automatische Ausführung mindestens einer der Nr. 1 bis 22 durchgeführt wird, aber ohne dass der Satz mit den Sinn-Signalen selbst getaggt wird, nachdem er Satz-Score > 0 erreicht hat. Der Text wird damit lediglich auf Rechtschreibfehler geprüft und interaktiv vom Benutzer korrigiert, ohne dass jedoch

notwendigerweise ein Tagging des Satzes mit Zusatzinformätionen erfolgt.

57- Computerimplementierte Worterkennung beim Eintippen von ^' Wörtern über Tastaturen die mehrfach belegte Tasten enthalten können unter Verwendung von „Recht-Sinn-Prüfung" nach mindestens einer der Nr. 1 bis 21.

58. Verfahren nach Nr. 57, gekennzeichnet dadurch, dass eine automatische Übernahme des Textes aus einem untergeordneten System z.B. Smart-Phone mit Worterkennung, nach Stand der ■ Technik eines Benutzers erfolgt, getaggt mit dem Logfile der _;

: jeweils aktivierten z.B. Tästenfo.lgen die für die Eingabe jedes vorhandenen Wortes des Satzes getätigt wurden.

59. Verfahren nach Nr. 57 oder 58 gekennzeichnet dadurch, dass .· die z.B. Tastensignale direkt übernommen werden _/ ohne dass eine Vorauswahl.. vön Wörtern über ein anderes : System: erfolgt .

60. Verfahren nach mindestens einer der Nr. 57 bis 59,

gekennzeichnet dadurch, dass eine Prüfung des vorhandenen Inputs nach mindestens einer der Nr. 1 bis 22 durchgeführt wird und durch Zuhilfenahme der Tasten-Sequenz aus dem Log-File der;: gedrückten Tastenkombinationen und Tästenbelegungen berechnet wird, ob andere Treffer von Wörtern im Datenbestand des

Datehbanksystem (1) für die Tastenkombination des Wortes, vorhanden sind, deren Sinn-Score in Bezug zu den vorhandenen Wörtern des Satzes bezüglich Rechtschreibung, Syntax und Sirin- Signa1-Matching eine bessere Wertigkeit haben, als die bereits vorhandenen .

61. Verfahren nach mindestens einer der Nr. 57. bis 60,

gekennzeichnet dadurch, dass dem Benutzer

Verbesserungsvorschläge zu seinem vorhandenen Text zur Übernähme angeboten werden, bezüglich Rechtschreibung, Flexion ..und Syntax des bereits vorhandenen Textes.

62. Verfahren nach mindestens einer der Nr. 57 bis 61,

gekennzeichnet dadurch, dass eine automatische Korrektur von Tippfehlern während der Text-Eingabe erfolgt, erkennbar als Buchstabensequenzen, die als Wortbeginn, in ^' dem Datenbestand des Datenbanksystems (1) nicht enthalten sind, es jedoch bei

Änderung der Buchstabenreihenfolge Groß-/Kleinschreibung z.B. nach typischen Tippfehlermustern sind, unter gleichzeitiger Berücksichtigung des Sinn-Signal-Matchings und der Syntax zu bereits vorhandenen Wörtern des Satzes.

63. _: Verfahren nach mindestens einer der Nr. 57 bis 62,

gekennzeichnet dadurch, dass passende Wörter z.B. bei der

Eingabe des Textes vorgeschlagen werden, sobald nur eine, einzige, oder weniger als „n" Möglichkeiten für das Wort bestehen die nicht mehr als "m" % länger sind als das aktuelle Wort, „n" >= 1; „m" < 75% und z.B. auch bezüglich ihrer Sinn- Signale ein hohes Matching zu anderen, bereits vorhandenen

Wörtern des Satzes aufweisen.

64. Verfahren nach mindestens einer der Nr. 57 bis 63,

gekennzeichnet dadurch,: dass Vorschlage bzw. Optionen zum gerade geschriebenen Wort optisch auf dem Datensichtgerät des Benutzers angezeigt werden, z.B. über dem gerade ^: geschriebenen Wort, im halbdurchsichtigen Modus.

65. Verfahren nach mindestens einer der Nr. 57 bis 6 ,

gekennzeichnet dadurch, dass der Text über eine Spracherkennung nach Nr. 26 oder Nr. 34 erfolgt.

66. Computerimplementiertes System zur semantischen

: Verschlüsselung von Sätzen: einer natürlichen Sprache, unter _: Verwendung von „Recht-Sinn-Prüfung" nach mindestens einer der Nr. 1 bis 21. Dies wird beansprucht, in Anspruch 35 67. Verfahren nach Nr. 66, gekennzeichnet dadurch, ¹ dass. Text eingelesen wird, dessen Sätze nicht unbedingt Satz-Score 1 haben, jedoch jeder jeweils, mindestens 3 Wörter mit Status SW > 0 enthält.

68. Verfahren nach Nr. 66 oder 67, gekennzeichnet dadurch, dass „m" Wörter in jedem Satz grammatikalisch passend ausgetauscht werden bzw. „n" Wörter grammatikalisch passend hinzugefügt werden, die geeignete Sinn-Signale besitzen, im Vergleich zu ihrem unmittelbaren Umfeld, die anzeigen, dass z.B. ^: durch

Einfügung, Negation, Relativierung oder Weglassung bzw.. durch Verwendung derer Antonyme aus dem Datenbestand des

Datenbanksystems (1) der Satz-Sinn maßgeblich verändert werden kann, jedoch ohne dass der Satz-Score verändert wird . „m" >-l bzw. „*h" >= 0.

69. Verfahren nach mindestens einer der Nr. 66: bis 68;,

gekennzeichnet dadurch,: dass für alle alfanümerischen Ketten Eigennamen und/oder Datumsangaben und/oder reine Zahlen sind, die/eigene Sinn-Signale aufweisen, oder besonders durch den Benutzer, vorab gekennzeichnete Einzelworte, jeweils durch codierte Zahlenkombinationen ausgetauscht werden, die sich im gesamten Text jeweils als Ganzes nicht wiederholen.

70.: Verfahren nach mindestens einer der Nr.; 67 bis 69,

gekennzeichnet dadurch, dass die Start-Sätze des Benutzers unter Berücksichtigung der Original-Reihenfolge auf: dem System des Benutzers gespeichert werden, sowie ein Log-File aller

Änderungen gespeichert wird, die als Varianten; erstellt wurden, u.a. unter Angabe jeder Änderung mindestens, mit Inhalt der Änderung und Position :im jeweiligen Satz.

71. Verfahren nach mindestens einer der Nr 67 bis 70, das den Benutzer dabei unterstützt, aus anderen Text-Datenbeständen seines Besitzes als dem aktuellen Text selbst, Sätze zu _:

identifizieren, die den Sätzen im _/zu verschlüsselnden,- Input-Text ähnlich sind, z.B, durch Anwendung von Nr. 44 und die einen Satz-Score SS = 1 haben.

72. Verfahren nach mindestens einer der Nr. 67 bis 71,

gekennzeichnet dadurch, dass die Anzahl Sätze des Textes auf mindestens 7 erhöht wird, falls über Input-Text plus Varianten nach Nr. 68 weniger als 7 Sätze zum Verschlüsseln vorliegen. Dies kann vorteilhafterweise z.B. durch Sätze geschehen, die über Nr. 71 ermittelt werden.

73. Verfahren nach mindestens einer der Nr. 67 bis 72,

gekennzeichnet dadurch, dass ein Text erstellt wird, welcher di Start-Sätze des Benutzers enthält, sowie „m" angehängte Sätze, ■ seiner nach Nr. 68 erstellten Varianten, der nach Nr. _: 69 anonymisiert wird. ^"

74. Verfahren nach mindestens einer der Nr. 67 bis 73,

gekennzeichnet dadurch, dass eine stochastische Verwürfelung de Reihenfolge der vorliegenden Sätze durchgeführt wird und dem Hinzufügen der expliziten Reihenfolgeänderung; vor und nach der Verwür elung zum: Log-File von Nr. 70.

75. Verfahren nach mindestens einer der Nr.: 67 bis 74, .

gekennzeichnet dadurch, dass bei Vorliegen des unveränderten, aber verwürfelten Textes aus Nr. 73 und des _: Log-Files aus Nr. 70, der _: Originaltext fehlerlos rekonstruiert wird.

Im semantisch verschlüsseltem Text - der keinen einzigen, formell sinnloseren Satz zusätzlich enthält, im Vergleich zu denen, die der Benutzer selbst geschrieben hat - ist nun. die ^: ursprüngliche Start-Reihenfolge der Sätze des Benutzers nur unter enormen Aufwand mit manuellem lesen, identifizierbar. Z.B. bei 10 Start-Sätzen und 10 zusätzlichen Satz-Varianten, ist die Original-Reihenfolge nur 1 Möglichkeit unter den

Permutationen von 20, also 20! = 2.4329 * 10 ¹⁸ ,

also etwa 1:2.5 Trillionen. Möglichkeiten . Jeder Empfänger des Textes kann ausschließlich mit der Information des Log-Files vom Text-Ersteller, die Start-Sätze jedoch auf einfache Art wieder herstellen.

Die Nr. 65 ist besonders vorteilhaft auch als Zusatz zu marktüblichen Verschlüsselungssystemen verwendbar.

Sollte der Code der marktüblichen Verschlüsselung geknackt werden, stünde derjenige der es tut, vor dem praktisch

unlösbaren Zeit-Problem durch die Menge der zu manuell zu analysierenden Sätze, den wahren Sinn des Gesamt-Textes zu ermitteln, denen außerdem jegliche Information zu Personen, Zeitangaben und Zahlen fehlt, die zudem auch noch veränderte Quäntifikatoren und Logische Operatoren gegenüber dem

Originaltext aufweist.

Hier bleibt als einziges Risiko die sichere Übermittlung des Codes der Start-Reihenfolge nach mindestens einem der

vorhergehenden Ansprüche, zusätzlich zur sicheren Übermittlung des marktüblichen Verschlüsselungscodes.

Auch mit Anwendung unseres eigenen Verfahrens nach Nr. 1 könnte keine Entschlüsselung erfolgen, da nur sinnvolle Sätze in relativem, Bezug zur Sinnhaftigkeit des Originaltextes in dem verwürfelten Text vorliegen.

Previous Patent: METHOD TO INCREASE THE VISCOSITY OF HYDROGELS BY CROSSLINKING A COPOLYMER IN THE PRESENCE OF DISSOLV...

Next Patent: MOTOR VEHICLE HAVING BATTERY ELEMENTS INTEGRATED IN THE STRUCTURE