Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR CONTROLLING THE TRANSPORT OF AN OBJECT TO A PREDETERMINED DESTINATION
Document Type and Number:
WIPO Patent Application WO/2010/023262
Kind Code:
A1
Abstract:
The invention relates to a method and a device for controlling the transport of an object (P1, P2) to a predetermined destination. The object (P1, P2) is provided with information on a destination to which the object (P1, P2) is to be transported. The destination information with which the object (P1, P2) is provided is inputted into a speech detection station (SE). A speech recognition system (HS, ZS) evaluates the destination information detected by the speech detection station (SE). A conveying device (FE) transports the object (P1, P2, …). The destination, the information of which is provided to the object, is determined. The evaluation result of the speech recognition system (HS, ZS) is used to determine the destination. A release signal (FS) is produced. The release signal (FS) triggers two processes: the speech detection station (SE) is released for the input of destination information on another object (P3, P4). The conveying device (FE) transports the object (P1, P2). The transport of the object (P1, P2) to the determined destination is triggered.

Inventors:
RAUH, Ingolf (Oberzeller Str. 10, Reichenau, 78479, DE)
Application Number:
EP2009/061108
Publication Date:
March 04, 2010
Filing Date:
August 28, 2009
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AKTIENGESELLSCHAFT (Wittelsbacherplatz 2, München, 80333, DE)
RAUH, Ingolf (Oberzeller Str. 10, Reichenau, 78479, DE)
International Classes:
B07C3/00; G10L15/28
Attorney, Agent or Firm:
SIEMENS AKTIENGESELLSCHAFT (Postfach 22 16 34, München, 80506, DE)
Download PDF:
Claims:
Patentansprüche

1. Verfahren zum Steuern des Transports eines Gegenstands (Pl, P2), wobei der Gegenstand (Pl, P2) mit Angaben zu einem Zielpunkt, zu dem der Gegenstand (Pl, P2) zu transportieren ist, versehen ist und die Schritte durchgeführt werden, dass - die Zielpunkt-Angaben, mit denen der Gegenstand (Pl,

P2) versehen ist, wenigstens teileweise in eine Sprach- erfassungsstation (SE) eingegeben werden,

— ein Spracherkennungssystem (HS, ZS) die von der Sprach- erfassungsstation (SE) erfasste Spracheingabe auswer- tet,

— eine Fördereinrichtung (FE) den Gegenstand (Pl, P2) abtransportiert,

— der Zielpunkt ermittelt wird, wofür das Auswertungsergebnis des Spracherkennungssystems (HS, ZS) verwendet wird, und

— der Transport des Gegenstands (Pl, P2) an den ermittelten Zielpunkt ausgelöst wird, dadurch gekennzeichnet, dass das Spracherkennungssystem (HS, ZS) einen Haupt-Sprach- erkenner (HS) und einen Zusatz-Spracherkenner (ZS) um- fasst, beide Spracherkenner (HS, ZS) die erfasste Spracheingabe auswerten, für die Ermittlung des Zielpunkts die Auswertungsergebnis- se von beiden Spracherkennern (HS, ZS) verwendet werden, ein Freigabesignal (FS) erzeugt wird, nachdem der Haupt- Spracherkenner (HS) die Auswertung der erfassten Spracheingabe abgeschlossen hat, das Freigabesignal (FS) die beiden Vorgänge auslöst, dass - die Spracherfassungsstation (SE) für die Eingabe von

Zielpunkt-Angaben zu einem weiteren Gegenstand (P3, P4) freigegeben wird und

- die Fördereinrichtung (FE) den Gegenstand (Pl, P2) abtransportiert .

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Zusatz-Spracherkenner (ZS) die Auswertung der erfassten Spracheingabe nach der Erzeugung des Freigabesignals (FS) beginnt.

3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch gekennzeichnet, dass

- die Verarbeitung der erfassten Spracheingabe durch den Haupt-Spracherkenner (HS) den Schritt umfasst, dass der

Haupt-Spracherkenner (HS) automatisch die Beendigung der Eingabe der Zielpunkt-Angaben in die Spracherfas- sungsstation (SE) erkennt,

- das Freigabesignal (FS) erzeugt wird, nachdem der Haupt-Spracherkenner (HS) die Beendigung erkannt hat, und

- das Auswertungsergebnis des Haupt-Spracherkenners (HS) an den Zusatz-Spracherkenner (ZS) übermittelt werden.

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass eine obere Zeitschranke für die Dauer, die dem Haupt- Spracherkenner (HS) für die Auswertung einer Spracheingabe zur Verfügung steht, vorgegeben wird und das Freigabesignal (FS) so erzeugt wird, dass zwischen

— dem Zeitpunkt, zu dem die Eingabe der Zielpunkt-Angaben beendet ist, und

- dem Zeitpunkt, zu dem der Haupt-Spracherkenner (HS) seine Auswertung der erfassten Spracheingabe beendet hat, höchstens die Zeitschranke verstreicht.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass

- die Fördereinrichtung (FE) den Gegenstand (Pl, P2) zu einer Verarbeitungseinrichtung (3, 4) transportiert,

- die Verarbeitungseinrichtung (3, 4) den Gegenstand (Pl, P2) verarbeitet und — der Zusatz-Spracherkenner (ZS) seine Auswertung der erfassten Spracheingabe spätestens dann abschließt, wenn der Gegenstand (Pl, P2) die Verarbeitungseinrichtung (3, 4) erreicht.

6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass das Auswertungsergebnis, das der Zusatz-Spracherkenner (ZS) durch Verarbeitung der erfassten Spracheingabe er- zeugt, an die Verarbeitungseinrichtung (3, 4) übermittelt wird und die Verarbeitungseinrichtung (3, 4) das Auswertungsergebnis für die Verarbeitung des Gegenstands (Pl, P2) verwen- det.

7. Verfahren nach Anspruch 5 oder Anspruch 6, dadurch gekennzeichnet, dass

- die Verarbeitungseinrichtung (3, 4) ein Bildaufnahmege- rät (3) und ein Zeichenerkennungssystem (4) umfasst,

- das Bildaufnahmegerät (3) ein optisches Abbild (Abb) des Gegenstands (Pl, P2) erzeugt und

- das Zeichenerkennungssystem (4) das Abbild (Abb) auswertet, — wobei das Zeichenerkennungssystem (4) für die Auswertung des Abbilds (Abb) das Auswertungsergebnis des Zusatz-Spracherkenners (ZS) verwendet.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass

- automatisch ermittelt wird, dass der Gegenstand (Pl, P2) auf die Fördereinrichtung (FE) verbracht wurde und

- das Freigabesignal (FS) erzeugt wird, nachdem der Haupt-Spracherkenner (HS) seine Auswertung abgeschlos- sen hat und dieses Verbringen ermittelt wurde

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass das Auswerteergebnis des Haupt-Spracherkenners (HS) an den Zusatz-Spracherkenner (ZS) übermittelt wird und das Freigabesignal (FS) erzeugt wird, nachdem diese Übermittlung abgeschlossen ist.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass

- die erfassten Spracheingabe an den Zusatz-Spracherkenner (ZS) übermittelt werden und - das Freigabesignal (FS) erst dann erzeugt wird, nachdem die Übermittlung der erfassten Spracheingabe an den Zusatz-Spracherkenner (ZS) abgeschlossen ist.

11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass die Erzeugung des Freigabesignals (FS) dadurch ausgelöst wird, dass

— sowohl der Haupt-Spracherkenner (HS) die Auswertung der erfassten Spracheingabe abgeschlossen hat - als auch die Übermittlung der erfassten Spracheingabe an den Zusatz-Spracherkenner (ZS) abgeschlossen ist

12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, dass - nach der Erzeugung des Freigabesignals (FS) weitere Zielpunkt-Angaben, mit denen ein weiterer Gegenstand (P3, P4) versehen ist, in die Spracherfassungsstation (SE) eingegeben werden, - beide Spracherkenner (HS, ZS) die erfasste weitere Spracheingabe auswerten,

- das Freigabesignal (FS) erneut erzeugt wird, nachdem der Haupt-Spracherkenner (HS) die Auswertung der weite- ren Spracheingabe abgeschlossen hat,

- die erneute Erzeugung des Freigabesignals (FS) den Vorgang auslöst, dass die Fördereinrichtung (FE) den weiteren Gegenstand (P3, P4) abtransportiert und

- der Zusatz-Spracherkenner (ZS) mit der Auswertung der erfassen weiteren Spracheingabe beginnt, bevor der Zusatz-Spracherkenner (ZS) die Auswertung der erfassen Spracheingabe abgeschlossen hat.

13.Vorrichtung zum Steuern des Transports eines Gegenstands (Pl, P2), wobei der Gegenstand (Pl, P2) mit Angaben zu einem Zielpunkt, zu dem der Gegenstand (Pl, P2) zu transportieren ist, versehen ist, die Vorrichtung

- eine Spracherfassungsstation (SE) ,

- ein Spracherkennungssystem (HS, ZS) ,

- eine zentrale Ermittlungseinheit,

- eine Fördereinrichtung (FE) und - eine Synchronisierungseinheit (6) umfasst, die Spracherfassungsstation (SE) dazu ausgestaltet ist, die Zielpunkt-Angaben, mit denen der Gegenstand (Pl, P2) versehen ist und die wenigstens teileweise in die Sprach- erfassungsstation (SE) eingegeben werden, zu erfassen, das Spracherkennungssystem (HS, ZS) dazu ausgestaltet ist, die von der Spracherfassungsstation (SE) erfasste Sprach- eingäbe auszuwerten, die Fördereinrichtung (FE) dazu ausgestaltet ist, den Gegenstand (Pl, P2) abzutransportieren, und die Vorrichtung dazu ausgestaltet ist,

— den Zielpunkt zu ermitteln, — für diese Ermittlung das Auswertungsergebnis des Spracherkennungssystems zu verwenden und

- den Transport des Gegenstands (Pl, P2) an den ermittelten Zielpunkt auszulösen, dadurch gekennzeichnet, dass das Spracherkennungssystem (HS, ZS) einen Haupt-Spracherkenner (HS) und einen Zusatz-Spracherkenner (ZS) um- fasst, beide Spracherkenner (HS, ZS) dazu ausgestaltet sind, die erfasste Spracheingabe auszuwerten, die Vorrichtung dazu ausgestaltet ist, für die Ermittlung des Zielpunkts die Auswertungsergebnisse von beiden Spracherkennern (HS, ZS) zu verwenden, die Synchronisierungseinheit (6) dazu ausgestaltet ist, ein Freigabesignal (FS) zu erzeugen, nachdem der Haupt- Spracherkenner (HS) die Auswertung der erfassten Spracheingabe abgeschlossen hat, und die Synchronisierungseinheit weiterhin dazu ausgestaltet ist, die Spracherfassungsstation (SE) und Fördereinrichtung (FE) dergestalt zu synchronisieren, dass das Freiga- besignal (FS) die beiden Vorgänge auslöst, dass die Spracherfassungsstation (SE) für die Eingabe von Zielpunkt-Angaben zu einem weiteren Gegenstand (P3, P4; freigegeben wird und die Fördereinrichtung (FE) den Gegenstand (Pl, P2) abtransportiert .

Description:
Beschreibung

Verfahren und Vorrichtung zum Steuern des Transports eines Gegenstands zu einem vorgegebenen Zielpunkt

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Steuern des Transports eines Gegenstands zu einem vorgegebenen Zielpunkt, insbesondere eines Pakets zu einer Zustelladresse .

In US 6,819,777 B2 werden ein Verfahren und eine Vorrichtung beschrieben, um eine Zustelladresse auf einer Postsendung zu ermitteln und die Postsendung anschließend zu transportieren. Ein rechnerverfügbares Abbild der Postsendung wird erzeugt, welches die Zustelladresse zeigt. Zunächst versucht eine Komponente zur Zeichenerkennung („Optical Character Recogniti- on", OCR), automatisch die Zustelladresse zu lesen. Gelingt dies nicht, so wird das Abbild auf einem Bildschirm dargestellt. Eine Bedienkraft liest die Zustelladresse im Abbild und gibt sie über eine Tastatur und/oder über eine Spracher- fassungsstation ein. In einer Ausgestaltung werden mehrere Abbilder zeitlich überlappend auf dem Bildschirm dargestellt. Eine Vorrichtung mit den Merkmalen des Oberbegriffs des Anspruchs 1 und ein Verfahren mit den Merkmalen des Oberbegriffs des Anspruchs 13 sind aus WO 2007/135137 Al bekannt. In dieser Druckschrift werden ein Verfahren und eine Vorrichtung beschrieben, um auch dann die Zustelladresse automatisch zu ermitteln, wenn dies schwieriger möglich ist als bei einem Standardbrief, z. B. die Zustelladresse eines Pakets. Die Vorrichtung umfasst

- eine Spracherfassungsstation,

- eine Kamera („Scanner"), - ein Spracherkennungssystem („voice recognition System"),

- ein Zeichenerkennungssystem („OCR System") und

- eine Fördereinrichtung („conveyor") . Eine Bedienkraft ergreift ein Paket, liest die Zustelladresse auf dem Paket, spricht wenigstens einen Teil der Zustelladresse in die Spracherfassungsstation . Die Sprachnachricht wird konvertiert und an das Spracherkennungssystem übermit- telt. Dieses Spracherkennungssystem umfasst eine Datenbank mit gültigen Zustelladressen, z. B. gültigen Ortsangaben, vergleicht die konvertierte Sprachnachricht mit gültigen Zustelladressen in der Datenbank und generiert eine sortierte Kandidatenliste mit gültigen Zustelladressen. Diese Liste wird absteigend nach dem jeweiligen „audio score" sortiert, das ist ein Maß für die Übereinstimmung zwischen konvertierter Sprachnachricht und der abgespeicherten Zustelladresse.

Die Bedienkraft stellt das Paket auf das Förderband, nachdem sie die Zustelladresse in die Spracherfassungsstation gespro- chen hat. Das Förderband transportiert das Paket zu einer Kamera. Diese erzeugt ein rechnerverfügbares Abbild vom Paket. Das Zeichenerkennungssystem ermittelt die Zustelladresse, wofür es das Abbild auswertet und die Kandidatenliste vom Spracherkennungssystem verwendet. Hierbei wendet das Zeichen- erkennungssystem eine „thresholding method" an, um die „audio scores" mit Glaubwürdigkeitsmaßen vergleicht, die die Glaubwürdigkeit eines per OCR ermittelten Leseergebnisses bewerten .

Auch in DE 19718805 C2 werden ein Verfahren und eine Vorrich- tung beschrieben, um eine Kandidatenliste von einem Spracherkennungssystem mit einer zweiten Kandidatenliste von einem Zeichenerkennungssystem zu vergleichen.

Der Erfindung liegt die Aufgabe zugrunde, eine Vorrichtung mit den Merkmalen des Oberbegriffs des Anspruchs 1 und ein Verfahren mit den Merkmalen des Oberbegriffs des Anspruchs 13 bereitzustellen, durch welches die Gefahr einer fehlerhaften Ermittlung des Zielpunkts verringert wird, ohne den Durchsatz von Gegenständen durch die Spracherfassungsstation zu reduzieren . Die Aufgabe wird durch eine Vorrichtung mit den Merkmalen des Anspruchs 1 und ein Verfahren mit den Merkmalen des Anspruchs 13 gelöst. Vorteilhafte Ausgestaltungen sind in den Unteransprüchen angegeben.

Der Gegenstand ist mit Angaben zu einem Zielpunkt, zu dem der Gegenstand zu transportieren ist, versehen. Die Zielpunkt- Angaben, mit denen der Gegenstand versehen ist, werden in eine Spracherfassungsstation eingegeben. Ein Spracherkennungs- system wertet die von der Spracherfassungsstation erfassten Zielpunkt-Angaben aus. Eine Fördereinrichtung transportiert den Gegenstand ab. Der Zielpunkt, mit dessen Angaben der Ge- genstand versehen ist, wird ermittelt. Um den Zielpunkt zu ermitteln, wird das Auswertungsergebnis des Spracherkennungs- systems verwendet. Ein Freigabesignal wird erzeugt. Das Freigabesignal löst die beiden folgenden Vorgänge aus:

- Die Spracherfassungsstation wird für die Eingabe von Ziel- punkt-Angaben zu einem weiteren Gegenstand freigegeben.

- Die Fördereinrichtung transportiert den Gegenstand ab.

Der Transport des Gegenstands an den ermittelten Zielpunkt wird ausgelöst.

Lösungsgemäß ist das Spracherkennungssystem in einen Haupt- Spracherkenner und einen Zusatz-Spracherkenner unterteilt. Die beiden Spracherkenner werten unabhängig voneinander die Spracheingabe mit den erfassten Zielpunkt-Angaben aus. Der Haupt-Spracherkenner lässt sich auf das Ziel optimieren, die Zielpunkt-Angaben schnell auszuwerten und insbesondere den Abschluss der Spracheingabe rasch zu erkennen, um so schnell wie möglich ein Freigabesignal zu erzeugen und dadurch den Weitertransport des Gegenstands auszulösen. Dieses Freigabesignal schaltet außerdem die Spracherfassungsstation für die Eingabe von weiteren Zielpunkt-Angaben frei. Dem Zusatz- Spracherkenner steht mehr Rechenzeit zur Verfügung, so dass der Zusatz-Spracherkenner eine tiefergehende Auswertung mit einer geringeren Fehlergefahr durchführen kann.

Weil das Freigabesignal frühzeitig erzeugt wird, wird vermieden, dass man mit der Spracheingabe solange warten muss, bis auch der Zusatz-Spracherkenner seine Auswertung abgeschlossen hat, die tiefergehend ist und daher länger dauert. Vielmehr hängt das Freigabesignal nur vom schneller arbeitenden Haupt- Spracherkenner ab. Der Zielpunkt wird auf der Basis von zwei Auswertungen geliefert, die zwei Spracherkenner unabhängig voneinander geliefert haben. Dadurch sinkt die Gefahr, dass der Zielpunkt fehlerhaft ermittelt wird.

Die beiden Spracherkenner lassen sich dergestalt miteinander synchronisieren, dass sie in überlappenden Zeiträumen ihre Auswertungen durchführen. Möglich, aber nicht erforderlich ist, dass der eine Spracherkenner auf das Ergebnis vom anderen Spracherkenner wartet.

Weil das Freigabesignal erzeugt wird, nachdem der Haupt- Spracherkenner die Auswertung abgeschlossen hat und bevor die Spracherfassungsstation wieder freigegeben ist, braucht der Haupt-Spracherkenner sein Auswertungsergebnis nicht zwischen- zuspeichern. Vielmehr kommt eine weitere Spracheingabe, die vom Haupt-Spracherkenner auszuwerten ist, erst nach dem Frei- gabesignal.

Das Auswertungsergebnis des Haupt-Spracherkenners lässt sich an den Zusatz-Spracherkenner oder an eine zentrale Erkennungseinheit, z. B. einem „voting System", übermitteln, sobald die Fördereinrichtung damit beginnt, den Gegenstand ab- zutransportieren. Weil die Transportgeschwindigkeit der Fördereinrichtung in der Regel bekannt ist, erleichtert diese Ausgestaltung die Synchronisation und die Zuordnung zwischen dem Gegenstand und dem Auswertungsergebnis vom Haupt-Spracherkenner, das sich auf diesen Gegenstand bezieht. Dieser Vor- teil ist insbesondere dann wichtig, wenn viele Gegenstände zu transportieren sind, z. B. eine Abfolge von Paketen.

Die Fördereinrichtung transportiert den Gegenstand vorzugsweise zu einer weiteren Bearbeitungsstation. Typischerweise benötigt die Fördereinrichtung mindestens mehrere Sekunden, um den Gegenstand zu dieser Bearbeitungsstation zu transpor- tieren. Diese Transportzeit steht dem Zusatz-Spracherkenner zur Verfügung, um die Spracheingabe mit den Zielpunkt-Angaben zum Gegenstand auszuwerten. Das Auswertungsergebnis des Zusatz-Spracherkenners braucht erst dann zur Verfügung zu ste- hen, wenn der Gegenstand die weitere Bearbeitungsstation erreicht hat. Sobald das Ergebnis des Zusatz-Spracherkenners zur Verfügung steht, kann die weitere Bearbeitungsstation dieses Ergebnis zur Bearbeitung des Gegenstands verwenden.

Weil die Fördereinrichtung den Gegenstand erst dann abtrans- portiert, wenn der Haupt-Spracherkenner seine Auswertung abgeschlossen hat, wird es ermöglicht, dass der Ort, an den die Fördereinrichtung den Gegenstand transportiert, von demjenigen Auswertungsergebnis abhängig gemacht wird, das der Haupt- Spracherkenner liefert. Dies ermöglicht es beispielsweise, dass die Fördereinrichtung den Gegenstand an einen ersten Zwischenpunkt transportiert, den bereits der Haupt-Spracherkenner erkannt hat. Sobald der Gegenstand den ersten Zwischenpunkt erreicht, steht das Ergebnis des Zusatz-Spracherkenners zur Verfügung, was einen weiteren Transport oder die weitere Sortierung des Gegenstands ermöglicht.

Vorzugsweise arbeitet der Haupt-Spracherkenner nach einer festen Taktung. Die Spracheingabe wird durch ein Eingabesignal abgeschlossen, oder das Ende der Spracheingabe wird automatisch erkannt. Spätestens eine vorgegebene Zeitschranke nach Erzeugung des Eingabesignals wird die Spracherfassungs- station wieder freigegeben. Nicht erforderlich ist es, die Sprachnachricht zwischenzuspeichern .

Bevorzugt erkennt der Haupt-Spracherkenner automatisch, wann die Eingabe von Zielpunkt-Angaben zu einem Gegenstand abge- schlössen ist, beispielsweise indem der Sprechende eine zureichend lange Pause macht. Die Auswertung dieser Spracheingabe mit den Zielpunkt-Angaben führt ausschließlich der Zusatz-Spracherkenner durch. Dadurch lässt sich eine Taktung des Haupt-Spracherkenners mit einer kurzen Taktzeit realisie- ren. Vorzugsweise umfasst der Zusatz-Spracherkenner mehrere parallel arbeitende Einzel-Spracherkenner. Jeder einzelne Spracherkenner wertet jeweils eine Spracheingabe aus, und zwar vorzugsweise, nachdem der Haupt-Spracherkenner diese Sprach- eingäbe ausgewertet hat und das Freigabesignal erzeugt wurde. Dadurch wird ermöglicht, dass der Zusatz-Spracherkenner mehrere Spracheingaben zeitlich überlappend auswertet, was Zeit gegenüber einer seriellen Abarbeitung einspart. Ermöglicht wird es, in dem Zeitraum, in dem der Zusatz-Spracherkenner eine Spracheingabe auswertet, Zielpunkt-Angaben zu mehreren weiteren Gegenständen einzugeben und vom Haupt-Spracherkenner verarbeiten zu lassen.

In einer bevorzugten Ausgestaltung werden die erfassten Zielpunkt-Angaben von der Spracherfassungsstation lediglich zum Haupt-Spracherkenner übermittelt, aber nicht von der Spracherfassungsstation direkt zum Zusatz-Spracherkenner. Der Haupt-Spracherkenner übermittelt sein eigenes Auswerteergebnis an den Zusatz-Spracherkenner. Beispielsweise erkennt der Haupt-Spracherkenner, wann eine Spracheingabe zu einem Ge- genstand beendet ist, und bereinigt diese Spracheingabe von Störgeräuschen. Diese Ausgestaltung erleichtert die Synchronisation zwischen den beiden Spracherkennern. Sie spart weiterhin die Notwendigkeit ein, dass die Spracherfassungsstation die erfassten Zielpunkt-Angaben Zwischenspeichern muss. Im Folgenden werden zwei Anordnungen beschrieben, in denen das lösungsgemäße Verfahren eingesetzt werden kann. Die erste Anordnung ermittelt den Zielpunkt nur unter Verwendung der Spracheingabe, die von den beiden Spracherkennern ausgewertet wird. Die zweite Anordnung wertet zusätzlich ein Abbild des Gegenstands aus, um optisch den Zielpunkt zu erkennen.

Wird das lösungsgemäße Verfahren in der ersten Anordnung verwendet, so spart die Verwendung der beiden Spracherkenner ein Bildaufnahmegerät und ein Zeichenerkennungssystem ein. Diese Ausgestaltung lässt sich beispielsweise für die Gepäckbeför- derung innerhalb eines Flughafens oder Hafens oder den Mate- rialfluss innerhalb einer Fabrik verwenden. Zunächst wird der Gegenstand in eine Region transportiert, z. B. einen Zwischenpunkt, der für mehrere Zielpunkte zuständig ist.

Das Auswertungsergebnis des Haupt-Spracherkenners steht bereits dann zur Verfügung, wenn das Freigabesignal erzeugt wird und die Fördereinrichtung damit beginnt, den Gegenstand abzutransportieren. Dadurch lässt sich das Auswertungsergebnis des Haupt-Spracherkenners dazu verwenden, um bei Transportbeginn automatisch zu entscheiden, wohin die Fördereinrichtung den Gegenstand transportiert. Beispielsweise wird entschieden, in welche von mehreren möglichen Zwischenpunkten der Gegenstand transportiert wird. Hierfür wird ausschließlich das Auswertungsergebnis vom Haupt-Spracherkenner verwendet.

Wenn der Gegenstand den Zwischenpunkt erreicht hat, steht das Auswertungsergebnis vom Zusatz-Spracherkenner zur Verfügung. Anschließend wird der Gegenstand vom jeweiligen Zwischenpunkt zu einem Zielpunkt transportiert. Das Auswertungsergebnis vom Zusatz-Spracherkenner wird dazu verwendet, um zu entscheiden, zu welchem Zielpunkt dieser Gegenstand transportiert wird - oder um den Gegenstand zu einem anderen Zwischenpunkt zu transportieren, wenn festgestellt wird, dass der Haupt- Spracherkenner einen falschen Zwischenpunkt erkannt hat.

In der zweiten Anordnung wird zusätzlich ein Abbild des Gegenstands verwendet, um den Zielpunkt zu erkennen. Die För- dereinrichtung transportiert den Gegenstand zu einem Bildaufnahmegerät. Dieses Bildaufnahmegerät erzeugt ein optisches Abbild des Gegenstands. Ein Zeichenerkennungssystem wertet das Abbild aus. Das Auswertungsergebnis des Zeichenerkennungssystems wird zusätzlich verwendet, um den Zielpunkt zu ermitteln.

Dank dieser Ausgestaltung steht das Auswerteergebnis vom Spracherkennungssystem bereits zur Verfügung, wenn das Zeichenerkennungssystem seine Auswertung beginnt. Möglich ist, dass das Zeichenerkennungssystem dieses Auswertungsergebnis der Spracheingabe verwendet. Beispielsweise wählt das Zei- chenerkennungssystem abhängig von diesem Auswerteergebnisse eine Adress-Datenbank mit gültigen Zielpunkten aus.

Das lösungsgemäße Verfahren lässt sich insbesondere dann verwenden, wenn Gegenstände zu transportieren sind, deren Ziel- punkte nicht allein optisch erfasst werden können, weil die Gegenstände zu groß sind und/oder weil die Zielpunkt-Angaben sich nur schwer automatisch erfassen lassen. Diese Gegenstände sind z. B. Gepäckstücke von Reisenden, Transportbehälter, Werkstücke in einer Produktionsanlage oder auch Packungen mit Arzneimittel. Weil ein Bearbeiter den Gegenstand umlädt, benötigt er beide Hände und kann keine Eingaben mit einer Tastatur machen. Daher bleibt nur die Spracheingabe.

Im Folgenden wird die Erfindung anhand eines Ausführungsbei- spiels beschrieben. Dabei zeigen:

Fig. 1 schematisch die Anordnung, die Anschriften von Postpaketen erkennt;

Fig. 2 den zeitlichen Verlauf bei der Erkennung von Anschriften .

Im Ausführungsbeispiel wird das lösungsgemäße Verfahren eingesetzt, um Pakete zu sortieren. Jedes Paket ist mit Angaben zu der jeweiligen Zustelladresse versehen, an die das Paket zu transportieren ist.

Fig. 1 zeigt eine Anordnung, die das Verfahren realisiert. Diese Anordnung umfasst folgende Bestandteile:

- eine Spracherfassungsstation SE, - einen Haupt-Spracherkenner HS,

— einen Zusatz-Spracherkenner ZS, - eine Fördereinrichtung FE mit einem angetriebenes Förderband 1 und einem Antrieb 2 für das Förderband 1,

- ein Bildaufnahmegerät, welches mindestens eine Kamera 3 umfasst, — ein Zeichenerkennungssystem („optical character recogniti- on System") 4,

— eine zentrale Erkennungseinheit 5 in Form eines „voting Systems" und

— eine Übermittlungs- und Synchronisierungseinheit 6. Die Übermittlungs- und Synchronisierungseinheit 6 synchronisiert die nachfolgend beschriebenen Verarbeitungsschritte.

Die Spracherfassungsstation SE umfasst ein Mikrophon 7. Möglich ist, dass dieses Mikrophon 7 ortsfest angebracht ist. Vorzugsweise trägt hingegen ein Bearbeiter dieses Mikrophon 7 als Teil eines „headset" am Kopf. Das Mikrophon 7 ist bevorzugt als schnurloses Gerät ausgestaltet und übermittelt seine Ergebnisse z. B. per Funk oder Infrarot oder mittels eines Mobilfunk-Übertragungsprotokolls an einen ortsfesten Empfänger 9. In einer Ausgestaltung umfasst die Spracherfassungsstation SE zusätzlich einen Kopfhörer 8. Über diesen Kopfhörer 8 wird dem Bearbeiter das Freigabesignal FS akustisch mitgeteilt, so dass der Bearbeiter anschließend eine weitere Spracheingabe in die Spracherfassungsstation SE vornehmen kann. Der Bearbeiter nimmt ein Paket von einer Zuführeinrichtung oder aus einem Behälter oder einer Palette oder einem antriebslosen Wagen 10. Im Beispiel der Fig. 1 liegen noch zwei Pakete P3, P4 auf einem antriebslosen Wagen 10.

Der Bearbeiter sucht die Zustelladresse auf dem Paket, liest diese Zustelladresse ganz oder wenigstens teilweise und spricht das Gelesene in das Mikrophon 7 ein. Beispielsweise spricht er entweder das Land oder die Stadt ein. Zum Abtransport des Pakets reichen diese Angaben aus. Im Beispiel von Fig. 1 und Fig. 2 spricht er nur den Ort ein, wenn die Zustelladresse im Inland liegt, oder das Land, wenn die Zustelladresse im Ausland liegt.

Diese Spracheingabe wird in einer Ausführungsform durch ein Eingabesignal abgeschlossen. Möglich ist, dass der Bearbeiter eine Taste betätigt, wenn er die Spracheingabe für eine Zustelladresse abgeschlossen hat. Die Spracheingabe kann auch einfach dadurch abgeschlossen werden, dass der Bearbeiter eine Pause macht, die länger als eine vorgegebene Pausen- Schranke ist, und die Spracherfassungsstation dadurch automatisch erkennt, dass die Eingabe abgeschlossen ist. Möglich ist auch, dass das Ende der Spracheingabe dadurch erkannt wird, dass der Bearbeiter das Paket auf das Förderband legt und eine Lichtschranke dies erkennt. In einer bevorzugten Ausführungsform erkennt hingegen der Haupt-Spracherkenner HS automatisch, dass die Eingabe der Zielpunkt-Angaben zum Gegenstand abgeschlossen ist. Der Bearbeiter braucht also die Beendigung der Spracheingabe nicht anzuzeigen oder auf andere Weise der Anordnung „mitzuteilen". Der Haupt-Spracherkenner HS erkennt, dass der Sprecher eine

Pause gemacht hat, die länger ist als die vorgegebene Pausen- Schranke. Im Beispiel der Fig. 1 erkennt der Haupt-Spracherkenner zunächst, wann die Eingabe des Worts „Wort-1" abgeschlossen ist, und danach, wann die Eingabe des Worts „Wort- 2" abgeschlossen ist.

Die Spracherfassungsstation SE wandelt jede erfasste Spracheingabe mit Angaben zur Zustelladresse in eine Abfolge von elektrischen Signalen um. Diese Abfolge übermittelt die Über- mittlungs- und Synchronisierungseinheit 6 von der Spracher- fassungsstation SE an den Haupt-Spracherkenner HS. Bevorzugt erkennt dieser Haupt-Spracherkenner HS automatisch, wann der Bearbeiter die Eingabe der Zustelladress-Angaben zu einem Paket abgeschlossen hat.

In allen Ausführungsformen legt der Bearbeiter das Paket auf das Förderband 1, nachdem die Spracheingabe abgeschlossen ist. Der Bearbeiter legt das Paket so auf das Förderband 1, dass die Zustelladresse auf der nach oben zeigenden Seite des Pakets zu sehen ist. Im Beispiel von Fig. 1 legt der Bearbeiter das Paket Pl auf das Förderband 1, nachdem er dessen Zustelladresse teilweise gelesen hat. Die Anordnung erzeugt ein Freigabesignal FS. Dieses Freigabesignal FS löst folgende beiden Vorgänge aus:

— Die Spracherfassungsstation SE wird für die Spracheingabe von Zielpunkt-Angaben zu einem weiteren Paket P3 freigegeben . - Der Antrieb 2 setzt das Förderband 1 in Bewegung, und das angetriebene Förderband 1 transportiert das Paket Pl ab.

In einer Ausgestaltung transportiert das Förderband 1 das Paket Pl eine vordefinierte Strecke weit und stoppt dann ab. In einer anderen Ausgestaltung dreht der Antrieb 2 das Förder- band 1 permanent. Eine Lichtschranke oder ein Gewichtssensor überwacht das Förderband 1 und stellt fest, wann der Bearbeiter das Paket 1 auf das Förderband gestellt hat. Das Freigabesignal FS wird erzeugt, sobald der Haupt-Spracherkenner HS seine Auswertung für das Paket Pl abgeschlossen hat und das Paket Pl auf das Förderband 1 gelegt wurde.

Der Bearbeiter entnimmt ein weiteres Paket P3 aus der Zuführeinrichtung oder dem Behälter oder der Palette oder dem Wagen 10. Er liest die weitere Zustelladresse, mit der dieses weitere Paket P3 versehen ist, und gibt diese weitere Zustellad- resse in die nunmehr wieder freigegebene Spracherfassungsstation SE ganz oder wenigstens teilweise ein.

Das Förderband 1 transportiert das Paket P2 zu dem Bildaufnahmegerät mit der Kamera 3. Die mindestens eine Kamera 3 erzeugt ein rechnerverfügbares Abbild Abb von derjenigen Seite des Pakets, welches die Zustelladresse zeigt. Möglich ist auch, dass mehrere Kameras Abbilder von verschiedenen Seiten des Pakets P2 anfertigen, um sicherzustellen, dass ein Abbild die Zustelladresse des Pakets P2 zeigt. Im Ausführungsbeispiel arbeitet der Haupt-Spracherkenner HS seriell. Der Zusatz-Spracherkenner umfasst hingegen mehrere Einzel-Spracherkenner, die zeitlich überlappend arbeiten.

Vorgegeben ist eine Zeitschranke für die Arbeit des Haupt- Spracherkenners HS, beispielsweise eine Sekunde. Der Haupt- Spracherkenner HS arbeitet echtzeitfähig und ist so ausgestaltet, dass er innerhalb dieser Zeitschranke die Beendigung der Spracheingabe für ein Paket erkennt und die erfassten und umgewandelten Zustelladress-Angaben für den Zusatz-Sprach- erkenner ZS aufbereitet. Der Zeitraum, der dem Haupt-Spracherkenner HS zur Verfügung steht, beginnt, sobald der Bearbeiter bei der Spracheingabe eine Pause macht, die länger als die vorgegebene Pausen-Schranke ist, und endet spätestens dann, wenn die vorgegebene Zeitschranke von z. B. einer Se- künde verstrichen ist. Innerhalb dieses Zeitraums erzeugt der Haupt-Spracherkenner HS ein Auswertungsergebnis. Es liefert an die Übermittlungs- und Synchronisierungseinheit 6 folgende beiden Ergebnisse:

— die umgewandelten erfassten Zustelladress-Angaben und - das Auswertungsergebnis des Haupt-Spracherkenners HS.

Nicht erforderlich ist, dass der Haupt-Spracherkenner HS diese beiden Ergebnisse zwischenspeichert oder puffert.

Im Ausführungsbeispiel erkennt der Haupt-Spracherkenner HS, wann die Spracheingabe zu einem Paket abgeschlossen ist, und bereinigt die umgewandelten erfassten Zustelladress-Angaben von Störgeräuschen und von Spracheingaben, die offensichtlich nicht zum Zielpunkt gehören, z. B. ein Räuspern oder Husten des Sprechenden. Der Haupt-Spracherkenner HS liefert also eine bereinigte Spracheingabe zur Zustelladresse. Weitere Aus- Wertungen führt der Haupt-Spracherkenner HS nicht durch. Insbesondere erkennt der Haupt-Spracherkenner HS nicht die Zustelladresse .

Nachdem der Haupt-Spracherkenner HS diese bereinigte Spracheingabe abgeliefert hat, erzeugt die Übermittlungs- und Syn- chronisierungseinheit 6 das Freigabesignal FS. Daraufhin steht die Spracherfassungsstation SE für die Eingabe von weiteren Zielpunkt-Eingaben zur Verfügung, und das Förderband 1 transportiert das Paket zum Bilderfassungsgerät 3. Die Übermittlungs- und Synchronisierungseinheit 6 übermittelt die bereinigte Spracheingabe, die der Haupt-Spracherkenner HS liefert, an den Zusatz-Spracherkenner ZS. Der Zusatz- Spracherkenner ZS wählt einen seiner Einzel-Spracherkenner aus, der gerade nicht die Auswertung von früher erfassten Zielpunkt-Angaben durchführt und daher „frei" ist. Steht aktuell kein Einzel-Spracherkenner zur Verfügung, so speichert der Zusatz-Spracherkenner ZS die umgewandelten Zielpunkt- Angaben sowie das Auswertungsergebnis des Haupt- Spracherkenners HS (die bereinigte Spracheingabe für die Zielpunkt-Angaben) zwischen, bis ein Einzel-Spracherkenner frei ist.

Im Ausführungsbeispiel transportiert das Förderband 1 die Pakete mit einer konstanten Geschwindigkeit. Daher steht fest, wie viel Zeit zwischen - dem Zeitpunkt, an dem der Haupt-Spracherkenner HS die bereinigte Spracheingabe für ein Paket geliefert hat und das Freigabesignal FS erzeugt wurde, und

— dem Zeitpunkt, an dem das Bildaufnahmegerät 3 das rechnerverfügbare Abbild von diesem Paket erzeugt hat, zur Verfügung steht. Zwischen diesen beiden Zeitpunkten hat das Paket das Bildaufnahmegerät 3 erreicht. Die Zeitspanne zwischen diesen beiden Zeitpunkten steht dem Zusatz-Spracherkenner ZS zur Verfügung.

Der ausgewählte Einzel-Spracherkenner wertet die bereinigten Spracheingaben, die vom Haupt-Spracherkenner HS geliefert wurden, aus und erkennt die gesprochenen Angaben zur Zustelladresse. In der Regel vermag der Zusatz-Spracherkenner ZS die gesprochenen Zustelladress-Angaben nicht eindeutig zu erkennen, sondern liefert eine Liste mit Kandidaten. Jeder Kandi- dat ist im Ausführungsbeispiel ein möglicher Zielort, z. B. eine Stadt im Inland oder ein Land. Für jeden Kandidaten berechnet der Zusatz-Spracherkenner ZS zusätzlich ein Sicherheitsmaß (Glaubwürdigkeitsmaß) als Bewertung dafür, wie gut der jeweilige Kandidat mit der bereinigten Spracheingabe übereinstimmt .

Im Beispiel der Fig. 1 liefert der Zusatz-Spracherkenner ZS für das erste Wort die beiden möglichen Ergebnisse „Bremen" mit einem Sicherheitsmaß von 10 und „Bergen" mit einem Si- cherheitsmaß von 6. Für das zweite Wort liefert der Zusatz- Spracherkenner ZS die beiden möglichen Ergebnisse „Homburg" mit einem Sicherheitsmaß von 10 und „Hamburg" mit einem Sicherheitsmaß von 8.

Wie bereits dargelegt, liefert das Bildaufnahmegerät 3 min- destens ein rechnerverfügbares Abbild Abb des Pakets P2, welches die Zustelladresse auf dem Paket P2 zeigt. Dieses Abbild wird an das Zeichenerkennungssystem 4 übermittelt. Das Zeichenerkennungssystem 4 erkennt, wo im Abbild Abb die Zustelladresse gezeigt wird (Ermittlung der „region of interest") , und liest die Zustelladresse durch Auswertung des Abbilds

Abb. In der Regel vermag auch das Zeichenerkennungssystem 4 die Adresse nicht eindeutig zu lesen, sondern liefert ebenfalls eine Liste mit Kandidaten. Für jeden Kandidaten berechnet das Zeichenerkennungssystem 4 zusätzlich ein Sicherheits- maß (Glaubwürdigkeitsmaß) als Bewertung dafür, wie gut der jeweilige Kandidat mit dem Abbild übereinstimmt.

In derjenigen Ausgestaltung, die in Fig. 1 gezeigt wird, arbeiten der Zusatz-Spracherkenner ZS und das Zeichenerkennungssystem 4 unabhängig voneinander. In dieser Ausgestaltung werden

- diejenige Liste mit Kandidaten, die der Zusatz- Spracherkenner ZS liefert, und

- diejenige Liste mit Kandidaten, die das Zeichenerkennungssystem 5 liefert, an die zentrale Erkennungseinheit („voting System") 5 übermittelt. Diese Erkennungseinheit 5 vergleicht die Kandidaten in den Listen sowie die Sicherheitsmaße und erzeugt eine Gesamtbewertung. Beispielsweise wendet die Erkennungseinheit 5 ein Verfahren an, das aus WO 2007/135137 Al bekannt ist.

In einer anderen Ausgestaltung wird das Auswertungsergebnis vom Zusatz-Spracherkenner ZS an das Zeichenerkennungssystem 4 übermittelt. Das Zeichenerkennungssystem 4 verwendet dieses Auswertungsergebnis bei seiner Auswertung, z. B. um den Such- räum einzuschränken.

Fig. 2 zeigt den zeitlichen Verlauf bei der Erkennung von Anschriften. Auf der x-Achse ist die Zeit eingetragen, auf der y-Achse sind die verschiedenen Verarbeitungseinheiten veranschaulicht, nämlich die Spracherfassungsstation SE, der Haupt-Spracherkenner HS, die Fördereinrichtung FE und der Zusatz-Spracherkenner ZS.

Im Beispiel von Fig. 2 werden drei Pakete verarbeitet. Das erste Paket ist nach Bremen zu transportieren, das zweite nach Hamburg und das dritte nach Mainz. Der Bearbeiter gibt in die Spracherfassungsstation SE zunächst das Wort „Bremen" ein, anschließend das Wort „Hamburg" und anschließend das Wort „Mainz". Als Zustelladresse gibt der Bearbeiter nur den Namen des jeweiligen Orts ein, an den das Paket zu transportieren ist. Die Eingabe des Worts „Bre- men" nimmt die Zeitspanne zwischen den Zeitpunkten Tl und T2 ein, die Eingabe des Worts „Hamburg" die Zeitspanne zwischen den Zeitpunkten T3 und T4 und die Eingabe des Worts „Mainz" die Zeitspanne zwischen den Zeitpunkten T5 und T6.

Der Haupt-Spracherkenner HS erkennt, wann die Eingabe einer Zustelladresse in die Spracherfassungsstation SE abgeschlossen ist. Im Beispiel von Fig. 2 erkennt der Haupt-Spracherkenner HS zum Zeitpunkt T3, dass die Eingabe des Worts „Bremen" abgeschlossen ist, und erzeugt das Freigabesignal FS. Zum Zeitpunkt T5 erkennt der Haupt-Spracherkenner HS, dass die Eingabe des Worts „Hamburg" abgeschlossen ist, und zum Zeitpunkt T7, dass die Eingabe des Worts „Mainz" abgeschlossen ist. Zu den Zeitpunkten T5 und T7 erzeugt der Haupt-Spracherkenner HS ebenfalls das Freigabesignal FS.

Das Erzeugen des Freigabesignals FS zum Zeitpunkt T3 setzt das Förderband der Fördereinrichtung FE in Bewegung. Zwischen den Zeitpunkten T3 und T8 transportiert das Förderband das Paket mit der Zustelladresse in Bremen zur Kamera. Zwischen den Zeitpunkten T5 und TlO transportiert das Förderband das Paket mit der Zustelladresse in Hamburg zur Kamera. Ab dem Zeitpunkt T7 transportiert das Förderband das Paket mit der Zustelladresse in Mainz zur Kamera.

Zwischen den Zeitpunkten T8 und T9 erzeugt die Kamera ein rechnerverfügbares Abbild Abb des Pakets mit der Zustelladresse in Bremen. Zwischen den Zeitpunkten TlO und TIl erzeugt die Kamera ein rechnerverfügbares Abbild des Pakets mit der Zustelladresse in Hamburg.

Dem Zusatz-Spracherkenner ZS stehen die beiden Zeitspannen, in denen das Paket nach Bremen zur Kamera transportiert wird und die Kamera das Abbild Abb dieses Pakets erzeugt, zur Ver- fügung, um die Spracheingabe „Bremen" auszuwerten. Diese beiden Zeitspannen ergeben insgesamt den Zeitraum zwischen den beiden Zeitpunkten T3 und T9. Entsprechend steht dem Zusatz- Spracherkenner ZS die Zeitspanne zwischen den Zeitpunkten T5 und TIl zur Verfügung, um die Spracheingabe „Hamburg" auszu- werten, und die Zeitspanne ab dem Zeitpunkt T7, um die Spracheingabe „Mainz" auszuwerten.

Bezugs zeichenliste