Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
SELF-SERVICE TERMINAL AND METHOD
Document Type and Number:
WIPO Patent Application WO/2022/028909
Kind Code:
A1
Abstract:
A self-service terminal (100) can have: - a product-sensing device for sensing a property of a product; - a plurality of acoustic sensors (104a, 104b); and a control device, which is designed for: superposing a signal captured by means of the plurality of acoustic sensors (104a, 104b); determining a voice pattern on the basis of the result of the superposing; outputting information on the basis of the property and on the basis of the voice pattern; wherein the superposing and the position of the plurality of acoustic sensors (104a, 104b) relative to each other are designed such that first components of the signal are attenuated relative to second components of the signal if an origin of the second components is located between the self-service terminal (100) and an origin of the first components.

Inventors:
SCHÄFER OLIVER (DE)
PUSCH ALEXANDER (DE)
KNOBLOCH ALEXANDER (DE)
Application Number:
PCT/EP2021/070562
Publication Date:
February 10, 2022
Filing Date:
July 22, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
WINCOR NIXDORF INT GMBH (DE)
International Classes:
G10L21/0216
Foreign References:
CN107507623A2017-12-22
US20030018897A12003-01-23
US20190141445A12019-05-09
US10726681B12020-07-28
Attorney, Agent or Firm:
VIERING, JENTSCHURA & PARTNER MBB (DE)
Download PDF:
Claims:
46

Patentansprüche

1. Selbstbedienung-Terminal (100) , aufweisend:

• eine Produkterfassungsvorrichtung (102) zum Erfassen einer Eigenschaft eines Produkts;

• mehrere akustische Sensoren (104a, 104b) ; und

• eine Steuervorrichtung (106) , die eingerichtet ist zum:

Überlagern eines mittels der mehreren akustischen Sensoren (104a, 104b) erfassten Signals;

Ermitteln eines Sprachmusters auf Grundlage eines Ergebnisses des Überlagerns;

Ausgeben einer Information basierend auf der Eigenschaft und auf dem Sprachmuster;

• wobei das Überlagern und eine relative Lage der mehreren akustischen Sensoren (104a, 104b) zueinander derart eingerichtet sind, dass erste Bestandteile des Signals relativ zu zweiten Bestandteilen des Signals abgeschwächt werden, wenn ein Ursprung der zweiten Bestandteile zwischen dem Selbstbedienung-Terminal (100) und einem Ursprung der ersten Bestandteile angeordnet ist.

2. Selbstbedienung-Terminal (100) gemäß Anspruch 1, wobei das Überlagern und eine relative Lage der mehreren akustischen Sensoren (104a, 104b) zueinander derart eingerichtet sind, dass die zweiten Bestandteile nur dann konstruktiv überlagert werden, wenn deren Ursprung nahe einem Soll-Ursprung angeordnet ist.

3. Selbstbedienung-Terminal (100) gemäß Anspruch 2, wobei die mehreren Sensoren (104a, 104b) übereinstimmen in ihrem Abstand von dem Soll-Ursprung.

4. Selbstbedienung-Terminal (100) gemäß Anspruch 2, wobei das Überlagern unter Berücksichtigung einer 47 abgespeicherten Angabe, welche eine Position des Soll- Ursprungs (100) repräsentiert, erfolgt. Selbstbedienung-Terminal (100) gemäß Anspruch 4, wobei die Angabe eine Laufzeitdifferenz und/oder eine Amplitudendifferenz aufweist. Selbstbedienung-Terminal (100) gemäß einem der Ansprüche 1 bis 5, wobei die Information eine Zahlungsinformation ist . Selbstbedienung-Terminal (100) gemäß einem der Ansprüche 1 bis 6, wobei das Überlagern aufweist, das jeweils mittels jedes der mehreren akustischen Sensoren (104a, 104b) erfasste Signal abzubilden auf ein zusätzliches Signal, welches dem Ermitteln eines Sprachmusters zugeführt wird. Selbstbedienung-Terminal (100) gemäß einem der Ansprüche 1 bis 7, wobei der Ursprung der zweiten Bestandteile und der Ursprung der ersten Bestandteile auf einer Ebene liegen, wobei die Ebene quer zu einer Gravitationsrichtung ist. Selbstbedienung-Terminal (100) gemäß einem der Ansprüche 1 bis 8, ferner aufweisend:

• eine elektronische Komponente, welche mit der Steuervorrichtung gekoppelt ist; wobei die Steuervorrichtung (106) ferner eingerichtet ist zum

• Ermitteln einer Steuerinformation auf Grundlage des Sprachmusters; und

• Ansteuern der Komponente mittels der St euer in format! on . Selbstbedienung-Terminal (100) gemäß Anspruch 9, wobei die Komponente eine Bezahlvorrichtung aufweist. Selbstbedienung-Terminal (100) gemäß einem der Ansprüche 1 bis 10, wobei die Eigenschaft einen maschinenlesbaren Code aufweist. Selbstbedienung-Terminal (100) gemäß einem der Ansprüche 1 bis 11, wobei zumindest zwei Sensoren (104a, 104b) der mehreren akustischen Sensoren (104a, 104b) übereinander angeordnet sind. Selbstbedienung-Terminal (100) gemäß einem der Ansprüche 1 bis 12, wobei die Produkterfassungsvorrichtung (102) einen Bedienbereich (901) definiert, aus welchem heraus diese bedient werden kann, wobei der Ursprung der zweiten Bestandteile in dem Bedienbereich (901) angeordnet ist. Verfahren zum Kalibrieren des Selbstbedienung-Terminals (100) gemäß einem der Ansprüche 1 bis 13, das Verfahren aufweisend :

• Erfassen eines Testsignals mittels der mehreren akustischen Sensoren (104a, 104b) ;

• Ermitteln einer Angabe, welche eine Position des Ursprungs des Testsignals relativ zu dem Selbstbedienung-Terminal (100) repräsentiert; und

• Abspeichern der Angabe mittels der Steuervorrichtung . Verfahren (400) , aufweisend:

• Überlagern (705) eines mittels mehrerer akustischer Sensoren (104a, 104b) erfassten Signals;

• Ermitteln (403) eines Sprachmusters (214m) auf Grundlage eines Ergebnisses des Überlagerns (705) ;

• Ausgeben eines Steuersignals auf Grundlage des Sprachmusters ;

• wobei das Überlagern (705) und eine relative Lage der mehrere akustischen Sensoren (104a, 104b) zueinander derart eingerichtet sind, dass erste Bestandteile des Signals relativ zu zweiten Bestandteilen des Signals abgeschwächt werden, wenn ein Ursprung der zweiten Bestandteile zwischen den mehreren akustischen Sensoren ( 104a, 104b ) und einem

Ursprung der ersten Bestandteile angeordnet ist .

Description:
Beschreibung

Selbstbedienung-Terminal und Verfahren

Verschiedene Aus führungsbeispiele betref fen ein Selbstbedienung-Terminal und ein Verfahren .

Im herkömmlichen Einzelhandel bietet ein Selbstbedienung- Registrierterminal dem Kunden die Möglichkeit , die gewünschten Produkte selbst zu scannen ( z . B . ohne Unterstützung) oder alternativ sich beim Scannen der Produkte von einem Mitarbeiter unterstützen zu lassen . Ein solches Selbstbedienung-Registrierterminal sorgt für einen alternativen Registrier- und Bezahlvorgang, mehr Anonymität für den Kunden und geringere Personalkosten für den Einzelhandel . Mit einem Selbstbedienung-Registrierterminal scannt nicht notwendigerweise ein Kassierer, sondern j eder Kunde die Barcodes der zu kaufenden Produkte selbst .

Je nach Einsatzort und Einsatz zweck, bzw . nach Technologiestufe , wird an solchen Selbstbedienung- Registrierterminals auch eine Spracherkennung eingesetzt , um dem Kunden die Bedienung zu erleichtern . Dabei können Nebengeräusche , sogenannte Störgeräusche , welche der Spracheingabe überlagert sind, die korrekte Spracherkennung erschweren . Gerade im öf fentlichen Bereich, in welchem solche Selbstbedienung-Registrierterminals Anwendung finden, sind häufig viele Menschen und Schallquellen zugegen, so dass die Anzahl von Störgeräuschen und der Hintergrundpegel sehr groß sein können .

Dies kann eine Beeinträchtigung der zur Spracherkennung verwendeten Algorithmen zur Folge haben aufgrund der Vermischung von Spracheingabe ( d . h . das Nutzsignal bzw . die Äußerung des Bedieners ) mit diese überlagernden Sprachsignalen ( d . h . Störsignale , beispielsweise von benachbarten oder dahinter stehenden Personen ausgehend) . Die Beeinträchtigung hat zur Folge, dass beim Erkennungsversuch entweder kein gültiger Treffer erzielt wird (z.B. aufgrund von zeitlicher Signalüberlagerung mit dem Störer und somit einer zu starken Verfremdung des zu untersuchenden Lautes oder Wortes) oder ein fehlerhafter Treffer erzielt wird (z.B. bedingt dadurch, dass das dominante Störgeräusch einem Treffer in der Vergleichs-Datenbank stark genug ähnelt oder gleicht) .

Dem wird herkömmlicherweise mittels eines sogenannten Strahl- Formungsmechanismus (auch als Beamf orming-Mechanismus bezeichnet) entgegengewirkt, der eine elektrische und/oder akustische Ausrichtung des Mikrofons bewirkt.

Gemäß verschiedenen Aus führungs formen wurde anschaulich erkannt, dass herkömmliche Beamf orming-Mechanismen es nur erlauben, Signale zu den Seiten hin gezielt "abzuschirmen" bzw. „einzugrenzen" bzw. außerhalb der Richtungswirkung liegende Signale zu unterdrücken. Jedoch bleiben die Signale von hintereinander liegenden Schallquellen - z.B. aus derselben Richtung wie auch das Nutzsignal kommend - deutlich hörbar oder erhalten oder es kann sogar noch ein Verstärkungseffekt (wie beispielsweise beim Richtmikrofon) eintreten .

Genauer gesagt wurde erkannt, dass ein herkömmlicher Beamf orming-Mechanismus nur eine Richtung vorgibt, entlang welcher die Signale verstärkt werden. Ein Beamforming- Mechanismus beruht beispielsweise darauf, dass ein Mikrofon fokussiert wird, indem eine Zeitverschiebung der vom jeweiligen Mikrofon erfassten Schallsignale erfolgt. Die Zeitverschiebung korrespondiert zu der Laufzeit, welche der Schall zu dem Mikrofon benötigt. Allerdings wird dadurch der Ort der Schallentstehung nur dann eindeutig eingegrenzt, wenn dieser auf einem invarianten Objekt liegt, auf welches das Mikrofon fokussiert wird. Ist der genaue Ort der Entstehung des Schalls hingegen unbekannt, kann eine solche Lauf zeitkompensation hingegen nicht allen Freiheitsgraden genügen . Hinzu kommt , dass im Dreidimensionalen alle Orte der Schallentstehung mit einheitlicher Lauf zeit auf einer sphärischen Fläche um das Mikrofon herum liegen .

Sind der genaue Ort der Entstehung des Schalls und damit dessen Lauf zeit unbekannt , kann das Mikrofon nicht ohne weiteres fokussiert werden . Soll der Ort der Entstehung des Schalls geortet werden, kann dies wiederum nur dann erfolgen, wenn ein unverkennbares Schallsignal vorliegt , welches bekannt ist . Dies ist allerdings auf eine Spracherkennung nicht anwendbar, da die zu erkennende Spracheingabe variiert und damit ein eigener Freiheitsgrad ist . Ferner handelt es sich auch bei den Störgeräuschen oft um Gesprochenes , so dass dieses ohne weiteres auch nicht von der eigentlichen Spracheingabe zu unterscheiden ist . Weitere Heraus forderungen sind daher, dass sowohl das Nutz-Sprachsignal als auch Störsignale zeitlich willkürlich und unabhängig voneinander auftreten oder sich ähneln können . Ferner sind Anzahl sowie die Entfernung der Störquelle (n) unbekannt und können zudem j eweils variieren .

Gemäß verschiedenen Aus führungs formen werden ein Selbstbedienung-Terminal und ein Verfahren bereitgestellt , welche anschaulich den Empfang in die Tiefe begrenzen, beispielsweise in einem Korridor mit minimaler und maximaler Grenze . Damit wird erreicht , dass Stör-Bestandteile der erfassten Geräusche relativ zu Nutz-Bestandteilen der erfassten Geräusche abgeschwächt werden, wenn ein Ursprung der Nutz-Bestandteile ( auch als Nutzquelle bezeichnet ) zwischen dem Selbstbedienung-Terminal und einem Ursprung der Stör-Bestandteile ( auch als Störquelle bezeichnet ) liegt . Dieser Mechanismus kann beispielsweise alternativ oder zusätzlich zu einem herkömmlichen Beamf orming-Mechanismus , der ein seitliches Richten ( z . B . hori zontal und vertikal ) beim Schall-Empfang bereitstellt , verwendet werden . Anschaulich werden mehr Randbedingungen als beim herkömmlichen Beamf orming-Mechanismus verwendet , um ein entfernungsabhängiges Filtern der erfassten Geräusche ( allgemeiner als erfasstes akustisches Signal oder kurz als erfasstes Signal bezeichnet ) bereitzustellen . Das entfernungsabhängige Filtern kann alternativ oder zusätzlich zu dem richtungsabhängigen Filtern des Beamforming- Mechanismus erfolgen . Beispiele für zusätzliche Randbedingungen können aufweisen, dass die Nutzquelle und Störquelle hintereinander und/oder auf derselben Höhe angeordnet sind (bei Personen) , dass die Nutzquelle frontal und/oder sehr nach/vor dem Selbstbedienung-Terminal ( auch als SB-Terminal bezeichnet ) steht , dass der Schalldruck und die Lauf zeit sich in ihrer Abhängigkeit von der Entfernung voneinander unterscheiden .

Es zeigen

Figur 1 ein SB-Terminal gemäß verschiedenen Aus führungs formen in einem schematischen Aufbaudiagramm;

Figur 2 ein SB-Terminal gemäß verschiedenen Aus führungs formen in einem schematischen Kommunikationsdiagramm;

Figur 3 ein SB-Terminal gemäß verschiedenen Aus führungs formen in einer schematischen Seitenansicht ;

Figur 4 und Figur 5 j eweils das SB-Terminal in einem Verfahren gemäß verschiedenen Aus führungs formen in einer schematischen Seitenansicht oder Querschnittsansicht ;

Figur 6A und Figur 6B j eweils das SB-Terminal in dem Verfahren gemäß verschiedenen Aus führungs formen in schematischen Perspektivansichten; Figur 7A und Figur 7B j eweils das SB-Terminal in dem Verfahren gemäß verschiedenen Aus führungs formen in schematischen Detailansichten;

Figur 8A und Figur 8B j eweils das Verfahren gemäß verschiedenen Aus führungs formen in verschiedenen schematischen Diagrammen;

Figur 9A bis Figur 90 j eweils das SB-Terminal gemäß verschiedenen Aus führungs formen in einer schematischen Seitenansicht ;

Figur 10 und Figur 11 j eweils das Verfahren gemäß verschiedenen Aus führungs formen in einem schematischen Ablauf diagramm;

Figur 12A bis Figur 12C j eweils ein SB-Terminal gemäß verschiedenen Aus führungs formen in einer schematischen Seitenansicht ; und

Figur 13 das Verfahren gemäß verschiedenen Aus führungs formen in einem schematischen Ablaufdiagramm .

In der folgenden aus führlichen Beschreibung wird auf die beigefügten Zeichnungen Bezug genommen, die Teil dieser bilden und in denen zur Veranschaulichung spezi fische Aus führungsformen gezeigt sind, in denen die Erfindung ausgeübt werden kann . In dieser Hinsicht wird Richtungsterminologie wie etwa „oben" , „unten" , „vorne" , „hinten" , „vorderes" , „hinteres" , usw . mit Bezug auf die Orientierung der beschriebenen Figur ( en) verwendet . Da Komponenten von Aus führungs formen in einer Anzahl verschiedener Orientierungen positioniert werden können, dient die Richtungsterminologie zur Veranschaulichung und ist auf keinerlei Weise einschränkend . Es versteht sich, dass andere Aus führungs formen benutzt und strukturelle oder logische Änderungen vorgenommen werden können, ohne von dem Schutzumfang der vorliegenden Erfindung abzuweichen. Es versteht sich, dass die Merkmale der hierin beschriebenen verschiedenen beispielhaften Aus führungs formen miteinander kombiniert werden können, sofern nicht spezifisch anders angegeben. Die folgende ausführliche Beschreibung ist deshalb nicht in einschränkendem Sinne aufzufassen, und der Schutzumfang der vorliegenden Erfindung wird durch die angefügten Ansprüche definiert.

Im Rahmen dieser Beschreibung werden die Begriffe "verbunden", "angeschlossen" sowie "gekoppelt" verwendet zum Beschreiben sowohl einer direkten als auch einer indirekten Verbindung (z.B. ohmsch und/oder elektrisch leitfähig, z.B. einer elektrisch leitfähigen Verbindung) , eines direkten oder indirekten Anschlusses sowie einer direkten oder indirekten Kopplung. In den Figuren werden identische oder ähnliche Elemente mit identischen Bezugszeichen versehen, soweit dies zweckmäßig ist.

Der Begriff "Steuervorrichtung" kann als jede Art einer Logik implementierenden Entität verstanden werden, die beispielsweise eine Verschaltung und/oder einen Prozessor aufweisen kann, welche Software ausführen kann, die in einem Speichermedium, in einer Firmware oder in einer Kombination davon gespeichert ist, und darauf basierend Anweisungen ausgeben kann. Die Steuervorrichtung kann beispielsweise mittels Codesegmenten (z.B. Software) konfiguriert sein, um den Betrieb eines Systems (z.B. seines Arbeitspunkts) , z.B. einer Maschine oder einer Anlage, z.B. deren Komponenten, zu steuern .

Der Begriff "Prozessor" kann als jede Art von Entität verstanden werden, die die Verarbeitung von Daten oder Signalen erlaubt. Die Daten oder Signale können beispielsweise gemäß zumindest einer (d.h. einer oder mehr als einer) spezifischen Funktion behandelt werden, die vom Prozessor ausgeführt wird. Ein Prozessor kann eine analoge Schaltung, eine digitale Schaltung, eine Mischsignalschaltung, eine Logikschaltung, einen Mikroprozessor, eine zentrale Verarbeitungseinheit (CPU) , eine Grafikverarbeitungseinheit (GPU) , einen digitalen Signalprozessor (DSP) , eine programmierbare Gatter-Anordnung (FPGA) , eine integrierte Schaltung oder eine beliebige Kombination davon aufweisen oder daraus gebildet sein. Jede andere Art der Implementierung der jeweiligen Funktionen, die nachstehend ausführlicher beschrieben werden, kann auch als Prozessor oder Logikschaltung verstanden werden. Es versteht sich, dass einer oder mehrere der hierin detailliert beschriebenen Verfahrensschritte von einem Prozessor ausgeführt (z.B. realisiert) werden können, durch eine oder mehrere spezifische Funktionen, die von dem Prozessor ausgeführt werden. Der Prozessor kann daher eingerichtet sein, eines der hierin beschriebenen Verfahren oder dessen Komponenten zur Informationsverarbeitung durchzuführen.

Gemäß verschiedenen Aus führungs formen kann ein Datenspeicher (allgemeiner auch als Speichermedium bezeichnet) ein nicht flüchtiger Datenspeicher sein. Der Datenspeicher kann beispielsweise eine Festplatte und/oder zumindest einen Halbleiterspeicher (wie z.B. Nur-Lese-Speicher, Direktzugriffsspeicher und/oder Flash-Speicher) aufweisen oder daraus gebildet sein. Der Nur-Lese-Speicher kann beispielsweise ein löschbarer programmierbarer Nur-Lese- Speicher (kann auch als EPROM bezeichnet werden) sein. Der Direktzugriffsspeicher kann ein nicht flüchtiger Direktzugriffsspeicher (kann auch als NVRAM -"non-volatile random access memory" bezeichnet werden) sein.

Gemäß verschiedenen Aus führungs formen kann ein Selbstbedienung-Registrierterminal (auch als SB- Registrierterminal bezeichnet) eingerichtet sein, die Produkte, die ein Kunde erwerben will, zu registrieren, z.B. mittels Scannens der Produkte an einem Scanner (z.B. einem Barcodescanner) . Ferner kann das SB-Registrierterminal ein (z.B. digitales) Kassensystem aufweisen (dann auch als Selbstbedienungskasse bezeichnet) , welches eingerichtet ist, einen Bezahlprozess durchzuführen. Der Bezahlprozess kann beispielsweise aufweisen, dass der Kunde die zu erwerbenden Produkte auch bezahlt. Das Kassensystem kann zumindest eines von Folgendem aufweisen: einen Bildschirm (z.B. einen berührungsempfindlichen Bildschirm) , einen Drucker (z.B. zum Ausdrucken einer Rechnung und/oder eines Etiketts) , eine

(z.B. programmierbare) Kassentastatur (kann auch Teil des berührungsempfindlichen Bildschirms sein) , eine Bezahlvorrichtung. Die Bezahlvorrichtung kann beispielsweise eine Zahlungsmittel-Lesevorrichtung aufweisen zum Auslesen eines Zahlungsmittels (z.B. Bargeld oder eine Debitkarte) . Die Bezahlvorrichtung kann alternativ oder zusätzlich eingerichtet sein, Bargeld anzunehmen.

Die Zahlungsmittel-Lesevorrichtung kann beispielsweise ein Elektronisch-Zahlungsmittel-Lesevorrichtung (kann auch als EC-Lesevorrichtung bezeichnet werden, "EC" - electronic cash, z.B. zum Auslesen einer Debitkarte und/oder einer Kreditkarte) sein. Das Kassensystem und der Scanner können auf derselben Seite (z.B. einer Säule) des SB- Registrierterminals angeordnet sein, so dass diese von einer Position aus bedient werden können.

Im Folgenden wird sich auf Produkte (z.B. Waren, kann auch als Artikel bezeichnet werden) als Objekte bezogen. Das Beschriebene kann in Analogie auch für andere Objekte gelten, wie beispielsweise eine Hand.

Im Folgenden wird sich auf die sogenannte Laufzeit bzw. eine Differenz zwischen Laufzeiten (auch als Laufzeitdifferenz bezeichnet) bezogen. Die Laufzeit t ist die Zeit, welche der Schall von dem Ursprung des Schalls (d.h. dem Ort der Schallquelle) zu einem Ort der Erfassung des Schalls benötigt, z.B. zu einem Ort des Sensors. Der Schall legt dabei den Abstand s (d.h. die Strecke s) von der Schallquelle zu dem Ort der Erfassung zurück. Dabei ist für den n-ten Ort, an welchem der Schall erfasst wird, die Laufzeit t n = s n /cs, wobei Cs die Schallgeschwindigkeit ist und t n die Laufzeit bzw. s n den Abstand für den n-ten Ort bezeichnen. Die Laufzeit lässt sich so durch Multiplikation mit der Schallgeschwindigkeit in den Abstand zur Schallquelle umrechnen .

Verschiedene Orte (z.B. n=l und n=2) der Erfassung können daher eine Laufzeitdifferenz At = (t2 - ti) aufweisen, welche sich aufgrund ihres Unterschieds im Abstand von der Schallquelle ergibt. Je größer der Abstand ist, desto größer ist die Laufzeit. Auf Grundlage der Laufzeitdifferenz kann der Abstand von der Schallquelle ermittelt oder zumindest eingegrenzt werden. Sind t2 und ti bekannt, liegen die infrage kommenden Orte der Schallquelle im Zweidimensionalen am Schnittpunkt zweier Kreise, deren Mittelpunkte am Ort der Sensoren angeordnet sind und deren Radius zu den Laufzeiten t2 und ti korrespondiert. Im Dreidimensionalen liegen entsprechende Sphären vor, die sich entlang eines Kreises schneiden. Sind weder t2 noch ti, sondern nur deren Differenz At bekannt, lässt sich der Abstand von infrage kommenden Orten der Schallquelle nicht mehr eingrenzen, da sich die Bedingung At = konstant bis ins Unendliche erfüllen lässt.

Das für die Laufzeit Beschriebene kann in Analogie für den Schalldruck p (auch als Signalpegel bezeichnet) bzw. die Schalldruckdifferenz Ap = (p2 - pi) gelten. Der Schalldruck p repräsentiert die Amplitude des Schalls, welcher am Ort der Erfassung des Schalls vorliegt, z.B. am Ort des Sensors. Der Schall legt dabei Abstand s (d.h. die Strecke s) der Quelle von dem Ort der Erfassung zurück und verliert dabei an Schalldruck. Dabei ist für den n-ten Ort, an welchem der Schall erfasst wird, der Schalldruck p n = p n (s n 2 ) eine Funktion vom Quadrat des Abstands s n . Der Schalldruck p lässt sich so in einen Abstand umrechnen. Als Maß für den Schalldruck kann die Amplitude verwendet werden. Beispielsweise wird der zeitabhängige Schalldruck ausgegeben als zeitabhängiges Messsignal , dessen Amplitude ( auch als Signalamplitude oder Signalstärke bezeichnet ) den erfassten Schalldruck repräsentiert .

Im Folgenden wird daher unter anderem auf die allgemeinere Signalamplitude bzw . deren Di f ferenz ( auch als Amplitudendi f ferenz bezeichnet ) Bezug genommen . Die Signalamplitude bezeichnet bezüglich des Schalls dessen zeitabhängigen Schalldruck, bezüglich eines elektrischen Signals dessen zeitabhängige elektrische Größe ( z . B . Spannung und/oder Stromstärke ) . Als Audiosignal kann ein elektrisches Signal verstanden werden, das akustische Informationen transportiert . Als Schall kann ein mechanisches Signal verstanden werden, das akustische Informationen transportiert .

Im Folgenden wird auf ein Selbstbedienung-Terminal ( auch als SB-Terminal bezeichnet ) Bezug genommen, welches eingerichtet ist , ein oder mehr als ein diesem präsentiertes Produkt zu erfassen . Optional kann das Selbstbedienung-Terminal eingerichtet sein, die erfassten Produkte zu registrieren und darauf basierend für die Gesamtheit der registrierten Produkte eine Abrechnungsinformation bereitzustellen ( dann auch als SB-Registrierterminal bezeichnet ) . Das Selbstbedienung-Terminal ( auch als SCO-Terminal bezeichnet ) muss aber nicht notwendigerweise zum Registrieren und/oder Bereitstellen der Abrechnungsinformation eingerichtet sein . Beispiele für ein weniger komplexes Selbstbedienung-Terminal können aufweisen : eine Produktwiegeterminal , ein Inf ormationsterminal , oder Ähnliches . Das Produktwiegeterminal kann beispielsweise vom Kunden verwendet werden, um ein Produkt zu wiegen und einen Aufkleber zu erhalten, welcher einen Preis angibt , der für das Produkt aufgerufen wird . Das Inf ormationsterminal kann beispielsweise eingerichtet sein, dem Kunden auf Anfrage einen Preis anzuzeigen, der für das Produkt aufgerufen wird . Es versteht sich, dass solche Funktionen auch von einem SB- Registrierterminal implementiert werden können, z . B . einem SB-Kassenterminal .

Gemäß verschiedenen Aus führungs formen kann das Ermitteln eines Sprachmusters erfolgen ( auch als Spracherkennung bezeichnet ) auf Grundlage eines digitalen Audiosignals . Das Sprachmuster kann anschaulich den Inhalt einer gesprochenen Benutzereingabe ( auch als Spracheingabe bezeichnet ) repräsentieren . Zur Spracherkennung kann eine entsprechende Mustererkennung verwendet werden, welche beispielsweise gemäß einer vorherrschenden oder vom Benutzer ausgewählten Sprache eingerichtet ist . Zur Spracherkennung kann ein optional analog vorliegendes Audiosignal digitalisiert werden mittels Abtastung des analogen Audiosignals . Ferner kann optional eine Filterung und/oder Trans formation des digitalen Audiosignals in den Frequenzraum und ein Ermitteln eines Merkmalsvektors erfolgen . Die Mustererkennung wird dann auf den Merkmalsvektor angewendet . Der Merkmalsvektor weist voneinander abhängige oder unabhängige Merkmale auf , die aus dem digitalen Audiosignal ( z . B . Sprachsignal ) erzeugt werden . Ein Beispiel eines solchen Merkmals ist das sogenannte Cepstrum und/oder das Frequenzspektrum . Das Cepstrum wird aus dem Frequenzspektrum gewonnen, indem die Fouriertrans formierte des logarithmierten Betrags-Spektrums gebildet wird . Damit lassen sich verschiedene Periodi zitäten im Spektrum erkennen . Diese Periodi zitäten werden im menschlichen Vokaltrakt und durch die Stimmbandanregung erzeugt , welcher sich somit rekonstruieren lässt . Darauf basierend lässt sich der Inhalt der Spracheingabe ermitteln .

Das Sprachmuster kann einem Inhalt der Spracheingabe zugeordnet werden, z . B . indem dieses mit Referenzmustern abgeglichen wird, deren Inhalt bekannt ist . Beispiele zum Inhalt der Spracheingabe können aufweisen : eine Anweisung an das SB-Terminal , Information zu dem Produkt , eine Auswahl zwischen dem Benutzer präsentierten Optionen, eine Antwort auf eine Anfrage und/oder Aufforderung des SB-Terminals . Beispiele für die Anweisung an das SB-Terminal weisen auf, eine Anweisung die Registriersitzung zu starten (Sitzungsstartereignis) , eine Anweisung die Registriersitzung zu beenden (Sitzungsendereignis) , eine Anweisung zur Annahme eines bestimmten Zahlungsmittels. Beispiele für dem Benutzer präsentierte Optionen weisen auf, ob der Benutzer eine ausgedruckte Rechnung möchte, ob der Benutzer einen weiteren Einkauf vornehmen möchte, ob der Benutzer ein weiteres Produkt erfassen möchte, ob der Benutzer an einem Bonusprogram teilnehmen möchte. Beispiele für Information zu dem Produkt weisen auf: die Art des Produkts, die Anzahl der Produkte, eine Kennung des Produkts, eine Farbe des Produkts. Über die Art des Produkts (z.B. Banane) als Spracheingabe kann der Benutzer beispielsweise mitteilen, welches Produkt er gerade wiegt, so dass die Steuervorrichtung basierend auf der Spracheingabe die Kennung des Produkts ermittelt.

Herkömmlicherweise erfolgt bei der Spracherkennung keine Abschirmung von Schall in die Tiefe, was jedoch für die Anwendung (z.B. zur Sprachbedienung am SCO-Terminal im Einzelhandel) vorteilhaft wäre.

Gemäß verschiedenen Aus führungs formen wird ein Mechanismus der Messung von Laufzeitunterschieden für Signale bereitgestellt, die entsprungen sind von Signalquellen, von denen insbesondere der Start Zeitpunkt der Aussendung, z.B. bei Sprachsignalen, unbekannt ist. Dies erleichtert die Unterscheidung der örtlichen Herkunft (auch als Ort des Ursprungs bezeichnet) mehrerer Signale, z.B. die Unterscheidung von gewünschtem und ungewünschtem Sprachsignal. Dies kann alternativ oder zusätzlich zu herkömmlichen Mechanismen zur Lokalisierung von Objekten verwendet werden, bei denen beispielsweise ein definierter Signalimpuls (z.B. Licht oder Schall) ausgesandt und dessen Laufzeit zum Objekt und zum Sender zurück ermittelt wird. Gemäß verschiedenen Aus führungs formen wird eine versetzte Mikrofonanordnung bereitgestellt , welche beispielsweise abhängig ist von der zu erwartenden Position der gewünschten ( Sprach- ) Signalquelle . Dadurch wird eine Trennung der gewünschten und ungewünschten Signale voneinander in einfacher und nicht-rechenintensiver Form bereitgestellt , beispielsweise allein durch Addition der empfangenen Signale von mehreren versetzt zueinander angeordneten Mikrophonen, ohne dabei spezielle Signal-Vorverarbeitungen oder Berechnungen durchführen zu müssen .

Herkömmlicherweise werden für die Messung einer Signalherkunftsrichtung durch sogenanntes Beamforming mindestens 3 Mikrofone benötigt . Die Anzahl der nötigen Mikrofone für den hierin beschriebenen Mechanismus können beispielsweise hingegen zwei Mikrofone sein .

Gemäß verschiedenen Aus führungs formen wird die Erkennung von Sprachsignalen im stark geräusch-behafteten Kassenumfeld erleichtert . Dabei ist eine Heraus forderung, neben der Richtung auch eine Entfernung der j eweiligen Nutzsignalquelle ( Sprecher bzw . Kunde ) vor dem SCO-Terminal (mit den Mikrophonen) zu erkennen und von Störquellen zu unterscheiden, um diese voneinander zu trennen und die Störsignale zu unterdrücken . Wenn man davon ausgehen kann, dass der Kunde ( Sprecher, d . h . Quelle des Nutzsignals ) nahe vor dem SCO-Terminal steht und die Störquelle (weitere störende Sprecher, d . h . Quelle des Störsignals ) sich mindestens dahinter befindet , kann über die Ausbreitung der akustischen Wellen ( auch als Schall bezeichnet ) und der daraus entstehenden Lauf zeitdi f ferenz und/oder Schalldruckdi f ferenz (messbar über eine Mehrfach-Mikrophon- Anordnung) zwischen Nutzsignal und Störsignal unterschieden werden . Dafür können idealerweise 3 oder mehr aber zumindest 2 in geeigneter Weise zueinander gebrachte Mikrophone verwendet werden . Fig.l veranschaulicht ein SB-Terminal 100 gemäß verschiedenen Aus führungs formen in einem schematischen Aufbaudiagramm. Das SB-Terminal 100 kann beispielsweise ein SB-Registrierterminal 100 sein.

Das SB-Terminal 100 kann eine oder mehr als eine Produkterfassungsvorrichtung 102, mehrere (d.h. zwei oder mehr) akustische Sensoren 104a, 104b und eine Steuervorrichtung 106 aufweisen. Die untereinander kommunizierenden Komponenten des SB-Terminals 100 können mit der Steuervorrichtung 106 kommunikativ 161 gekoppelt sein, z.B. mittels eines Feldbus-Kommunikationsnetzwerks 161 oder anderer Signalverbindungen. Somit können die akustischen Sensoren 104a, 104b und die oder jede Produkterfassungsvorrichtung 102 kommunikativ 161 mit der Steuervorrichtung 106 gekoppelt sein.

Die Produkterfassungsvorrichtung 102 kann zum Erfassen einer Eigenschaft eines Produkts (auch als Produkteigenschaft bezeichnet) eingerichtet sein, z.B. einer mechanischen Produkteigenschaft, einer optischen Produkteigenschaft und/oder einer codierten Produkteigenschaft. Die mechanische Produkteigenschaft kann beispielsweise eine Größe, eine Form und/oder ein Gewicht aufweisen. Die optische Produkteigenschaft kann beispielsweise eine Farbe oder ein Muster aufweisen. Die codierte Produkteigenschaft kann beispielsweise eine codierte Kennung und/oder eine codierte Angabe über das Produkt aufweisen.

Die Produkterfassungsvorrichtung 102 kann beispielsweise eine Bilderfassungsvorrichtung zum Erfassen der optischen Eigenschaft aufweisen. Die Bilderfassungsvorrichtung kann eingerichtet sein, der Steuervorrichtung 106 Bilddaten eines Erfassungsbereichs (z.B. im Rohdatenformat oder in einer vorbearbeiteten Version des Rohdatenformats) , z.B. pixelbasierte Bilddaten (auch als Rastergrafik bezeichnet) , zuzuführen . Die Bilderfassungsvorrichtung 102 kann beispielsweise eine oder mehr als eine Kamera aufweisen .

Die Produkterfassungsvorrichtung 102 kann beispielsweise eine Kennungserfassungsvorrichtung aufweisen . Die Kennungserfassungsvorrichtung kann eingerichtet sein, der Steuervorrichtung 106 eine von ihr erfasste Produkt kennung zuzuführen . Die Produktkennung kann beispielsweise einem Produkt oder dessen Typ eindeutig zugeordnet sein . Die Produktkennung kann beispielsweise auf Grundlage eines optischen Merkmals ( auch als Kennungsmerkmal bezeichnet ) des Produkts , welches erfasst wird, ermittelt werden . Das Kennungsmerkmal ( z . B . ein Muster ) kann einen maschinenlesbaren Code aufweisen, der die Produktkennung repräsentiert , z . B . einen Binärcode oder Ähnliches . Beispielsweise kann das Kennungsmerkmal einen Barcode oder einen anderen maschinenlesbaren Code aufweisen .

Die Produkterfassungsvorrichtung 102 kann beispielsweise eine Waage zum Erfassen des Gewichts des Produkts aufwei sen . Die Waage kann beispielsweise einen oder mehr als einen Gewichtssensor aufweisen, welcher das Gewicht erfas st .

Ein akustischer Sensor 104a, 104b (vereinfacht im Folgenden als Mikrofon bezeichnet ) kann beispielsweise einen Schallwandler aufweisen oder daraus gebildet sein . Der Schallwandler kann eingerichtet sein, ein akustisches Signal in ein elektrisches Signal ( auch als Audiosignal be zeichnet ) umzuwandeln . Der Schallwandler kann beispielsweise ein Druckgradientenmikrofon, ein Druckmikrofon oder Ähnliches aufweisen, aktiv oder passiv sein, induktiv, kapazitiv oder resistiv wandeln .

Die Mikrofone 104a, 104b können Teil einer Benutzerschnittstelle 104 sein, welche mittels der Steuervorrichtung oder separat davon implementiert ist . Mittels der Benutzerschnittstelle 104 kann beispiel sweise eine akustische Spracheingabe erfasst werden, z.B. eine Spracheingabe. Die Produkterfassungsvorrichtung 102 und die Benutzerschnittstelle 104 können eine entsprechende Infrastruktur (z.B. Prozessor, Speichermedium und/oder Bussystem aufweisend) oder dergleichen aufweisen, welche eine Messkette implementiert. Die Messkette kann eingerichtet sein, die entsprechenden Sensoren (z.B. Kamera, Scanner, Mikrofon, usw.) anzusteuern, deren Messgröße als Eingangsgröße zu verarbeiten und darauf basierend ein elektrisches Signal als Ausgangsgröße bereitzustellen, z.B. die Produktkennung, ein Audiosignal, einen Gewichtswert, oder Ähnliches .

Jedes der Mikrofone 104a, 104b kann mittels der Messkette eingerichtet sein, von dem Mikrofon erfassten Schall (Eingangsgröße) in eine entsprechende elektrische Ausgangsgröße (auch als Audiosignal bezeichnet) zu überführen. Das Audiosignal kann beispielsweise ein analoges oder digitales Audiosignal sein. Das Audiosignal kann optional vorverarbeitet werden, z.B. abgetastet, gefiltert, sequenziert, normiert, und dergleichen. Das Audiosignal kann ein von dem Sensor erfasstes akustisches Signal (auch als Schall bezeichnet) repräsentieren, z.B. deren Schalldruck oder Schallwechseldruck als Funktion der Zeit (im Folgenden auch als Amplitude bezeichnet) . Als Schalldruck werden die Druckschwankungen eines kompressiblen Schallübertragungsmediums (z.B. Luft) bezeichnet, die bei der Ausbreitung von Schall auftreten.

Das digitale Audiosignal kann beispielsweise mittels Abtastung des analogen Audiosignals bereitgestellt sein oder werden. Dazu wird das analoge Audiosignal in eine Aneinanderreihung von skalaren Werten übertragen, wobei die Abtastrate bestimmt, wie viele skalare Werte pro Zeiteinheit erfasst werden. Das Abtasten kann aufweisen, das analoge (kontinuierliche) Audiosignal zu digitalisieren, d.h. in ein digitales Audiosignal zu überführen. Das digitale Audiosignal kann optional als Datei abgespeichert sein oder werden (auch als Audiodaten bezeichnet) .

Im Folgenden wird sich auf die Verarbeitung der digitalen Audiosignale bezogen, z.B. mittels eines digitalen Signalprozessors (auch als DSP bezeichnet) . Alternativ oder zusätzlich zu den digitalen Audiosignalen kann auch das analoge Audiosignal weiterverarbeitet werden, z.B. mittels einer analogen Schaltung. Das für die digitalen Audiosignale Beschriebene gilt somit in Analogie für analoge Audiosignale. Zur Verarbeitung eines analogen Audiosignals kann auch ein DSP zwischen einen Analog-Digital-Umsetzer und einen Digital- Analog-Umsetzer geschaltet sein.

Mittels der Produkterfassungsvorrichtung 102 kann ein produktweises Ermitteln der einzelnen Produkteigenschaften erfolgen. Der Bereich, von dem aus die Produkterfassungsvorrichtung 102 bedient werden kann, z.B. indem dieser das Produkt präsentiert wird, wird im Folgenden auch als Bedienbereich bezeichnet.

Der (beispielsweise sphärenförmige) Bedienbereich kann aus denjenigen Punkten im Raum gebildet sein, welche einen Abstand von der Produkterfassungsvorrichtung 102 von weniger als einer Bedienreichweite aufweisen. Mit anderen Worten kann der Bedienbereich nahe der Produkterfassungsvorrichtung 102, z.B. unmittelbar vor dieser, angeordnet sein. Die Bedienreichweite kann beispielsweise kleiner sein als ungefähr 5 m (Meter) , z.B. als ungefähr 2,5 m, z.B. als ungefähr 1 m. Alternativ oder zusätzlich kann die Produkterfassungsvorrichtung 102 an den Bedienbereich angrenzen oder in diesen hinein erstreckt sein.

Alternativ oder zusätzlich kann der Bedienbereich einen Abstand von einem Untergrund, auf welchem das SB-Terminal 100 angeordnet ist, aufweisen, z.B. von mehr als ungefähr 1 m ( z . B . ungefähr 1 , 5 m) und/oder weniger als ungefähr 3 m ( z . B . ungefähr 2 , 5 m) .

Anschaulich kann der Bedienbereich derj enige Bereich sein, in welchem der Kopf eines Benutzers , der ( z . B . physisch) mit der Produkterfassungsvorrichtung 102 interagieren will , mit hoher Wahrscheinlichkeit angeordnet ist , so dass der Kopf innerhalb der Bedienreichweite angeordnet ist . Beispielsweise können diese infrage kommenden Positionen für den Kopf aufgrund der Armlänge beschränkt sein .

Das Erfassen der Produkteigenschaften kann aufweisen, dass ein zu erfassendes Produkt der Produkterfassungsvorrichtung 102 präsentiert wird . Das Präsentieren kann beispielsweise aufweisen, dass das zu erfassende Produkt in einer Produkterfassungs zone angeordnet wird und dessen Kennungsmerkmal in Richtung der Produkterfassungsvorrichtung 102 ausgerichtet wird . Das Präsentieren kann beispielsweise aufweisen, dass das zu erfassende Produkt auf einer Oberfläche abgelegt wird, welche mittels eines Sensors der Produkterfassungsvorrichtung 102 überwacht wird .

Die Produkterfassungsvorrichtung 102 , die Benutzerschnittstelle 104 und die Steuervorrichtung 106 müssen nicht notwendigerweise dedi zierte Infrastrukturen aufweisen . Beispielsweise können deren informationsverarbeitende Funktionen auch als Komponenten derselben Schaltung und/oder Software ( auch als Anwendung bezeichnet ) bereitgestellt werden, die von einem oder mehr als einem Prozessor des SB-Terminals 100 ausgeführt wird . Es können selbstverständlich auch mehrere Anwendungen und/oder mehrere Prozessoren verwendet werden, welche die informationsverarbeitenden Funktionen der Produkterfassungsvorrichtung 102 , der Benutzerschnittstelle 104 und der Steuervorrichtung 106 bereitstellen . Fig . 2 veranschaulicht ein SB-Terminal 100 gemäß verschiedenen Aus führungs formen 200 in einem schematischen Kommunikationsdiagramm .

Die Produkterfassungsvorrichtung 102 kann eingerichtet sein, der Steuervorrichtung 106 eine erfasste Produkteigenschaft 202a zuzuführen 201a . Ferner können mittels der Mikrofone 104a, 104b Audiosignale 202b bereitgestellt werden . Die Audiosignale 202b können den von den Mikrofonen 104 a, 104b erfassten Schall repräsentieren .

Die Steuervorrichtung 106 kann eingerichtet sein zum Ermitteln 1009 von Zahlungsinformationen 204 basierend auf der Produkteigenschaft 201a ( auch als Zahlungsinf ormation- Ermitteln bezeichnet ) . Die Zahlungsinformationen 204 können anschaulich repräsentieren, welcher Preis für das entsprechende Produkt mit der Produkteigenschaft 201a aufgerufen wird . Beispielsweise kann dazu die erfas ste Produkteigenschaft 201a mit einer Datenbank abgeglichen werden .

Beispielsweise kann die Steuervorrichtung 106 eingerichtet sein, eine Registriersitzung 202 zu starten, z . B . in Antwort auf ein ermitteltes Ereignis ( auch als Sitzungsstartereignis bezeichnet ) , welches repräsentiert , dass eine Selbstbedienungsregistrierung erfolgen soll . Beispiele für das Sitzungsstartereignis können aufweisen, dass ein Nutzer vor dem SB-Terminal 100 steht und/oder eine entsprechende Eingabe an diesem vornimmt , dass der Produkterfassungsvorrichtung 102 ein Produkt präsentiert wurde , und/oder dass eine vorherige Registriersitzung beendet wurde .

In ähnlicher Weise kann die Steuervorrichtung 106 eingerichtet sein, die Registriersitzung 202 zu beenden, z . B . in Antwort auf ein ermitteltes Ereignis ( auch als Sitzungsendereignis bezeichnet ) , welches repräsentiert , dass eine Abrechnung der Selbstbedienungsregistrierung erfolgen soll . Beispiele für das Sitzungsendereignis können aufweisen, dass ein Nutzer eine entsprechende Eingabe an dem SB-Terminal 100 vornimmt . Beispiele für das Sitzungsendereignis können aufweisen, dass eine Bankkarte oder ein anderes Zahlungsmittel von dem SB-Terminal 100 erfasst wurde , und/oder dass ein vordefinierter Zeitraum abgelaufen ist , seit dem das letzte Produkt erfasst wurde .

Zum Beenden der Registriersitzung 202 kann die Steuervorrichtung 106 eingerichtet sein, eine Abrechnungsinformation 224 zu ermitteln und mittels einer Anzeigevorrichtung des SB-Terminals 100 anzuzeigen . Die während einer Registriersitzung 202 ermittelten Zahlungsinformationen 204 können beispielsweise aggregiert werden und das Ergebnis des Aggregierens der Abrechnungsinformation 224 hinzugefügt werden . Die Abrechnungsinformation 224 kann anschaulich angeben, welche zu zahlende Summe die registrierten Produkte ergeben . Die Abrechnungsinformation 224 kann optional weitere Informationen aufweisen, wie beispielsweise den Anteil an Steuern, eine Liste der erfassten Produkte , eine Einzelaufstellung der Zahlungsinformationen 204 , oder Ähnliches .

Die Steuervorrichtung 106 kann eingerichtet sein, basierend auf den Audiosignalen 202b ein Sprachmuster 214m zu ermitteln 403 . Das Sprachmuster 214m kann eine gesprochene Spracheingabe ( z . B . Anweisungen oder Informationen zu dem Produkt ) repräsentieren . Zum Ermitteln des Sprachmusters 214m können die Audiosignale 202b einander überlagert 705 werden . Ein Ergebnis 214 ( auch als Überlagerungssignal 214 bezeichnet ) daraus kann dann dem Ermitteln 403 des Sprachmusters 214m zugeführt werden .

Die Steuervorrichtung 106 kann ferner eingerichtet sein, basierend auf dem Sprachmuster 214m die Zahlungsinformation 204 bereitzustellen . Alternativ oder zusätzlich zu der Zahlungsinformation kann auch eine andere Information bereitgestellt werden .

Fig . 3 veranschaulicht ein SB-Terminal 100 gemäß verschiedenen Aus führungs formen 300 in einer schematischen Seitenansicht , z . B . eingerichtet wie die Aus führungs formen 200 .

Im Allgemeinen kann das SB-Terminal 100 ein Tragwerk 352 aufweisen, mittels welchem verschiedenen Komponenten des SB- Terminal 100 getragen werden, beispielsweise eine oder mehr als eine Ablagevorrichtung 302a, 302b, die Mikrofone 104a, 104b, die Produkterfassungsvorrichtung 304 , die Steuervorrichtung (nicht dargestellt ) , usw . Das Tragwerk 352 kann beispielsweise ein Gestell und ein daran befestigtes Gehäuse aufweisen, wobei das Gehäuse die sensiblen Komponenten des SB-Terminals 100 einhaust . Das Tragwerk 352 kann beispielsweise eine Basis aufweisen, mit welcher das Tragwerk 352 auf einem Untergrund steht und einen vertikal erstreckten Abschnitt 354 ( anschaulich auch als Säule bezeichnet ) , welcher die erhöht angebrachten Komponenten, z . B . eine Anzeigevorrichtung 124 und/oder die Kennungserfassungsvorrichtung 304 , trägt .

Das SB-Terminal 100 kann mehrere Teilbereiche ( auch als Zonen bezeichnet ) aufweisen . Die mehreren Zonen können beispielsweise eine erste Zone 311a ( auch als Eingabezone 311a bezeichnet ) aufweisen, in welcher eine erste Ablagevorrichtung 302a des SB-Terminals 100 angeordnet ist . Die mehreren Zonen können beispielsweise eine zweite Zone 311b ( auch als Ablagezone 311b bezeichnet ) aufweisen, in welcher eine zweite Ablagevorrichtung 302b des SB-Terminals 100 angeordnet ist . Die mehreren Zonen können beispielsweise die Produkterfassungs zone als dritte Zone 311c ( auch als Scanzone 311c bezeichnet ) aufweisen . Die oder j ede Ablagevorrichtung 302b, 302a kann derart eingerichtet sein, dass auf dieser ein oder mehr al s ein Produkt abgelegt werden kann . Dazu kann eine Ablagevorrichtung 302b, 302a beispielsweise ein Ablageregal , einen Ablagehaken für Taschen und/oder einen Ablagetisch aufweisen . Optional kann die oder j ede Ablagevorrichtung 302b, 302a eine Waage 312 als Produkterfassungsvorrichtung aufweisen, welche eingerichtet ist , ein Gewicht der auf der Ablagevorrichtung abgelegten Produkte zu erfassen .

Optional kann das SB-Terminal 100 eine Informationsausgabevorrichtung 124 aufweisen . Die Informationsausgabevorrichtung 124 kann beispielsweise eingerichtet sein, die von der Steuervorrichtung ausgegebene Information als eine vom Menschen wahrnehmbare ( z . B . hörbare oder sichtbare ) Information aus zugeben, z . B . mittel s einer Anzeigevorrichtung . Die Information kann beispielsweise eine Auf forderung und/oder eine Hil festellung für den Benutzer aufweisen .

Fig . 4 veranschaulicht das SB-Terminal 100 in einem Verfahren

400 gemäß verschiedenen Aus führungs formen in einer schematischen Seitenansicht oder Querschnittsansicht , wobei das Verfahren 400 beispielsweise mittels der Steuervorrichtung 106 implementiert wird . Das Verfahren 400 wird anhand einer Anzahl von drei Mikrophonen 104a, 104b, 104c beschrieben . Das Beschriebene kann in Analogie zu einer von drei verschiedenen Anzahl von Mikrofonen gelten, zum Beispiel für zwei Mikrofone oder mehr als drei Mikrofone .

Das Verfahren kann aufweisen, eine akustische Benutzereingabe

401 ( auch als Spracheingabe bezeichnet ) mittels j edes Mikrophons der mehreren Mikrophone 104a, 104b, 104c zu erfassen . Die Spracheingabe kann im Allgemeinen mittels einer akustischen Schwingung übertragen werden, welche sich im Raum ausbreitet ( auch als Schallwelle bezeichnet ) . Die Amplitude A der akustischen Schwingung kann vom Abstand s und von der Zeit t abhängen, so dass A = A(s, t) ist.

Die Spracheingabe kann mittels Schallwellen übertragen werden, welche zu einem Zeitpunkt t n auf das n-te Mikrofon treffen, der abhängig ist von dem Abstand s n des n-ten Mikrofons zu der Quelle 402 der Spracheingabe. Der sich ausbreitende Schall ist in Fig.4 veranschaulicht als räumliche Verteilung von Schallwellenfronten 401a, 401b (auch als Wellenfront bezeichnet) zum Zeitpunkt t = ti, zu welchem die Spracheingabe auf das erste Mikrofon 104a trifft. Die Schallwellenfronten 401a, 401b repräsentieren jeweils Flächen r(t = ti) einheitlichen Schalldrucks im Raum mit dem exemplarischen Abstand Ar = Cs • At voneinander.

Die Quelle 402 der Spracheingabe kann eine Person sein (auch als Benutzer bezeichnet) . Die Quelle 402 der Spracheingabe 401 (auch als Eingabequelle 402 bezeichnet) kann allerdings auch eine synthetische Eingabequelle 402 sein, beispielsweise um den hierin beschriebenen Mechanismus zu kalibrieren, wie später noch genauer beschrieben wird.

Zu dem Zeitpunkt t2 = ti - At kann eine erste Wellenfront 401a der akustischen Spracheingabe das mittlere, zweite Mikrophon 104b passiert haben und zeitgleich (d.h. ti = ts) die äußeren Mikrophone 104a, 104c (z.B. links und rechts davon) erreichen. Eine zweite Wellenfront 401b der akustischen Spracheingabe erreicht zu diesem Zeitpunkt t = ti das mittlere Mikrophon 104b, weist allerdings noch einen Abstand von den äußeren Mikrophonen 104a, 104b auf, so dass sie diese erst zu einem späteren Zeitpunkt t = ti + At erreichen wird.

Somit entsteht für jede der Wellenfronten 401a, 401b eine Laufzeitdifferenz At, welche anschaulich die Zeitdifferenz zwischen den Zeitpunkten des Auftreffens auf unterschiedliche Mikrophone angibt. Mittels der Laufzeitdifferenz At zwischen den Mikrophonen außen und mittig kann ermittelt werden, welche Position die Eingabequelle 402 relativ zu den mehreren Mikrofonen 104a, 104b, 104c aufweist (auch als Laufzeitmechanismus bezeichnet) . Beispielsweise kann ermittelt werden, welche Schallquelle (bzw. welcher Sprecher) sich näher an den mehreren Mikrofonen 104a, 104b, 104c oder weiter weg davon befindet. Aufgrund der Symmetrie ti = ts kann, wie vorstehend beschrieben, das dritte Mikrofon 104c optional weggelassen werden.

In ähnlicher Weise kann ausgenutzt werden, dass eine Wellenfront, je weiter sie sich von ihrer Eingabequelle 402 entfernt, ausdünnt, d.h. in ihrer Amplitude (z.B. dem Schalldruck) verliert. Dadurch kann jede der Wellenfronten 401a, 401b einen größeren Schalldruck auf das mittlere Mikrofon 104b ausüben als auf die äußeren Mikrofone 104a, 104c. Auf Grundlage dieser Differenz in der Amplitude (im Folgenden vereinfacht als Schalldruckdifferenz bezeichnet) kann ebenso die Position der Eingabequelle 402 relativ zu den mehreren Mikrofonen 104a, 104b, 104c (auch als Amplitudenmechanismus bezeichnet) ermittelt werden.

Der Amplitudenmechanismus und der Laufzeitmechanismus können alternativ zu einander oder gemeinsam verwendet werden. Beispielsweise kann nur der Amplitudenmechanismus oder nur der Laufzeitmechanismus verwendet werden.

Beispielsweise kann ermittelt werden, ob die Eingabequelle 402 zentral vor den mehreren Mikrofonen angeordnet ist oder einen zeitlichen Versatz zu diesen aufweist, z.B. über die Laufzeitdifferenz und/oder Schalldruckdifferenz.

Optional können die Mikrofone 104a, 104b 104c auch derart angeordnet sein, dass diese in ihrem Abstand s n von der Quelle 402 der Spracheingabe übereinstimmen. Dies erreicht, dass die Mikrofone 104a, 104b 104c auf eine feste Position im Raum „fokussiert" sind (auch als Fokus-Position bezeichnet) , welche die Soll-Position einer Schallquelle ist, die konstruktiv verstärkt werden soll . Soll die Soll-Position von der Position einheitlichen Abstands ( Fokus-Position) von den Mikrofonen 104a, 104b 104c abweichen, kann diese mittels einer Kalibration berücksichtigt werden und/oder mittels eines Abstandssensors , wie später genauer beschrieben wird .

Die Soll-Position kann im Allgemeinen in dem Bedienbereich 901 angeordnet sein .

Fig . 5 veranschaulicht das SB-Terminal 100 in dem Verfahren 400 gemäß verschiedenen Aus führungs formen 500 in einer schematischen Seitenansicht oder Querschnittsansicht . Das Verfahren 500 wird anhand einer Anzahl von drei Mikrophonen 104a, 104b, 104c beschrieben . Das Beschriebene kann in Analogie zu einer von drei verschiedenen Anzahl von Mikrofonen gelten, zum Beispiel zwei Mikrofone oder mehr als drei Mikrofone .

Das Verfahren kann aufweisen, ein akustisches Störgeräusch

501 mittels j edes Mikrophons der mehreren Mikrophone 104a, 104b, 104c zu erfassen . Das akustische Störgeräusch 501 kann in Analogie zu der Spracheingabe mittels einer zusätzlichen akustischen Schwingung übertragen werden, welche sich im Raum ausbreitet ( auch als zur Schallwelle bezeichnet ) . Die Quelle

502 des Störgeräuschs 501 kann beispielsweise eine Person ( auch als Störer bezeichnet ) , ein Vorgang oder eine

Vorrichtung sein . Die Quelle 502 des Störgeräuschs 501 ( auch als Störquelle 502 bezeichnet ) kann beispielsweise auch eine synthetische Quelle sein .

In dem dargestellten Beispiel kann die Störquelle 502 einen größeren Abstand von den mehreren Mikrofonen 104a, 104b, 104c aufweisen als die Eingabequelle 402 . Das für dieses Beispiel Beschriebene kann allerdings auch in Analogie dazu gelten, dass die Eingabequelle 402 einen größeren Abstand von den mehreren Mikrofonen 104a, 104b, 104c aufweist als die Störquelle 502 . Beispielsweise kann die Störquelle 502 mittig hinter dem Benutzer 402 vor dem SB-Terminal 100 angeordnet sein .

Eine erste Wellenfront 501a des Störgeräuschs 501 erreicht die mehreren Mikrophone ( links außen, mittig und rechts außen) beispielsweise im Wesentlichen gleichzeitig . Mit anderen Worten können die Lauf zeitdi f ferenz und/oder die Schalldruckdi f ferenz zwischen den Mikrophonen außen und mittig geringer (bis hin zu idealerweise Null ) sein, als für die Spracheingabe 401 .

Anschaulich kann die Störquelle 502 weiter weg von dem Selbstbedienung-Terminal angeordnet sein als der Benutzer 402 des Selbstbedienung-Terminals und das erkannte Störsignal kann nun mittels Überlagerns der Audiosignale herausgefiltert werden, beispielsweise mittels einer invertierten Signalüberlagerung oder eines anderen Mechanismus zur Geräuschkompensation ( auch als „Noise Canceling" bezeichnet ) .

Fig . 6A und Fig . 6B veranschaulichen das SB-Terminal 100 in dem Verfahren 400 gemäß verschiedenen Aus führungs formen 600a, 600b in schematischen Perspektivansichten, z . B . mittels der Steuervorrichtung 106 implementiert . Wie dargestellt , können die mehreren Mikrophone 104a, 104b, 104c übereinander und/oder oberhalb der Produkterfassungsvorrichtung 102 angeordnet sein . Wie vorstehend beschrieben ist , kann ein drittes Mikrofon 104c optional sein (hier durch ein Kreuz dargestellt ) .

Fig . 7A und Fig . 7B veranschaulichen das SB-Terminal in dem Verfahren 400 gemäß verschiedenen Aus führungs formen 700a, 700b in schematischen Detailansichten, z . B . mittels der Steuervorrichtung 106 implementiert . Das SB-Terminal 100 kann optional eine Bezahlvorrichtung 702 aufweisen, z . B . eine EC- Lesevorrichtung 702 . Gemäß verschiedenen Aus führungs formen können die Mikrofone 104a, 104b einen identischen Abstand von dem Bedienbereich 901 bzw. von der Soll-Position aufweisen. Dies ermöglicht, dass die Spracheingabe 401 eine geringere oder keine Laufzeitdifferenz bzw. Schalldruckdifferenz aufweist, und erleichtert somit das Herausfiltern des Störgeräuschs 501.

Das Störgeräusch 501 (z.B. ein störendes Gespräch) kann zwei Mikrofone der mehreren Mikrofone 104a, 104b, 104c zu unterschiedlichen Zeitpunkten erreichen, was in der Laufzeitdifferenz At resultiert. Die Spracheingabe 401 kann hingegen kann die mehreren Mikrofone 104a, 104b, 104c gleichzeitig erreichen, z.B. zu einem ersten Zeitpunkt t = ti, an dem die erste Wellenfront 501a des Störgeräuschs 501 das erste Mikrofon 104a erreicht. Die gestrichelte Linie repräsentiert die erste Wellenfront 501a des Störgeräuschs zu einem zweiten Zeitpunkt t2 = ti + At, zu welchem dieses das zweite Mikrofon 104b erreicht.

Fig.8A und Fig.8B veranschaulichen das Verfahren 400 gemäß verschiedenen Aus führungs formen in verschiedenen schematischen Diagrammen 800a, 800b, 800c, in denen eine akustische Größe 801 (z.B. der Schalldruck) über der Zeit 803 auf getragen ist.

Das jeweilige akustische Signal (d.h. der Schall) , der mittels des ersten akustischen Sensors 104a und des zweiten akustischen Sensors 104b erfasst wird (allgemeiner auch als Signalerfassen bezeichnet) , weist die akustische Spracheingabe 401 (allgemeiner auch als Nutzsignal bezeichnet) und das Störgeräusch (auch als Störsignal bezeichnet) auf. In diesem Beispiel ist der Ort der Entstehung (d.h. der Ort der entsprechenden Quelle 402, 502) der Spracheingabe 401 bzw. des Störgeräuschs 501 derart, dass diese übereinstimmen in ihrem Abstand von dem ersten Sensor 104a und sich voneinander unterscheiden in ihrem Abstand von dem zweiten Sensor 104b. Ferner ist der Ort der Entstehung der Spracheingabe 401 (d.h. deren Ursprung) an der Fokus- Position der Mikrofone 104a, 104b angeordnet, so dass nur für das Störgeräusch 501 eine Laufzeitdifferenz At auftritt. Die jeweiligen Orte der Entstehung können im Allgemeinen aber auch anders angeordnet sein.

In Diagramm 800a ist eine mittels des ersten akustischen Sensors 104a erfasste akustische Spracheingabe 401 und ein mittels des ersten akustischen Sensors 104a erfasstes Störgeräusch 501 dargestellt. Die Spracheingabe 401 und das Störgeräusch 501 unterscheiden sich beispielsweise voneinander, z.B. in dem Ort ihrer Entstehung, in ihrem zeitlichen Verlauf und/oder in ihrem Scheitelwert. Der Unterschied im Scheitelwert wird auch als Störabstand (auch als SNR bezeichnet) bezeichnet.

In Diagramm 800b ist eine mittels des zweiten akustischen Sensors 104b erfasste akustische Spracheingabe 401 und ein mittels des zweiten akustischen Sensors 104b erfasstes Störgeräusch 501 dargestellt. Die Spracheingabe 401 und das Störgeräusch 501 unterscheiden sich hinsichtlich des zweiten akustischen Sensors 104b in ihrer Laufzeit, was als Laufzeitdifferenz At gekennzeichnet ist.

In Diagramm 800c ist das Resultat des Überlagerns des mittels des ersten akustischen Sensors 104a erfassten akustischen Signals (auch als erstes Messsignal bezeichnet) und des mittels des zweiten akustischen Sensors 104b erfassten akustischen Signals (auch als zweites Messsignal bezeichnet) dargestellt. Das Resultat des Überlagerns wird im Folgenden auch als Überlagerungssignal bezeichnet. In diesem Beispiel werden die erfassten akustischen Messsignale (z.B. deren Amplitude über dem Zeitverlauf) addiert.

Im Allgemeinen kann allerdings auch eine komplexere Abbildung verwendet werden, welche die erfassten akustischen Messsignale auf das Uberlagerungssignal abbildet. Das Überlagerungssignal weist dann das zeitlich versetzt einander überlagerte Störgeräusch (auch als Störüberlagerung 511 bezeichnet) und die einander konstruktiv überlagerte Spracheingabe (auch als Eingabeüberlagerung 411 bezeichnet) auf .

Die Abbildung kann beispielsweise eine oder mehr als eine Transformation aufweisen, welche auf jedes der erfassten akustischen Messsignale angewendet wird. Beispiele für eine Transformationen können aufweisen: eine (z.B. zeitliche) Verschiebung, eine (z.B. zeitliche) Stauchung und/oder eine (z.B. zeitliche) Streckung. Die Abbildung kann beispielsweise eine oder mehr als eine Verknüpfung aufweisen, welche auf ein Paar der erfassten akustischen Messsignale angewendet wird. Beispiele für eine Verknüpfung weisen auf: eine Addition, eine Substruktion, eine Faltung, oder Ähnliches. Die Verknüpfung kann mehrstellig sein, z.B. zweitstellig oder mehr als zweitstellig .

Da der Scheitelwert der Spracheingabe 401 von beiden Sensoren im Wesentlichen zum selben Zeitpunkt ti = t2 erfasst wird, wird deren Scheitelwert bei der Addition im Wesentlichen verdoppelt. Da der Scheitelwert des Störgeräuschs 401 von beiden Sensoren zu unterschiedlichen Zeitpunkten t2 = ti + At erfasst wird, wird deren Scheitelwert bei der Addition nur unwesentlich verändert.

Der sich daraus ergebende Störabstand (SNR') der Eingabeüberlagerung 411 zu der der Störüberlagerung 511 ist größer als der Störabstand des ersten Messsignals und/oder der Störabstand des zweiten Messsignals.

In Ähnlicher Weise kann die Schalldruckdifferenz ausgenutzt werden, um den Störabstand mittels des Überlagerns zu vergrößern . In diesem Beispiel war der Ort der Entstehung (d.h. der Ort der entsprechenden Quelle 402, 502) der Spracheingabe 401 und des Störgeräuschs 501 derart eingerichtet, dass diese denselben Abstand von dem ersten Sensor 104a und einen unterschiedlichen Abstand von dem zweiten Sensor 104b aufweisen. Im Allgemeinen können allerdings auch komplexere Konfigurationen berücksichtigt werden, wie nachfolgend näher erläutert wird.

Beispielsweise kann die Störquelle 502 mindestens den doppelten Abstand von dem SB-Terminal 100 (z.B. dessen Mikrofonen) angeordnet aufweisen als die Eingabequelle 402.

Fig.9A, Fig.9B und Fig.9C veranschaulichen das SB-Terminal 100 gemäß verschiedenen Aus führungs formen 900a, 900b, 900c in einer schematischen Seitenansicht, in denen der Bedienbereich 901 und ein exemplarischer Benutzer 402 darin veranschaulicht sind. Der Kopf des Benutzers als Eingabequelle 402 ist exemplarisch an einer Soll-Position in dem Bedienbereich 901 hinsichtlich der mehreren Mikrofone 104a, 104b angeordnet. Ferner ist eine Wellenfront 401a eingezeichnet, die einen äquidistanten Abstand von der Soll-Position aufweist.

Die Soll-Position kann beispielsweise einen Abstand von dem Untergrund aufweisen in einem Bereich von 1,5 m ungefähr bis ungefähr 2,5 m, z.B. ungefähr 2 m. Die Soll-Position kann beispielsweise einen Abstand von der Produkterfassungsvorrichtung 102 aufweisen in einem Bereich von 0,5 m ungefähr bis ungefähr 1 m.

Jeder der mehreren Sensoren 104a, 104b kann einen Abstand (auch als Sensorabstand bezeichnet) von dem Bedienbereich 901 aufweisen. Der Sensorabstand kann beispielsweise in einem Bereich von ungefähr 10% der Bedienreichweite bis ungefähr 1000% der Bedienreichweite sein. In Aus führungs formen 900a und 900b unterscheiden sich die zwei Sensoren in ihrem Abstand von dem Benutzer 402 und/oder von der Soll-Position.

Das SB-Terminal gemäß der Aus führungs form 900a weist einen Abstandssensor 902 auf, welcher eingerichtet ist, einen Abstand 913 (auch als Quellenabstand 913 bezeichnet) von einem Objekt in dem Bedienbereich 901 zu erfassen, z.B. des Benutzers 402. Die Steuervorrichtung 106 kann eingerichtet sein, auf Grundlage des Quellenabstands 913 eine Laufzeitdifferenz zu ermitteln. Die Laufzeitdifferenz kann beispielsweise die Relation At = dg/cs erfüllen, wobei ÜQ den Quellenabstand 913 bezeichnet. Das erste Messsignal und das zweite Messsignal können um die Laufzeitdifferenz At zeitlich zueinander verschoben sein, wobei die zeitlich zueinander verschobenen Messsignale miteinander verknüpft (z.B. addiert) werden .

Im Allgemeinen kann der Abstandssensor 902 eingerichtet sein, ein Signal zu emittieren und dessen Reflexion zu erfassen. Beispiele für einen Abstandssensor 902 weisen auf: einen Licht-Abstandssensor 902 (z.B. Lichtreflexion ausnutzend) und/oder einen Schall-Abstandssensor 902 (z.B. Schallreflexion ausnutzend) .

Das SB-Terminal 100 gemäß der Aus führungs form 900b, z.B. dessen Steuervorrichtung 106, weist einen Datenspeicher auf, in welchem eine vorgegebene Laufzeitdifferenz At abgespeichert ist. Die vorgegebene Laufzeitdifferenz At kann beispielsweise mittels einer Kalibration des SB-Terminals 100 ermittelt werden. Das erste Messsignal und das zweite Messsignal können um die Laufzeitdifferenz At zeitlich zueinander verschoben werden, wobei die zeitlich zueinander verschobenen Messsignale miteinander verknüpft (z.B. addiert) werden. In analoger Weise kann alternativ oder zusätzlich dazu die Amplitudendifferenz ermittelt und abgespeichert werden . Das Kalibrieren kann aufweisen, dass eine Testsignalquelle am Ort der Soll-Position angeordnet wird und ein akustisches Testsignal emittiert, und dass eine Zeitdifferenz zwischen dem Erfassen des Testsignals mittels des ersten Mikrofons 104a und dem Erfassen des Testsignals mittels des zweiten Mikrofons 104a ermittelt wird. Die Zeitdifferenz kann dann als Laufzeitdifferenz At abgespeichert werden.

In Aus führungs formen 900a und 900b weisen die zwei Sensoren 104a, 104b denselben Abstand von dem Benutzer 402 und/oder der Soll-Position auf, d.h. deren Fokus-Position kann der Soll-Position entsprechen. Anschaulich sind die zwei Sensoren 104a, 104b auf die Soll-Position in dem Bedienbereich 901 ausgerichtet. In dem Fall kann die Laufzeitdifferenz At = 0 sein und die zwei Messsignale können ohne einen zeitlichen Versatz zueinander verknüpft werden.

Fig.10 veranschaulicht das Verfahren 400 gemäß verschiedenen Aus führungs formen 1000 in einem schematischen Ablaufdiagramm. In 1000a werden mittels der mehreren Mikrofone 104a, 104b, 104c mehrere Audiosignale 1002 zeitversetzt zueinander erfasst. In 1000b werden die Zeitachsen der erfassten Audiosignale 1002 zueinander zeitlich versetzt jeweils paarweise um dieselbe Laufzeitdifferenz At (auch als konstante Zeitkompensation bezeichnet) . In 1000c werden die zeitkompensierten Audiosignale 1002 einander überlagert (z.B. summiert) , so dass ein Überlagerungssignal 214 erhalten wird.

Für ein Paar (z.B. einander unmittelbar benachbarter) Mikrofone 104a, 104b (auch als Sensorpaar bezeichnet) werden diejenigen Signale konstruktiv einander überlagert, deren Ursprung die Relation As = At • Cs erfüllt, wobei As die Differenz der Abstände zu den Mikrofonen 104a, 104b bezeichnet. Beispielsweise kann As = si - S2 sein. Die Relation As = At • Cs ist für unendlich viele Punkte auf einer Fläche 1001 (auch als Laufzeitdifferenzfläche 1001 bezeichnet) erfüllt. Die Punkte auf der Laufzeitdifferenzfläche 1001 erfüllen die Bedingung, dass ihr Abstand si von dem ersten Mikrofon 104a und ihr Abstand S2 von dem zweiten Mikrofon 104b die Relation At = ti - t2 = si/cs - S2/cs erfüllen, so dass si - S2 = At • cs konstant ist. Dasselbe gilt für jedes andere Sensorpaar 104b, 104c. Damit können Störquellen, welche neben der Laufzeitdifferenzfläche 1001 liegen effektiv herausgefiltert werden, da deren Signale nicht mehr vollständig zeitkorrigiert sind und sich teilweise destruktiv überlagern. Diese konstante Zeitkompensation lässt sich sehr gut auf eine Schallquelle in großer Entfernung anwenden, d.h. deren Sensorabstand s n sehr viel größer ist als der Abstand der Sensoren eines Sensorpaars voneinander.

Ist der Sensorabstand s n hingegen geringer, wird eine angepasste Zeitkompensation der Audiosignale verwendet, wie nachfolgend genauer erläutert wird.

Fig.11 veranschaulicht das Verfahren 400 gemäß verschiedenen Ausführungsformen 1100 in einem schematischen Ablaufdiagramm. In 1100a werden mittels der mehreren Mikrofone 104a, 104b, 104c mehrere Audiosignale 1002 zeitversetzt zueinander erfasst. In 1100b werden die Zeitachsen der erfassten Audiosignale 1002 zueinander zeitlich versetzt jeweils paarweise um eine angepasste Laufzeitdifferenz At (auch als angepasste Zeitkompensation bezeichnet) . Dabei kann dem k-ten Sensorpaar, welches den n-ten Sensor und den m-ten Sensor aufweist, eine Laufzeitdifferenz At (m, n) zugeordnet sein, so dass s m - s n = At (m, n) • cs ist. Dies erreicht, dass die Laufzeitdifferenzflächen 1001, welche sich für jedes Sensorpaar ergeben, einander schneiden, z.B. in einer Geraden. Dargestellt ist exemplarisch die Berechnung für At(m=l, n=2) und At(m=2, n=3) . Im Resultat werden diejenige Störquellen, welche neben dem Schnitt 1211 der Laufzeitdifferenzflächen 1001 liegen effektiv herausgefiltert, da deren Signale nicht mehr vollständig zeitkorrigiert sind und sich teilweise destruktiv überlagern.

Somit wird ferner der Sensorabstand, den eine Schallquelle für eine konstruktive Überlagerung hat, eingegrenzt, z.B. zwischen einen maximalen und einen minimalen Abstand. Jedes Sensorpaar kann somit einen Freiheitsgrad für die Position der Schallquelle eliminieren. Bei drei Sensoren können somit drei Laufzeitdifferenzen At(m=l, n=2) , At(m=l, n=3) und At(m=2, n=3) verwendet werden, so dass für die Schallquelle kein Freiheitsgrad übrig bleibt. Damit kann effektiv eine Tiefenfilterung bereitgestellt werden.

Derselbe Mechanismus der angepassten Zeitkompensation kann ebenso für weniger als drei oder mehr als drei Mikrofone verwendet werden. Beispielsweise kann alternativ oder zusätzlich der Schalldruck verwendet werden, um den Abstand der Schallquelle einzugrenzen. Aufgrund der quadratischen Abhängigkeit des Schalldrucks p n = p n (s n 2 ) vom Abstand s n liegen die Orte einer Schallquelle, für welche eine konstruktive Überlagerung erfolgt, auf einer anders verlaufenden Fläche, so dass unter Verwendung der Schalldruckdifferenz ebenso ein Freiheitsgrad pro Sensorpaar eliminiert werden kann.

Fig.l2A bis Fig.l2C veranschaulichen jeweils ein SB-Terminal 100 gemäß verschiedenen Aus führungs formen 1200a, 1200b, 1200c in einer schematischen Seitenansicht mit Blickrichtung entlang einer horizontalen Ebene 1203. Die horizontale Ebene 1203 kann quer zu einer Gravitationsrichtung 1201 sein. Die horizontale Ebene 1203 kann einen Abstand von einem Untergrund, auf welchem das SB-Terminal 100 angeordnet ist, aufweisen, z.B. von mehr als ungefähr 1 m (z.B. ungefähr

1.5 m) und/oder weniger als ungefähr 3 m (z.B. ungefähr

2.5 m) . Hinsichtlich der Aus führungs formen 1200a, 1200b, 1200c wird sich auf ein Paar Mikrofone 104a, 104b bezogen. Das Beschriebene kann allerdings auch für mehr als ein Paar Mikrofone 104a, 104b gelten, z.B. drei Mikrofone, die, wahlweise, in drei verschiedene Paare gruppiert werden können. Die Laufzeitdifferenzfläche 1001 kann zu derjenigen Laufzeitdifferenz At = ti - t2 = si/cs - S2/cs korrespondieren, gemäß welcher die Messsignale der Mikrofone 104a, 104b zeitversetzt einander überlagert werden. Signalbestandteile, deren Ursprung auf der Laufzeitdifferenzfläche 1001 liegen, werden somit mittels der Signalverarbeitung konstruktiv verstärkt .

In Aus führungs form 1200a kann die Laufzeitdifferenzfläche 1001 schräg zu der Gravitationsrichtung 1201 sein. Dies erreicht einen Schnitt 1211 zwischen der horizontalen Ebene 1203 und der Laufzeitdifferenzfläche 1001. Stehen nun mehrere ungefähr gleich große Personen hintereinander, wird nur der von derjenigen Person emittierte Schall konstruktiv verstärkt, deren Mund dem Schnitt 1211 zwischen der horizontalen Ebene 1203 und der Laufzeitdifferenzfläche 1001 möglichst nahe ist.

In Aus führungs form 1200b können die mehreren Mikrofone ein oder mehr als ein Richtmikrofon 104a aufweisen, dessen Richtwirkung schräg zu der Gravitationsrichtung 1201 und/oder der Laufzeitdifferenzfläche 1001 ist, z.B. auf die horizontale Ebene 1203 bzw. die Laufzeitdifferenzfläche 1001 ausgerichtet ist (auch als Richtwirkung 1213 bezeichnet) . Dies erreicht einen Schnitt 1211 zwischen der Richtung der Richtwirkung 1213 und der Laufzeitdifferenzfläche 1001, auch wenn die Laufzeitdifferenzfläche 1001 beispielsweise im Wesentlichen parallel zu der horizontalen Ebene 1203 ist. Stehen nun mehrere ungefähr gleich große Personen hintereinander, wird nur der von derjenigen Person emittierte Schall konstruktiv verstärkt, deren Mund dem Schnitt 1211 zwischen der Richtwirkung 1213 und der Laufzeitdifferenzfläche 1001 möglichst nahe ist. In Aus führungs form 1200c können die zwei Mikrofone 104a, 104b bezüglich der Gravitationsrichtung 1201 versetzt zueinander angeordnet sein. Mit anderen Worten kann eine Verbindungslinie zwischen diesen schräg zu der Gravitationsrichtung 1201 sein. Dies erreicht, dass die Laufzeitdifferenzfläche 1001 schräg zu der Gravitationsrichtung 1201 ist, selbst wenn Laufzeitdifferenz At = 0 gesetzt wird. Ist die Laufzeitdifferenz At = 0, so ist die Laufzeitdifferenzfläche 1001 mittig zwischen den zwei Mikrofonen 104a, 104b angeordnet und planar. Beispielsweise kann so die Fokus-Position auf dem Schnitt 1211 zwischen der Laufzeitdifferenzfläche 1001 und der horizontalen Ebene 1203 liegen .

Mittels der Aus führungs formen 1200a, 1200b, 1200c wird der Bereich, für den konstruktive Interferenz auftritt, somit in seinem Abstand von dem SB-Terminal 100 eingeengt, so dass hintereinander stehende Personen nicht identisch verstärkt werden .

Wird das SB-Terminal 100 kalibriert, kann die Position des Ursprungs eines Testsignals auf dem Schnitt 1211 angeordnet werden. Die darauf basierende Laufzeitdifferenz und/oder Amplitudendifferenz des Testsignals kann als Angabe abgespeichert werden, welche die Soll-Position einer Schallquelle ist (auch als Soll-Ursprung bezeichnet) , die konstruktiv verstärkt werden soll.

Fig.13 veranschaulicht das Verfahren 400 gemäß verschiedenen Aus führungs formen 1300 in einem schematischen Ablauf diagramm, welches beispielsweise mittels der Steuervorrichtung 106 implementiert ist. Mittels eines ersten Mikrofons 104a kann ein akustisches Signal 1301 in ein erstes Audiosignal 1311 überführt werden. Mittels eines zweiten Mikrofons 104a kann das akustische Signal 1301 in ein zweites Audiosignal 1313 überführt werden. Das Überlagern kann aufweisen, das erste Audiosignal 1311 mittels eines ersten Filters 1323 auf ein Überlagerungssignal 214 abzubilden. Der erste Filter 1323 kann eine Funktion des zweiten Audiosignals 1311 sein. Beispielsweise kann das zweite Audiosignal 1311 auf den ersten Filter 1323 abgebildet werden .

Ein Filter F kann im Allgemeinen ein (z.B. elektrisches) Signal abhängig von einem Parameter PF (auch als Filterparameter bezeichnet) in der Amplitude und/oder in der Phasenlage verändern. Als Filterparameter kann beispielsweise die Zeit oder die Amplitude gewählt werden. Der Filter bildet somit einen ersten zeitabhängigen Signalverlauf Ai(t) auf einen zweiten zeitabhängigen Signalverlauf G2(t) ab, so dass F(Ai) = G2 ist. Beispielsweise kann der Filter als Grad der Veränderung (z.B. Abschwächung oder Verstärkung) in Abhängigkeit des Filterparameters PF formuliert werden, so dass die Ausgabe des Filters G2(t) = F(Ai(t) , PF) ist. Die Abbildung, welche der Filter implementiert, kann beispielsweise eine Multiplikation oder aber auch eine Addition sein. Es kann verstanden werden, dass ein Filter mittels Software und/oder mittels Hardware implementiert werden kann. Es können selbstverständlich auch andere Filtertypen verwendet werden.

In einer wenig komplexen Implementierung kann als erster Filter 1323 eine Addition mit dem (optional normierten) Signalverlauf A2(t) des zweiten Audiosignals 1313 verwendet werden. Der so erhaltene erste Filter 1323 kann beispielsweise einen zeitabhängigen Faktor A2(t) angeben, um welchen jeder Amplitudenwert Ai(t) verändert wird. Somit kann beispielsweise G2 = Ai(t) + A2(t) sein. Allgemeiner gesprochen kann der Filter 1323 auf Grundlage des zweiten Audiosignals 1313 gebildet sein.

In analoger Weise kann, wenn vorhanden, mittels eines dritten

Mikrofons 104c das akustische Signal 1301 in ein drittes Audiosignal 1315 überführt werden, welches auf einen zweiten Filter 1335 abgebildet wird . Der zweite Filter 1335 kann das zuvor erhaltene Überlagerungssignal 214 auf ein zusätzliches Überlagerungssignal 214 abbilden . Die so bereitgestellte Verarbeitungskette kann diej enigen Signalbestandteile verstärken, deren Ursprung nahe der Soll-Position ist , und/oder diej enigen Signalbestandteile abschwächen, deren Ursprung fern der Soll-Position ist .

Eines oder mehr als eines der Überlagerungssignale 214 kann dann dem Ermitteln des Sprachmusters zugeführt werden .

Im Folgenden werden verschiedene Beispiele beschrieben, die sich auf vorangehend Beschriebenes und in den Figuren Dargestelltes beziehen .

Beispiel 1 ist ein Selbstbedienung-Terminal , aufweisend : eine Produkterfassungsvorrichtung zum Erfassen einer Eigenschaft eines Produkts ; mehrere akustische Sensoren; und eine Steuervorrichtung, die eingerichtet ist zum : Überlagern eines mittels der mehreren akustischen Sensoren erfassten Signals ; Ermitteln eines Sprachmusters auf Grundlage eines Ergebnisses des Überlagerns ; Ausgeben einer Information basierend auf der Eigenschaft und auf dem Sprachmuster ; wobei das Überlagern und eine relative Lage der mehreren akustischen Sensoren zueinander derart eingerichtet sind, dass erste Bestandteile des Signals relativ zu zweiten Bestandteilen des Signals abgeschwächt werden, wenn ein Ursprung der zweiten Bestandteile zwischen dem Selbstbedienung-Terminal und einem Ursprung der ersten Bestandteile angeordnet ist .

Beispiel 2 ist das Selbstbedienung-Terminal gemäß Beispiel 1 , wobei ein Grad des Abschwächens zunimmt , j e größer ein Abstand des Ursprungs der ersten Bestandteile von dem Selbstbedienung-Terminal ist ; und/oder j e kleiner ein Abstand des Ursprungs der zweiten Bestandteile von dem Selbstbedienung-Terminal ist . Beispiel 3 ist das Selbstbedienung-Terminal gemäß Beispiel 1 oder 2 , wobei ein Grad des Abschwächens zunimmt , j e größer ein Abstand des Ursprungs der ersten Bestandteile von einem Soll-Ursprung ist , gemäß welchem das Überlagern und die relative Lage der mehrere akustischen Sensoren zueinander eingerichtet sind; und/oder j e kleiner ein Abstand des Ursprungs der zweiten Bestandteile von dem Soll-Ursprung ist ; wobei der Soll-Ursprung beispielsweise einen Abstand von dem Selbstbedienung-Terminal aufweist ( z . B . von weniger als ungefähr 1 , 5 m, z . B . als ungefähr 1 m) .

Beispiel 4 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 3 , wobei das Überlagern und eine relative Lage der mehrere akustischen Sensoren zueinander derart eingerichtet sind, dass die zweiten Bestandteile konstruktiv überlagert werden ( z . B . nur dann) , wenn deren Ursprung nahe ( z . B . an) einem Soll-Ursprung und/oder in einem Bedienbereich der Produkterfassungsvorrichtung angeordnet ist .

Beispiel 5 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 4 , wobei die mehreren Sensoren übereinstimmen in ihrem Abstand von dem Soll-Ursprung .

Beispiel 6 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 5 , ferner aufweisend : einen Positionssensor, welcher eingerichtet ist , eine Angabe über eine Position des Ursprungs der zweiten Bestandteile relativ zu dem Selbstbedienung-Terminal zu erfassen, wobei das Überlagern unter Berücksichtigung der Angabe erfolgt .

Beispiel 7 ist das Selbstbedienung-Terminal gemäß Beispiel 5 , wobei der Positionssensor einen Abstandssensor aufweist , welcher eingerichtet ist , als Angabe einen Abstand des Ursprungs der zweiten Bestandteile von dem Selbstbedienung- Terminal zu erfassen . Beispiel 8 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 7, wobei das Überlagern unter Berücksichtigung einer Angabe, welche eine Position des Soll- Ursprungs (z.B. eine Soll-Position des Ursprungs der zweiten Bestandteile relativ zu dem Selbstbedienung-Terminal) repräsentiert, erfolgt, wobei die Angabe beispielsweise abgespeichert ist, z.B. in einem nicht-flüchtigen Speicher der Steuervorrichtung.

Beispiel 9 ist das Selbstbedienung-Terminal gemäß Beispiel 8, wobei die Angabe zu dem Soll-Ursprung eine zeitliche Größe (z.B. Laufzeitdifferenz) und/oder Amplitudendifferenz aufweist .

Beispiel 10 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 9, wobei die Information eine Zahlungsinformation aufweist oder daraus gebildet ist.

Beispiel 11 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 10, wobei die Information auf ein erfasstes Produkt bezogen ist.

Beispiel 12 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 11, wobei das Überlagern aufweist, das jeweils mittels jedes der mehreren akustischen Sensoren erfasste Signal abzubilden auf ein zusätzliches Signal, welches dem Ermitteln eines Sprachmusters zugeführt wird.

Beispiel 13 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 12, wobei das Überlagern aufweist, zwei mittels der mehreren akustischen Sensoren erfasste Signalverläufe zeitlich versetzt zueinander zu überlagern (z.B. bezogen auf den Zeitpunkt des Erfassens und/oder auf einen Zeitstempel der Signalverläufe) .

Beispiel 14 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 13, wobei das Überlagern aufweist, zwei mittels der mehreren akustischen Sensoren erfasste Signalverläufe in ihrer Amplitude relativ zueinander zu verändern .

Beispiel 15 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 14 , wobei der Ursprung der zweiten Bestandteile und der Ursprung der ersten Bestandteile auf einer Ebene liegen, wobei die Ebene quer zu einer Gravitationsrichtung ist und/oder wobei sich zumindest zwei Sensoren der mehreren akustischen Sensoren voneinander unterscheiden in einem Abstand von der Ebene .

Beispiel 16 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 15 , wobei das Ermitteln eines Sprachmusters aufweist , das Ergebnis des Überlagerns mit einer akustischen Referenz-Spracheingabe zu vergleichen, wobei beispielsweise die Referenz-Spracheingabe abgespeichert ist in einem nichtflüchtigen Speicher der Steuervorrichtung .

Beispiel 17 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 16 , ferner aufweisend : eine elektronische Komponente , welche mit der Steuervorrichtung gekoppelt ist ; wobei die Steuervorrichtung ferner eingerichtet ist zum Ermitteln einer Steuerinformation auf Grundlage des Sprachmusters ; und Ansteuern der Komponente des Selbstbedienung-Terminals mittels der Steuerinformation .

Beispiel 18 ist das Selbstbedienung-Terminal gemäß Beispiel 17 , wobei die Komponente eine Bezahlvorrichtung und/oder eine Waage aufweist ; und/oder wobei die Steuerinformation eine Produktauswahl repräsentiert .

Beispiel 19 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 18 , wobei die Eigenschaft einen maschinenlesbaren Code aufweist . Beispiel 20 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 19 , wobei die Eigenschaft ein Gewicht aufweist .

Beispiel 21 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 20 , wobei die zweiten Bestandteile eine Spracheingabe aufweisen; und/oder wobei die ersten Bestandteile ein Störgeräusch aufweisen .

Beispiel 22 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 21 , wobei ( z . B . bezüglich einer Gravitationsrichtung) zumindest zwei Sensoren der mehreren akustischen Sensoren übereinander und/oder in verschiedenen vertikalen Höhe angeordnet sind .

Beispiel 23 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 22 , wobei zumindest zwei Sensoren der mehreren akustischen Sensoren sich in einem Abstand von dem Soll-Ursprung weniger voneinander unterscheiden als in einem Abstand von dem Ursprung der ersten Bestandteile .

Beispiel 24 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 23 , wobei zumindest zwei Sensoren der mehreren akustischen Sensoren sich in einem Abstand von dem Ursprung der zweiten Bestandteile weniger voneinander unterscheiden als in einem Abstand von dem Ursprung der ersten Bestandteile .

Beispiel 25 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 24 , wobei zumindest zwei Sensoren der mehreren akustischen Sensoren im Wesentlichen denselben Abstand von dem Ursprung der zweiten Bestandteile und/oder dem Soll-Ursprung aufweisen; und/oder sich voneinander unterscheiden in einem Abstand von dem Ursprung der ersten Bestandteile und/oder dem Soll-Ursprung . Beispiel 26 ist das Selbstbedienung-Terminal gemäß einem der

Beispiele 1 bis 25 , wobei das Überlagern aufweist , eine

Signaladdition und/oder eine Signalsubtraktion durchzuführen .

Beispiel 27 ist das Selbstbedienung-Terminal gemäß einem der

Beispiele 1 bis 26 , wobei die mehreren akustischen Sensoren genau zwei Sensoren aufweisen und/oder wobei das Überlagern nur auf Grundlage des mittels zweier Sensoren der mehreren akustischen Sensoren erfassen Signals erfolgt .

Beispiel 28 ist das Selbstbedienung-Terminal gemäß Beispiel 27 , wobei das Überlagern aufweist , eine Geräuschkompensation durchzuführen .

Beispiel 29 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 28 , wobei die Produkterfassungsvorrichtung einen Bedienbereich definiert , aus welchem heraus diese bedient werden kann, wobei der Ursprung der zweiten Bestandteile und/oder der Soll-Ursprung in dem Bedienbereich angeordnet ist ; und/oder wobei der Ursprung der ersten Bestandteile außerhalb des Bedienbereichs angeordnet ist .

Beispiel 30 ist das Selbstbedienung-Terminal gemäß einem der Beispiele 1 bis 29 , wobei der Ursprung der zweiten Bestandteile und der Ursprung der ersten Bestandteile auf einer Geraden liegen, welche zu dem Selbstbedienung-Terminal hin gerichtet ist .

Beispiel 31 ist ein Verfahren zum Kalibrieren des Selbstbedienung-Terminals gemäß einem der Beispiele 1 bis 30 , das Verfahren aufweisend : Erfassen eines Testsignals mittels der mehreren akustischen Sensoren; Ermitteln einer Angabe ( z . B . Lauf zeitdi f ferenz und/oder eine Amplitudendi f ferenz ) , welche eine Position des Ursprungs des Testsignals relativ zu dem Selbstbedienung-Terminal repräsentiert ; und Abspeichern der Angabe mittels der Steuervorrichtung . Beispiel 32 ist ein Verfahren, aufweisend: Überlagern eines mittels mehrerer akustischer Sensoren erfassten Signals; Ermitteln eines Sprachmusters auf Grundlage eines Ergebnisses des Überlagerns; Ausgeben eines Steuersignals auf Grundlage des Sprachmusters; wobei das Überlagern und eine relative Lage der mehrere akustischen Sensoren zueinander derart eingerichtet sind, dass erste Bestandteile des Signals relativ zu zweiten Bestandteilen des Signals abgeschwächt werden, wenn ein Ursprung der zweiten Bestandteile zwischen den mehreren akustischen Sensoren und einem Ursprung der ersten Bestandteile angeordnet ist.

Beispiel 33 ist der Gegenstand (z.B. Selbstbedienung-Terminal bzw. Verfahren) gemäß einem der Beispiele 1 bis 32, wobei das Überlagern aufweist, ein mittels eines ersten Sensors der mehreren akustischen Sensoren erfasstes Signal und ein mittels eines zweiten Sensors der mehreren akustischen Sensoren erfasstes Signals einander zu überlagern.

Beispiel 34 ist der Gegenstand (z.B. Selbstbedienung-Terminal bzw. Verfahren) gemäß einem der Beispiele 1 bis 33, wobei das Überlagern aufweist, ein erstes Ergebnis (z.B. eine Ausgangsgröße des ersten Sensors, ein Messergebnis bzw. ein Audiosignal) des Erfassens des Signals mittels eines ersten Sensors der mehreren akustischen Sensoren und ein zweites Ergebnis (z.B. eine Ausgangsgröße des zweiten Sensors, ein Messergebnis bzw. ein Audiosignal) des Erfassens des Signals mittels eines zweiten Sensors der mehreren akustischen Sensoren einander zu überlagern.

Beispiel 35 ist der Gegenstand (z.B. Selbstbedienung-Terminal bzw. Verfahren) gemäß einem der Beispiele 1 bis 34, wobei die mehreren akustischen Sensoren einen ersten Sensor aufweisen, der eingerichtet ist, (z.B. als Ergebnis des Erfassens) eine erstes Ausgangsgröße (z.B. ein Messergebnis bzw. ein Audiosignal) auszugeben, welches das mittels des ersten Sensors erfasste Signals repräsentiert. Beispiel 36 ist der Gegenstand (z.B. Selbstbedienung-Terminal bzw. Verfahren) gemäß einem der Beispiele 1 bis 35, wobei die mehreren akustischen Sensoren einen zweiten Sensor aufweisen, der eingerichtet ist, (z.B. als Ergebnis des Erfassens) eine zweite Ausgangsgröße (z.B. ein Messergebnis bzw. ein Audiosignal) auszugeben, welches das mittels des zweiten Sensors erfasste Signals repräsentiert.