Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
INTERACTIVE CONTROL DEVICE
Document Type and Number:
WIPO Patent Application WO/2018/041711
Kind Code:
A1
Abstract:
The invention relates to a device for controlling an interaction between a user and a household appliance, comprising a base section; an optical reference mark, which is movable relative to the base section and which is designed to give the user the optical impression of an eye; a camera; an acoustic input device; an acoustic output device; an interface for connection to the household appliance; and a processing device. The processing device according to the invention is designed to detect the start of a natural language dialog between a user and the device; to capture an image of the user by means of the camera; to align the reference mark to the user during the dialog; and to control the household appliance by means of the interface on the basis of the dialog.

Inventors:
ROST, Arne (Seestraße 18, Starnberg, 82319, DE)
RICO GARCIA, Cristina (Alpenrosenstr. 4, Ottobrunn, 85521, DE)
Application Number:
EP2017/071337
Publication Date:
March 08, 2018
Filing Date:
August 24, 2017
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BSH HAUSGERÄTE GMBH (Carl-Wery-Str. 34, München, 81739, DE)
International Classes:
B25J11/00; G06N3/00
Domestic Patent References:
WO2007041295A22007-04-12
Foreign References:
US20150314454A12015-11-05
US20100023163A12010-01-28
Download PDF:
Claims:
PATENTANSPRÜCHE

1 . Vorrichtung (100) zur Steuerung einer Interaktion zwischen einem Benutzer (105) und einem Hausgerät (1 10), wobei die Vorrichtung (100) folgendes umfasst:

- einen Basisabschnitt (140);

- eine gegenüber dem Basisabschnitt (140) bewegliche optische Referenzmarke (155), die dazu eingerichtet ist, dem Benutzer (105) den optischen Eindruck eines Auges zu vermitteln;

- eine Kamera (165);

- eine akustischen Eingabevorrichtung (125);

- eine akustische Ausgabeeinrichtung (130);

- eine Schnittstelle (135) zur Verbindung mit dem Hausgerät (1 10); und

- eine Verarbeitungseinrichtung (120), die dazu eingerichtet ist:

- den Beginns eines natürlichsprachigen Dialogs zwischen dem Benutzer (105) und der Vorrichtung (100) zu erfassen;

- ein Bild des Benutzers (105) mittels der Kamera (165) aufzunehmen;

- die Referenzmarke (155) während des Dialogs auf den Benutzer (105) auszurichten; und

- das Hausgerät (1 10) mittels der Schnittstelle (135) auf der Basis des Dialogs zu steuern.

2. Vorrichtung (100) nach Anspruch 1 , wobei die Verarbeitungseinrichtung (120) weiter dazu eingerichtet ist, auf der Grundlage des Bildes ein Auge (170) des Benutzers (105) zu erfassen und die Referenzmarke (155) auf das Auge (170) des Benutzers (105) auszurichten.

3. Vorrichtung (100) nach Anspruch 1 oder 2, ferner umfassend einen Kopfabschnitt (145), der in wenigstens einer Dimension gegenüber dem Basisabschnitt (140) beweglich ist und an dem die Referenzmarke (155) angebracht ist, wobei die Verarbeitungseinrichtung (120) dazu eingerichtet ist, den Kopfabschnitt (145) gegenüber dem Basisabschnitt (140) und die Referenzmarke (155) gegenüber dem Kopfabschnitt (145) zu bewegen, um die Referenzmarke (155) auf den Benutzer (105) auszurichten. Vorrichtung (100) nach einem der vorangehenden Ansprüche, wobei die Referenzmarke (155) dreidimensional ausgebildet ist und eine Antriebseinrichtung (150) zur Bewegung der Referenzmarke (155) vorgesehen ist.

Vorrichtung (100) nach einem der Ansprüche 1 bis 3, ferner umfassend eine zweidimensionale graphische Anzeigeeinrichtung (160), wobei die Verarbeitungseinrichtung (120) dazu eingerichtet ist, die Referenzmarke (155) auf der Anzeigeeinrichtung (160) darzustellen und auszurichten.

Vorrichtung (100) nach einem der vorangehenden Ansprüche, wobei die akustische Eingabevorrichtung (125) ein Mikrofon-Array umfasst, mit dessen Hilfe eine akustische Position des Benutzers (105) bestimmt werden kann.

Vorrichtung (100) nach dem vorhergehenden Anspruch, wobei die Kamera (165) dafür eingerichtet ist, in einem vorbestimmten Fenster um die bestimmte akustische Position des Benutzers (105) verschwenkt zu werden, um ein Gesicht des Benutzers (105) zu finden.

Verfahren (500) zum Steuern einer Vorrichtung (100) zur Steuerung einer Interaktion zwischen einem Benutzer (105) und einem Hausgerät (1 10), wobei die Vorrichtung (100) eine optische Referenzmarke (155) umfasst, die dazu eingerichtet ist, beim Benutzer (105) den optischen Eindruck eines Auges zu vermitteln, wobei das Verfahren (500) folgende Schritte umfasst:

- Erfassen (502) des Beginns eines natürlichsprachigen Dialogs zwischen dem Benutzer (105) und der Vorrichtung (100);

- Abtasten (510) eines Bildes des Benutzers (105);

- Ausrichten (510) der Referenzmarke (155) auf den Benutzer (105) während des Dialogs; und

- Steuern des Hausgeräts (1 10) auf der Basis des Dialogs.

Verfahren (500) nach einem der vorangehenden Ansprüche, wobei der Dialog wenigstens eine natürlichsprachige Äußerung des Benutzers (105) und eine

natürlichsprachige Äußerung der Vorrichtung (100) umfasst und die beiden Äußerun- gen miteinander in Kontext stehen.

10. Verfahren (500) nach einem der vorangehenden Ansprüche, wobei das Erfassen des Beginns des Dialogs das Erfassen (502) eines vom Benutzer (105) gesprochenen Schlüsselworts umfasst.

1 1 . Verfahren (500) nach einem der vorangehenden Ansprüche, ferner umfassend das Bestimmen des Endes des Dialogs und des Aufhebens der Ausrichtung der Referenzmarke (155) auf den Benutzer (105).

12. Verfahren (500) nach einem der vorangehenden Ansprüche, wobei der Dialog als beendet bestimmt wird, wenn länger als eine vorbestimmte Dauer keine

natürlichsprachige Äußerung mit dem Benutzer (105) ausgetauscht wurde.

13. Hausgerät (1 10) mit einer Vorrichtung (100) nach einem der Ansprüche 1 bis 7.

Description:
Interaktive Bedienvorrichtung

Die Erfindung betrifft eine Vorrichtung zur Bedienung eines Hausgeräts. Insbesondere betrifft die Erfindung eine interaktive Vorrichtung, die zur Führung eines Dialogs mit einem Benutzer eingerichtet ist.

Stand der Technik

Ein Hausgerät ist dazu eingerichtet, eine vorbestimmte Aufgabe innerhalb eines Haushalts zu erfüllen. Beispielsweise kann das Hausgerät einen Staubsauger, einen Herd oder eine Dunstabzugshaube umfassen. Einige Hausgeräte können autonom tätig werden und benötigen nur selten eine Ein- oder Ausgabe. Andere Hausgeräte müssen interaktiv gesteuert werden. Beispielsweise kann ein Staubsauger autonom ausgeführt sein, während ein Herd üblicherweise während des Kochens von einem Benutzer bedient werden muss. Die Bedienung eines Hausgeräts kann schwierig sein, wenn der Benutzer beispielsweise schmutzige Hände hat, unter Zeitdruck steht oder mehrere Abläufe zu konzertieren versucht, die unterschiedliche Hausgeräte involvieren. Eine Möglichkeit der fortgeschrittenen Steuerung eines Hausgeräts umfasst eine Spracheingabe. Das Hausgerät kann eine Verarbeitungseinrichtung umfassen, die dazu eingerichtet ist, eine natürlichsprachige Anwei- sung des Benutzers in eine Steuerfunktion des Hausgeräts umzusetzen. In ähnlicher Weise kann beispielsweise ein Betriebszustand des Hausgeräts mittels einer entsprechenden Verarbeitungseinrichtung als gesprochener Text, eben natürlichsprachig, ausgegeben werden. Trotzdem ist die Interaktion zwischen dem Benutzer und dem Hausgerät oft schwierig. Beispielsweise ist nicht immer klar, wann das Hausgerät eine Eingabe erwartet, ob es die Eingabe verstanden hat oder eine Tätigkeit ausführt, die der vom Benutzer beabsichtigten Tätigkeit entspricht. US 2010 / 0023163 A1 schlägt vor, einen Roboter zur Unterstützung eines Benutzers bei der Einhaltung vorgegebener Ernährungsgewohnheiten so auszustatten, dass ein Augenkontakt mit dem Benutzer simuliert werden kann. Eine der vorliegenden Erfindung zugrunde liegende Aufgabe besteht darin, eine Technik anzugeben, die eine verbesserte Interaktion zwischen einem Benutzer und einem Hausgerät erlaubt. Die Erfindung löst diese Aufgabe mittels der Gegenstände der unabhängigen Ansprüche. Unteransprüche geben bevorzugte Ausführungsformen wieder.

Offenbarung der Erfindung

Eine erfindungsgemäße Vorrichtung zur Steuerung einer Interaktion zwischen einem Benutzer und einem Hausgerät umfasst einen Basisabschnitt; eine gegenüber dem Basisab- schnitt bewegliche optische Referenzmarke, die dazu eingerichtet ist, dem Benutzer den optischen Eindruck eines Auges zu vermitteln; eine Kamera; eine akustische Eingabevorrichtung; eine akustische Ausgabeeinrichtung; eine Schnittstelle zur Verbindung mit dem Hausgerät und eine Verarbeitungseinrichtung. Die Verarbeitungseinrichtung ist dazu eingerichtet, den Beginn eines natürlichsprachigen Dialogs zwischen einem Benutzer und der Vorrichtung zu erfassen; ein Bild des Benutzers mittels der Kamera aufzunehmen; die Referenzmarke während des Dialogs auf den Benutzer auszurichten; und das Hausgerät mittels der Schnittstelle auf der Basis des Dialogs zu steuern.

Die Vorrichtung kann es erlauben, den Dialog mit dem Benutzer optisch zu unterstützen und zu gestalten. Dadurch kann der Dialog intuitiver gestaltet werden und das Einlernen bestimmter Dialogmuster durch den Benutzer kann entfallen. Durch das Ausrichten der Referenzmarke auf den Benutzer kann sich bei diesem automatisch der Eindruck von Aufmerksamkeit einstellen, sodass er weiß, dass er sich in einem Dialog befindet. Der Benutzer kann dann verbessert eine Anweisung aussprechen, die mittels der Vorrichtung verarbeitet werden kann. Umgekehrt kann das Abwenden der Referenzmarke vom Benutzer diesem signalisieren, dass gerade kein Dialog stattfindet. Dadurch kann eine unmittelbare Rückmeldung an den Benutzer erfolgen, dass eine eventuelle sprachliche Äußerung von ihm nicht verarbeitet und nicht als Anweisung interpretiert wird. Das Gefühl einer Überwachung kann sich daher beim Benutzer nicht einstellen.

Bevorzugt ist die Verarbeitungseinrichtung weiter dazu eingerichtet, auf der Grundlage des Bildes ein Auge des Benutzers zu erfassen und die Referenzmarke auf das Auge des Benutzers auszurichten. Dadurch kann sich ein verstärkter Eindruck des Blickkontakts zwischen der Vorrichtung und dem Benutzer einstellen. In weiteren Ausführungsformen kann durch die Art der Darstellung der Referenzmarke der Dialog zusätzlich verfestigt werden. Beispielsweise kann der optische Eindruck des Auges derart verändert werden, dass einfache Gefühle wie Aufmerksamkeit, Abwesenheit, Konzentration etc. dialogunterstützend dargestellt werden.

In noch einer weiteren Ausführungsform umfasst die Vorrichtung einen Kopfabschnitt, der in wenigstens einer Dimension gegenüber dem Basisabschnitt beweglich ist und an dem die Referenzmarke angebracht ist. Dabei ist die Verarbeitungseinrichtung dazu eingerichtet, den Kopfabschnitt gegenüber dem Basisabschnitt und die Referenzmarke gegenüber dem Kopfabschnitt zu bewegen, um die Referenzmarke auf den Benutzer auszurichten. Gegebenenfalls wird die Referenzmarke auf ein Auge des Benutzers ausgerichtet, wie oben erläutert wurde. Durch den Kopfabschnitt kann sich verstärkt der Eindruck eines verständigen Wesens beim Benutzer einstellen, sodass beispielsweise Vorbehalte des Benutzers gegenüber einer technischen Einrichtung den Dialog nicht trüben können.

In einer ersten Variante ist die Referenzmarke dreidimensional ausgebildet und es ist eine Antriebseinrichtung zur Bewegung der Referenzmarke vorgesehen. Eine realistische Darstellung eines Auges kann so einfach verwendet werden, um die oben beschriebene Fixierung auf den Benutzer zu realisieren. Eine graphische Anzeigeeinrichtung ist nicht er- forderlich. Ist trotzdem eine graphische Anzeigeeinrichtung vorgesehen, so kann diese zur Ausgabe anderer Informationen verwendet werden, insbesondere bildlicher oder textueller Informationen.

In einer anderen Variante umfasst die Vorrichtung eine zweidimensionale graphische An- Zeigeeinrichtung, und die Verarbeitungseinrichtung ist dazu eingerichtet, die Referenzmarke auf der Anzeigeeinrichtung darzustellen und auszurichten. In dieser Variante kann eine erhöhte Flexibilität bei der Darstellung der Referenzmarke erzielt werden. Insbesondere können einfache Gefühle verbessert simuliert werden, indem die Darstellung der Referenzmarke entsprechend angepasst wird.

Die akustische Eingabevorrichtung kann ein Mikrofon-Array umfassen, mit dessen Hilfe eine akustische Position des Benutzers bestimmt werden kann. Vorzugsweise ist dann die Kamera dafür eingerichtet, in einem vorbestimmten Fenster um die bestimmte akustische Position des Benutzers verschwenkt zu werden, um ein Gesicht des Benutzers zu finden.

Eine Vorrichtung zur Steuerung einer Interaktion zwischen einem Benutzer und einem Hausgerät umfasst eine optische Referenzmarke, die dazu eingerichtet ist, beim Benutzer den optischen Eindruck eines Auges zu vermitteln. Ein erfindungsgemäßes Verfahren zum Steuern der Vorrichtung umfasst Schritte des Erfassens des Beginns eines natürlichsprachigen Dialogs zwischen dem Benutzer und der Vorrichtung; des Abtastens eines Bildes des Benutzers; des Ausrichtens der Referenzmarke auf den Benutzer während des Dialogs und des Steuerns des Hausgeräts auf der Basis des Dialogs. Das erfindungsgemäße Verfahren kann insbesondere auf der oben beschriebenen Vorrichtung ablaufen. Dazu kann die Vorrichtung eine Verarbeitungseinrichtung aufweisen, die einen programmierbaren Mikrocomputer oder Mikrocontroller umfasst. Das Verfahren kann dabei insbesondere als Computerprogrammprodukt mit Programmcodemitteln realisiert sein. Das Verfahren kann zur Steuerung eines oder mehrerer Hausgeräte verwendet werden. Es ist bevorzugt, dass das Verfahren zusätzlich das Umwandeln einer natürlichsprachigen Eingabe des Benutzers in ein maschinenverständliches Signal und/oder das Umwandeln eines maschinenverständlichen Signals in eine

natürlichsprachige Äußerung an den Benutzer durchführt. Dadurch kann das Verfahren verbessert die Interaktion zwischen dem Benutzer und einer Vorrichtung steuern, wäh- rend eine Gerätefunktion eines Hausgeräts auf bekannte Weise maschinell gesteuert wird. Die maschinelle Steuerung kann insbesondere das Austauschen von Status-, Befehls- oder Anforderungsinformationen umfassen.

Der Dialog umfasst bevorzugt wenigstens eine natürlichsprachige Äußerung des Benut- zers und eine natürlichsprachige Äußerung der Vorrichtung, wobei die beiden Äußerungen miteinander in Kontext stehen. Beispielsweise kann der Benutzer eine Anforderung äußern, worauf verfahrensgemäß eine Bestätigung der verstandenen Anforderung zurückgegeben wird. In einem anderen Beispiel kann der Benutzer einen Gerätezustand des Hausgeräts anfordern und verfahrensgemäß wird der Gerätezustand beschafft und natürlichsprachig ausgegeben.

Der Beginn des Dialogs kann erfasst werden, nachdem ein vom Benutzer gesprochenes Schlüsselwort erfasst wurde. Das Schlüsselwort kann fest vorgegeben sein und bei- spielsweise eine Bezeichnung einer das Verfahren durchführenden Vorrichtung umfassen. In einer anderen Ausführungsform kann das Schlüsselwort durch den Benutzer vorgegeben sein.

Es ist weiterhin bevorzugt, dass das Ausrichten der Referenzmarke auf den Benutzer aufgehoben wird, wenn das Ende des Dialogs bestimmt wurde. Ein Eindruck des

Beobachtetwerdens durch den Benutzer kann dadurch vermieden werden. Durch das verbesserte Abgrenzen einer Dialogphase von einer dialogfreien Phase kann die Interaktion des Benutzers mit dem Verfahren bzw. einer ausführenden Vorrichtung insgesamt verbessert werden.

Der Dialog wird bevorzugt als beendet bestimmt, wenn länger als eine vorbestimmte Dauer keine natürlichsprachige Äußerung mit dem Benutzer ausgetauscht wurde. Dabei kann die Äußerung alternativ seitens des Verfahrens bzw. der ausführenden Vorrichtung oder seitens des Benutzers erfolgen. In einer alternativen Ausführungsform kann der Dialog auch als beendet bestimmt werden, wenn dies aus dem Dialog bzw. der Abfolge der natürlichsprachigen Äußerungen hervorgeht.

Zusätzlich umfasst die Erfindung ein Hausgerät mit einer erfindungsgemäßen Vorrichtung.

Die Erfindung wurde mit Bezug auf eine Vorrichtung, ein Hausgerät sowie ein Verfahren erläutert. Sofern nichts Anderes angegeben ist, sind Merkmale einer Anspruchskategorie analog auf die anderen Anspruchskategorien anwendbar.

Kurze Beschreibung der Figuren

Die Erfindung wird nun unter Bezug auf die beiliegenden Figuren genauer beschrieben, in denen:

Fig. 1 eine schematische Darstellung einer Vorrichtung zur Steuerung einer Interaktion zwischen einem Benutzer und einem Hausgerät;

Fig. 2 die Vorrichtung im Dialog mit einem Benutzer;

Fig. 3 eine beispielhafte Darstellung einer optischen Referenzmarke der Vorrichtung; Fig. 4 beispielhafte Stellungen eines Paars von Referenzmarken; und Fig. 5 ein Ablaufdiagramm eines Verfahrens zur Steuerung der Interaktion der Vorrichtung mit einem Benutzer darstellt. Genaue Beschreibung eines Ausführungsbeispiels

Figur 1 zeigt eine schematische Darstellung einer Vorrichtung 100 zur Steuerung einer Interaktion zwischen einem Benutzer 105 und einem Hausgerät 1 10. In der exemplarischen Darstellung sind zwei Hausgeräte 1 10 in Form eines Herds und einer Dunstab- zugshaube dargestellt. Beide verfügen über eine bevorzugt drahtlose Schnittstelle 1 15 zur Verbindung mit der Vorrichtung 100. Es können jedoch auch andere Hausgeräte 1 10 mit der Vorrichtung 100 verbunden werden, insbesondere Küchengeräte oder Reinigungsgeräte. Die Vorrichtung 100 umfasst eine Verarbeitungseinrichtung 120, die mit einer akustischen Eingabevorrichtung 125, einer akustischen Ausgabevorrichtung 130 und einer bevorzugt drahtlosen Schnittstelle 135 zur Verbindung mit einem oder mehreren Hausgeräten 1 10 verbunden ist. Die Vorrichtung 100 umfasst ferner einen Basisabschnitt 140, der beispielsweise verwendet werden kann, um die Vorrichtung 100 auf einer Standfläche abzu- stellen oder an einer Wand, einem Möbel, einem Hausgerät 1 10 oder einem anderen Objekt anzubringen. Elemente der Vorrichtung 100 können innerhalb des Basisabschnitts 140 aufgenommen sein. Bevorzugt umfasst die Vorrichtung 100 zusätzlich einen Kopfabschnitt 145, der in mindestens einer Dimension gegenüber dem Basisabschnitt 140 beweglich gelagert ist. Zum Bewegen des Kopfabschnitts 145 gegenüber dem Basisab- schnitt 140 kann eine Antriebseinrichtung 150 vorgesehen sein, die durch die Verarbeitungseinrichtung 120 gesteuert werden kann. Beispielsweise kann der Kopfabschnitt 145 um eine Hochachse durch den Basisabschnitt 140 verschwenkbar sein. Der Kopfabschnitt 145 kann auch um eine Querachse verschwenkbar sein, um gegenüber dem Basisabschnitt 140 eine Nickbewegung durchzuführen.

Am Basisabschnitt 140, oder, falls vorhanden, am Kopfabschnitt 145, ist eine bewegliche optische Referenzmarke 155, die dazu eingerichtet ist, vom Benutzer 105 als Auge wahrgenommen zu werden, angebracht. Die Referenzmarke 155 kann plastisch ausgebildet und beispielsweise mittels einer weiteren Antriebseinrichtung 150 mechanisch beweglich sein. In der dargestellten Ausführungsform ist eine bevorzugt zweidimensionale und graphische Anzeigeeinrichtung 160 vorgesehen, die mit der Verarbeitungseinrichtung 120 verbunden ist. Auf der Anzeigeeinrichtung 160 kann die Referenzmarke 155 dargestellt und bevorzugt auch bewegt werden. Außerdem umfasst die Vorrichtung 100 eine Kamera 165, die bevorzugt nahe an der Referenzmarke 155 und insbesondere bevorzugt am Kopfabschnitt 145 angebracht ist.

Figur 2 zeigt die Vorrichtung 100 in einer weiteren Ausführungsform im Dialog mit dem Benutzer 105. Hier sind beispielhaft zwei Referenzmarken 155 vorgesehen, die bevorzugt konzertiert derart angesteuert werden, dass sie durch den Benutzer 105 als Augenpaar wahrgenommen werden.

Die Vorrichtung 100 ist dazu eingerichtet, eine Interaktion zwischen dem Benutzer 105 und dem Hausgerät 1 10 dadurch zu unterstützen, dass sie einen natürlichsprachigen Dia- log zwischen dem Benutzer 105 und der Vorrichtung 100 durch eine Ausrichtung der optischen Referenzmarke 155 auf den Benutzer 105 unterstützt. Ziel ist, dem Benutzer 105 den Eindruck einer Aufmerksamkeit der Vorrichtung 100 zu vermitteln, während der Dialog andauert. Dazu kann die Referenzmarke 155 insbesondere so gesteuert werden, dass sie das Auge eines menschlichen Gesprächspartners nachahmt, mit dem der Benutzer 105 spricht. In einem ersten Schritt kann die Vorrichtung 100 mittels der Kamera 165 eine relative Position oder Richtung des Benutzers 105 bezüglich der Vorrichtung 100 bestimmen und den Kopfabschnitt 145 und/oder die Referenzmarke 155 auf den Benutzer 105 ausrichten. In einer Verfeinerung kann innerhalb des Bildes der Kamera 165 auch ein Auge 170 des Benutzers 105 erfasst werden und die Referenzmarke 155 kann spezifisch auf das Auge 170 ausgerichtet werden. Bewegt sich der Benutzer 105 im Raum, so kann die Ausrichtung der Referenzmarke 155 dem Benutzer 105 folgen. Ist der Dialog beendet, so kann die Verfolgung abgebrochen bzw. die Ausrichtung zerstört werden.

Es ist weiterhin bevorzugt, dass die Vorrichtung 100 einen natürlichsprachigen Dialog mit dem Benutzer 105 durchführt. Eine durch den Benutzer 105 gesprochene Äußerung kann mittels der akustischen Eingabevorrichtung 125 abgetastet und mittels der Verarbeitungseinrichtung 120 analysiert werden. In Abhängigkeit des Ergebnisses kann beispielsweise eine Anforderung an eines der Hausgeräte 1 10 über die Schnittstelle 135 ausgesandt werden. Eine Nachricht eines Hausgeräts 1 10, beispielsweise betreffend ihren Betriebszustand, kann über die Schnittstelle 135 empfangen und durch die Verarbeitungseinrichtung 120 in eine natürlichsprachige Äußerung umgewandelt werden („Text to Speech"). Anschließend wird die Äußerung bevorzugt über die akustische Ausgabevorrichtung 130 an den Benutzer 105 ausgegeben.

Figur 3 zeigt eine beispielhafte Darstellung von optischen Referenzmarken 155 der Vorrichtung 100 der beiden vorangehenden Figuren. Die Referenzmarken 155 können jeweils plastisch nachgebildet oder auf der Anzeigeeinrichtung 160 dargestellt werden. Die Referenzmarken 155 sind bevorzugt dazu eingerichtet, den Dialog zum Benutzer 105 zu un- terstützen. Dazu ist es hilfreich, wenn die Vorrichtung 100 als Person bzw. als personenähnliche Maschine wahrgenommen werden kann. Beispielsweise sind die dargestellten Referenzmarken 155 als weibliches Augenpaar dargestellt. Eine natürlichsprachige Ausgabe mittels der akustischen Ausgabevorrichtung 130 verwendet dabei bevorzugt eine ebenfalls weibliche Stimme.

Die Referenzmarke 155 kann noch weitere Details eines menschlichen Auges aufweisen, wobei die Details entweder statisch, zur Verbesserung des menschenähnlichen Eindrucks, oder dynamisch, etwa zum Ausdruck einfacher Emotionen, verwendet werden können. Die dargestellte Referenzmarke 155 umfasst optische Nachbildungen eines Aug- apfels 305, einer Iris 310, einer Pupille 315, eines oberen Augenlids 320, eines unteren Augenlids 325, oberen und unteren Wimpern 330 und einer Augenbraue 335. In anderen Ausführungsformen können einige der genannten Elemente oder Merkmale anders ausgeführt sein oder fehlen. Es ist auch möglich, Merkmale 305 bis 335 stilistisch nur anzudeuten.

Figur 4 zeigt beispielhafte Stellungen eines Paars von Referenzmarken 155 der Vorrichtung 100 der Figuren 1 und 2. In alternativen Ausführungsformen kann auch nur eine Referenzmarke 155 vorgesehen sein. In der dargestellten Ausführungsform wird der optische Eindruck eines Auges im Wesentlichen dadurch hergestellt, dass ein schwarzer Kreis in einem weißen Kreis dargestellt wird. Dadurch lassen sich bereits verschiedene Blickrichtungen simulieren, wenn die Referenzmarke 155 auf den Benutzer 105 ausgerichtet wird. Durch die Blickrichtungen können bereits Gefühle ausgedrückt werden, wo- durch die Informationsübermittlung zwischen dem Benutzer 155 und der Vorrichtung 100 unterstützt werden kann.

In weiteren Ausführungsformen können noch weitere Elemente von Augen oder einer Augenpartie, die beispielsweise oben mit Bezug auf Fig. 3 beschrieben wurden, zur Ex- pression eines Gefühls dargestellt werden.

In Figur 4a sind die Referenzmarken 155 direkt auf den Benutzer 105 gerichtet. In den Figuren 4b und 4c sind Blickrichtungen angedeutet, die den Benutzer 105 zulaufen, wenn sich dieser seitlich unten (Fig. 4b) bzw. seitlich oben (Fig. 4c) der Vorrichtung 100 bzw. der Anzeigevorrichtung 160 befindet. In Figur 4d sind die dunklen Kreise in der oberen Hälfte der hellen Kreise abgedeckt und eine horizontale Linie ist zu sehen, um den Eindruck halbgeschlossener Augenlieder hervorzurufen. Dadurch kann seitens der Vorrichtung 100 ein Gefühl von Müdigkeit oder Unkonzentriertheit vermittelt werden. In Figur 4e fehlen die dunklen Kreise ganz, sodass sich der Eindruck geschlossener Augen einstellen kann. Dadurch kann verdeutlicht werden, dass ein Dialog mit der Vorrichtung 100 gegenwärtig nicht stattfindet - die Vorrichtung 100„schläft".

Figur 5 zeigt ein Ablaufdiagramm eines exemplarischen Verfahrens 500 zur Steuerung der Interaktion der Vorrichtung 100 der Figuren 1 und 2 mit dem Benutzer 105. Das Ver- fahren 500 kann insbesondere mittels der Verarbeitungseinrichtung 120 durchgeführt werden.

In einem Schritt 502 wird erfasst, dass der Benutzer 105 ein Schlüsselwort gesprochen hat. Das Schlüsselwort kann eine Bezeichnung der Vorrichtung 100 umfassen. Ein Hin- weis auf das Schlüsselwort kann in textueller Form auf der Vorrichtung 100 angegeben sein. In einem Schritt 504 wird überprüft, ob der Benutzer 105 bereits bekannt ist. Ist dies der Fall, so kann in einem Schritt 506 eine entsprechende interne Marke gesetzt werden, die hier beispielhaft user_detectable genannt wird. Anschließend oder wenn der Benutzer 105 nicht bekannt ist, wird in einem Schritt 508 bestimmt, aus welcher Richtung das akus- tische Signal empfangen wurde. Sind mehrere akustische Eingabevorrichtungen 125 vorgesehen, so kann auf der Basis des Stereoeffekts eine ungefähre Richtung des Benutzers 105 bestimmt werden. In einem Schritt 510 wird bevorzugt der Kopfabschnitt 145 in diese Richtung bewegt, um einen Bildausschnitt der Kamera 165 so zu verändern, dass er den Benutzer 105 möglichst enthält. In einem Schritt 512 wird überprüft, ob auf einem Bild der Kamera 165 ein Gesicht erkannt werden kann. Ist dies der Fall, so wird bevorzugt in einem Schritt 514 eine relative Position des Benutzers 105 auf der Basis des Kamerabilds bestimmt. An- schließend wird in einem Schritt 516 die Referenzmarke 155 auf den Benutzer 105 und weiter, falls möglich, auf ein im Bild der Kamera 165 erfasstes Auge 170 des Benutzers 105 ausgerichtet. In einem folgenden Schritt 518 wird der Benutzer 105 verfolgt, indem seine relative Position zur Vorrichtung 100 fortlaufend bestimmt und die Referenzmarke 155 sowie gegebenenfalls die Kamera 165 jeweils auf die bestimmte Position ausgerichtet werden.

In einem Schritt 520 wird eine Äußerung des Benutzers 105 erfasst. Kann keine Äußerung erfasst werden, so kann das Verfahren 500 zum Schritt 512 zurückkehren. Andernfalls kann in einem Schritt 522 die Schallquelle der Äußerung bestimmt werden. In einem Schritt 524 können die bislang bestimmten Positionen bzw. Ausrichtungen des Benutzers 105 bezüglich der Vorrichtung 100 miteinander fusioniert werden. Die Ausrichtung der Referenzmarke 155 und/oder der Kamera 165 - gegebenenfalls mit Unterstützung der Ausrichtung des Kopfabschnitts 145 - kann in einem Schritt 526 aktualisiert werden. Anschließend kann das Verfahren 500 mit dem Schritt 512 fortfahren.

Wurde im Schritt 512 kein Gesicht des Benutzers 105 im Kamerabild erkannt, so kann in einem Schritt 528 überprüft werden, ob die interne Marke user_detectable gesetzt ist. Ist dies nicht der Fall, so kann das Verfahren 500 mit dem Schritt 512 fortfahren. Andernfalls wird bevorzugt in einem Schritt 530 die Kamera 165 in einem vorbestimmten Fenster um die bestimmte akustische Position verschwenkt. Anschließend wird in einem Schritt 532 überprüft, ob ein Gesicht erkannt wurde und in diesem Fall zum Schritt 514 verzweigt. Andernfalls wird in einem Schritt 534 überprüft, ob das vorbestimmte Fenster bereits vollständig analysiert wurde. Ist dies nicht der Fall, so fährt das Verfahren 500 bevorzugt mit dem Schritt 530 fort. Andernfalls kann in einem Schritt 536 eine interne Variable, die hier c genant wird, auf 0 gesetzt werden. In einem nachfolgenden Schritt 538 kann der Benutzer 105, beispielsweise auf natürlichsprachigem Weg mittels der Ausgabevorrichtung 130, oder auf optische oder textuelle Weise mittels der Anzeigeeinrichtung 160, gefragt wer- den, ob sein Gesicht gerade von der Kamera 165 nicht erkannt werden kann. Die Variable c wird dabei inkrementiert.

In einem Schritt 540 wird überprüft, ob der Benutzer 105 mit Ja geantwortet hat. In diesem Fall wird die interne Marke user_detectable in einem Schritt 542 auf 0 gesetzt und das Verfahren 500 fährt mit dem Schritt 520 fort. Kann keine Antwort des Benutzers 105 bestimmt werden, so kann in einem Schritt 544 eine vorbestimmte Zeit gewartet werden, bevor in einem Schritt 546 überprüft wird, ob die Variable c den Wert 3 hat. Ist dies nicht der Fall, so wird im Schritt 538 die Frage an den Benutzer 105 erneut ausgegeben und die Variable c wird erneut inkrementiert. Ist der Wert der Variablen c im Schritt 546 3, so kann das Verfahren 500 in einem Schritt 548 enden.

Wird im Schritt 540 festgestellt, dass die Antwort des Benutzers 105 Nein lautet, so wird in einem Schritt 550 die Variable c auf den Wert 0 gesetzt und in einem Schritt 552 der Benutzer 105 gebeten, das Schlüsselwort zu wiederholen. Die Variable c wird dabei inkre- mentiert. In einem nachfolgenden Schritt 554 wird überprüft, ob der Benutzer 105 das

Schlüsselwort gesprochen hat. In diesem Fall fährt das Verfahren 500 bevorzugt mit dem Schritt 508 fort. Andernfalls kann in einem Schritt 556 eine vorbestimmte Zeit gewartet werden, bevor in einem Schritt 558 überprüft wird, ob die Variable c den Wert 3 hat. Ist dies nicht der Fall, so fährt das Verfahren 500 mit dem Schritt 552 fort und bittet den Be- nutzer 105 erneut, das Schlüsselwort zu sprechen. Andernfalls kann das Verfahren 500 im Schritt 548 enden.

Bezugszeichen

100 Vorrichtung

105 Benutzer

1 10 Hausgerät

1 15 Schnittstelle

120 Verarbeitungseinrichtung

125 akustische Eingabevorrichtung

130 akustische Ausgabevorrichtung

135 Schnittstelle

140 Basisabschnitt

145 Kopfabschnitt

150 Antriebseinrichtung

155 Referenzmarke

160 Anzeigeeinrichtung

165 Kamera

170 Auge des Benutzers

305 Augapfel

310 Iris

315 Pupille

320 oberes Augenlid

325 unteres Augenlid

330 Wimper

335 Augenbraue

500 Verfahren

502 Schlüsselwort erfasst

504 Benutzer bekannt?

506 setzen Marke user_detectable

508 Bestimmen akustische Richtung des Benutzers

510 Kopfabschnitt schwenken, Kamerabild erstellen

512 Gesicht erkannt? Bestimmen rel. Position des Benutzers aus Kamerabild Ausrichten Referenzmarke

Benutzer verfolgen

Äußerung Benutzer erfassen

Schallquelle Äußerung bestimmen

Positionen fusionieren

Ausrichtung justieren

Marke user_detectable gesetzt?

Kamera in vorbestimmtem Fenster bewegen

Gesicht erkannt?

Fenster komplett durchsucht?

c=o

Frage an Benutzer

Antwort auswerten

user_detectable=0

warten

c =3?

Ende

c =0

Benutzer bitten, Schlüsselwort zu wiederholen

Schlüsselwort gesprochen?

warten

c =3?