USER-ADAPTIVE DIALOG SUPPORT FOR SPEECH DIALOG SYSTEMS

Title:

USER-ADAPTIVE DIALOG SUPPORT FOR SPEECH DIALOG SYSTEMS

Document Type and Number:

WIPO Patent Application WO/2005/048241

Kind Code:

A1

Abstract:

A common problem faced by speech dialog systems is that they have to serve users with varying degrees of experience of such a system in an optimal manner. The invention relates to a speech dialog system that differentiates between inexperienced and experienced users and generates speech prompts that are adapted accordingly. The system is able to differentiate between inexperienced and experienced users, issuing a detailed speech prompt to the former and an abbreviated speech prompt to the latter. According to the invention, the speech dialog system initialises a dialog step using an abbreviated speech prompt. If the system user does not react to the abbreviated speech prompt after a specified time (recognition timeout), a detailed speech prompt is issued. Thus both types of speech prompts are issued for each dialog step and are available to the system user for selection. The user can therefore always select the type and manner of dialog he or she requires. The experienced user therefore always has the option of taking the initiative with regard to the course of the dialog. If at one point in the speech dialog he or she is unsure of the type of speech response that is expected by the speech dialog system, he or she can simply wait for the recognition timeout and then receive a detailed speech prompt.

Inventors:

KRONENBERG SUSANNE (DE)
PHILOPOULOS ALEXANDROS (DE)

Application Number:

PCT/EP2004/008085

Publication Date:

May 26, 2005

Filing Date:

July 20, 2004

Export Citation:

Click for automatic bibliography generation Help

Assignee:

DAIMLER CHRYSLER AG (DE)
KRONENBERG SUSANNE (DE)
PHILOPOULOS ALEXANDROS (DE)

International Classes:

G09B7/04; G10L13/027; G10L13/08; G10L15/22; H04M3/493; (IPC1-7): G10L15/22

Foreign References:

US20020147593A1	2002-10-10
EP0323381A2	1989-07-05
US5592583A	1997-01-07

Download PDF:

View/Download PDF PDF Help

Claims:

Patentansprüche

1.

Verfahren für eine nutzeradaptive Dialogführung für ein Sprachdialogsystem, bei welchem durch das Sprachdialogsystem eine Sprachauf forderung ausgegeben wird, wobei hierauf das Sprachdialogsystem auf eine Äußerung durch den Systemnutzer wartet, wobei hierzu, um die Nut zeräußerung zu verstehen, ein Spracherkenner aktiviert wird, wobei das System unerfahrene und erfahrene Nutzer unter scheidet und es unerfahrenen Nutzern eine detaillierte Sprachaufforderung ausgibt, während bei erfahrenen Nut zern eine verkürzte Sprachaufforderung verwendet, dadurch gekennzeichnet, dass von Seiten des Sprachdialogsystems ein Dialogschritt mit einer verkürzten Sprachaufforderung initialisiert wird, worauf bei Ausbleiben einer Äußerung des Systemnutzer auf die verkürzte Sprachaufforderung nach einer bestimmten Zeit (ErkennerTimeout) eine detaillierte Sprachaufforde rung ausgegeben wird.

2.	Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die verkürzte Sprachaufforderung in Form eines kur zen akustischen Signals (Piepston) erfolgt.

3.	Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass dann, wenn sich der Systemnutzer wiederholt nicht auf die verkürzte Sprachaufforderung äußert, die Zeit spanne für den ErkennerTimeout, nach welchem eine de taillierte Sprachausgabe erfolgt, verkürzt wird.

4.	Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Verkürzung der Zeitspanne für den Erkenner Timeout mit zunehmender Anzahl von nicht erfolgten Äuße rungen auf die verkürzte Sprachaufforderung in mehreren Stufen erfolgt.

5.	Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass dann, wenn sich der Systemnutzer bereits auf die verkürzte Sprachaufforderung hin meldet, die Zeitspanne für den ErkennerTimeout, verlängert wird.

6.	Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Sprachdialogsystem so ausgestaltet wird, dass es dem Systemnutzer möglich ist durch vorzeitige Eingabe von Sprachäußerung (BargeIn) die Ausgabe der Sprachaufforde rung zu unterbrechen.

Description:

Nutzeradaptive Dialogunterstützung für Sprachdialogsysteme Die Erfindung betrifft ein Verfahren zur nutzeradaptiven Dia- logunterstützung bei Sprachdialogsystemen nach dem Oberbeg- riff des Patentanspruchs 1.

Zur Bedienung komplexer technischer Einrichtungen, insbeson- dere von Assistenzsystemen bei Kraftfahrzeugen, werden zuneh- mend Sprachdialogsysteme (Spracherkennungssysteme) einge- setzt, da hierbei angenommen wird, dass eine rein sprachliche Interaktion den Bediener der technischen Einrichtung weniger von seiner primären Bedienungsaufgabe ablenkt, als dies eine haptisch-visuelle Bedienung bedingen würde.

Bei Sprachdialogsystemen besteht jedoch generell das Problem, dass man mit dem System unterschiedlich erfahrene Nutzer sprachlich möglichst optimal bedienen muss ; beispielsweise einen Anfänger, der mit dem System nicht vertraut ist, oder aber einen Experten, welcher das System in allen Einzelheiten und Finessen kennt und beherrscht. Entsprechend dieser unter- schiedlichen Vertrautheit mit dem System werden andere Anfor- derungen an die Bedienung des Sprachdialogsystems gestellt.

Der Anfänger benötigt mehr Hilfestellung und Führung durch das System, um dieses auf dem Wege des learning-by-doing ken- nen lernen zu können. Der Experte jedoch möchte eine mög- lichst schnelle und effektive Interaktion mit dem Sprachdia- logsystem. Darüber hinaus werden moderne Sprachdialogsysteme immer komplexer, da die Vielfalt der zu bedienenden Funktio- nen steigt. Dies impliziert, dass es in Zukunft nicht mehr

den Experten oder den Anfänger geben wird. Es wird Benutzer geben, die einen Teil der angebotenen Funktionalitäten häufig bedient und die in diesem Teil Experte sind, und es wird Be- nutzer geben, die sich wiederum nur in einem anderen Teil des Systems auskennen.

Es existieren Sprachdialogsysteme bei welchen es dem System- nutzer möglich ist anzugeben, wie gut er mit dem System be- reits vertraut ist. Dementsprechend interagiert das Dialog- system mit dem Systemnutzer über kürzere oder längere System- äußerungen (Sprachaufforderungen). Die Einstellen in Bezug auf den Vertrautheitsgrad sind jedoch durch den Systemnutzer aktiv einzugeben und die jeweiligen Einstellungen beziehen sich sodann auf den gesamten Dialog. Dies deckt somit nicht diejenigen Fälle ab, bei denen ein Systemnutzer sich bei- spielsweise an sich recht gut mit dem Sprachdialogsystem aus- kennt, aber bei einem Dialogschritt vergessen hat, welche Äu- ßerung auf eine Sprachaufforderung durch das System erwartet wird, um im Dialog sinnvoll voranzuschreiten. Hier hilft es dem Systemnutzer nicht, dass er die Möglichkeit hat die Sys- temeinstellung in Bezug auf seinen Vertrautheitsgrad zu än- dern und hierdurch mitzuteilen, dass er mehr Unterstützung durch das Sprachdialogsystem benötigt, da in den nachfolgen- den Dialogschritten diese Unterstützung wiederum nicht mehr benötigt wird. Problematisch ist hierbei zudem, dass durch die erforderliche Eingabe des Vertrautheitsgrades die System- funktionalität stark von der Selbsteinschätzung des System- nutzers abhängt.

Es ist deshalb wünschenswert, dass das Sprachdialogsystem im Fall, dass der Systemnutzer Schwierigkeiten bei der Eingabe der notwendigen Sprachäußerungen hat, automatisch Unterstüt- zung anbietet. Ein derartiges System wird in der Offenle- gungsschrift US 2002/0147593 A1 beschrieben. Hierbei ist das Sprachdialogsystem in der Lage zwei unterschiedlich detail- lierte Sprachaufforderung auszugeben, jeweils in Abhängigkeit

davon ob das System davon ausgeht ob es sich bei dem System- nutzer um einen unterstützungsbedürftigen Anfänger oder um einen versierten Experten handelt. Bei der Kommunikation mit einem Anfänger verwendet das Sprachdialogsystem Sprachauffor- derungen (Prompt) in der für solche Systeme üblichen Detail- lierungsgrad, gibt also ausreichend Hinweise auf die Art und Weise der im Rahmen des Dialoges sinnvoller Weise erwarteten Nutzeräußerung. Handelt es sich bei dem Systemnutzer um einen Experten, so wird nur eine verkürzte, optimierte Sprachauf- forderung ("tapered"Prompt) ausgegeben. In der Regel enthal- ten diese verkürzten Sprachaufforderungen keine oder nur sehr wendige erklärende oder unterstützende Hinweise. Während des Dialogverlaufes schätzt das Sprachdialogsystem kontinuierlich den Systemnutzer bezüglich seines Erfahrungsgrades ein und gestaltet entsprechend seine Sprachaufforderungen. Da das System bei der Initiierung des Sprachdialoges nichts über den Systemnutzer weis, werden zuerst Sprachaufforderungen mit dem üblichen Detaillierungsgrad. In denjenigen Fällen, in welchem im Laufe des Dialoges festgestellt wird, dass der Systemnut- zer über eine gewisse Anzahl von aufeinander folgenden Dia- logschritten sinnvoll auf die Sprachforderungen reagiert, wird davon ausgegangen, dass es sich hierbei um einen Exper- ten handelt, worauf die dieser Einschätzung nachfolgenden Sprachaufforderungen in Form eines Short-Prompts erfolgen. Da diese Einschätzung jedoch fehlerhaft sein kann, wird die Aus- gabe von Short-Prompts nur solange fortgesetzt, solange der Systemnutzer auch fehlerfrei und sinnvoll auf-diese reagiert.

Reagiert der Systemnutzer auf die Short-Prompts mit Äußerun- gen, welche das Sprachdialogsystem nicht sinnvoll weiter ver- arbeiten kann, geht dieses dazu über bei der wiederholten An- frage und nachfolgend wieder Sprachaufforderungen mit dem üb- lichen Detaillierungsgrad zu generieren. Eine Rückkehr zur Verwendung der Short-Prompts erfolgt erst wieder nachdem wie- derum bei einer gewissen Anzahl von aufeinander folgenden Di-

alogschritten sinnvoll auf die detaillierten Sprachaufforde- rungen reagiert wurde. Dieses zurückschalten den für den un- erfahrenen Systemnutzer gedachten detaillierten Sprachauffor- derungen ist notwendig, da das Sprachdialogsystem einzig auf Grund der Art und Weise der Äußerung auf die Sprachaufforde- rung auf den Erfahrungsgrad des Systemnutzers schließen kann.

Problematisch ist hierbei, dass in den Fällen, in welchen ein Experte beispielsweise auf Grund einer Ablenkung eine Fehl- eingabe vornimmt, dieser nachfolgend wiederholt und unnötig detaillierte Sprachaufforderungen erhält, durch welche er sich gestört fühlen könnte.

Aufgabe der Erfindung ist es deshalb, eine nutzeradaptive Di- alogführung für Sprachdialogsysteme zu finden, welche uner- fahrene und erfahrene Systemnutzer unterscheidet, und daran angepasste Sprachaufforderungen so generiert, dass auch in denjenigen Fällen, in welchen ein erfahrender Nutzer inner- halb eines Dialogschrittes fehlerhaft reagiert hat, er in den nachfolgenden Schritten, ohne Nachteil für unerfahrene Nut- zer, umgehend wieder wie ein erfahrener Nutzer behandelt wird.

Die Aufgabe wird durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung sind durch die Unteransprüche beschrieben.

Bei dem Verfahren für eine nutzeradaptive Dialogführung gibt ein Sprachdialogsystem eine Sprachaufforderung aus, wobei hierauf das Sprachdialogsystem auf eine Äußerung durch den Systemnutzer wartet. Hierbei wird, um die Nutzeräußerung zu verstehen, ein Spracherkenner aktiviert wird. Das Sprachdia- logsystem ist in der Lage unerfahrene und erfahrene Nutzer zu unterscheiden, wobei es unerfahrenen Nutzern eine detaillier-

te Sprachaufforderung ausgibt, während bei erfahrenen Nutzern eine verkürzte Sprachaufforderung verwendet. In erfinderi- scher Weise wird dabei von Seiten des Sprachdialogsystems ein Dialogschritt mit einer verkürzten Sprachaufforderung (Ini- tierungssignal) initialisiert. Bei Ausbleiben einer Äußerung des Systemnutzer auf die verkürzte Sprachaufforderung wird sodann nach einer bestimmten Zeit (Erkenner-Timeout) eine de- taillierte Sprachaufforderung ausgegeben. In vorteilhafter Weise werden dem Systemnutzer also bei jedem Dialogschritt beide Arten von Sprachaufforderungen, eine verkürzte als auch eine detaillierte, zur Verfügung gestellt.. Dabei beginnt der Dialogschritt immer mit einer verkürzten Sprachaufforderung, so dass es dem erfahrenen Systemnutzer (Experte) also immer möglich ist die Initiative zu ergreifen ; das heißt, dass es diesem immer möglich ist über die Art und Weise des Dialoges zu entscheiden. Dem erfahren Nutzer ist es somit immer Mög- lich in Bezug auf den Ablauf des Dialoges die Initiative zu ergreifen. Ist auch er'sich an einem Punkt des Sprachdialoges unsicher, welche Art oder Weise der Sprachäußerung das Sprachdialogsystem an dieser Stelle erwartet, kann er einfach den Zeitablauf des Erkenner-Timeouts abwarten und erhält so- dann eine detaillierte Sprachaufforderung. Bei den nachfol- genden Schritten kann sich der erfahrene Nutzer wieder gleich nach der verkürzten Sprachaufforderung äußern und den Dialog hierdurch beschleunigen.

In Bezug auf die Gestaltung der verkürzten Sprachaufforderung ist es beispielsweise denkbar, diese auf die notwendigste In- formation oder auf einzelne, die eigentliche Detailinformati- on besonders bezeichnende Stichworte zu beschränken. Ander- seits kann in besonderes vorteilhafter Weise eine Effizienz- steigerung in Bezug auf den Ablauf des Sprachdialoges ge- schaffen werden, wenn die verkürzte Sprachaufforderung einzig durch eine neutrale, keine spezifische Information enthalten- des Audio-Signal erfolgt ; beispielsweise vergleichbar mit der

Sprachaufforderung bei einem Telefonanrufbeantworter, bei welchem der Anrufer aufgefordert wird nach dem Signalton oder dem Piepston (, Beep) zu sprechen.

Die Effizienz des Verfahrens lässt sich weiter, insbesondere in Bezug auf unerfahrene Systemnutzer, dadurch steigern, dass in einer Speichereinheit protokolliert wird, wie häufig ein Systemnutzer sich erst auf die Ausgabe der detaillierten Sprachaufforderung hin äußert. Äußert sich ein Nutzer wieder- holt erst dann, das heißt reagiert er nie oder selten bereits auf die verkürzte Sprachaufforderung, so ist dies ein Hinweis darauf, dass es sich bei diesem um einen unerfahrenen System nutzer handeln könnte. In diesem Falle kann in gewinnbringen- der Weise die Zeitspanne für den Erkenner-Timeout, welcher den Zeitraum zwischen verkürzter und detaillierter Sprachauf- forderung definiert, verkürzt werden. Eine sinnvolle Anzahl von für eine Verkürzung des Erkenner-Timeouts notwendigen Wi- <BR> <BR> derholungen könnte auf. die Anzahl 3 voreingestellt werden ;<BR> / d. h. Äußert sich der Systemnutzer dreimal hintereinander erst auf die detaillierte Sprachaufforderung so wird der Erkenner- Timeout verkürzt, beispielsweise halbiert. Hierdurch wäre es auch einem unerfahrenen Systemnutzer möglich den Sprachdialog schneller zu Ziel zu führen. Es ist hierbei denkbar den Er- kenner-Timeout dann wieder auf die ursprüngliche Zeitspanne zu setzen, wenn der Systemnutzer in einem der Dialogschritte bereits auf die verkürzte Sprachaufforderung hin reagiert ; selbstverständlich ist es auch hier möglich diese Fälle zu protokollieren und den Erkenner-Timeout erst nach mehreren sukzessiven Äußerungen auf eine verkürzte Sprachaufforderung wieder auf den ursprünglichen Wert hin zurückzusetzen.

In besonderer Weise könnte die Änderung des Erkenner-Timeouts (Verkürzung oder Verlängerung) auch derart gestaltet werden, dass diese sukzessive in mehreren Schritten erfolgt. So könn- te die Verkürzung oder nachträgliche Verlängerung des Erken- ner-Timeouts weniger abrupt erfolgen. Beträgt die Änderung

für jedes weitere Mal bei dem gleich wie das vorangegangene Mal reagiert wurde beispielsweise 10% der vorherigen Zeitdau- er der Erkenner-Timeouts, so würde sich das System annähernd unmerklich an den Systemnutzer anpassen. Das bedeutet, dass für jedes weitere Mal in dem der Systemnutzer sinnvoll erst auf die detaillierte Sprachaufforderung reagierte der Erken- ner-Timeout verkürzt würde, und dass er für jedes weitere Mal in welchem er in Folge bereits sinnvoll auf die verkürzte Sprachaufforderung hin antwortete der Erkenner-Timeout in Schritten wieder bis zum ursprünglichen Wert hin erhöht wür- de. Es wäre hierbei möglich mit der Modifikation des Erken- ner-Timeouts bereits nach der ersten Äußerung des Systemnut- zers zu beginnen, was die Effizienz des Systems weiter stei- gern würde.

Eine weitere Effizienzsteigerung des Sprachdialogsystems lässt sich dadurch erzielen, dass dieses Barge-In fähig ges- taltet wird. Barge-In erlaubt es dem Systemnutzer, die Sprachaufforderungen eines Sprachdialogsystems durch eine ei- gene sprachliche Eingabe abzubrechen. Bei einer solchen sprachlichen Eingabe kann es sich zum einen um die vorzeitige Eingabe der vom System erwarteten Äußerung handeln, oder aber um andere den Sprachdialog beeinflussende Angaben. Durch die- se sprachliche Eingabe wird die weitere Ausgabe der Sprach- aufforderung unterbrochen. Dies bietet den Vorteil einer ef- fizienteren Interaktion mit dem System, indem der Sprachdia- log dadurch beschleunigt wird, dass der Systemnutzer Sprach- aufforderungen unterbrechen und stoppen kann. Hierdurch wird die Möglichkeit geschaffen, dass insbesondere ein erfahrener Systemnutzer, welcher bei einem Dialogschritt Hilfestellung benötigt, die detaillierte Sprachausgabe bereits zu dem Zeit- punkt abbrechen kann, zu welchem er die für die nachfolgende Sprachäußerung notwendigen Hinweise erhalten hat.

In besonders vorteilhafter Weise wird durch die Erfindung ein Sprachdialogsystem geschaffen, welches dynamisch und schnell

auf das aktuelle Bedienverhalten eines Systemnutzers reagie- ren kann. Ist Systemnutzer mit dem Dialogsystem vertraut, so erlaubt das Verfahren eine effiziente Interaktion, da sofort nach der verkürzten Sprachaufforderung (Initiierungssignal) eine Sprachäußerung getätigt werden kann. Treten dagegen Schwierigkeiten in Bezug auf die zu tätigende Sprachäußerung auf, so reagiert das Sprachdialogsystem entsprechend, indem es eine unterstützende Sprachaufforderung ausgibt. Dabei ist durch der Sprachdialog durch das erfinderische Verfahren gleichzeitig so flexibel ausgelegt, dass falls es zu Schwie- rigkeiten bei einem der Dialogschritte kommt, dies keine Aus- wirkungen auf die Reaktionsfähigkeit bei den nachfolgenden Schritten hat. Hat ein Systemnutzer beispielsweise nur des- halb Schwierigkeiten mit der abzugebenden Sprachäußerung, da er gerade abgelenkt war, so wird ihm eine unterstützende Sprachaufforderung präsentiert, auf die er antworten kann.

Bei dem nächsten Dialogschritt hat er jedoch wieder die Mög- lichkeit, sich sofort'nach der verkürzten Sprachaufforderung (Initiierungssignal) zu äußern und somit den kürzeren und ef- fizienteren Weg durch den Sprachdialog zu wählen.

Previous Patent: ASSIGNMENT OF SEMANTIC TAGS TO PHRASES FOR GRAMMAR GENERATION

Next Patent: APPARATUS AND METHOD PROVIDING DISTRIBUTED ACCESS POINT AUTHENTICATION AND ACCESS CONTROL WITH VALID...