Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR CONTROLLING A MACHINE OR A MACHINE ELEMENT, AND CONTROL ARRANGEMENT
Document Type and Number:
WIPO Patent Application WO/2024/088917
Kind Code:
A1
Abstract:
The invention relates to a method (S1-S8) for controlling a machine or a machine element (6) by means of predefined objects (11, 11a, 11b) or gestures detected by a processing device (17), in which, during the identification and categorisation of a gesture, the progress is signalled to a user in the form of an overall confidence value, wherein in some cases, a predefined confirmation object must be additionally detected for the execution of a control command (23). The invention also relates to a control arrangement (1) for carrying out such a method, a computer arrangement and a computer program product. The progress of detecting objects, in particular gestures, which trigger certain control commands of the machine, can be transmitted for example by a display in a display apparatus (5, 5a, 5b), or alternatively or additionally by acoustic or haptic signals.

Inventors:
SCHÄTZLE SIMON (DE)
KOCH OLIVER (DE)
Application Number:
PCT/EP2023/079375
Publication Date:
May 02, 2024
Filing Date:
October 20, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SENSOR TECHNIK WIEDEMANN GMBH (DE)
International Classes:
G06V10/764; G06F3/01; G06V40/20
Domestic Patent References:
WO2014113454A12014-07-24
Attorney, Agent or Firm:
PFENNING, MEINIG & PARTNER MBB (DE)
Download PDF:
Claims:
Patentansprüche Verfahren zur Steuerung einer Maschine oder eines Maschinenelements (6), umfassend:

Aufnehmen (Sl) einer Vielzahl von Bildern nacheinander mittels eines Bildaufnahmesystems; insbesondere Ausgeben (S2) aller oder einiger der Vielzahl von aufgenommenen Bildern durch eine Bildanzeigeeinrichtung (5, 5a, 5b);

Erfassen (S3) zumindest einer Teilmenge (10) der Vielzahl der aufgenommenen Bilder durch eine Verarbeitungseinrichtung (17);

Identifizieren (S4) wenigstens eines ersten vorbestimmten Objektes (11, 11a, 11b) jeweils auf mehreren nacheinander aufgenommenen Bildern der Teilmenge erfasster Bilder insbesondere durch ein durch maschinenbasiertes Lernen trainiertes Netzwerk (3), Einordnen (S5) des oder eines identifizierten ersten vorbestimmten Objektes (11, 11a, 11b) für mehrere nacheinander aufgenommene Bilder in eine von mehreren Kategorien, die jeweils einem vorbestimmten Objekt oder einer Gruppe von vorbestimmten Objekten zugeordnet sind, wobei jeder Kategorie ein definierter Steuerbefehl (23) zum Steuern der Maschine oder des Maschinenelementes zugeordnet ist, insbesondere durch das Netzwerk (3);

Ausgeben (S6) eines mit einem identifizierten und/oder in eine Kategorie eingeordneten ersten vorbestimmten Objekt (11, 11a, 11b) assoziierten Signals, insbesondere eines optischen, akustischen oder haptischen Signals, weiter insbesondere Anzeigen einer Abbildung oder eines Symbols (12, 13, 13a) in einer Bildanzeigeeinrichtung (5a);

Ermitteln jeweils eines Bildkonfidenzwertes für mehrere nacheinander aufgenommene Bilder, der die Sicherheit oder Wahrscheinlichkeit angibt, mit der ein erstes vorbestimmtes Objekt auf dem jeweiligen Bild identifiziert und einer Kategorie zugeordnet wurde; wiederholtes Ermitteln eines Gesamtkonfidenzwertes für das erste vorbestimmte Objekt aus den Bildkonfidenzwerten mehrerer nacheinander aufgenommener Bilder, insbesondere unter Berücksichtigung von deren zeitlicher Anordnung;

Ausgeben eines Gesamtkonfidenzwertes, insbesondere durch ein optisches, akustisches oder haptisches Signal, insbesondere durch eine Anzeige in einer Bildanzeigeeinrichtung (5a), in der auch die mit dem kategorisierten ersten vorbestimmten Objekt assoziierte Abbildung oder das assoziierte Symbol angezeigt wird;

Vergleichen (S7) des Gesamtkonfidenzwertes mit einem Schwellwert und Erzeugen (S8) und Abgeben des der Kategorie, in die das identifizierte erste vorbestimmte Objekt (11, 11a, 11b) eingeordnet wurde, zugeordneten Steuerbefehls (23) unter der Bedingung, dass der Gesamt- konfidenzwert einen vorgegebenen Schwellwert überschreitet, wobei insbesondere das mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt (11, 11a, 11b) assoziierte Signal (13c) bei Ausgeben des Steuerbefehls geändert wird. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Steuerbefehl (23) nur unter der zusätzlichen Bedingung ausgegeben wird, dass durch die Verarbeitungseinrichtung (17) zusätzlich zu dem ersten vorbestimmten Objekt (11, 11a, 11b) ein von dem ersten vorbestimmten Objekt verschiedenes Bestätigungsobjekt wenigstens mit einem vorbestimmten Bestätigungs-Gesamtkonfidenzwert erkannt wird. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Identifizierung und Einordnung eines Bestätigungsobjektes in eine Kategorie erst nach dem Ausgeben (S6) eines mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt (11, 11a, 11b) assoziierten Signals zugelassen wird, insbesondere nur unter der zusätzlichen Bedingung, dass der Gesamtkonfidenzwert für das erste vorbestimmte Objekt einen vorgegebenen Schwellwert überschreitet. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass, nach dem Ausgeben (S6) eines mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt (11, 11a, 11b) assoziierten Signals oder, nachdem ermittelt wurde, dass ein für das erste vorgegebene Objekt ermittelter Gesamtkonfidenzwert einen vorgegebenen Schwellwert überschritten hat, ein Aufforderungssignal (S10) zum Zeigen eines Bestätigungsobjekts/einer Bestätigungsgeste ausgegeben wird, wobei das Aufforderungssignal insbesondere als Zeichen in einer Bildanzeigeeinrichtung (5a) ausgegeben wird und insbesondere in Abhängigkeit von dem abzugebenden Steuerbefehl (23) oder dem kategorisierten ersten vorbestimmten Objekt ausgewählt wird. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Aufforderungssignal (S10) auf derselben Bildanzeigeeinrichtung (5) angezeigt wird, in der die aufgenommenen Bilder angezeigt werden, insbesondere auf einer von der Anzeige der aufgenommenen Bilder abgeteilten Teilfläche der Bildanzeigeeinrichtung. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass der Gesamtkonfidenzwert unter Berücksichtigung der Zahl der Bilder bestimmt wird, auf denen das erste vorbestimmte Objekt (11, 11a, 11b) mit einem über einer vorbestimmten Schwelle liegenden Bildkonfidenzwert kategorisiert wurde unter Berücksichtigung der Anzahl der zwischen diesen Bildern liegenden weiteren Bilder, auf denen das erste vorbestimmte Objekt nicht mit einem oberhalb der Schwelle liegenden Bildkonfidenzwert kategorisiert wurde. Verfahren nach einem der Ansprüche 1 bis 6, bei dem die mit dem identifizierten vorbestimmten Objekt (11, 11a, 11b) assoziierte Abbildung auf dem Bildschirm (5, 5a) einen sie umgebenden Rahmen (13, 13a, 13b, 13c) oder einen Streifen, insbesondere in Form eines Fortschrittsbalkens, aufweist, wobei optional die Indizierung des Gesamt- konfidenzwertes durch Anzeigen wenigstens eines der folgenden Merkmale erfolgt: Eine Zahl, insbesondere ein Prozentwert, deren Größe von dem jeweils aktuellen Gesamtkonfidenzwert abhängt;

Eine Breite des Rahmens, die von dem Gesamtkonfidenzwert abhängt;

Eine Farbe oder Helligkeit des Rahmens, die von dem Gesamtkonfidenzwert abhängt;

Ein Auf- und Abblenden des Rahmens mit einer variablen, vom Gesamtkonfidenzwert abhängigen Frequenz;

Die Länge oder Breite, Farbe, Helligkeit oder eine Änderungsfrequenz der Anzeige eines Streifens, die vom Gesamtkonfidenzwert abhängt;

Eine Kombination mehrerer der vorgenannten Merkmale. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass ein identifiziertes Objekt (11, 11a, 11b) in zwei aufeinander folgenden Bildern gleich kategorisiert wird, wenn die Position des identifizierten Objekts im zweiten Bild um nicht mehr als eine festgelegte Anzahl oder eine von der Ausdehnung der Darstellung des ersten Objekts in der Bildanzeigeeinrichtung abhängige Anzahl von Bildpunkten von der Position im ersten Bild abweicht. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass das mit einem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt (11, 11a, 11b) assoziierte Signal in Form einer Abbildung in einer Bildanzeigevorrichtung (5, 5a) nach dem Ausgeben des assoziierten Steuerbefehls (23) wenigstens so lange geändert bleibt, bis der Steuerbefehl abgearbeitet worden ist oder bis derselbe Steuerbefehl sinnvoll erneut abgegeben werden kann. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, dass das Abgeben eines Steuerbefehls (23) oder die Ausführung eines Steuerbefehls unterbrochen wird, falls durch die Verarbeitungseinrichtung (17) in erfassten Bildern ein Abbruchobjekt mindestens mit einem vorgegebenen Abbruch-Gesamtkonfidenzwert erkannt wird. Computeranordnung (1), umfassend: einen Speicher mit einem darin abgelegten Programm; wenigstens einen mit dem Speicher verbundenen Prozessor; wobei das Programm derart ausgebildet ist, dass bei Ausführung der Programmbefehle durch den Prozessor ein Verfahren nach einem der Ansprüche 1 bis 10 ausgeführt wird. Computerprogrammprodukt, das in einem Speicher abgelegte Programmbefehle enthält, bei deren Ausführung durch einen Prozessor ein Verfahren nach einem der Ansprüche 1 bis 10 ausgeführt wird. Steueranordnung für eine Maschine oder ein Maschinenelement (6) mit einem Bildaufnahmesystem zum Aufnehmen einer Vielzahl von Bildern, mit einer Bildanzeigeeinrichtung (5, 5a, 5b)) sowie einer Verarbeitungseinrichtung (17), wobei die Steueranordnung zur Ausführung folgender Verfahrensschritte eingerichtet ist:

Aufnehmen (Sl) einer Vielzahl von Bildern nacheinander mittels eines Bildaufnahmesystems (4a, 4b); insbesondere Ausgeben (S2) aller oder einiger der Vielzahl von aufgenommenen Bildern durch die Bildanzeigeeinrichtung (5, 5a, 5b);

Erfassen (S3) zumindest einer Teilmenge (10) der Vielzahl der aufgenommenen Bilder durch eine Verarbeitungseinrichtung; Identifizieren (S4) wenigstens eines ersten vorbestimmten Objektes (11, 11a, 11b) jeweils auf mehreren nacheinander aufgenommenen Bildern der Teilmenge erfasster Bilder insbesondere durch ein durch maschinenbasiertes Lernen trainiertes Netzwerk (3) der Verarbeitungseinrichtung,

Einordnen des oder eines identifizierten ersten vorbestimmten Objektes (11, 11a, 11b) für mehrere nacheinander aufgenommene Bilder in eine von mehreren Kategorien, die jeweils einem vorbestimmten Objekt oder einer Gruppe von vorbestimmten Objekten zugeordnet sind, wobei jeder Kategorie ein definierter Steuerbefehl (23) zum Steuern der Maschine oder des Maschinenelementes zugeordnet ist(S5), insbesondere durch das Netzwerk;

Ausgeben (S6) eines mit einem identifizierten und/oder in eine Kategorie eingeordneten ersten vorbestimmten Objekt (11, 11a, 11b) assoziierten Signals, insbesondere eines optischen, akustischen oder haptischen Signals, weiter insbesondere Anzeigen einer Abbildung oder eines Symbols (12, 13, 13a) in einer Bildanzeigeeinrichtung (5, 5a, 5b);

Ermitteln jeweils eines Bildkonfidenzwertes für mehrere nach einander aufgenommene Bilder, der die Sicherheit oder Wahrscheinlichkeit angibt, mit der ein erstes vorbestimmtes Objekt auf dem jeweiligen Bild identifiziert und in eine Kategorie eingeordnet wurde; wiederholtes Ermitteln eines Gesamtkonfidenzwertes für das erste vorbestimmte Objekt aus den Bildkonfidenzwerten mehrerer nacheinander aufgenommener Bilder, insbesondere unter Berücksichtigung von deren zeitlicher Anordnung;

Ausgeben eines Gesamtkonfidenzwertes, insbesondere durch ein optisches, akustisches oder haptisches Signal, insbesondere durch eine Anzeige in einer Bildanzeigeeinrichtung, in der auch die mit dem kategorisierten ersten vorbestimmten Objekt assoziierte Abbildung angezeigt wird,

Vergleichen (S7) des Gesamtkonfidenzwertes mit einem vorgegebenen Schwellwert und

Erzeugen (S8) und Abgeben des der Kategorie, in die das identifizierte erste vorbestimmte Objekt (11, 11a, 11b) eingeordnet wurde, zugeordneten Steuerbefehls (23) unter der Bedingung, dass der Gesamtkonfidenzwert für das erste vorbestimmte Objekt den vorgegebenen Schwellwert überschreitet, wobei insbesondere das mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt (11, 11a, 11b) assoziierte Signal (13c) bei Ausgeben des Steuerbefehls geändert wird.

14. Steueranordnung nach Anspruch 13, die dazu eingerichtet ist, einen Steuerbefehl (23) nur unter der zusätzlichen Bedingung auszugeben, dass durch die Verarbeitungseinrichtung (17) zusätzlich zu dem ersten vorbestimmten Objekt (11, 11a, 11b) ein von dem ersten vorbestimm- ten Objekt verschiedenes Bestätigungsobjekt wenigstens mit einem vorbestimmten Bestätigungs-Gesamtkonfidenzwert identifiziert und einer Bestätigungskategorie zugeordnet wird oder die dazu eingerichtet ist ein Verfahren nach einem der Ansprüche 1 bis 11 auszuführen. 15. Steueranordnung nach Anspruch 13 oder 14, dadurch gekennzeichnet, dass sie sowohl eine Anzeigeeinrichtung (5, 5a, 5b) zur Anzeige von aufgenommenen Bildern und von Abbildungen aufweist, die ersten vorgegebenen Objekten (11, 11a, 11b) zugeordnet sind, als auch wenigstens entweder eine Ausgabeeinrichtung (7) für akustische Signale oder eine Ausgabeeinrichtung (7) für haptische Signale.

Description:
VERFAHREN ZUR STEUERUNG EINER MASCHINE ODER EINES MASCHINENELEMENTES UND STEUERANORDNUNG

Die vorliegende Erfindung liegt auf dem Gebiet der Steuerungstechnik und der Elektronik und betrifft ein Verfahren zur Steuerung einer Maschine oder eines

Maschinenelementes. Die Erfindung betrifft weiterhin eine Steueranordnung sowie eine Computeranordnung und ein Computerprogrammprodukt. Im Bereich der Robotik, jedoch auch generell bei steuerbaren Maschinen, die eine gewisse Komplexität aufweisen oder in einem komplexen Umfeld eingesetzt werden, wird eine effiziente Gestaltung der Mensch-Maschine-Interaktion zur

ERSATZBLATT (REGEL 26) Steuerung von komplexen Vorgängen und Vorrichtungen zunehmend wichtiger. Moderne Bedienungsinterfaces umfassen außer möglichen Tastatureingaben und Eingaben durch andere Hardwareelemente wie Joysticks und Pads auch weitere Eingabe kanäle. Dazu zählen Kommandos, die ein Benutzer an eine Maschine nicht mehr mittels manueller Eingabe, sondern mit Gesten, oder durch Laute übermittelt.

Zu diesem Zweck sollten Maschinen derartige Kommandos möglichst autonom erkennen z.B., wenn Gefahr im Verzug ist oder ein Benutzer währenddessen zusätzlich weitere Tätigkeiten ausführt.

Aus der Perspektive eines Benutzers, der mit einer Maschine interagiert, steht im Vordergrund, dass seine Kommandos, beispielsweise Gesten, zum einen zuverlässig und zum anderen schnellstmöglich erkannt werden.

Ein Problem bei einer Steuerung durch optische Signale, beispielsweise Gesten, besteht oft in der auftretenden Zeitverzögerung, die zwischen dem Signal des Menschen und der erkennbaren Ausführung eines entsprechenden Steuerungsbefehls liegt. Je nach verwendetem Algorithmus kann die Zeitverzögerung zwischen der Geste und der dazugehörigen Aktion der Maschine mehrere 100ms bis zu wenigen Sekunden betragen.

Diese Verzögerung kann dazu führen, dass der Benutzer die Geste abbricht o- der verändert, weil er von der Maschine kein Feedback erhält und so nicht beurteilen kann, ob das Signal nicht oder falsch interpretiert wurde.

Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, die Schnelligkeit und Zuverlässigkeit der Kommandoerkennung bei der Steuerung einer Maschine oder eines Maschinenelementes und somit die Interaktion zwischen Mensch und Maschine zu verbessern.

Die Aufgabe wird mit den Merkmalen der Erfindung durch die Gegenstände der unabhängigen Patentansprüche, das heißt durch ein Verfahren, eine Computeranordnung, ein Computerprogrammprodukt und eine Steueranordnung gelöst. Die abhängigen Patentansprüche geben mögliche Ausführungsformen an.

ERSATZBLATT (REGEL 26) Somit bezieht sich die Erfindung auf ein Verfahren zur Steuerung einer Maschine oder eines Maschinenelements, umfassend:

Aufnehmen einer Vielzahl von Bildern nacheinander mittels eines Bildaufnahmesystems; insbesondere Ausgeben aller oder einiger der Vielzahl von aufgenommenen Bildern durch eine Bildanzeigeeinrichtung;

Erfassen zumindest einer Teilmenge der Vielzahl der aufgenommenen Bilder durch eine Verarbeitungseinrichtung;

Identifizieren wenigstens eines ersten vorbestimmten Objektes jeweils auf mehreren nacheinander aufgenommenen Bildern der Teilmenge erfasster Bilder insbesondere durch ein durch maschinenbasiertes Lernen trainiertes Netzwerk,

Einordnen des oder eines identifizierten ersten vorbestimmten Objektes für mehrere nacheinander aufgenommene Bilder in eine von mehreren Kategorien, die jeweils einem vorbestimmten Objekt oder einer Gruppe von vorbestimmten Objekten zugeordnet sind, wobei jeder Kategorie ein definierter Steuerbefehl zum Steuern der Maschine oder des Maschinenelementes zugeordnet ist, insbesondere durch das Netzwerk;

Ausgeben eines mit einem identifizierten und/oder in eine Kategorie eingeordneten ersten vorbestimmten Objekt assoziierten Signals, insbesondere eines optischen, akustischen oder haptischen Signals, weiter insbesondere Anzeigen einer Abbildung oder eines Symbols in einer Bildanzeigeeinrichtung;

Ermitteln jeweils eines Bildkonfidenzwertes für mehrere nacheinander aufgenommene Bilder, der die Sicherheit oder Wahrscheinlichkeit angibt, mit der ein erstes vorbestimmtes Objekt auf dem jeweiligen Bild identifiziert und einer Kategorie zugeordnet wurde;

Wiederholtes Ermitteln eines Gesamtkonfidenzwertes für das erste vorbestimmte Objekt aus den Bildkonfidenzwerten mehrerer nacheinander aufgenommener Bilder, insbesondere unter Berücksichtigung von deren zeitlicher Anordnung;

Ausgeben eines Gesamtkonfidenzwertes, insbesondere durch ein optisches, akustisches oder haptisches Signal, insbesondere durch eine Anzeige in einer Bildanzeigeeinrichtung, in der auch die mit dem kategorisierten ersten vorbestimmten Objekt assoziierte Abbildung oder das assoziierte Symbol angezeigt wird,

Vergleichen des Gesamtkonfidenzwertes mit einem Schwellwert und

ERSATZBLATT (REGEL 26) Erzeugen und Abgeben des der Kategorie, in die das identifizierte erste vorbestimmte Objekt eingeordnet wurde, zugeordneten Steuerbefehls unter der Bedingung, dass der Gesamtkonfidenzwert einen vorgegebenen Schwellwert überschreitet, wobei insbesondere das mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt assoziierte Signal, bei Ausgeben des Steuerbefehls geändert wird.

Für eine zuverlässige Erkennung von optischen Signalen in der Form von erkennbaren Objekten und folglich eine korrekte Aktivierung von Steuerbefehlen sollten mehrere Kriterien erfüllt sein. Beispielsweise sollte das jeweilige Objekt über mehrere nacheinander aufgenommene Bilder/Frames erkannt werden, und die Position Form und Größe des erkannten Objekts sollte sich nur höchstens um einen bestimmten Wert ändern. Objekte können dabei vorbestimmte und durch Bilder oder Bildfolgen repräsentierbare Gesten sein, die ein Benutzer beispielsweise mit einer oder beiden Händen vollziehen kann.

Das genannte Verfahren übermittelt dem Benutzer, während dieser die Geste vollzieht, Information über die Identifizierung der Geste sowie die entsprechende Kategorisierung. Auf diese Weise kann der Benutzer entweder seine Geste anpassen bzw. leicht verändern, und auch für den notwendigen Zeitraum aufrechterhalten, bis die Ausführung des durch die Geste angestrebten Steuerbefehls von der Maschine gestartet wird. Entsprechend wird bei einem Verfahren eine Vielzahl von Bildern mit einem Bildaufnahmesystem aufgenommen, aus denen die Gesten eines Benutzers identifiziert und auch kategorisiert werden. Zudem werden die aufgenommenen Bilder auch optional wieder ausgegeben, z.B. in einer Bildanzeigeeinrichtung, beispielsweise auf einem stationären Bildschirm, auf einem Bildschirm eines mobilen Gerätes oder in einer head-up- Anzeigeeinrichtung, so dass der Benutzer seine Geste sehen und auch anpassen kann, wenn dies notwendig erscheint. Dies verbessert die Erkennung der Geste durch das Feedback an den Benutzer.

Das Bildaufnahmesystem kann mehrere Kameras oder Scanner aufweisen, die auch im Abstand voneinander angeordnet sein und den Benutzer aus verschiedenen Betrachtungswinkeln aufnehmen können. Die verschiedenen jeweils gleichzeitig aufgenommenen Bilder verschiedener Kameras können für eine

ERSATZBLATT (REGEL 26) dreidimensionale Analyse einer Geste vor, während oder nach der Identifikation oder Kategorisierung kombiniert werden, um eine höhere Erkennungssicherheit zu erreichen oder bei bestimmten Gesten erst eine Identifizierung zu ermöglichen. Unter den Bildern, die erfasst werden, können im Rahmen einer 3-dimensionalen Erfassung auch 3-dimensionale Repräsentationen von Objek- ten/Gesten verstanden werden.

Alle aufgenommenen Bilder oder eine Teilmenge von diesen werden einer Ver- arbeitungseinrichtung zugeführt, die eine Analyseeinrichtung mit einem trainierten Algorithmus, beispielsweise einem trainierten neuronalen Netz enthalten kann. Der Analyseeinrichtung kann beispielsweise eine Auswahl der aufgenommenen Bilder zugeführt werden, die besonders gute Bildqualität aufweist und/oder einer Bildmenge entspricht, die von der Analyseeinrichtung aufgrund ihrer Kapazität gut ohne Zeitverzug verarbeitet werden kann. Hierzu kann beispielsweise nur ein festgelegter Anteil der aufgenommenen Bilder der Verarbeitungseinrichtung zugeführt werden.

Umfasst die Analyseeinrichtung ein neuronales Netz zur Identifizierung und Kategorisierung von graphischen Objekten, so kann dieses vorteilhaft ein CNN, ein sogenanntes Convolutional Neural Network sein, da sich derartige Netzwerke durch die Auswahl, Gestaltung und Anzahl ihrer zwischen der Eingangsseite und der Ausgangsseite geschichteten Lagen besonders für die Identifizierung von Objekten in Bilddateien und eine anschließende Kategorisierung eignen.

Die Analyseeinrichtung bzw. ein selbstlernendes Element innerhalb der Analyseeinrichtung kann mit einer Vielzahl von Bildern trainiert werden, die Gesten in verschiedener Deutlichkeit und mit verschiedenen Bildqualitäten enthalten. Zu jedem Bild wird dann im Trainingsmodus der Analyseeinrichtung die intendierte Geste und ein Konfidenzwert zur Verfügung gestellt. Das derart trainierte Netz kann dann Objekte/Gesten erkennen und kategorisieren. Der Konfidenzwert kann ebenfalls durch das genannte neuronale Netz oder ein weiteres, zweites neuronales Netz ermittelt werden, das mit Bildern von Objekten/Ges- ten trainiert wird, die ihm bekannt sind und die auf Bildern durch bestimmte Bildverarbeitungswerkzeuge in kontrollierter Form mehr oder weniger verzerrt dargestellt sind.

ERSATZBLATT (REGEL 26) Bei der Anwendung erkennt die Analyseeinrichtung in einem ersten Schritt, dass eine Geste vorliegt, beispielsweise, wenn ein Benutzer in seiner natürlichen Bewegung innehält und wenigstens eine Hand hebt. Die Identifizierung kann durch eine Mustererkennung erfolgen.

Gesten sollen in diesem Zusammenhang in erster Linie unbewegte Zeichen sein, die ein Benutzer mit Körperteilen, insbesondere mit den Händen, aber beispielsweise auch mit dem Kopf formen kann. Das Verfahren kann sich jedoch auch auf bestimmte elementare Bewegungen beziehen, die als bewegte Zeichen oder Gesten (sogenannte moves) erkennbar sind. Auch diese lassen sich über eine optische Mustererkennung identifizieren, wobei die Bewegungsmuster in der Form mehrerer zeitlich nacheinander aufgenommener Bilder mit entsprechenden Bildfolgen aus einer Speichereinrichtung verglichen werden oder entsprechende kurze Bewegungsabfolgen einem neuronalen Netz antrainiert werden.

Hat die Analyseeinrichtung eine Geste identifiziert, so vergleicht sie diese mit vorbestimmten Objekten/Kategorien von Objekten, die in einer Speichereinrichtung gespeichert sind und ermittelt Ähnlichkeiten mit diesen Objekten. Wenn die Ähnlichkeit eines identifizierten Objektes mit einem vorbestimmten gespeicherten Objekt oder einer Kategorie die Ähnlichkeit mit anderen vorbestimmten Objekten deutlich überwiegt, dann wird das identifizierte Objekt der jeweiligen Kategorie zugeordnet, mit der dann auch ein Steuerbefehl verknüpft ist.

Die Schritte der Identifizierung eines Objektes und der Einordnung in eine Kategorie können je nach verwendetem trainierten Algorithmus/Netz mit einem CNN, einem convolutional neural Network, das durch seine Anzahl von Neuro- nenlagen in vielen Fällen zum „deep learning" befähigt sein kann, gemeinsam und gleichzeitig oder auch sequentiell durchgeführt werden.

Die Ähnlichkeitsmetriken, die für derartige Vergleiche eingesetzt werden, sind aus der Bildverarbeitung hinlänglich bekannt. Dabei werden Größenabweichungen sowie Orientierungsabweichungen, das heißt Drehungen des identifizierten Objekts gegenüber einer gespeicherten Darstellung, in einem vorbestimmten Maß zugelassen und bei der Ähnlichkeitsanalyse ausgeglichen. CNN

ERSATZBLATT (REGEL 26) haben sich in diesem Zusammenhang als translationsinvariant herausgestellt und können Verschiebungen der erkannten Objekte besonders gut ausgleichen. Aus der Ähnlichkeit oder dem Maß von Übereinstimmungen eines erkannten und identifizierten Objekts/einer Geste das/die aus einem oder mehreren gleichzeitig aufgenommenen Bildern ermittelt wird, mit einem gespeicherten Referenzobjekt einer bestimmten Kategorie, in die das erkannte Objekt eingeordnet wird, wird ein Bildkonfidenzwert ermittelt, der proportional zu der Ähnlichkeit sein oder mit der Ähnlichkeit auch direkt identisch sein kann. Bei der Ermittlung des Bildkonfidenzwertes kann auch die von dem Objekt, beispielsweise der Deutlichkeit der Geste, unabhängige Bildqualität berücksichtigt werden, die beispielsweise von Wetterbedingungen und der Helligkeit abhängig sein kann. Ein Bildkonfidenzwert bezieht sich jeweils nur auf ein Bild oder eine Gruppe von gleichzeitig oder nahezu gleichzeitig aufgenommenen Bildern. Der Konfidenzwert gibt die vom Netzwerk ermittelte Wahrscheinlichkeit wieder, dass -basierend auf der Ground truth- das kategorisierte Objekt dem wahren Objekt und damit der korrekten Geste entspricht. Bei CNNs gibt es einen layer, in dem die Ergebnisse der Analyse kategorisiert werden und die Zuordnung zu den möglichen Kategorien sich in Gewichten der einzelnen Elemente des layers ausdrückt. Somit kann die Zuverlässigkeit der Kategorisierung, auf ein Bild bezogen, in einem solchen Netz unmittelbar an der Ausgangslage von Knoten abgegriffen werden. In diesem Zusammenhang wird der englische Begriff „layer" als eingeführter Fachbegriff für eine Lage von Knoten eines Netzes verwendet.

Parallel zum eigentlichen Analyseprozess kann dem Benutzer auch laufend signalisiert werden, dass und welche vorbestimmte Geste momentan erkannt wird und/oder, wenn der Bildkonfidenzwert, das heißt der Zuverlässigkeitswert der Erkennung der Geste auf ein Bild oder mehrere gleichzeitig aufgenommene Bilder bezogen, erstmalig eine vorbestimmte Schwelle, insbesondere die für die Abgabe eines Steuerbefehls festgelegte Schwelle, übersteigt.

Eine weitere Ausgestaltung des Verfahrens kann vorsehen, dass ein Gesamt- konfidenzwert unter Berücksichtigung der Zahl der Bilder bestimmt wird, auf denen das erste vorbestimmte Objekt mit einem über einer vorbestimmten Schwelle liegenden Bildkonfidenzwert kategorisiert wurde unter Berücksichti-

ERSATZBLATT (REGEL 26) gung der Anzahl der zwischen diesen Bildern liegenden weiteren Bilder, auf denen das erste vorbestimmte Objekt nicht mit einem oberhalb der Schwelle liegenden Bildkonfidenzwert kategorisiert wurde.

Um die Beständigkeit einer Geste oder eines erkannten Objekts in die Bewertung der Zuverlässigkeit der Erkennung mit einzubeziehen, wird aus mehreren Bildkonfidenzwerten, die sich auf nacheinander aufgenommene Bilder beziehen, ein Gesamtkonfidenzwert ermittelt, der die Bildkonfidenzwerte miteinander verknüpft. Da während der Aufnahme von Bildern laufen Bildkonfidenzwerte ermittelt werden, ist es sinnvoll, auch wiederholt die jeweils zuletzt ermittelten Bildkonfidenzwerte auszuwerten und aus diesen laufend aktualisierte Gesamtkonfidenzwerte zu bilden, um zu überwachen, wann ein Gesamtkonfidenzwert hoch genug ist, um einen Steuerbefehl auszulösen. Der Gesamtkonfidenzwert gibt dabei in einer Ausführungsform die von dem trainierten Netz ermittelte Wahrscheinlichkeit wieder, dass das identifizierte und kategorisierte Objekt stabil einer gezeigten Geste/einem gezeigten Objekt entspricht.

Die Ermittlung des Gesamtkonfidenzwertes kann in einem analytischen Schritt ausgeführt werden, der die Ergebnisse der Ausgabe des neuronalen Netzes nach einem festen Algorithmus weiterverarbeitet, jedoch kann in einer anderen Implementierung auch die Ermittlung des Gesamtkonfidenzwertes innerhalb des neuronalen Netzes erfolgen. Dies würde einen internen Zustandsspeicher innerhalb des neuronalen Netzes erfordern, in dem Daten zur weiteren Bearbeitung durch das Netz zwischengespeichert werden.

Es können zur Ermittlung eines Gesamtkonfidenzwertes beispielsweise jeweils eine festgelegte Anzahl der zuletzt ermittelten Bildkonfidenzwerte aufgenommener Bilder verknüpft werden oder es können jeweils die in einem gleitenden Zeitfenster ermittelten Bildkonfidenzwerte verknüpft werden. Dabei kann eine Schwelle für die Bildkonfidenzwerte gesetzt werden, oberhalb deren die Bildkonfidenzwerte verarbeitet werden. Wird dann eine bestimmte Zahl oder ein bestimmter Anteil von Bildkonfidenzwerten oberhalb der Schwelle in einer vorgegebenen Zeiteinheit oder innerhalb einer vorgegebenen Anzahl von aufeinander folgenden Bildkonfidenzwerten erreicht, so überschreitet der Gesamtkonfidenzwert die Schwelle, die für die Abgabe eines Steuerbefehls notwendig ist. Dabei kann die zeitliche Anordnung der Bildkonfidenzwerte, die die

ERSATZBLATT (REGEL 26) Schwelle überschreiten, für die Ermittlung des Gesamtkonfidenzwertes berücksichtigt werden. Beispielsweise kann für das Erreichen der Schwelle des Gesamtkonfidenzwertes die Bedingung gestellt werden, dass zwischen der Anzahl von Bildkonfidenzwerten, die jeweils über der erforderlichen Bildkonfidenz- schwelle liegen, weniger als eine vorgegebene Anzahl oder ein vorgegebener Anteil von Bildkonfidenzwerten unterhalb der Schwelle liegen müssen. Einzelne Bildkonfidenzwerte unterhalb der Schwelle können zulässig sein, um beispielsweise Fehlmessungen auszugleichen. Für das Erreichen der Schwelle des Gesamtkonfidenzwertes können auch zeitliche Bedingungen gestellt werden, beispielsweise die Bedingung, dass innerhalb einer vorgegebenen Zeit eine bestimmte Anzahl oder ein bestimmter Anteil von Bildkonfidenzwerten oberhalb der Bildkonfidenzschwelle liegen müssen.

Erreicht oder überschreitet der ermittelte Gesamtkonfidenzwert die für die Abgabe eines Steuerbefehls erforderliche Schwelle, so kann ein Signal an den Benutzer abgegeben werden, so dass er erfährt, dass das Objekt/seine Geste zuverlässig erkannt worden ist. Das Signal kann beispielsweise über eine Anzeigeeinrichtung oder einen akustischen Signalgeber oder auch in haptischer Form, beispielsweise durch ein Vibrationssignal an einem Wearable, einem mit Vibrationselementen ausgestatteten Handschuh oder einem Bedienelement, zum Beispiel einem Joystick, erfolgen. Die erkannte Geste kann zusätzlich übermittelt, beispielsweise auf einer Bildanzeigeeinrichtung in der Form eines standardisierten Symbols für die erkannte Geste oder in der Form der erfassten Bilder, in denen die erkannte Geste durch einen Rahmen oder Hinweissymbole markiert ist, angezeigt oder durch eine Ansage übermittelt werden. Bei einer Signalausgabe in akustischer oder haptischer Form wird eine Ablenkung des Blickes des Benutzers, der möglicherweise auf eine Arbeitssituation der zu steuernden Maschine gerichtet ist, vermieden. Bei Verwendung einer Bildanzeige kann diese beispielsweise auf einem mobilen Gerät oder in Form eines head- up-displays implementiert sein, um eine Ablenkung des Blicks des Benutzers zu vermeiden.

Somit wird dem Benutzer ein Feedback über das identifizierte und in einigen Fällen auch schon in eine Kategorie eingeordnete Objekt gegeben. Zusätzlich kann auch der momentane Bildkonfidenzwert oder ein Gesamtkonfidenzwert signalisiert werden, beispielsweise ebenfalls über eine Abbildung oder über ein

ERSATZBLATT (REGEL 26) akustisches oder haptisches Signal. Der Benutzer erhält die Information, welches der in den Bildern dargestellten Gegenstände von dem Netzwerk als Geste/Objekt identifiziert wurde, und welche Geste dieser Gegenstand nach der Kategorisierung darstellen soll. Dies erlaubt dem Benutzer bereits frühzeitig einzugreifen, wenn beispielsweise das Objekt falsch identifiziert wird, die falsche Geste kategorisiert ist oder auch die Identifizierung aufgrund äußerer Parameter (z.B. Haltung der Hand, Lichteinfall etc.) immer wieder fehlschlägt. Sobald der Gesamtkonfidenzwert die Schwelle für die Abgabe eines Steuerbefehls überschreitet, kann ein gesondertes Signal angezeigt oder akustisch oder haptisch übertragen werden.

In einigen Ausführungen wird ein mit dem abgegebenen Steuerbefehl assoziierten Zeichen auf dem Bildschirm ausgegeben. Dies kann beispielsweise die Geste sein, die erkannt wurde oder auch eine Bezeichnung oder eine kurze Beschreibung des auszuführenden Steuerbefehls. Ebenso kann das mit dem identifizierten Objekt assoziierte Zeichen auf dem Bildschirm nach einer definierten Zeitspanne unmittelbar beim Abgeben des Steuerbefehls geändert werden und/oder nach einem Abgeben des zugeordneten Steuerbefehls wieder entfernt werden. Auf diese Weise wird dem Benutzer angezeigt, dass das System für eine neue Geste zur Verfügung steht und/oder dass die bereits erkannte Geste zur Initiierung des bereits ausgeführten Steuerbefehls im Moment nicht zur Verfügung steht.

Weiter kann vorgesehen sein, dass bei Unterschreiten des Schwellwertes durch die dem kategorisierten Objekt zugeordneten Gesamtkonfidenzwerte für eine bestimmte Anzahl der Teilmenge aufgenommener Bilder das mit dem identifizierten Objekt assoziierte Zeichen auf dem Bildschirm wieder entfernt wird. Allerdings kann es in einigen Fällen nicht sinnvoll sein, dies bei einem einzelnen Unterschreiten eines Schwellwertes durch den Gesamtkonfidenzwert schon durchzuführen. Vielmehr kann das vorgeschlagene Verfahren eine gewisse Toleranz bei einer Fehlkategorisierung oder einer Kategorisierung mit kleinen Bildkonfidenzwerten aufweisen.

Die Anzahl der Bilder aus der Teilmenge der erfassten Bilder, bei der ein identifiziertes und kategorisiertes Objekt mit dem Bildkonfidenzwert über der Schwelle liegen muss, um einen für eine Steuerbefehlsausgabe ausreichenden

ERSATZBLATT (REGEL 26) Gesamtkonfidenzwert zu erreichen, kann in einigen Fällen von der Kategorie des Objekts bzw. von dem kategorisierten Objekt selbst abhängen. Entsprechend ist es auf diese Weise möglich, dass bestimmte kategorisierte Objekte mit einer höheren Priorität bzw. schneller einen damit assoziierten Steuerbefehl hervorrufen als andere. So kann beispielsweise bei einem kategorisierten Objekt, dem ein Stopp-Steuerbefehl zugeordnet ist, die Anzahl der Bilder, bei denen das identifizierte Objekt für eine Steuerbefehlsabgabe mit einem ausreichend hohen Bildkonfidenzwert kategorisiert werden muss, deutlich kleiner (beispielsweise wenigstens 30% oder wenigstens 60% kleiner) sein oder die Zeit, über die ein bestimmter Bildkonfidenzwert erreicht sein muss, deutlich kürzer(beispielsweise wenigstens 30% oder wenigstens 60% kürzer) sein, als bei Gesten, die mit anderen Steuerbefehlen verknüpft sind.

Zudem kann bei der Erkennung eines Objektes/einer Geste in einem einzelnen Bild eine Toleranz vorgesehen sein, die das Erkennen eines Objektes auch bei einer optischen Vergrößerung oder Verkleinerung um einen bestimmten Faktor durch Änderung der Entfernung von einem Bilderfassungssystem oder eine laterale Verschiebung noch ermöglicht.

Der Wert der noch akzeptierten Vergrößerung oder Verkleinerung und der Wert der akzeptablen Verschiebung kann proportional sein zur Größe des Objektes bzw. Größe eines um das Objekt gelegten Rahmens. Diese Toleranzen und Überwachungen sind wichtig, damit die Gestenerkennung einen Anhaltspunkt hat, ob es sich um eine Eingabe oder um mehrere bzw. sich ändernde Nutzer handelt. In einigen Fällen können Objekte, beispielsweise Handgesten, welche in der Mitte des erfassten Bildes sind, bevorzugt erkannt, d.h. identifiziert oder auch kategorisiert werden. Das neuronale Netz wird in diesen Fällen vor allem darauf trainiert, Objekte im Zentrum der erfassten Bilder zu identifizieren und kategorisieren. Daher kann unter einerTeilmenge der aufgenommenen Bilder, die durch die Verarbeitungseinrichtung erfasst und durch das neuronale Netz weiterverarbeitet werden, außer einer Auswahl von Bildern auch eine Auswahl von Ausschnitten aus allen Bildern oder aus einer Teilmenge von Bildern verstanden werden.

Ein weiterer Aspekt betrifft ein Sperren weiterer Steuerbefehle, bis der vorangegangene Steuerbefehl, dessen Geste erkannt wurde abgearbeitet ist. Hierzu

ERSATZBLATT (REGEL 26) ist ebenfalls vorgesehen, das Sperren der Geste einem Benutzer anzugzeigen. Entsprechend erfolgt in einigen Fällen eine Änderung des mit dem identifizierten bzw. kategorisierten Objekt assoziierten Zeichens in der Bildanzeige unmittelbar nach dem Abgeben des Steuerbefehls, und das betreffende Objekt/die Geste wird anschließend für eine Erkennung gesperrt, zumindest bis der Steuerbefehl abgearbeitet ist.

Unter dem Begriff „sperren" wird verstanden, dass eine weitere Identifizierung oder Kategorisierung einer bestimmten Geste nicht angezeigt wird und auch nicht zur Abgabe eines Steuerbefehls führen kann. Auf diese Weise wird der Benutzer darauf hingewiesen, dass der dieser Geste entsprechende, erkannte Steuerbefehl noch nicht abgeschlossen ist. Entsprechend wird in diesen Fällen auch ein erneutes Identifizieren bzw. Kategorisieren eines Objektes nicht angezeigt, selbst in Fällen, in denen dieses im Hintergrund noch weiter ausgeführt wird. In anderen Fällen kann die Gestenerkennung auch für eine oder mehrere Gesten unterbrochen werden bis der Steuerbefehl abgearbeitet ist.

Die Sperre kann dem Benutzer auf verschiedene Weise mitgeteilt werden, z.B. durch Anzeigen eines weiteren Zeichens in einer Anzeigeeinrichtung, oder durch eine weitere Änderung der mit dem identifizierten und kategorisierten Objekt verknüpften Abbildung. Beispielsweise kann nach dem korrekten Erkennen ein Icon der erkannten Geste, ausgegeben werden, dessen Farbe sich ändert, nachdem der Steuerbefehl abgegeben wurde. Die geänderte Farbe bleibt dann erhalten, solange der Steuerbefehl ausgeführt wird.

In einigen Fällen können aber auch die Gestenidentifizierung und die Kategorisierung im Hintergrund fortgesetzt werden. Dies ist dann zweckmäßig, wenn es Objekte oder Gesten gibt, die beispielsweise mit dem Steuerbefehl „Stopp" cider einem gleichbedeutenden Abbruchbefehl assoziiert sind. Dadurch wird sichergestellt, dass ein Benutzer jederzeit die Bewegung der Maschine oder eine ausgeübte Funktion durch eine weitere Geste unterbrechen kann.

Es kann in einer Ausführungsform des Verfahrens vorgesehen sein, dass ein Steuerbefehl nur unter der zusätzlichen Bedingung ausgegeben wird, dass durch die Verarbeitungseinrichtung zusätzlich zu dem ersten vorbestimmten

ERSATZBLATT (REGEL 26) Objekt ein von dem ersten vorbestimmten Objekt verschiedenes Bestätigungsobjekt wenigstens mit einem vorbestimmten Bestätigungs-Gesamtkonfidenz- wert erkannt wird.

Damit wird in ausreichendem Maß sichergestellt, dass ein Steuerbefehl nur dann ausgegeben wird, wenn er auch beabsichtigt ist und durch eine auf die ursprünglich erkannte und kategorisierte Geste folgende Bestätigungsgeste bestätigt wird. Die Abgabe eines Steuerbefehls kann dann nicht zufällig erfolgen, nur weil eine bestimmte Geste unbeabsichtigt stabil gehalten wird. Die Gefahr von Fehlbedienungen wird so zuverlässig vermieden und Sicherheitsvorschriften können damit eingehalten werden.

Zudem kann vorgesehen sein, dass die Erkennung, konkret die Identifizierung und Einordnung eines Bestätigungsobjektes in eine Kategorie/Kategorisierung, erst nach dem Ausgeben eines mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt assoziierten Signals zugelassen wird, insbesondere nur unter der zusätzlichen Bedingung, dass der Gesamtkonfidenzwert für das erste vorbestimmte Objekt/die erste vorbestimmte Geste einen vorgegebenen Schwellwert überschreitet.

Damit wird verhindert, dass eine Bestätigungsgeste vorschnell, beispielsweise schon gelichzeitig mit einer Geste zur Auswahl eines Steuerbefehls, und damit fahrlässig, abgegeben werden kann oder zu einer Identifizierung und Einordnung in eine Kategorie führt.

Ist bereits durch den Gesamtkonfidenzwert des ersten vorbestimmten Objektes die für die Ausgabe eines Steuerbefehls festgelegte Schwelle überschritten, so kann mit dem Bestätigungsbefehl, also mit dem Zeigen eines Bestätigungsobjektes oder einer Bestätigungsgeste, der Zeitpunkt bestimmt werden, zu dem der Steuerbefehl ausgegeben wird. Dies kann besonders komfortabel sein, wenn der Schwellwert des Bestätigungs- Gesamtkonfidenzwertes, also des Ge- samtkonfidenzwertes, der für das mit einem Bestätigungsbefehl verknüpfte Be- stätigungsobjekt/die Bestätigungsgeste festgelegt ist, niedriger ist als die Schwellwerte für andere vorbestimmte Objekte. Dadurch ist es wahrscheinlich, dass der Zeitverzug beim Erkennen eines Bestätigungsobjektes kurz ist.

ERSATZBLATT (REGEL 26) Wenn bereits ein erstes Objekt/eine Geste erkannt wurde und durch den Ge- samtkonfidenzwert des ersten vorbestimmten Objektes die für die Ausgabe eines Steuerbefehls festgelegte Schwelle überschritten wurde kann auch die Analyseeinrichtung in eine Betriebsart wechseln, in der sie ausschließlich versucht, ein Bestätigungsobjekt oder eine Bestätigungsgeste zu identifizieren oder zu erkennen. Damit sinken der Bearbeitungsaufwand und die Reaktionszeit für die Verarbeitung der folgenden Bilder. Die Identifizierung eines Bestätigungsobjektes und seine Einordnung in eine Kategorie, in diesem Fall speziell die Kategorie der Bestätigungsobjekte, wird vereinfacht und beschleunigt.

Außerdem kann vorgesehen sein, dass, nach dem Ausgeben eines mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt assoziierten Signals oder, nachdem ermittelt wurde, dass ein für das erste vorgegebene Objekt ermittelter Gesamtkonfidenzwert einen vorgegebenen Schwellwert überschritten hat, ein Aufforderungssignal zum Zeigen eines Bestätigungs- objekts/einer Bestätigungsgeste ausgegeben wird, wobei das Aufforderungssignal insbesondere als Zeichen in einer Bildanzeigeeinrichtung ausgegeben wird und insbesondere in Abhängigkeit von dem abzugebenden Steuerbefehl oder dem kategorisierten ersten vorgegebenen Objekt ausgewählt wird.

Auch mit einer solchen Option wird eine Erhöhung der Bedienungssicherheit und ein Schutz gegen die Verwechselung verschiedener Gesten/ Objekte erreicht.

Es kann zudem vorgesehen sein, dass das Aufforderungssignal auf derselben Bildanzeigeeinrichtung angezeigt wird, in der die aufgenommenen Bilder angezeigt werden, insbesondere auf einer von der Anzeige der aufgenommenen Bilder abgeteilten Teilfläche der Bildanzeigeeinrichtung.

Damit braucht der Benutzer den Blick nicht von einer Anzeigeeinrichtung abzuwenden, auf der er möglicherweise seine Geste oder einen zugeordneten Steuerbefehl sehen kann, um die Aufforderung zu erkennen. Eine andere Option kann auch vorsehen, dass das Aufforderungssignal als akustisches oder haptisches Signal ausgegeben wird, so dass in diesen Fällen ebenfalls nicht die Notwendigkeit besteht, den Blick von dem beobachteten Geschehen oder einer Anzeigeeinrichtung abzuwenden.

ERSATZBLATT (REGEL 26) Weiter kann ein Verfahren vorgesehen sein, bei dem die mit dem identifizierten vorbestimmten Objekt assoziierte Abbildung auf dem Bildschirm einen sie umgebenden Rahmen oder einen Streifen, insbesondere in Form eines Fortschrittsbalkens, aufweist, wobei optional die Indizierung des Gesamtkonfidenz- wertes durch Anzeigen wenigstens eines der folgenden Merkmale erfolgt:

Eine Zahl, insbesondere ein Prozentwert, deren Größe von dem jeweils aktuellen Gesamtkonfidenzwert abhängt;

Eine Breite des Rahmens, die von dem Gesamtkonfidenzwert abhängt;

Eine Farbe oder Helligkeit des Rahmens, die von dem Gesamtkonfidenzwert abhängt;

Ein Auf-und Abblenden des Rahmens mit einer variablen, vom Gesamtkonfidenzwert abhängigen Frequenz;

Die Länge oder Breite, Farbe, Helligkeit oder eine Änderungsfrequenz der Anzeige eines Streifens, die von dem Gesamtkonfidenzwert abhängt;

Eine Kombination mehrerer der vorgenannten Merkmale.

Der Rahmen kann dabei ebenso eine rechteckige, wie auch eine runde oder ovale Form haben und insbesondere eine geschlossene Form haben und der Streifen kann gerade oder gekrümmt sein und beispielsweise, wenn er seine volle Länge erreicht hat, das dargestellte Objekt vollständig umgeben.

Damit ergeben sich transparente Anzeigemöglichkeiten für den Benutzer, die ihm intuitiv die Wahrnehmung des momentanen Gesamtkonfidenzwertes ermöglichen.

Im Falle der Signalisierung über akustische oder haptische Signale können diese in Abhängigkeit vom Gesamtkonfidenzwert mit einer modulierbaren Frequenz an- und abgeschaltet werden oder die Frequenz einer Vibration oder eines ausgegebenen Signaltones kann in Abhängigkeit vom Gesamtkonfidenzwert geändert werden.

Es kann weiter vorgesehen sein, dass ein identifiziertes Objekt in zwei aufeinander folgenden Bildern gleich kategorisiert wird, wenn die Position des identifizierten Objekts im zweiten Bild um nicht mehr als eine festgelegte Anzahl oder

ERSATZBLATT (REGEL 26) eine von der Ausdehnung der Darstellung des ersten Objekts in der Bildanzeigeeinrichtung abhängige Anzahl von Bildpunkten von der Position im ersten Bild abweicht.

Damit kann das Funktionieren der Analyseeinrichtung vereinfacht werden, da diese nicht in jedem neuen Bild eine Identifizierung und Kategorisierung von Objekten vornehmen muss, sondern zunächst ein zuletzt gefundenes vorbestimmtes Objekt auf einem nachfolgenden Bild suchen und finden kann, auch wenn sich das Objekt geringfügig bewegt hat. Dies kann unter anderem dadurch implementiert werden, dass zusätzlich zu der Verarbeitung durch ein neuronales Netz ein Algorithmus zur Ermittlung von Korrelationen von Bildern verwendet wird, der dem neuronalen Netz zur Ersparnis von Analyseaufwand vorgeschaltet sein kann.

Außerdem kann vorgesehen sein, dass das mit einem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt assoziierte Signal in Form einer Abbildung in einer Bildanzeigevorrichtung nach dem Ausgeben des assoziierten Steuerbefehls wenigstens so lange geändert bleibt, bis der Steuerbefehl abgearbeitet worden ist oder bis derselbe Steuerbefehl sinnvoll erneut abgegeben werden kann.

Mit dieser Maßnahme kann sichergestellt werden, dass für einen Benutzer erkennbar ist, dass ein bestimmter Steuerbefehl abgegeben worden ist und aktuell nicht ein weiteres Mal abgegeben werden kann oder muss. Es wird somit verhindert, dass der Benutzer, weil er die durchgeführte oder zumindest bereits gestartete Ausführung eines Steuerbefehls noch nicht erkennen kann, die Geste ein weiteres Mal ausführt und damit eventuell eine Fehlbedienung der Maschine verursacht. Die entsprechende Abbildung kann beispielsweise transparent, speziell eingefärbt, gestrichelt oder ausgegraut in einer Anzeigeeinrichtung dargestellt werden.

Eine weitere Ausgestaltung eines Verfahrens kann vorsehen, dass das Abgeben eines Steuerbefehls oder die Ausführung eines Steuerbefehls unterbrochen wird, falls durch die Verarbeitungseinrichtung in erfassten Bildern ein Abbruchobjekt mindestens mit einem vorgegebenen Abbruch-Gesamtkonfidenzwert erkannt wird.

ERSATZBLATT (REGEL 26) Abbruchobjekte können vorgesehen und als Kategorie von vorbestimmten Objekten in einer Speichereinrichtung der Analyseeinrichtung hinterlegt sein, um schnell identifiziert und kategorisiert werden zu können. Ebenso kann ein neuronales Netz mit einem oder mehreren Abbruchobjekten/Abbruchgesten trainiert sein. Damit kann, wenn ein Benutzer einen Fehler bei der Bedienung oder bei der Kategorisierung eines vorher identifizierten Objekts erkennt, ein abgegebener Steuerbefehl möglicherweise noch gestoppt oder geändert werden. Ebenso ist ein schneller Abbruch möglich, falls es die Arbeitssituation erfordert. Dazu kann vorgesehen sein, dass für ein Abbruchobjekt oder eine Abbruchgeste, das/die, wenn es/sie identifiziert und kategorisiert wird, zur Ausgabe eines Abbruchbefehls oder zum Stoppen eines abgegebenen Steuerbefehls oder einer durch diesen ausgelösten Aktivität der Maschine führt, eine geringere Schwelle für die Bildkonfidenzwerte und/oder für einen Gesamtkonfidenzwert zur Abgabe des Abbruchbefehls festgelegt ist als die Schwelle, die für die übrigen möglichen und identifizierbaren sowie kategorisierbaren Objekte und Gesten einschließlich der Bestätigungsobjekte gilt. Damit wird ein Abbruchobjekt schneller erkannt als andere Objekte, wenn auch mit einer geringeren Zuverlässigkeit. Dies kann in Szenarien, in denen ein System durch Stoppen aller Aktivitäten in einen sicheren Zustand überführt werden kann, zulässig sein. In Systemen, bei denen durch Abbrechen laufender Aktionen Gefahrensituationen entstehen können, kann von einer solchen Gestaltung abzuraten sein.

Die Erfindung bezieht sich außer auf ein Verfahren der oben beschriebenen Art auch auf eine Computeranordnung, umfassend: einen Speicher mit einem darin abgelegten Programm; wenigstens einen mit dem Speicher verbundenen Prozessor; wobei das Programm derart ausgebildet ist, dass bei Ausführung der Programmbefehle durch den Prozessor ein Verfahren der oben beschriebenen Art ausgeführt wird.

Die Computeranordnung kann mittels eines Programms beispielsweise ein oder mehrere neuronales Netze, insbesondere wenigstens ein CNN, implementieren und weitere Programmteile enthalten, die außerhalb des neuronalen Netzes die eingegebenen Daten und/oder die ausgegebenen Steuerungsbefehle und Signale an den Benutzer umsetzen.

ERSATZBLATT (REGEL 26) Zudem bezieht sich die Erfindung auch auf ein Computerprogrammprodukt, das in einem Speicher abgelegte Programm befehle enthält, bei deren Ausführung durch einen Prozessor ein Verfahren der oben beschriebenen Art ausgeführt wird.

Außerdem bezieht sich die Erfindung auf eine Steueranordnung für eine Maschine oder ein Maschinenelement mit einem Bildaufnahmesystem zum Aufnehmen einer Vielzahl von Bildern, mit einer Bildanzeigeeinrichtung sowie einer Verarbeitungseinrichtung, wobei die Steueranordnung zur Ausführung folgender Verfahrensschritte eingerichtet ist:

Aufnehmen einer Vielzahl von Bildern nacheinander mittels eines Bildaufnahmesystems; insbesondere Ausgeben aller oder einiger der Vielzahl von aufgenommenen Bildern durch die Bildanzeigeeinrichtung;

Erfassen zumindest einer Teilmenge der Vielzahl der aufgenommenen Bilder durch eine Verarbeitungseinrichtung;

Identifizieren wenigstens eines ersten vorbestimmten Objektes jeweils auf mehreren nacheinander aufgenommenen Bildern der Teilmenge erfasster Bilder insbesondere durch ein durch maschinenbasiertes Lernen trainiertes Netzwerk der Verarbeitungseinrichtung,

Einordnen des oder eines identifizierten ersten vorbestimmten Objektes für mehrere nacheinander aufgenommene Bilder in eine von mehreren Kategorien, die jeweils einem vorbestimmten Objekt oder einer Gruppe von vorbestimmten Objekten zugeordnet sind, wobei jeder Kategorie ein definierter Steuerbefehl zum Steuern der Maschine oder des Maschinenelementes zugeordnet ist, insbesondere durch das Netzwerk;

Ausgeben eines mit einem identifizierten und/oder in eine Kategorie eingeordneten ersten vorbestimmten Objekt assoziierten Signals, insbesondere eines optischen, akustischen oder haptischen Signals, weiter insbesondere Anzeigen einer Abbildung oder eines Symbols in einer Bildanzeigeeinrichtung;

Ermitteln jeweils eines Bildkonfidenzwertes für mehrere nacheinander aufgenommene Bilder, der die Sicherheit oder Wahrscheinlichkeit angibt, mit der ein erstes vorbestimmtes Objekt auf dem jeweiligen Bild identifiziert und in eine Kategorie eingeordnet wurde;

ERSATZBLATT (REGEL 26) Wiederholtes Ermitteln eines Gesamtkonfidenzwertes für das erste vorbestimmte Objekt aus den Bildkonfidenzwerten mehrerer nacheinander aufgenommener Bilder, insbesondere unter Berücksichtigung von deren zeitlicher Anordnung;

Ausgeben eines Gesamtkonfidenzwertes, insbesondere durch ein optisches, akustisches oder haptisches Signal, insbesondere durch eine Anzeige in einer Bildanzeigeeinrichtung, in der auch die mit dem kategorisierten ersten vorbestimmten Objekt assoziierte Abbildung angezeigt wird,

Vergleichen des Gesamtkonfidenzwertes mit einem vorgegebenen Schwellwert und

Erzeugen und Abgeben des der Kategorie, in die das identifizierte erste vorbestimmte Objekt eingeordnet wurde, zugeordneten Steuerbefehls unter der Bedingung, dass der Gesamtkonfidenzwert für das erste vorbestimmte Objekt den vorgegebenen Schwellwert überschreitet, wobei insbesondere das mit dem identifizierten und/oder kategorisierten ersten vorbestimmten Objekt assoziierte Signal, bei Ausgeben des Steuerbefehls geändert wird.

Eine derartige Steueranordnung ist in der Lage, einem Benutzer eine einfache, transparente, schnelle und zuverlässige Bedienung einer Maschine oder eines Maschinenelementes zu ermöglichen.

Eine derartige Steueranordnung kann zur Steuerung von Fahrzeugen oder Arbeitsmaschinen verwendet werden, beispielsweise, wenn diese in schwierigen Umgebungen verwendet werden. Weiter ist die Verwendung für behinderte Personen denkbar, die daran gehindert sind, Tastaturen oder ähnliche Eingabewerkzeuge zu nutzen.

Weiter kann vorgesehen sein, dass die Steueranordnung dazu eingerichtet ist, einen Steuerbefehl nur unter der zusätzlichen Bedingung auszugeben, dass durch die Verarbeitungseinrichtung zusätzlich zu dem ersten vorbestimmten Objekt ein von dem ersten vorbestimmten Objekt verschiedenes Bestätigungsobjekt wenigstens mit einem vorbestimmten Bestätigungs-Gesamtkonfidenz- wert identifiziert und einer Bestätigungskategorie zugeordnet wird oder die allgemein dazu eingerichtet ist ein Verfahren der oben beschriebenen Art auszuführen.

ERSATZBLATT (REGEL 26) Zudem kann bei der Steueranordnung vorgesehen sein, dass sie sowohl eine Anzeigeeinrichtung zur Anzeige von aufgenommenen Bildern und von Abbildungen aufweist, die ersten vorgegebenen Objekten zugeordnet sind, als auch wenigstens entweder eine Ausgabeeinrichtung für akustische Signale oder eine Ausgabeeinrichtung für haptische Signale.

Auf diese Weise stehen für die Bedienung der Maschine oder des Maschinenteils zur Interaktion und Kommunikation zwischen der Maschine und dem Benutzer wenigstens zwei verschiedene Signalkanäle zur Verfügung, entweder ein optischer und ein akustischer Kanal oder ein Kanal für optische Signale und ein Kanal für haptische Signale oder alle drei genannten Signalkanäle.

Der Benutzer der Maschine kann somit zum Beispiel mithilfe eines head-up Displays, während er Gesten ausführt sowohl die Maschine als auch die Darstellung von erkannten Gesten auf dem Display im Auge behalten und zudem beispielsweise über Signaltöne oder Vibrationsmelder Signale empfangen, die ihm übermitteln, ob der Gesamtkonfidenzwert steigt oder fällt oder bereits die Schwelle zur Abgabe eines Steuerbefehls überschritten hat. Zu diesem Zweck können auch mobile akustische und haptische Signalgeber über eine Funkverbindung mit der Steueranordnung der Maschine in Verbindung stehen. Als haptische Signalgeber können zum Beispiel sowohl wearables in der Form von Armbändern als auch mit Aktoren, insbesondere Vibrationselementen versehene Handschuhe, dienen.

KURZE BESCHREIBUNG DER ZEICHNUNGEN

Weitere Aspekte und Ausführungsformen des beschriebenen Verfahrens und der Steueranordnung werden in Figuren einer Zeichnung gezeigt und nachfolgend beschrieben.

Figuren 1A bis ID: zeigen ein zeitliches Ablaufdiagramm für eine Anzeige von identifizierten Objekten im Rahmen des Verfahrens,

Figuren 2A bis 2D: zeigen ein weiteres zeitliches Ablaufdiagramm für eine Anzeige

ERSATZBLATT (REGEL 26) von identifizierten Objekten im Rahmen des Verfahrens,

Figur 3: zeigt die Berücksichtigung von Größen- und Positionsänderungen eines Objekts,

Figur 4: zeigt ein Screenshot eines Bildschirms, der den Konfidenzwert, sowie einen Rahmen um ein identifiziertes Objekt in Form einer Geste zeigt,

Figur 5: zeigt ein erstes Ablaufdiagramm einer Ausführungsform des

Verfahrens,

Figur 6: zeigt ein zweites Ablaufdiagramm einer Ausführungsform des

Verfahrens,

Figur 7: zeigt eine Ausführungsform einer Steueranordnung gemäß der

Erfindung mit Varianten, und

Figur 8: zeigt eine Ausführungsform verschiedener Gesten als Objekte, die in Kategorien eingeordnet werden können mit zugehörigen Steuerbefehlen.

Die ersten beiden Darstellungen sind aus technischen Gründen auf die Figuren 1A, 1B, 1C, ID einerseits sowie 2A, 2B, 2C, 2D andererseits aufgeteilt. Die Legende für die Position jeder der Figuren 1A, 1B, 1C, ID sowie 2A, 2B, 2C, 2D in jeweils einer zusammengesetzten Figur ist jeweils unterhalb der Figuren angezeigt.

Die in den Figuren gezeigten Ausführungsformen und Beispiele, die Darstellungen von Objekten/Gesten zeigen, sind nicht notwendig maßstabsgetreu. Ebenso können verschiedene Elemente vergrößert oder verkleinert dargestellt sein, um einzelne Aspekte hervorzuheben.

Auch die Proportionen zwischen den einzelnen Elementen müssen nicht grundsätzlich wirklichkeitsgetreu sein. Begriffe wie "oben", "oberhalb", "unten", "un-

ERSATZBLATT (REGEL 26) terhalb", "größer", "kleiner", „rechts" und „links" und dergleichen werden jedoch in Bezug auf die Elemente in den Figuren korrekt dargestellt. So ist es möglich, solche Beziehungen zwischen den dargestellten Elementen anhand der Abbildungen abzuleiten.

In den Figuren 1A bis ID sind in einer oberen Reihe Darstellungen einer Geste 11a, die als graphisches Objekt erkennbar ist, in Form einer erhobenen offenen Hand gezeigt, deren Handfläche dem Betrachter zugewandt ist.

Die Darstellungen werden, beginnend auf der linken Seite von Figur 1A und zur rechten Seite hin bis zur Figur ID fortschreitend, zeitlich aufeinander folgend in einer Anzeigeeinrichtung, beispielsweise auf einem Bildschirm, jeweils einzeln nacheinander an derselben Stelle des Bildschirms angezeigt. Diese Darstellung kann aus den durch ein Bildaufnahmesystem unmittelbar gewonnen Bildern stammen, sie kann jedoch auch aus einer Bibliothek von gespeicherten Objekten stammen und dasjenige Bild/Objekt darstellen, das dem identifizierten Bildgegenstand am nächsten kommt. In der zeitlichen Abfolge zeigt sich, dass mit der Zeit die Gewissheit oder Wahrscheinlichkeit der korrekten Erkennung, das heißt, der erfolgreichen und zuverlässigen Zuordnung einer Kategorie zu dem bildlich erfassten Gegenstand, zunimmt. Diese Gewissheit der Erkennung kann genau der Wahrscheinlichkeit der richtigen oder zutreffenden Kategorisierung, das heißt, der Wahrscheinlichkeit entsprechen, dass eine zugeordnete Kategorie richtig zugeordnet ist. Diese Wahrscheinlichkeit kann einem ermittelten Ge- samtkonfidenzwert als Größe, die auf mehreren Bildkonfidenzwerten basiert, entsprechen.

Die zunehmende Wahrscheinlichkeit einer zutreffenden Kategorisierung wird durch Rahmen 13, 13a, 13b, 13c, die auch „bounding box" genannt werden, signalisiert, welche jeweils die Abbildung der Hand umgeben und im Lauf der Zeit mit zunehmender Wahrscheinlichkeit der richtigen oder zutreffenden Kategorisierung breiter und dunkler werden. Dies repräsentiert die jeweils ermittelten Bildkonfidenzwerte. So ist der Rahmen 13c breiter und dunkler als der Rahmen 13b und dieser ist breiter und dunkler als der Rahmen 13a. Dies ist in den Figuren aus Gründen einer verlässlichen und reproduzierbaren Darstellung durch eine fallweise mehr oder weniger stark unterbrochene gestrichelte Darstellung der Rahmen gezeigt.

ERSATZBLATT (REGEL 26) Das jeweils am weitesten links liegende Bild kann noch gar keinen Rahmen aufweisen, da zu diesem Zeitpunkt das Objekt/die Geste möglicherweise schon identifiziert, jedoch noch nicht mit einer Kategorie verknüpft ist oder die Kategorisierung noch sehr unzuverlässig ist.

Unterhalb der oberen Reihe von Darstellungen ist in den Figuren 1A bis ID noch eine untere Reihe von Darstellungen abgebildet, die einer anderen Geste 11b entsprechen, die als graphisches Objekt erkennbar ist, nämlich einer geschlossenen Hand mit zwei abgespreizten Fingern. Auch in dieser Reihe zeigt sich, dass die Zuverlässigkeit einer richtigen oder zutreffenden Kategorisierung nach Ablauf einer gewissen Zeitspanne einen erforderlichen Schwellwert erreicht, was durch den starken Rahen 13c angezeigt ist. Vorher erscheint in den Darstellungen/frames Nr. 2 und 3 aufgrund eines geringen Bildkonfidenzwertes ein schwacher Rahmen 13a und danach nimmt die Zuverlässigkeit einer Kategorisierung zunächst wieder ab, bevor sie wieder bis zum Erreichen des Schwellwertes zunimmt. Dieses vorübergehende Abnehmen des Bildkonfidenzwertes wird bei der Ermittlung eines Gesamtkonfidenzwertes toleriert. Auch in diesem Fall sind die jeweiligen Abbildungen der Hand nur zum Zweck der Darstellung auf Papier nebeneinander dargestellt, während sie auf einem Bildschirm nacheinander jeweils an derselben Stelle angezeigt werden können. Auch hier ist mit 13c der stärkste Rahmen um die Darstellung der Geste bezeichnet. Dadurch wird auch hier zum Ausdruck gebracht, dass zu der Zeit, die dieser Darstellung entspricht, die Wahrscheinlichkeit einer zutreffenden Kategorisierung am höchsten ist oder zumindest einen geforderten Schwellwert überschreitet, um eine Aktion zu triggern. Zusätzlich ist oberhalb jeder einzelnen Darstellung eine Prozentzahl 12 als Angabe der Zuverlässigkeit der Kategorisierung angegeben. Die Darstellungen 13c in der oberen, wie auch in der unteren Reihe von Darstellungen tragen die textliche Anmerkung, dass bereits ein Steuerbefehl ausgelöst wurde, der der jeweiligen erkannten Geste entspricht. Dies kann optional auch durch ein graphisches Symbol, beispielsweise in Figur 1C, ID durch einen Balken 28 oberhalb der Darstellungen angezeigt werden.

Zudem ist jeweils oberhalb der vorletzten Darstellungen jeweils mit dem Rahmen 13b in der oberen und unteren Reihe ein Kreis dargestellt, der anzeigt, dass die zuverlässige Kategorisierung unmittelbar bevorsteht, weil bereits eine

ERSATZBLATT (REGEL 26) ausreichende oder nahezu ausreichende Wahrscheinlichkeit der richtigen Kategorisierung erreicht ist. Damit kann der Benutzer bereits sehen, dass seine Geste erfolgreich erkannt wurde, so dass er beispielsweise bereits die Hand senken kann.

Vorher wurde dem Benutzer der fortschreitende Erkennungs- und Kategorisierungsprozess bereits durch den stärker werdenden Rahmen signalisiert, so dass er ermutigt wurde, seine Geste bis zum Schluss aufrecht zu erhalten.

Das in den Darstellungen oberhalb der Rahmen 13b gezeigte Kreissymbol 29 kann in einigen Ausführungsformen auch als Aufforderungssymbol zur Eingabe einer Bestätigung der Geste dienen. In diesem Fall soll der Benutzer nach dem Erscheinen dieses Symbols eine von der ersten, bereits erkannten Geste verschiedene Bestätigungsgeste ausführen, um der Steueranordnung zu signalisieren, dass er die Ausführung des Steuerbefehls bestätigt. Die Bestätigungsgeste wird dann im Erfolgsfall ebenso durch die Steueranordnung erkannt wie die ursprüngliche Geste und erst danach wird der Steuerbefehl ausgelöst und abgesandt.

Für eine erfolgreiche Erkennung einer Bestätigungsgeste können in der Steueranordnung geringere Anforderungen gestellt werden als für die Erkennung und Kategorisierung einer anderen Geste, da zum Zeitpunkt einer ausstehenden und erwarteten Bestätigung andere Gesten nicht erkannt werden müssen und die Steueranordnung auf die Erkennung einer Bestätigungsgeste fokussiert sein kann. So können die Schwelle für den notwendigen Bildkonfidenzwert und/oder die Schwelle für den notwendigen Gesamtkonfidenzwert für eine Bestätigungsgeste geringer sein als für andere Gesten.

Die Figuren 2A, 2B, 2C, 2D zeigen in ähnlicher Weise wie die Figuren 1A, IB, 1C, ID eine Geste, die auf der linken Seite der Figur 2A beginnend in der ersten Abbildung lediglich identifiziert wurde und in der zweiten Darstellung weiter rechts in der Figur 2A als sicher kategorisiert dargestellt und dementsprechend von einem starken Rahmen 13c umgeben ist. Darauf folgend wird der Steuerungsbefehl ausgelöst und ausgesandt. Danach wird die zunächst erkannte Geste weiter dargestellt, wie in Figur 2B gezeigt, jedoch ist die Darstellung gegenüber den vor der Ausführung gezeigten Darstellungen sichtbar verändert,

ERSATZBLATT (REGEL 26) beispielsweise farblich geändert oder ausgegraut. Dies ist in der Figur 2B mit dem Bezugszeichen 13d bezeichnet.

Die veränderte Darstellung 13d wird in der Bildanzeigeeinrichtung beispielsweise angezeigt, wenn die dargestellte oder mit der Darstellung verknüpfte Geste durch die Steueranordnung zumindest eine Zeitlang nicht mehr identifiziert und kategorisiert werden kann.

Dazu ist es nicht notwendig, dass durch den Benutzer die Geste zu Beginn dieser Darstellung noch ausgeführt wird. In den Figuren 2A bis 2D soll gezeigt werden, dass nach dem Auslösen des Steuerbefehls und dem Anzeigen des starken Rahmens 13c zunächst vom Benutzer keine Geste mehr ausgeführt oder erfasst wird. Nach der Ausführung des Steuerbefehls wird dann die beispielsweise ausgegraute Darstellung eingeblendet.

In der Figur 3 ist in einer ersten Darstellung 13e eine Geste in Form einer geöffneten Hand gezeigt, die von einer „bounding box" 22 umgeben ist. Eine zweite Darstellung 13f zeigt eine bounding box 22a/einen Rahmen, die/der gegenüber der ersten bounding box 22 um einen bestimmten Winkel geneigt ist. Gleichzeitig oder alternativ kann die bounding box 22a auch in der Bildanzeige, in der die bounding boxen 22, 22a, nacheinander angezeigt werden, gegenüber der ersten bounding box 22 verschoben sein. Zusätzlich oder alternativ kann auch die Darstellung der Geste in den verschiedenen Darstellungen leicht unterschiedlich groß sein, was sich dadurch zeigt, dass die zweite bounding box 22a etwas kleiner ist als die erste bounding box 22. Die letztgenannte Situation kann beispielsweise eintreten, wenn der Benutzer sich während er die Geste ausführt, der Kamera nähert oder sich von ihr entfernt. Derartige Abweichungen sollen nicht dazu führen, dass in den verschiedenen Darstellungen unterschiedliche Objekte/Gesten erkannt werden. Solche Abweichungen sind bei Verwendung geeigneter Analyseeinrichtungen, beispielsweise in der Form eines convolutional neural networks relativ einfach zu kompensieren, da solche Arten von neuronalen Netzen eine relativ hohe Translationsinvarianz aufweisen und damit derartige Darstellungen, die lediglich gegeneinander verdreht, verschoben oder im Maßstab geändert sind, als gleichartig erkennen. Dabei können für die Akzeptanz derartiger Gleichwertigkeit von Darstellungen auch Regeln ge-

ERSATZBLATT (REGEL 26) setzt werden. Beispielsweise können feste Beträge von Verschiebungen, Drehungen oder Maßstabsänderungen zugelassen werden oder der Betrag von zulässigen Verschiebungen kann beispielsweise dynamisch in Abhängigkeit von der Größe der Objektdarstellung, gemessen an der Länge der Diagonalen der bounding box, bestimmt werden.

Die Figur 4 zeigt die Darstellung eines von einem Bildaufnahmesystem in Form einer Kamera aufgenommenen Bildes in Form eines Schwa rz/Weißfotos, das von der Verarbeitungseinrichtung erfasst und einer Analyse zugeführt wurde. Die Analyseeinrichtung hat zwei Objekte in Form von Gesten identifiziert und für diese jeweils ihnen zugeordnete Kategorien ermittelt bzw. die Objekte in Kategorien eingeordnet. Die beiden identifizierten Gesten 12, 12a sind mit „Cylinder Down" und mit „Stopp" bezeichnet und von jeweils einem Rahmen 13, 13a umgeben. Für die Geste „Cylinder Down" wird in der Darstellung ein Bild- konfidenzwert von 71% angegeben. Für die Geste „Stopp" wird ein Bildkon- fidenzwert von 56% angegeben. Somit ist noch keine der Gesten zuverlässig kategorisiert worden und es ist wahrscheinlicher, dass eine Geste "Cylinder Down" abschließend kategorisiert wird als dass eine Geste/ein Objekt des Bildes in die Kategorie „Stopp" eingeordnet wird. Diese Situation zeigt, dass auch mehrere Objekte gleichzeitig von der Analyseeinrichtung identifiziert und kategorisiert werden können. Ausschlaggebend für einen erzeugten Steuerbefehl ist dann, welches der Objekte mit dem höchsten Gesamtkonfidenzwert kategorisiert wird und ob dieser Wert ausreichend hoch ist.

In der Figur 5 ist eine Ausführungsform des erfindungsgemäßen Verfahrens schematisch dargestellt.

Ein erster Verfahrensschritt S1 betrifft das Aufnehmen von Bildern. Eine oder mehrere Kameras sind auf einen Benutzer einer Maschine gerichtet, der diese mit zeigbaren Objekten, beispielsweise Gesten, steuern will. Der Benutzer könnte beispielsweise zu diesem Zweck auch Gegenstände oder Schilder vorzeigen. Bei Verwendung mehrerer Kameras können die Bilder zusammengeführt und verknüpft werden, um 3-dimensionale Informationen zu erhalten und/oder allgemein eine bessere Aufnahmequalität zu erzielen. Dazu können auch zwei verschiedene Kameras verwendet werden, die unterschiedliche Stär-

ERSATZBLATT (REGEL 26) TI ken haben, wie beispielsweise eine Farbbild-Fotokamera und eine Infrarotkamera. Die aufgenommenen Bilder werden optional in einem Verfahrensschritt S2 in einer Bildanzeigeeinrichtung, beispielsweise auf einem Bildschirm, angezeigt, wodurch der Benutzer seine Gesten selbst beobachten kann.

In einem dritten Verfahrensschritt S3 werden alle oder ein Teil der aufgenommenen Bilder einer Verarbeitungseinrichtung zugeführt, die in einem vierten Verfahrensschritt S4 ein oder mehrere Objekte auf jedem Bild identifiziert. Eine Analyseeinrichtung innerhalb der Verarbeitungseinrichtung kann zu diesem Zweck ein convolutional neural network umfassen, das beispielsweise für einen solchen Identifizierungsschritt jedoch auch für einen nachfolgenden Verfahrensschritt S5, das Kategorisieren der identifizierten Objekte, besonders geeignet ist. Es sind für diesen Zweck jedoch auch andere selbstlernende Einrichtungen verwendbar. Unter dem Kategorisieren wird das Einordnen der identifizierten Objekte/Gesten für jedes Bild in vorbestimmte Kategorien oder das Zuordnen der Kategorien zu den identifizierten Objekten verstanden. Nach dem Verfahrensschritt S5 werden in einem folgenden Verfahrensschritt S6 in einer Bildanzeigeeinrichtung die identifizierten Objekte und/oder die Kategorien, in die diese eingeordnet worden sind, angezeigt ebenso wie ein aktueller Gesamtkon- fidenzwert.

Zu diesem Zweck wird für jedes in der Verarbeitungseinheit erfasste Bild jeweils für jedes identifizierte und kategorisierte Objekt ein Bildkonfidenzwert ermittelt, der angibt, mit welcher Wahrscheinlichkeit/Zuverlässigkeit die dem identifizierten Objekt zugeordnete Kategorie auf dem einzelnen Bild korrekt bestimmt wurde. Die Bildkonfidenzwerte von mehreren zeitlich nacheinander aufgenommenen Bildern werden zu einem Gesamtkonfidenzwert verknüpft, bei dessen Bestimmung sowohl die Anzahl und die Werte der Bildkonfidenzwerte, beispielsweise der Anteil von Bildern mit einem Bildkonfidenzwert oberhalb einer bestimmten Schwelle unter allen Bildern in einer aktuellen Zeiteinheit, als auch eventuelle Abweichungen durch Bilder mit niedrigeren Bildkon- fidenzwerten einfließen.

Damit ist für den Benutzer nach dem Verfahrensschritt S6 ersichtlich, inwieweit seine Geste richtig identifiziert und mit einem genügend hohen Gesamtkonfidenzwert bewertet wurde.

ERSATZBLATT (REGEL 26) In einem weiteren Verfahrensschritt S7 wird der laufend aktualisierte Gesamt- konfidenzwert mit einer vorgegebenen Schwelle/einem Schwellwert verglichen und nach einem Entscheidungsschritt S7a, falls der Schwellwert erreicht oder überschritten ist, wird in einem folgenden Verfahrensschritt S8 der mit der zuverlässig erkannten Geste verknüpfte Steuerbefehl an die Maschine erzeugt und abgesandt. Gleichzeitig wird in einem Verfahrensschritt S9 der abgegebene Steuerbefehl oder die mit ihm verknüpfte Geste in einer Bildanzeigeeinrichtung angezeigt. Der Benutzer ist dadurch darüber informiert, dass seine Geste mit Erfolg umgesetzt wurde.

In der Figur 6 ist eine weitere Ausführungsform des erfindungsgemäßen Verfahrens schematisch dargestellt, die bis zu dem Verfahrensschritt 7a dieselbe Form hat, wie die in der Figur 5 gezeigte Ausführungsform.

Gemäß dem in der Figur 6 dargestellten Verfahren wird jedoch nach Erreichen oder Überschreiten eines Schwellwertes durch den Gesamtkonfidenzwert nicht unmittelbar ein Steuerbefehl in einem Schritt S8 ausgelöst und ausgegeben. Es wird vielmehr nach dem zuverlässigen Kategorisieren einer ersten, mit einem Steuerbefehl verknüpften Geste auf die Erkennung einer durch den Benutzer ausgeführten Bestätigungsgeste gewartet, die in einem Verfahrensschritt Sil durch die Analyseeinrichtung identifiziert und in einem Verfahrensschritt S12 zuverlässig und mit einem ausreichenden Gesamtkonfidenzwert kategorisiert werden muss, um nach dem Vergleichen mit einer Schwelle und dem zugehörigen Entscheidungsschritt S12a den Steuerbefehl schließlich auszulösen und an die Maschine zu senden.

Optional kann der Benutzer zu diesem Zweck in einem Verfahrensschritt S10 mittels eines Aufforderungssignals nach einer erfolgreichen Kategorisierung der ersten Geste dazu aufgefordert werden, ein Bestätigungsobjekt in Form einer Bestätigungsgeste zu zeigen, um schließlich den Steuerbefehl auszulösen.

Wird dann nach dem Verfahrensschritt S12 ein Gesamtkonfidenzwert erreicht, der den Schwellwert für Bestätigungsobjekte erreicht oder überschreitet, so wird nach dem Entscheidungsschritt 12a im nächsten Verfahrensschritt S8 der Steuerbefehl ausgelöst. Gleichzeitig wird in einem weiteren Verfahrensschritt

ERSATZBLATT (REGEL 26) S13 die Ausführung des Steuerbefehls nach einer Bestätigung angezeigt. Danach kann das Symbol für den ausgeführten Steuerbefehl oder das Symbol für die mit diesem verknüpfte Geste in geänderter, beispielsweise ausgegrauter Form angezeigt werden, um zu verdeutlichen, dass dieser Befehl gerade ausgeführt wurde und gegebenenfalls nicht mehr zur Verfügung steht.

In der Figur 6 ist zusätzlich durch die Verfahrensschleife 15 dargestellt, dass laufend neue Bilder aufgenommen und verarbeitet werden. Zudem ist deutlich, dass durch die Analyseeinrichtung, insbesondere ein neuronales Netz, auch mehrere Objekte gleichzeitig identifiziert und kategorisiert werden können. Im Verfahrensschritt S6 werden dann verschiedene Objekte, die zu verschiedenen Kategorien gehören, mit unterschiedlichen Gewichten ausgegeben, die den verschiedenen Wahrscheinlichkeiten einer zuverlässigen Erkennung und Zuordnung entsprechen.

Unter den erkannten Objekten kann auch ein Abbruchkriterium sein, falls ein Abbruchobjekt/eine Abbruchgeste identifiziert und der Abbruchkategorie zugeordnet wurde. Für einen ausreichenden Gesamtkonfidenzwert kann bei Erkennen eines Abbruchobjektes/einer Abbruchgeste, ebenso wie für eine Bestätigungsgeste, ein anderer, insbesondere geringerer Schwellwert bestimmt sein als für andere Steuerbefehle und die zugehörigen Gesten. Das Auslösen eines Abbruchbefehls ist in Figur 6 durch den Verfahrensschritt S14 dargestellt.

In Figur 7 ist eine Steueranordnung 1 gemäß der Erfindung dargestellt.

Diese weist eine Bildaufnahmeeinrichtung mit zwei Kameras 4a, 4b auf, die auf einen Benutzer 16 gerichtet sind. Der Benutzer befindet sich im Bereich einer Maschine oder eines Maschinenelementes 6, beispielsweise in einem Führerstand. Er bedient die Maschine und gibt dazu Steuerungsbefehle zumindest teilweise über Gesten, die er zeigt oder allgemeiner durch in einer Bildverarbeitung erkennbare graphische Objekte, die durch die Kameras 4a, 4b aufgenommen werden.

Hierzu werden viele Bilder zeitlich nacheinander aufgenommen, beispielsweise mit einer Rate von mehr als 10 oder mehr als 20 Bildern pro Sekunde. Unter

ERSATZBLATT (REGEL 26) einem Bild können dabei auch zwei von den verschiedenen Kameras gleichzeitig aufgenommene und kombinierte Aufnahmen verstanden werden. Die aufgenommenen Bilder oder eine Teilmenge der Bilder werden einer Analyseeinrichtung 3 innerhalb einer Verarbeitungseinrichtung 17 zugeleitet. Gleichzeitig können die aufgenommenen Bilder einer Bildanzeigeeinrichtung 5 in Form eines Bildschirms oder beispielsweise eines head-up displays zugeführt und dort angezeigt werden. Die Analyseeinrichtung umfasst ein neuronales Netz, insbesondere CNN (convolutional neural network). In dessen Eingangs-layern 3a findet die Identifizierung von vorbestimmten graphischen Objekten in den Bildern für jedes Bild statt. Das neuronale Netz ist dazu mit entsprechenden Objekten vorher trainiert worden. In weiteren layern findet dann eine Zuordnung der identifizierten Objekte zu vorgeformten Kategorien statt und in einer Ausgabe- layer 3b werden dann die Gewichte /Wahrscheinlichkeiten ausgegeben, mit denen ein oder mehrere Objekte den verschiedenen vorbestimmten Kategorien 18a, 18b, 18c zugeordnet werden.

Diese Ausgabe wird für jedes der nacheinander aufgenommenen Bilder erzeugt. Die dadurch nacheinander erzeugten Ausgabevektoren 3c, 3d, 3e werden laufend nach vorgegebenen Regeln für eine bestimmte Anzahl von gerade zurückliegenden, verarbeiteten Bildern oder für eine bestimmte zurückliegende Zeitspanne zu einem Gesamtkonfidenzwert in dem Verarbeitungselement 19 zusammengefasst.

Optional kann für die Ermittlung des Gesamtkonfidenzwertes auch eine Qualitätsanalyse der Bildqualität berücksichtigt werden. Hierzu werden die Bilder von der Bildaufnahmeeinrichtung 4a, 4b parallel einer Bildanalyseeinheit 20 zugeleitet und die Bildqualität wird in einer Bildbewertungseinheit 21 bewertet. Diese Einheiten 20, 21 können beispielsweise als separates, trainiertes neuronales Netz realisiert sein, das auf eine Bewertung der Bildqualität trainiert ist. Es können damit etwaige Bildverschlechterungen durch Umwelteinflüsse bewertet werden, die den Gesamtkonfidenzwert negativ beeinflussen können.

Der ermittelte Gesamtkonfidenzwert wird im Verarbeitungselement 22 daraufhin geprüft, ob er einen Schwellwert erreicht oder übertrifft, der von der Kategorie des jeweiligen identifizierten Objektes abhängig sein kann. Ist diese Bedingung erfüllt, so wird ein Befehlselement 23 zur Ausgabe eines Steuerbefehls

ERSATZBLATT (REGEL 26) an die Maschine oder ein Maschinenelement 6 aktiviert.

Gleichzeitig wird die erkannte und kategorisierte Geste oder der ihr zugeordnete Steuerbefehl zusammen mit dem augenblicklich geltenden Gesamtkon- fidenzwert an eine Bildanzeigeeinrichtung 5a gegeben, die mit der Anzeigeeinrichtung 5 identisch, jedoch auch von dieser verschieden sein kann. Zusätzlich oder alternativ können Signale, die die erkannte Geste oder das Initiieren des Steuerbefehls betreffen, auch an weitere Aktoren 7 gegeben werden, die optische, akustische oder haptische Signale an den Benutzer 16 abgeben können. Solche Aktoren können beispielsweise Leuchten, Lautsprecher, Kopfhörer oder Vibrationselemente in Wearables oder in Bedienelementen der Maschine sein.

Optional kann auch nach der Kategorisierung eines Objektes und dem Erreichen eines für eine Abgabe eines Steuerbefehls ausreichenden Gesamtkon- fidenzwertes und vor der Abgabe des Steuerbefehls in einem weiteren Schritt, der durch die gestrichelte Linie 24 gezeigt ist, in einer Bildanzeigeeinheit 5b cider durch ein anderes signalgebendes Element, das ähnlich wie ein Aktor 7 gestaltet sein kann, an den Benutzer 16 eine Bestätigungsaufforderung abgegeben werden. Die Bildanzeigeeinheit 5b kann auch mit der Bildanzeigeeinheit 5 und/oder 5a zusammengefasst sein.

Wird eine Bestätigung zum Abgeben eines Steuerbefehls vom Benutzer gefordert, so wird von der Verarbeitungseinrichtung 17 nach dem Identifizieren und Kategorisieren des betreffenden Objekts/der Geste von dem Verarbeitungselement 22 zunächst kein Steuerbefehl ausgelöst, sondern es wird auf das Abgeben einer Bestätigungsgeste durch den Benutzer 16 , das Identifizieren dieser Geste und das Kategorisieren durch die Analyseeinrichtung 3 mit einem bestimmten Gesamtkonfidenzwert gewartet, wobei die Schwelle, die für den Ge- samtkonfidenzwert einer Bestätigungsgeste als ausreichend bestimmt ist, geringer oder höher sein kann als die Schwelle, die für den Gesamtkonfidenzwert anderer Gesten/Objekte bestimmt ist.

Die gestrichelte Linie 25 zeigt diesen Analyseprozess für die Bestätigung an, der parallel zu der oder im Rahmen der laufenden Bildverarbeitung durchgeführt wird.

ERSATZBLATT (REGEL 26) In der Figur 8 sind in einer oberen Reihe 27 fünf Symbole und in einer unteren Reihe 26 ebenso viele Gesten dargestellt, wobei jeder Geste der unteren Reihe ein Steuerbefehl der oberen Reihe zugeordnet ist. So ist der Geste der geschlossenen Hand mit zwei abgespreizten Fingern in der unteren Reihe am linken Bildrand der Figur 8 ein Startbefehl zugeordnet. Dem aufwärts zeigenden Daumen rechts davon ist der Befehl „Kolben aufwärts" zugeordnet, der an der zweiten Stelle, von links aus gesehen, in der Figur 8 in der oberen Reihe dargestellt ist. Darauf folgt weiter rechts der Befehl „Kolben ab- wärts", der der Geste „Daumen abwärts" zugeordnet ist. Weiter folgt der Steuerbefehl für „Vorwärtsbewegung" und zuletzt die erhobene Hand mit flacher, dem Betrachter zugewandter Handfläche für den Steuerbefehl „Stopp". Dieser Letzte Steuerbefehl und die ihm zugeordnete Geste könnten auch für einen Abbruchbefehl stehen, der nicht das geordnete Anhalten eines Arbeitsprozesses bedeutet, sondern einen Notabbruch, der in möglichst kurzerZeit die Maschine in einen sicheren Zustand überführen soll.

ERSATZBLATT (REGEL 26) BEZUGSZEICHENLISTE

1 Steueranordnung

3 Analyseeinheit, neuronales Netz

3a Eingangslayer

3b Ausgangslayer

4a, 4b Kamera

5, 5a, 5b Bildschirm

6 Maschine/Maschinenelement

10 Bild, Teilmenge

11, 11a, 11b identifiziertes Objekt

12, 12a assoziiertes Zeichen

13, 13a Rahmen

13b Rahmen, indiziert, dass Geste über längeren Zeitraum korrekt erkannt wurde

13c Rahmen nach Starten des Steuerbefehls

15 Verfahrensschleife

16 Benutzer

17 Verarbeitungseinheit

18a-c Kategorien mit zugeordneten Wahrscheinlichkeiten für jeweils ein Bild

19 Verarbeitungselement für Gesamtkonfidenzwert

20 Bildanalyseeinheit

21 Bildbewertungseinheit

22 Verarbeitungselement

23 Befehlselement

24 Verfahrensschritt Aufforderung zu einem Bestätigungsbefehl

25 Bildverarbeitung zum Erkennen einer Bestätigungsgeste

26 Reihe mit kategorisierten Objekten/Gesten

27 den Gesten 26 zugeordnete Steuerbefehle

28 Balken in der Anzeige

29 Kreis in der Anzeige

51 Aufnehmen von _Bildern

52 Ausgeben von Bildern

53 Erfassen von Bildern

54 Identifizieren von Objekten

ERSATZBLATT (REGEL 26) 55 Einordnen in Kategorie

56 Ausgeben eines Signals

57 Vergleichen Gesamtkonfidenzwert

S7a Entscheidungsschritt

58 Abgeben eines Steuerbefehls

59 Ausgeben eines Signals für den Gesamtkonfidenzwert

510 Ausgeben einer Aufforderung zu einer Bestätigungsgeste

511 Identifizieren eines Bestätigungsobjektes

512 Kategorisieren eines Bestätigungsobjektes

S12a Entscheidungsschritt

513 Anzeigen der Ausgabe eines Steuerbefehls nach Bestätigung

514 Abbrucherkennung

ERSATZBLATT (REGEL 26)