Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND MANIPULATION SYSTEM FOR MANIPULATION OF AN OBJECT BY A ROBOT
Document Type and Number:
WIPO Patent Application WO/2021/018552
Kind Code:
A1
Abstract:
The invention relates to a method wherein a movement or a manipulation of an object (OB) by a robot (R), observing constraints (NB), in particular obstacles (H1, H2, H3), from a starting condition (MS) to the manipulation target (MT), is generated, wherein the manipulation is divided into different manipulation modes (M1, M2, M3) or sections, which comprise different constraints (NB), wherein a plurality of manipulation mode-specific controllers (R1, R2, R3, R4) for controlling partial manipulations in the different manipulation modes (M1, M2, M3) or sections are randomly generated (RGEN) and an optimized sequence of said controllers (R1, R2, R3, R4), in particular a progression of said controllers, is randomly generated (SGEN), wherein in particular the controllers (R1, R2, R3, R4) specify a vector field or a directional field, wherein a simulation module (SIM) simulates the manipulation or movement for each of the controller sequences (RS) and determines an expense value (AW) or a cost value quantifying a reaching of the manipulation target (MT), and wherein the controller sequence (RS) and the expense value (AW) are supplied to a machine learning module (NN) as training data in order to indicate an expense-optimized controller (OR), which optimizes or minimizes the expense value (AW), for example. By means of an expense-optimized controller (OR), control data (CD) for controlling the robot (R) are generated on the basis of the current manipulation state (AMZ) detected by sensor.

Inventors:
SCHMITT PHILIPP SEBASTIAN (DE)
WIRNSHOFER FLORIAN (DE)
Application Number:
PCT/EP2020/069583
Publication Date:
February 04, 2021
Filing Date:
July 10, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
International Classes:
B25J9/16
Other References:
SCHMITT PHILIPP S ET AL: "Modeling and Planning Manipulation in Dynamic Environments", 2019 INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), IEEE, 20 May 2019 (2019-05-20), pages 176 - 182, XP033593775, DOI: 10.1109/ICRA.2019.8793824
AERTBELIEN ERWIN ET AL: "eTaSL/eTC: A constraint-based task specification language and robot controller using expression graphs", 2014 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS, IEEE, 14 September 2014 (2014-09-14), pages 1540 - 1546, XP032676801, DOI: 10.1109/IROS.2014.6942760
KEI OTA ET AL: "Trajectory Optimization for Unknown Constrained Systems using Reinforcement Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 14 March 2019 (2019-03-14), XP081129142
MOHAMED AMR ET AL: "Optimal collision free path planning for an autonomous articulated vehicle with two trailers", 2017 IEEE INTERNATIONAL CONFERENCE ON INDUSTRIAL TECHNOLOGY (ICIT), IEEE, 22 March 2017 (2017-03-22), pages 860 - 865, XP033091175, DOI: 10.1109/ICIT.2017.7915472
PHILIPP S. SCHMITT ET AL.: "Int. Conf. on Robotics and Automation", 2019, IEEE, article "Modeling and Planning Manipulation in Dynamic Environments"
Download PDF:
Claims:
Patentansprüche

1. Verfahren zur Manipulation eines Objekts (OB) durch einen Roboter (R) , wobei die Manipulation auf ein Manipulationsziel (MT) gerichtet ist und unterschiedliche Manipulationsmodi (Ml, M2, M3) umfasst, wobei

a) mehrere manipulationsmodusspezifische Regler (R1,...,R4) jeweils zum Regeln einer auf einen Manipulationsmodus (Ml, M2, M3) eingeschränkten Teilmanipulation generiert werden, b) für eine Vielzahl von Manipulationszuständen (MZ) und eine Vielzahl der generierten Regler (RS) jeweils eine vom je weiligen Manipulationszustand (MZ) ausgehende und durch den jeweiligen generierten Regler geregelte Teilmanipula tion simuliert wird, wobei ein ein Erreichen des Manipula tionsziels (MT) quantifizierender Aufwandswert (AW) ermit telt wird,

c) anhand der Vielzahl der Manipulationszustände (MZ), der Vielzahl der generierten Regler (RS) sowie der Aufwands werte (AW) ein Maschinenlernmodul (NN) darauf trainiert wird, anhand eines Manipulationszustandes einen der gene rierten Regler zu ermitteln, der einen Aufwandswert opti miert,

d) ein aktueller Manipulationszustand (AMZ) sensorisch er

fasst wird,

e) durch das trainierte Maschinenlernmodul (NN) anhand des aktuellen Manipulationszustandes (AMZ) ein aufwandsopti mierender Regler (OR) ermittelt wird, und

f) mittels des aufwandsoptimierenden Reglers (OR) anhand des aktuellen Manipulationszustandes (AMZ) Steuerdaten (CD) zum Ansteuern des Roboters (R) generiert werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass ein Zustandsraum der Manipulation eine Konfiguration des Roboters (R) , einen Roboterzustand, einen Obj ektzustand, ei nen Kontaktzustand zwischen Roboter und Objekt, einen Zeitpa rameter, eine Zeitableitung und/oder einen Zustand anderer an der Manipulation beteiligter Komponenten umfasst.

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet,

dass unterschiedliche, bei der Manipulation einzuhaltende Ne benbedingungen (NB) erfasst werden, und

dass aus einer durch eine jeweilige Nebenbedingung (NB) be dingten Einschränkung des Zustandsraums ein jeweiliger Mani pulationsmodus (Ml, M2, M3) abgeleitet wird.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet,

dass eine jeweilige Nebenbedingung (NB) eine Fixierung des Objekts (OB), eine Bewegungsbegrenzung einer Achse des Robo ters (R) , eine Kollisionsvermeidung, eine Geschwindigkeitsbe grenzung, eine Beschleunigungsbegrenzung, eine Kraftbegren zung und/oder eine Abstandsbegrenzung betrifft.

5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass ein manipulationsmodusspezifischer Regler (R2, R3) zum Regeln einer auf einen ersten Manipulationsmodus (Ml, M2 ) eingeschränkten, zu einem zweiten Manipulationsmodus (M2, M3) führenden Teilmanipulation generiert wird.

6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass innerhalb eines Manipulationsmodus (Ml, M3) ein Teilma nipulationsziel (TT, MT) selektiert wird, und

dass ein manipulationsmodusspezifischer Regler (RI, R4 ) zum Regeln einer auf diesen Manipulationsmodus (Ml, M3) einge schränkten, zum Teilmanipulationsziel (TT, MT) führenden Teilmanipulation generiert wird.

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet,

dass das Teilmanipulationsziel (TT) zufallsbasiert selektiert wird .

8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass die Vielzahl der Manipulationszustände (MZ) zufallsba siert generiert wird, und/oder dass die Vielzahl der generierten Regler (RS) zufallsbasiert ausgewählt wird.

9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass

der Aufwandswert (AW) abhängig von einer simulierten Zeitdau er und/oder einer Anzahl von simulierten Steuerschritten bis zum Erreichen des Manipulationsziels (MT) ermittelt wird.

10. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet,

dass für eine Vielzahl von Abfolgen von generierten Reglern (RS) jeweils eine durch die jeweilige Abfolge geregelte Mani pulation simuliert wird, wobei ein ein Erreichen des Manipu lationsziels (MT) quantifizierender Aufwandswert (AW) ermit telt wird, und

dass das Training des Maschinenlernmoduls (NN) anhand dieser ermittelten Aufwandswerte (AW) erfolgt.

11. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass

das Maschinenlernmodul (NN) ein Verfahren des bestärkenden Lernens, ein Deep-Q-Network, ein künstliches neuronales Netz, ein rekurrentes neuronales Netz, ein faltendes neuronales Netz, einen Autoencoder, eine Deep-Learning-Architektur, eine Support-Vector-Machine, ein datengetriebenes Regressionsmo dell, einen k-nächste-Nachbar-Klassifikator, ein physikali sches Modell und/oder einen Entscheidungsbaum implementiert.

12. Manipulationssystem (MSY) mit einem Roboter (R) zur Mani pulation eines Objekts (OB), eingerichtet zum Ausführen eines Verfahrens nach einem der vorhergehenden Ansprüche.

13. Computerprogrammprodukt eingerichtet zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 11.

14. Computerlesbares Speichermedium mit einem Computerpro grammprodukt nach einem Anspruch 13.

Description:
Beschreibung

Verfahren und Manipulationssystem zur Manipulation eines Ob jekts durch einen Roboter

In vielen Bereichen, insbesondere bei der Herstellung von Produkten, in der Logistik sowie bei vielen Dienstleistungen werden zunehmend Roboter, insbesondere Industrieroboter, Ser viceroboter, Transportroboter, Portalroboter oder andere au tomatisierte Manipulationssysteme zur Manipulation von Objek ten eingesetzt. Typische Manipulationsaufgaben umfassen hier bei insbesondere ein Greifen, Bearbeiten und/oder Handhaben von Objekten. Beispielsweise kann ein Roboter zunächst eine Kamera über ein zu manipulierendes Objekt verfahren, mit Hil fe der Kamera das Objekt lokalisieren, einen Greifer in die Nähe des Objekts verfahren, das Objekt ergreifen, das gegrif fene Objekt in eine Ablageposition verfahren und das Objekt wieder loslassen.

Bei derartigen Manipulationen sind häufig eine Vielzahl von Nebenbedingungen einzuhalten, die insbesondere Bewegungsbe schränkungen des Roboters, eine Fixierung von Objekten, Kraftbegrenzungen, Abstandsbegrenzungen oder eine Vermeidung von Kollisionen mit anderen Robotern oder Hindernissen be treffen können.

Eine Planung solcher Manipulationen erfolgt bisher in vielen Fällen manuell. Eine manuelle Planung ist aber in der Regel zeitaufwendig. Zudem kann häufig nur eine begrenzte Anzahl von Verhaltensweisen für den Roboter programmiert werden.

Darüber hinaus sind rechnergestützte Planer verfügbar, die eine automatisierte Planung von Robotermanipulationen erlau ben. Im Rahmen einer solchen Planung werden häufig ausgehend von einer Aufgabenbeschreibung für die Manipulation und den hierbei einzuhaltenden Nebenbedingungen eine oder mehrere Trajektorien für die Manipulation ermittelt, die den Nebenbe dingungen genügen. Der Roboter kann dann die ermittelten Trajektorien ausführen. In vielen Fällen sind derartige

Trajektorien jedoch nicht für eine reaktive, das heißt gere gelte Ausführung geeignet. Damit kann der Roboter bei Abwei chungen der tatsächlichen Manipulation von der ermittelten Trajektorie oft nicht in geregelter Weise reagieren.

Aus dem Dokument „Modeling and Planning Manipulation in Dyna mic Environments" von Philipp S. Schmitt et al . , in Int.

Conf. on Robotics and Automation, IEEE, 2019, Vorabdruck on line unter http://ais.informatik.uni- freiburg . de/publications/papers/schmitt19icra . pdf ( abgerufen am 10. Juli 2019) ist ein Verfahren bekannt, durch das sog. constraintbasierte Regler zur geregelten Ausführung von Mani pulationen unter vorgegebenen Nebenbedingungen generiert wer den können. Viele der so generierten Regler können jedoch an ungünstig geformten Hindernissen gewissermaßen festlaufen.

Auf das vorstehende Dokument wird im Folgenden mit [1] Bezug genommen .

Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren und ein Manipulationssystem zur Manipulation eines Objekts durch einen Roboter zu schaffen, die eine geregelte und flexible Umgehung von Hindernissen erlauben.

Gelöst wird diese Aufgabe durch ein Verfahren mit den Merkma len des Patentanspruchs 1, durch ein Manipulationssystem mit den Merkmalen des Patentanspruchs 12, durch ein Computerpro grammprodukt mit den Merkmalen des Patentanspruchs 13 sowie durch ein computerlesbares Speichermedium mit den Merkmalen des Patentanspruchs 14.

Zur Manipulation eines Objekts durch einen Roboter, wobei die Manipulation auf ein Manipulationsziel gerichtet ist und un terschiedliche Manipulationsmodi umfasst, werden mehrere ma nipulationsmodusspezifische Regler jeweils zum Regeln einer auf einen Manipulationsmodus eingeschränkten Teilmanipulation generiert. Der Roboter kann hierbei insbesondere ein Indust rieroboter, ein Serviceroboter, ein Transportroboter, ein Portalroboter, ein sogenannter Gantry oder ein anderes Mani- pulationssystem zur Manipulation von Objekten sein. Erfin- dungsgemäß wird für eine Vielzahl von Manipulationszuständen und eine Vielzahl der generierten Regler jeweils eine vom je weiligen Manipulationszustand ausgehende und durch den jewei ligen generierten Regler geregelte Teilmanipulation simu liert, wobei ein ein Erreichen des Manipulationsziels quanti fizierender Aufwandswert ermittelt wird. Anhand der Vielzahl der Manipulationszustände, der Vielzahl der generierten Reg ler sowie der Aufwandswerte wird ein Maschinenlernmodul da rauf trainiert, anhand eines Manipulationszustandes einen der generierten Regler zu ermitteln, der einen Aufwandswert opti miert. Unter einem Optimieren sei dabei auch ein Annähern an ein Optimum verstanden. Weiterhin wird ein aktueller Manipu lationszustand sensorisch erfasst, anhand dessen durch das trainierte Maschinenlernmodul ein aufwandsoptimierender Reg ler ermittelt wird. Mittels des aufwandsoptimierenden Reglers werden anhand des aktuellen Manipulationszustandes Steuerda ten zum Ansteuern des Roboters generiert.

Zum Ausführen des erfindungsgemäßen Verfahrens sind ein Mani pulationssystem, ein Computerprogrammprodukt sowie ein compu terlesbares, vorzugsweise nichtflüchtiges Speichermedium vor gesehen .

Das erfindungsgemäße Verfahren, das erfindungsgemäße Manipu lationssystem sowie das erfindungsgemäße Computerprogrammpro dukt können beispielsweise mittels eines oder mehrerer Pro zessoren, eines oder mehrerer Computer, anwendungsspezifi scher integrierter Schaltungen (ASIC) , digitaler Signalpro zessoren (DSP) und/oder sogenannter „Field Programmable Gate Arrays" (FPGA) ausgeführt bzw. implementiert werden.

Ein Vorteil der Erfindung ist insbesondere darin zu sehen, dass es eine reaktive und robuste Steuerung komplexer Manipu lationen erlaubt. Aufgrund der Berücksichtigung einer Viel zahl von Manipulationszuständen und Regelungsvarianten kann eine Umgehung komplexer Hindernisse in vielen Fällen erfolg- reich trainiert werden. Insofern eine Anwendung eines trai nierten Maschinenlernmoduls in der Regel einen erheblich ge ringeren Rechenaufwand erfordert als dessen Training kann die Ermittlung eines aufwandsoptimierenden Reglers zu einem aktu ellen Manipulationszustand häufig in Echtzeit erfolgen.

Vorteilhafte Ausführungsformen und Weiterbildungen der Erfin dung sind in den abhängigen Ansprüchen angegeben.

Nach einer vorteilhaften Ausführungsform der Erfindung kann ein Zustandsraum der Manipulation eine Konfiguration des Ro boters, einen Roboterzustand, einen Obj ektzustand, einen Kon taktzustand zwischen Roboter und Objekt, einen Zeitparameter, eine Zeitableitung und/oder einen Zustand anderer an der Ma nipulation beteiligter Komponenten umfassen. Insbesondere kann ein Konfigurationsraum des Roboters ein Unterraum des Zustandsraums sein.

Weiterhin können unterschiedliche, bei der Manipulation ein zuhaltende Nebenbedingungen erfasst werden. Aus einer durch eine jeweilige Nebenbedingung bedingten Einschränkung des Zu standsraums kann dann ein jeweiliger Manipulationsmodus abge leitet werden. Insbesondere kann eine solche Einschränkung des Zustandsraums durch den betreffenden Manipulationsmodus spezifiziert, definiert und/oder dargestellt werden. Die Ein schränkungen des Zustandsraums können jeweils eine Hyperflä che im Zustandsraum oder eine durch eine Hyperfläche begrenz te Teilmenge des Zustandsraums bilden. Eine jeweilige Neben bedingung kann insbesondere auch mehrdimensional sein, das heißt mehrere Manipulationsparameter betreffen. Regler, die für nebenbedingungsbasierte Manipulationsmodi generiert wer den, werden häufig auch als constraintbasierte Regler oder constraint-based Controller bezeichnet. Insofern derartige constraintbasierte Regler jeweils eine auf einen Manipulati onsmodus eingeschränkte und damit eine jeweilige Nebenbedin gung zumindest näherungsweise einhaltende Teilmanipulation regeln, müssen diese Nebenbedingungen bei einer nachfolgenden manipulationsmodusübgreifenden Optimierung nicht mehr expli- zit berücksichtigt werden. Hierdurch kann ein Optimierungs- aufwand in vielen Fällen beträchtlich verringert werden.

Eine jeweilige Nebenbedingung kann insbesondere eine Fixie rung des Objekts, eine Bewegungsbegrenzung einer Achse des Roboters, eine Kollisionsvermeidung, eine Geschwindigkeitsbe grenzung, eine Beschleunigungsbegrenzung, eine Kraftbegren zung und/oder eine Abstandsbegrenzung betreffen. Insbesondere kann eine jeweilige Nebenbedingung durch eine Kinetik oder Dynamik von Roboterbewegungen und/oder von Greifvorgängen be dingt sein.

Weiterhin kann vorgesehen sein, dass ein manipulationsmo dusspezifischer Regler zum Regeln einer auf einen ersten Ma nipulationsmodus eingeschränkten, zu einem zweiten Manipula tionsmodus führenden Teilmanipulation generiert wird. Derar tige Regler werden häufig auch als mode-switching-Regler be zeichnet und ermöglichen einen Wechsel zwischen verschiedenen Manipulationsmodi .

Darüber hinaus kann vorgesehen sein, dass innerhalb eines Ma nipulationsmodus ein Teilmanipulationsziel selektiert wird, und dass ein manipulationsmodusspezifischer Regler zum Regeln einer auf diesen Manipulationsmodus eingeschränkten, zum Teilmanipulationsziel führenden Teilmanipulation generiert wird. Vorzugsweise kann das Teilmanipulationsziel zufallsba siert selektiert werden. Ein solcher Regler wird häufig auch als random-target-Regler bezeichnet. Mittels derartiger rand- om-target-Regler können in vielen Fällen Wege zur geregelten Umgehung von Hindernissen auf effektive Weise gefunden wer den .

Nach einer vorteilhaften Ausführungsform der Erfindung können die Vielzahl der Manipulationszustände zufallsbasiert gene riert werden und/oder die Vielzahl der generierten Regler zu fallsbasiert ausgewählt werden. Auch dies kann effektiv dazu beitragen, Wege zur geregelten Umgehung von Hindernissen zu finden . Weiterhin kann der Aufwandswert abhängig von einer simulier ten Zeitdauer und/oder einer Anzahl von simulierten Steuer schritten bis zum Erreichen des Manipulationsziels ermittelt werden .

Nach einer weiteren vorteilhaften Ausführungsform der Erfin dung kann für eine Vielzahl von Abfolgen von generierten Reg lern jeweils eine durch die jeweilige Abfolge geregelte Mani pulation simuliert werden, wobei ein ein Erreichen des Mani pulationsziels quantifizierender Aufwandswert ermittelt wird. Das Training des Maschinenlernmoduls kann dann anhand dieser ermittelten Aufwandswerte erfolgen. Für die Reglerabfolge kann insbesondere simulativ geprüft werden, ob sie zum Mani pulationsziel führt oder nicht.

Ein Ausführungsbeispiel der Erfindung wird nachfolgend anhand der Zeichnung näher erläutert, dabei veranschaulichen jeweils in schematischer Darstellung:

Figur 1 ein Manipulationssystem beim Ausführen einer Manipu lation an einem Objekt,

Figur 2 durch Nebenbedingungen eingeschränkte Bereiche eines

Zustandsraums zu verschiedenen Manipulationsmodi,

Figur 3 constraintbasierte Regler für verschiedene Manipula tionsmodi ,

Figur 4 eine Steuerung eines erfindungsgemäßen Manipulati onssystems in einer Trainingsphase und

Figur 5 die trainierte Steuerung beim Steuern einer Manipu lation .

Figur 1 zeigt in den Teilfiguren 1A, 1B und IC jeweils ein Manipulationssystem MSY mit einem Roboter R beim Ausführen einer Manipulation an einem Objekt OB in schematischer Dar- Stellung. Die Teilfiguren 1A, 1B und IC veranschaulichen hierbei verschiedene Manipulationsphasen der auszuführenden Manipulation. Der Roboter R kann ein Industrieroboter, Ser viceroboter, Transportroboter, Portalroboter, ein sogenannter Gantry oder ein anderes Manipulationssystem zur Manipulation von Objekten sein. Als Objekt OB kann ein Werkzeug, ein Werk stück oder ein anderer Gegenstand manipuliert werden.

Das Objekt OB befindet sich zu Beginn der Manipulation an ei ner Startposition PS und soll durch den Roboter R gegriffen und über ein Hindernis H an einer Zielposition PT als Ziel der Manipulation abgelegt werden.

Die Teilfigur 1A veranschaulicht den Beginn der Manipulation, bei der der Roboter R oder ein Roboterarm oder ein Greifer der Roboters R sich zum Objekt OB bewegt und das an der

Startposition PS befindliche Objekt OB greift. In einer nach folgenden Manipulationsphase, die in Teilfigur 1B veranschau licht wird, bewegt sich der Roboter R mit dem gegriffenen Ob jekt OB über das Hindernis H hinweg und legt das Objekt OB an der Zielposition PT ab. In einer weiteren Manipulationsphase, die in Teilfigur IC veranschaulicht wird, lässt der Roboter R das an der Zielposition befindliche Objekt OB los und ent fernt sich vom Objekt OB.

Wie in den Teilfiguren 1A, 1B und IC veranschaulicht wird, sind in verschiedenen Manipulationsphasen unterschiedliche Nebenbedingungen durch den Roboter R einzuhalten. So muss der Roboter R mit gegriffenem Objekt OB einen größeren Abstand zum Hindernis H einhalten als ohne das gegriffene Objekt OB. Mit anderen Worten: Ein kollisionsfreier Bereich in einem Zu standsraum der Manipulation verändert sich abhängig davon, ob der Roboter R das Objekt OB gegriffen hat oder nicht.

Derartige durch Nebenbedingungen eingeschränkte Bereiche ei nes Zustandsraums der auszuführenden Manipulation werden in Figur 2 veranschaulicht. Die durch unterschiedliche Nebenbe dingungen eingeschränkten Bereiche des Zustandsraums definie- ren verschiedene Manipulationsmodi Ml, M2 und M3. Der Zu standsraum ist hierbei ein Zustandsraum der an der Manipula tion beteiligten Komponenten. Zu diesen Komponenten können insbesondere der Roboter R, ein Roboterarm oder ein Greifer des Roboters R, ein oder mehrere zu manipulierende Objekte OB oder andere Komponenten des Manipulationssystems MSY gehören.

Der Zustandsraum umfasst eine Vielzahl von Manipulationszu ständen, insbesondere Konfigurationen sowie Zustände des Ro boters R, Obj ektzustände, Kontaktzustände zwischen Roboter R und Objekt OB, Zeitparameter, Zeitableitungen sowie andere Zustände des Manipulationssystems MSY. Die Manipulationszu stände des Zustandsraums können einerseits diskrete Zustände umfassen, die z.B. angeben, ob ein Objekt gegriffen ist oder nicht, oder ob ein Ventil geöffnet oder geschlossen ist. An dererseits können die Manipulationszustände des Zustandsraums kontinuierliche Zustände wie beispielsweise Positionierungen, Orientierungen, Geschwindigkeiten oder auftretende Kräfte um fassen. Dementsprechend können die Manipulationszustände des Zustandsraums durch Bewegungskoordinaten, Positionskoordina ten, Einstellgrößen, Messdaten oder andere Manipulationspara meter dargestellt werden. Insbesondere kann ein jeweiliger Manipulationszustand mit einer Vielzahl von Parametern als Zustandsvektor in einem hochdimensionalen Zustandsvektorraum dargestellt werden.

In Figur 2 sind beispielhaft Koordinatenachsen Kl, K2 und K3 des Zustandsraums angedeutet. Aus Übersichtlichkeitsgründen sind hierbei nur drei Koordinatenachsen einer möglichen Viel zahl von Koordinatenachsen dargestellt. Eine jeweilige Koor dinatenachse Kl, K2 bzw. K3 kann dabei auch stellvertretend mehrere Dimensionen des Zustandsraums repräsentieren. Im vor liegenden Ausführungsbeispiel werden entlang der Koordinaten achsen Kl und K2 eine Position des Roboters R sowie dessen Greifzustand parametrisiert, während entlang der Koordinaten achse K3 eine Position des Objekts OB parametrisiert wird. In Bezug auf den Zustandsraum besteht die auszuführende Mani pulationsaufgabe darin, die an der Manipulation beteiligten Komponenten unter Einhaltung von vorgegebenen Nebenbedingun gen von einem Startzustand MS der Manipulation zu einem Mani pulationsziel MT zu steuern. Das Manipulationsziel MT kann ein durch die Manipulation zu erreichender Zielzustand oder ein Bereich von Zielzuständen im Zustandsraum sein. In Figur 2 ist als Manipulationsziel MT ein Zielbereich angedeutet.

Eine derartige Manipulationsaufgabe wird häufig auch als Constrained-Motion-Problem bezeichnet. Wie schon aus dem Be griff hervorgeht, ist ein wesentlicher Aspekt derartiger Ma nipulationsaufgaben die Einhaltung von Nebenbedingungen, die - wie im Zusammenhang mit Figur 1 bereits angedeutet - je nach Manipulationsphase wechseln können. Die Nebenbedingungen sind insbesondere durch Kinetik und Dynamik der Roboterbewe gungen, der Objektbewegungen und des Greifvorgangs bestimmt. Weiterhin werden durch das Erfordernis der Kollisionsvermei dung, z.B. zwischen Roboter R, Objekt OB und Hindernis H so wie zwischen anderen Teilen des Manipulationssystems MSY wei tere Nebenbedingungen festgelegt. Die Nebenbedingungen können dabei insbesondere zeitabhängig sein, z.B. im Fall von beweg lichen Hindernissen. Darüber hinaus kann eine jeweilige Ne benbedingung auch mehrdimensional sein, das heißt mehrere einzelne Manipulationsparameter betreffen.

Durch eine Nebenbedingung wird jeweils ein eingeschränkter Bereich des Zustandsraums definiert, in dem die jeweilige Ne benbedingung zumindest näherungsweise erfüllt ist. Als Neben bedingungen können insbesondere Gleichheits-Nebenbedingungen und Ungleichheits-Nebenbedingungen vorgegeben sein. Ein Bei spiel einer Gleichheits-Nebenbedingung ist die stabile Fixie rung des Objekts OB. Das Objekt OB muss hierbei stabil auf einer Ablagefläche liegen oder stabil vom Roboter R gegriffen sein. Eine durch eine Gleichheits-Nebenbedingung bedingte Einschränkung des Zustandsraums bildet im Allgemeinen eine Hyperfläche im einbettenden Zustandsraum. Beispiele für Un gleichheits-Nebenbedingungen sind Bewegungsbegrenzungen von Achsen des Roboters R, Geschwindigkeitsbegrenzungen, Ab standsbegrenzungen oder durch das Erfordernis der Kollisions vermeidung bedingte Nebenbedingungen. Eine durch eine Un- gleichheits-Nebenbedingung bedingte Einschränkung des Zu standsraums bildet im Allgemeinen eine durch eine Hyperfläche begrenzte Teilmenge des Zustandsraums.

Insofern je nach Manipulationsphase gegebenenfalls verschie dene Nebenbedingungen einzuhalten sind, zerfällt die auszu führende Manipulation in verschiedene Manipulationsmodi, die jeweils durch die betreffende Nebenbedingung bzw. durch den betreffenden eingeschränkten Bereich des Zustandsraums defi niert oder spezifiziert werden. Ein Manipulationsmodus kann insbesondere einen Kontaktzustand zwischen Objekt OB und Ro boter R darstellen, definieren oder spezifizieren. Ein derar tiger Kontaktzustand kann beispielsweise angeben, ob ein Ob jekt gegriffen ist oder nicht.

Für das vorliegende Ausführungsbeispiel sind in Figur 2 aus Übersichtlichkeitsgründen nur drei Manipulationsmodi Ml, M2 und M3 explizit dargestellt. Die Manipulationsmodi Ml, M2 und M3 entsprechen hier Hyperflächen im Zustandsraum oder durch Hyperflächen begrenzten Teilmengen im Zustandsraum. Zu Beginn der Manipulation befinden sich die an der Manipulation betei ligten Komponenten im zum Manipulationsmodus Ml gehörigen Startzustand MS, in dem das Objekt OB an der Startposition PS platziert ist und sich nicht bewegt. In diesem Manipulations modus Ml können sich der Roboter R und sein Greiferzustand unabhängig vom Objekt OB in Richtung der Koordinatenachsen Kl und K2 bewegen.

Im Manipulationsmodus M2 ist das Objekt OB vom Roboter R ge griffen, das heißt der Greifer des Roboters R befindet sich an der Position des Objekts OB und der Greifer ist um das Ob jekt OB geschlossen. Der Greifer kann sich zusammen mit dem Objekt OB in Richtung der Koordinatenachsen K2 und K3 bewe gen. Ein Übergang zwischen einem Manipulationszustand mit ei nem an der Startposition PS befindlichen Objekt OB und einem Manipulationszustand mit einem vom Roboter R gegriffenen Ob jekt OB kann nur in der Schnittmenge der Manipulationsmodi Ml und M2 erfolgen.

Im Manipulationsmodus M3 ist das Objekt OB an der Zielpositi on PT platziert und der Roboter R und sein Greiferzustand können sich wieder unabhängig vom Objekt OB in Richtung der Koordinatenachsen Kl und K2 bewegen. Ein Übergang zwischen einem Manipulationszustand mit gegriffenem Objekt OB und ei nem Manipulationszustand mit einem an der Zielposition PT platzierten Objekt OB kann nur in der Schnittmenge der Mani pulationsmodi M2 und M3 erfolgen.

Die Manipulationsmodi Ml, M2 und M3 werden im vorliegenden Ausführungsbeispiel durch vorgegebene Ungleichheits- Nebenbedingungen Hl, H2 und H3 eingeschränkt, die im Folgen den als Hindernisse bezeichnet werden. Die Hindernisse Hl, H2 und H3 repräsentieren durch die vorgegebenen Ungleichheits- Nebenbedingungen ausgeschlossene oder unzulässige Bereiche des Zustandsraums. So bildet das Hindernis Hl einen unzuläs sigen Bereich im Manipulationsmodus Ml, das Hindernis H2 ei nen unzulässigen Bereich im Manipulationsmodus M2 und das Hindernis H3 einen unzulässigen Bereich im Manipulationsmodus M3. Das Hindernis H2 veranschaulicht hierbei einen unzulässi gen Bereich bei gegriffenem Objekt OB, während die Hindernis se Hl und H3 unzulässige Bereiche ohne gegriffenes Objekt re präsentieren. Die unzulässigen Bereiche sind in verschiedenen Manipulationsmodi im Allgemeinen unterschiedlich. So muss - wie oben bereits erwähnt - der Roboter R mit gegriffenem Ob jekt OB einen größeren Abstand zum Hindernis H einhalten als ohne gegriffenes Objekt OB.

Bei einer Manipulation gibt ein jeweils aktueller Manipulati onsmodus, hier Ml, M2 oder M3, gewissermaßen an, welche Ne benbedingungen für das Manipulationssystem MSY aktuell gel ten, maßgeblich sind oder aktiv sind. Eine beispielhafte Trajektorie TR im Zustandsraum, die ausge hend vom Startzustand MS im Manipulationsmodus Ml um das Hin dernis Hl herumführt und in den Manipulationsmodus M2 wech selt, von dort in den Manipulationsmodus M3 wechselt und schließlich im Manipulationsmodus M3 zum Manipulationsziel MT führt, ist in Figur 2 durch eine doppelte Linie angedeutet.

Figur 3 veranschaulicht in den Teilfiguren 3A, 3B, 3C und 3D verschiedene manipulationsmodusspezifische Regler RI, R2, R3 und R4 für verschiedene Manipulationsmodi, hier Ml, M2 und M3. Insofern in den Figuren 3A bis 3D die gleichen oder kor respondierende Bezugszeichen verwendet werden, wie in den vo rangegangenen Figuren, werden hierdurch die gleichen oder korrespondierende Entitäten bezeichnet, die vorzugsweise wie oben beschrieben implementiert oder realisiert sind.

Um einen Weg der an der Manipulation beteiligten Komponenten vom aktuellen Manipulationszustand zum Manipulationsziel MT zu finden, werden vorzugsweise zwei Arten von Bewegungen aus geführt: Erste Bewegungen, die innerhalb eines Manipulations modus verbleiben und dort ein vorgegebenes Teilmanipulations ziel ansteuern sowie zweite Bewegungen, die innerhalb eines ersten Manipulationsmodus einen davon verschiedenen, zweiten Manipulationsmodus, also die Schnittmenge zwischen erstem und zweitem Manipulationsmodus, ansteuern, um einen Wechsel vom ersten in den zweiten Manipulationsmodus zu ermöglichen.

Die Bewegungen sollen jeweils geregelt ausgeführt werden, das heißt, bei einer Abweichung von einer Solltraj ektorie oder bei Hindernissen soll eine die Abweichung ausgleichende bzw. vom Hindernis wegführende Bewegung veranlasst werden.

Zu diesem Zweck werden für einen jeweiligen Manipulationsmo dus, hier Ml, M2 bzw. M3, spezifische Regler, hier RI bis R4 generiert, mit deren Hilfe für jeden Manipulationszustand Steuerdaten zur Regelung einer Manipulation im jeweiligen Ma nipulationsmodus erzeugt werden können. Die Steuerdaten ver anlassen hierbei den Roboter R bzw. das Manipulationssystem MSY dazu, sich bei der Manipulation in geregelter Weise zu bewegen und dabei im betreffenden Manipulationsmodus zu ver bleiben bzw. bei Abweichungen vom Manipulationsmodus geregelt in diesen zurückzusteuern. Gegebenenfalls kann ein im jewei ligen Manipulationsmodus befindliches Teilmanipulationsziel angesteuert werden.

Mittels der manipulationsmodusspezifischen Regler RI bis R4 kann jeweils eine geschlossene Regelschleife im betreffenden Manipulationsmodus implementiert werden. Insofern derartige Regler spezifisch Bewegungen in durch Nebenbedingungen defi nierten Manipulationsmodi regeln, werden diese Regler häufig auch als constraintbasierte Regler oder constraint-based Con troller bezeichnet.

Die manipulationsmodusspezifischen Regler umfassen jeweils eine Datenstruktur, die ein Vektorfeld bzw. ein Richtungsfeld über dem Zustandsraum, insbesondere über dem auf den betref fenden Manipulationsmodus eingeschränkten Teil des Zustands raums spezifiziert. Hierbei ist jedem Manipulationszustand im betreffenden Manipulationsmodus ein Vektor zugeordnet, der innerhalb dieses Manipulationsmodus eine Richtung vorgibt, in der die Manipulation zu steuern ist.

Zur geregelten Ausführung der ersten und zweiten Bewegungen werden entsprechend zwei Typen von manipulationsmodusspezifi schen Reglern generiert und verwendet. So zum einen sogenann te Random-Target-Regler zum Ausführen bzw. zum Regeln der ersten Bewegungen, um ein zufallsbasiert ausgewähltes Teilma nipulationsziel innerhalb eines Manipulationsmodus anzusteu ern. Mittels derartiger Random-Target-Regler mit zufällig ge wählten Teilmanipulationszielen können Wege im Zustandsraum gefunden werden, die auch um komplex geformte Hindernisse, hier z.B. Hl, H2 oder H3 herumführen, um zum Manipulations ziel MT zu gelangen. Zum anderen werden sogenannte Mode- Switching-Regler zum Regeln der zweiten Bewegungen generiert, um in einen anderen Manipulationsmodus zu wechseln. Die manipulationsmodusspezifischen Regler RI bis R4 des vor liegenden Ausführungsbeispiels werden in den Figuren 3A bis 3D jeweils durch ein Richtungsfeld auf dem jeweils zugehöri gen Manipulationsmodus Ml, M2 bzw. M3 veranschaulicht. Die Richtungsfelder sind hierbei jeweils durch eine Menge von Pfeilen angedeutet. Eine jeweils resultierende Trajektorie wird durch eine Doppellinie veranschaulicht.

Figur 3A veranschaulicht den für den Manipulationsmodus Ml spezifischen, constraintbasierten Regler RI. Letzterer regelt eine Teilmanipulation des Roboters R innerhalb des Manipula tionsmodus Ml, die insbesondere vom Startzustand MS zu einem zufallsbasierten Teilmanipulationsziel TT führt. Hierbei wird der Roboter R um das Hindernis Hl herumgesteuert. Der Regler RI ist als Random-Target-Regler ausgestaltet.

Figur 3B veranschaulicht den ebenfalls für den Manipulations modus Ml spezifischen, constraintbasierten Regler R2. Der Regler R2 regelt ein Greifen des an der Startposition PS be findlichen Objekts OB durch den Roboter R und damit eine Be wegung innerhalb des Manipulationsmodus Ml zum Manipulations modus M2, in dem das Objekt OB durch den Roboter R gegriffen ist. Die Bewegung ist mithin auf die Schnittmenge des Manipu lationsmodus Ml mit dem Manipulationsmodus M2 gerichtet. Der Regler R2 ist dementsprechend als Mode-Switching-Regler aus gestaltet .

Figur 3C veranschaulicht den für den Manipulationsmodus M2 spezifischen, constraintbasierten Regler R3. Letzterer regelt eine Teilmanipulation innerhalb des Manipulationsmodus M2 in Richtung zum Manipulationsmodus M3, in dem das Objekt OB sich in der Zielposition PT befindet. Die Bewegung erfolgt in Richtung der Schnittmenge zwischen dem Manipulationsmodus M2 und dem Manipulationsmodus M3. Der Regler R3 ist ebenfalls als Mode-Switching-Regler ausgestaltet.

Figur 3D veranschaulicht den für den Manipulationsmodus M3 spezifischen, constraintbasierten Regler R4. Der Regler R4 regelt innerhalb des Manipulationsmodus M3 ein Loslassen des an der Zielposition PT befindlichen Objekts OB sowie eine Be wegung des Roboters R zum Manipulationsziel MT.

Eine Generierung der vorstehend beschriebenen, constraintba- sierten Reglertypen zu vorgegebenen Nebenbedingungen ist bei spielsweise im Dokument [1] detailliert beschrieben.

Zum vorliegenden Ausführungsbeispiel sei angemerkt, dass der Regler R2 eine vom Startzustand MS ausgehende Bewegung am Hindernis Hl festlaufen ließe (siehe den Verlauf des Rich tungsfeldes in Figur 3B) , sodass der Manipulationsmodus M2 und letztlich das Manipulationsziel MT nicht erreicht würde. Dagegen kann ausgehend vom Teilmanipulationsziel TT der Mani pulationsmodus M2 mittels des Reglers R2 durchaus erreicht werden. Das heißt, die Reglersequenz RI, R2 kann - anders als der Regler R2 allein - ausgehend vom Startzustand MS eine Be wegung in den Manipulationsmodus M2 steuern.

Nachfolgend wird beschrieben, auf welche Weise geeignete Reg ler bzw. Reglersequenzen gefunden werden können, deren Anwen dung einen durchgehenden und optimierten Weg vom Startzustand MS zum Manipulationsziel MT regeln.

Figur 4 veranschaulicht eine Steuerung CTL eines erfindungs gemäßen Manipulationssystems in einer Trainingsphase. Inso fern in Figur 4 die gleichen oder korrespondierende Bezugs zeichen verwendet werden wie in den vorangegangenen Figuren, werden hierdurch die gleichen oder korrespondierende Entitä ten bezeichnet, die vorzugsweise wie oben beschrieben imple mentiert oder realisiert sind.

Die Steuerung CTL steuert insbesondere den Roboter R und ge gebenenfalls andere Teile des Manipulationssystems MSY. Sie verfügt über einen Prozessor PROC zum Ausführen von darauf ablaufenden Lern- und Steuerverfahren sowie über einen mit dem Prozessor PROC gekoppelten Speicher MEM zum Speichern von zu verarbeitenden Daten. Erfindungsgemäß soll die Steuerung CTL anhand einer Aufgaben beschreibung der auszuführenden Manipulation geeignete Regler generieren und darauf trainiert werden, eine optimierte Se quenz dieser Regler zu finden, die ausgehend von möglichen Startzuständen MS eine durchgehende Bewegung zum Manipulati onsziel MT regeln. Die Aufgabenbeschreibung spezifiziert hierbei insbesondere bei der Manipulation einzuhaltende Ne benbedingungen NB, das anzusteuernde Manipulationsziel MT so wie mögliche Startzustande MS der Manipulation. Die Nebenbe dingungen NB, die möglichen Startzustande MS sowie das Mani pulationsziel MT werden zu einem Reglergenerator RGEN der Steuerung CTL übermittelt.

Durch die Nebenbedingungen NB werden für den Reglergenerator RGEN unterschiedliche Manipulationsmodi, im vorliegenden Aus führungsbeispiel Ml, M2 und M3 definiert. Für die unter schiedlichen Manipulationsmodi Ml, M2, und M3 wird durch den Reglergenerator RGEN eine Vielzahl von manipulationsmodusspe zifischen Reglern, hier RI, R2, R3 und R4 generiert. Die Ge nerierung derartiger Regler wird z.B. im Dokument [1] aus führlich beschrieben. Für ein reales Manipulationssystem wur den auf diese Weise 44 manipulationsmodusspezifische Regler generiert .

Wie oben bereits erwähnt, steuern die Regler RI, ..., R4 die Bewegung derart, dass die Nebenbedingungen NB zumindest nähe rungsweise eingehalten werden. Es bleibt zu ermitteln, welche Abfolge von Reglern von einem Startzustand MS oder vom aktu ellen Manipulationszustand ausgehend tatsächlich zum Manipu lationsziel MT führt. Zu diesem Zweck soll erfindungsgemäß eine Abbildung ermittelt werden, die zu einem jeweiligen Ma nipulationszustand einen Regler angibt, der im zugehörigen Manipulationsmodus eine möglichst effektive Annäherung an das Manipulationsziel MT regelt. Insbesondere soll dieser Regler zumindest ein Teilstück eines tatsächlich zum Manipulations ziel MT führenden Weges steuern. Insofern das Einhalten der Nebenbedingungen NB, z.B. zur Kol lisionsvermeidung oder zum Fixieren des Objekts OB bereits durch die generierten Regler RI, ..., R4 in reaktiver Weise ge währleistet wird, müssen diese Nebenbedingungen NB bei der nachfolgend beschriebenen, manipulationsmodusübergreifenden Optimierung von Reglersequenzen nicht mehr berücksichtigt werden. Hierdurch kann ein Optimierungsaufwand in vielen Fäl len beträchtlich verringert werden.

Die oben erwähnte Abbildung von Manipulationszuständen auf constraintbasierte Regler wird erfindungsgemäß durch Trainie ren eines Maschinenlernmoduls NN der Steuerung CTL erzeugt. Das Maschinenlernmodul NN umfasst vorzugsweise ein künstli ches neuronales Netz, das ein Verfahren des bestärkenden Ler nens, auch Reinforcement-Learning genannt, implementiert. Insbesondere kann das Maschinenlernmodul NN ein sogenanntes Deep-Q-Network implementieren, das durch ein Q-Learning- Verfahren trainiert wird. Zum Trainieren derartiger Maschi- nenlernmodule NN sind eine Vielzahl von Reinforcement- Learning-Verfahren verfügbar.

Alternativ oder zusätzlich kann das Maschinenlernmodul NN ein rekurrentes neuronales Netz, ein faltendes neuronales Netz, einen Autoencoder, eine Deep-Learning-Architektur, eine Sup- port-Vector-Machine, ein datengetriebenes Regressionsmodell, einen k-nächste-Nachbar-Klassifikator, ein physikalisches Mo dell und/oder einen Entscheidungsbaum implementieren.

Zum Generieren von Trainingsdaten für das Maschinenlernmodul NN werden die generierten Regler RI, ..., R4 vom Reglergene rator RGEN zu einem Sequenzgenerator SGEN der Steuerung CTL übermittelt, der daraus für eine Vielzahl von Manipulations zuständen MZ jeweils eine Vielzahl von Reglersequenzen RS ge neriert. Die Manipulationszustände MZ werden auf allen Mani pulationsmodi, hier Ml, M2 und M3, zufallsbasiert generiert und dem jeweiligen Manipulationsmodus Ml, M2 bzw. M3 zugeord net. Die generierten Manipulationszustände stellen Startzu stände im Zustandsraum dar, von denen ausgehend ein über eine Reglersequenz RS verlaufender Weg zum Manipulationsziel MT gefunden werden soll. Die Reglersequenzen RS werden durch den Sequenzgenerator SGEN ebenfalls zufallsbasiert generiert. Auf diese Weise können durch den Sequenzgenerator SGEN durchaus mehrere Tausend oder Millionen von verschiedenen Kombinatio nen von Manipulationszuständen MZ und Reglersequenzen RS ge neriert werden.

Die Manipulationszustände MZ und die zugehörigen Reglerse quenzen RS werden vom Sequenzgenerator SGEN zu einem Simula tionsmodul SIM übertragen. Zu Letzterem wird auch das Manipu lationsziel MT übermittelt. Das Simulationsmodul SIM dient zum Simulieren einer vom jeweiligen Manipulationszustand MZ ausgehenden und durch einen jeweiligen Regler oder durch eine jeweilige Reglersequenz geregelten Manipulation oder Teilma nipulation. Die Anwendung der Regler wird hierbei insbesonde re hinsichtlich ihrer physikalischen Manipulationsdynamik und Manipulationskinetik simuliert.

Insbesondere wird durch das Simulationsmodul SIM ermittelt, ob ein vom jeweiligen Manipulationszustand MZ ausgehender und durch eine jeweilige Reglersequenz RS geregelter Weg zum Ma nipulationsziel MT führt oder nicht. Tatsächlich dürfte die überwiegende Anzahl der zufallsbasierten Reglersequenzen RS suboptimal sein und in einer überwiegenden Anzahl der Fälle scheitern, das heißt letztlich nicht vom jeweiligen Manipula tionszustand MZ zum Manipulationsziel MT führen. Um ein Er reichen des Manipulationsziels MT zu quantifizieren, wird durch das Simulationsmodul SIM für eine jeweilige Kombination von Manipulationszustand MZ und Regler bzw. Reglersequenz RS ein Aufwandswert als Simulationsergebnis ermittelt. Der Auf wandswert kann vorzugsweise eine simulierte Zeitdauer

und/oder eine Anzahl von simulierten Steuerschritten bis zum Erreichen des Manipulationsziels MT quantifizieren. Für ein Nichterreichen des Manipulationsziels MT kann dem Aufwands wert entsprechend ein singulärer Wert, z.B. -1 oder ein sehr hoher Wert zugewiesen werden. Insbesondere kann zur Ermitt lung eines jeweiligen Aufwandswerts eine Belohnungsfunktion ausgewertet werden und/oder eine diskontierte Summe über Ein zelaufwandswerte berechnet werden.

Die Manipulationszustände MZ mit jeweils zugeordnetem Manipu lationsmodus sowie die Reglersequenzen RS werden dem Maschi nenlernmodul NN als Trainingsdaten zugeführt. Unter einem Training sei allgemein eine Optimierung einer Abbildung von Eingabedaten, hier MZ und RS, eines parametrisierten System modells, hier des Maschinenlernmoduls NN, auf Ausgabedaten, hier einer jeweiligen Angabe eines aufwandsoptimierenden Reg lers OR, verstanden. Diese Abbildung wird nach vorgegebenen, gelernten und/oder zu lernenden Kriterien während einer Trai ningsphase optimiert. Als Kriterien können z.B. bei Steuermo dellen ein Erfolg oder eine Performanz einer Steueraktion o- der bei Prädiktionsmodellen ein Prädiktionsfehler herangezo gen werden. Im vorliegenden Ausführungsbeispiel wird durch das Training angestrebt, die simulativ ermittelten Aufwands werte zu minimieren. Durch das Training können z.B. eine Ver netzungsstruktur von Neuronen eines neuronalen Netzes und/oder Gewichte von Verbindungen zwischen den Neuronen so eingestellt bzw. optimiert werden, dass die vorgegebenen Kri terien möglichst gut erfüllt werden. Das Training kann somit als Optimierungsproblem aufgefasst werden. Für derartige Op timierungsprobleme stehen eine Vielzahl von effizienten Opti mierungsverfahren zu Verfügung.

Im vorliegenden Ausführungsbeispiel soll das Maschinenlernmo dul NN darauf trainiert werden, zu einem vorgegebenen Manipu lationszustand MZ einen Regler OR anzugeben, der einen Auf wand zum Erreichen des Manipulationsziels MT, das heißt den betreffenden Aufwandswert minimiert. Zu diesem Zweck wird der vom Maschinelernmodul NN angegebene Regler OR dem Simulati onsmodul SIM zugeführt, welches hierzu einen Aufwandswert AW einer vom zugehörigen Manipulationszustand MZ ausgehenden und mit dem angegebenen Regler OR beginnenden Reglersequenz aus gibt. Vorzugsweise wird hierfür eine Reglersequenz mit mini malem Aufwandswert AW ausgewählt. Das Simulationsmodul SIM führt den Aufwandswert AW zum Maschinenlernmodul NN zurück, um dieses — wie in Figur 4 durch einen strichlierten Pfeil angedeutet — darauf zu trainieren, den Aufwandswert AW zu mi nimieren, das heißt, zu einem vorgegebenen Manipulationszu stand MZ jeweils einen Regler OR auszugeben, der einen Auf wand zum Erreichen des Manipulationsziels MT minimiert.

Nach Abschluss eines solchen Trainings implementiert das trainierte Maschinenlernmodul NN eine mittels Reinforcement- Learning optimierte, manipulationsmodusübergreifende Abbil dung von einem jeweiligen Manipulationszustand MZ auf einen jeweiligen aufwandsminimierenden Regler OR.

Figur 5 zeigt die trainierte Steuerung CTL beim Steuern einer Manipulation in schematischer Darstellung. Insofern in Figur 5 die gleichen oder korrespondierende Bezugszeichen verwendet werden wie in den vorangegangenen Figuren, werden hierdurch die gleichen oder korrespondierende Entitäten bezeichnet, die vorzugsweise wie oben beschrieben, implementiert oder reali siert sind.

Zum Steuern der Manipulation ist die Steuerung CTL mit dem Roboter R und/oder mit anderen Komponenten des Manipulations systems MSY gekoppelt. Alternativ kann die Steuerung CTL auch ganz oder teilweise im Roboter R oder im Manipulationssystem MSY implementiert sein.

Zum Steuern der Manipulation wird durch den Roboter R ein ak tueller Manipulationszustand AMZ der an der Manipulation be teiligten Komponenten sensorisch erfasst und zur Steuerung CTL übertragen. Der aktuelle Manipulationszustand AMZ und der jeweils zugeordnete Manipulationsmodus werden zum trainierten Maschinenlernmodul NN als Eingabedaten übermittelt. Durch das trainierte Maschinenlernmodul NN wird dann anhand des aktuel len Manipulationszustands AMZ ein aufwandsoptimierender Reg ler OR ermittelt und zu einer Manipulationssteuerung MCTL der Steuerung CTL übermittelt. Der Manipulationssteuerung MCTL wird außerdem der aktuelle Manipulationszustand AMZ zuge führt . Die Manipulationssteuerung MCTL implementiert den übermittel ten Regler OR und generiert abhängig vom aktuellen Manipula tionszustand ÄMZ Steuerdaten CD zum geregelten Ansteuern des Roboters R oder anderer Komponenten des Manipulationssystems MSY. Die Ansteuerung erfolgt hierbei gemäß dem jeweils imple mentierten Regler OR. Die generierten Steuerdaten CD werden zum Roboter R übertragen, um diesen abhängig vom jeweiligen aktuellen Manipulationszustand ÄMZ in einer geschlossenen Re gelschleife anzusteuern.

Das Maschinenlernmodul NN kann im vorliegenden Ausführungs beispiel als den Reglern RI, ..., R4 übergeordneter Regler aufgefasst werden, der den aktuell anzuwendenden Regler, hier OR, selektiert. Auf diese Weise wird ein hierarchisches Reg lersystem implementiert.

Die Selektion des jeweiligen aufwandsminimierenden Reglers OR kann in der Regel in Echtzeit erfolgen, da die Anwendung ei nes trainierten Maschinenlernmoduls üblicherweise erheblich weniger aufwendig ist als sein Training. Insbesondere ist die zur Selektion des aktuellen Reglers OR benötigte Zeitdauer im Wesentlichen unabhängig vom aktuellen Manipulationszustand AMZ und somit unter deterministischen Zeitvorgaben ausführ bar. Im Unterschied dazu ist bei vielen bisher bekannten Pla nern im Allgemeinen vorab nicht bekannt, wann ein Planungser gebnis vorliegen wird.

Die Erfindung erlaubt eine reaktive Steuerung komplexer mehr stufiger Manipulationsprobleme, die unterschiedlichen und insbesondere zeitabhängigen Nebenbedingungen unterworfen sein können. Das Reglersystem erlaubt eine robuste Ausführung der Manipulation, das heißt es können in vielen Fällen auch Hin dernisse in optimierter Weise umgangen werden, ohne sich da ran festzulaufen. Darüber hinaus genügt oftmals bereits eine Angabe der einzuhaltenden Nebenbedingungen, des Manipulati onsziels sowie der Kinetik und Dynamik der an der Manipulati- on beteiligten Komponenten, um eine effiziente, global opti mierte Reglerkaskade zu implementieren.