Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD AND DEVICE FOR OPTIMISED PRODUCTION OF SHEET METAL PARTS
Document Type and Number:
WIPO Patent Application WO/2021/180816
Kind Code:
A1
Abstract:
The invention relates to a method for optimising production of sheet metal parts. The method optimises the allocation of sheet metal parts for processing on various production machines (14) and outputs an optimised production plan. An algorithm (20) is provided for this, which has a decision tree in the form of a Monte Carlo tree search framework (22) and a neural network (24). With each new query, the algorithm (20) is trained by means of self-play and reinforcement learning. Pre-training of the algorithm (20) is achieved by means of supervised learning. The algorithm (20) preferably optimises the production plan primarily with regard to minimally behind-schedule production deadlines for the sheet metal parts and secondarily with regard to minimal waste. Both goals can be evaluated jointly through the awarding of scores. The method can comprise receiving query-triggering events 46 and/or operating production machines (14) in accordance with the production plan. The invention further relates to a device (18) for carrying out the method.

Inventors:
MIETH CARINA (DE)
OTTNAD JENS (DE)
RINCIOG ALEXANDRU (DE)
STRUCKMEIER FREDERICK (DE)
Application Number:
PCT/EP2021/056107
Publication Date:
September 16, 2021
Filing Date:
March 10, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
TRUMPF WERKZEUGMASCHINEN GMBH CO KG (DE)
International Classes:
G05B13/02; G06N3/08; G06N5/00; G06Q10/04; G06Q10/06; G06Q50/04
Domestic Patent References:
WO2017157809A12017-09-21
Foreign References:
EP3485337A12019-05-22
US20190073224A12019-03-07
EP3608743A12020-02-12
Other References:
F. PFITZERJ. PROVOSTC. MIETHW. LIERTZ: "2018 IEEE 14th International Conference on Automation Science and Engineering (CASE", 2018, IEEE, article "Event-driven production rescheduling in job shop environments", pages: 939 - 944
M. PUTZA. SCHLEGEL, SIMULATIONSBASIERTE UNTERSUCHUNG VON PRIORITÄTS-UND KOMMISSIONIERREGELN ZUR STEUERUNG DES MATERIALFLUSSES IN DER BLECHINDUSTRIE
L. L. LIC. B. LIL. LIY. TANGQ. S. YANG: "An integrated approach for remanufacturing job shop scheduling with routing alternatives.", MATHEMATICAL BIOSCIENCES AND ENGINEERING: MBE, vol. 16, no. 4, 2019, pages 2063 - 2085
M. GONDRANM.-J. HUGUETP. LACOMMEN. TCHERNEV, COMPARISON BETWEEN TWO APPROACHES TO SOLVE THE JOB-SHOP SCHEDULING PROBLEM WITH ROUTING, 2019
J. J. VAN HOORN: "The current state of bounds on benchmark instances of the job-shop scheduling problem", JOURNAL OF SCHEDULING, vol. 21, no. 1, 2018, pages 127 - 128, XP036421034, DOI: 10.1007/s10951-017-0547-8
S.-C. LINE. D. GOODMANW. F. PUNCH III: "A genetic algorithm approach to dynamic job shop scheduling problem", ICGA, 1997, pages 481 - 488
T. YAMADAR. NAKANO: "International Conference on Parallel Problem Solving from Nature", 1996, SPRINGER, article "Scheduling by genetic local search with multistep crossover", pages: 960 - 969
B. M. OMBUKIM. VENTRESCA: "Local search genetic algorithms for the job shop scheduling problem", APPLIED INTELLIGENCE, vol. 21, no. 1, 2004, pages 99 - 109
E. S. NICOARAF. G. FILIPN. PARASCHIV: "Simulation-based optimization using genetic algorithms for multi-objective flexible jssp", STUDIES IN INFORMATICS AND CONTROL, vol. 20, no. 4, 2011, pages 333 - 344
L. ASADZADEH: "A local search genetic algorithm for the job shop scheduling problem with intelligent agents", COMPUTERS & INDUSTRIAL ENGINEERING, vol. 85, 2015, pages 376 - 383, XP029240593, DOI: 10.1016/j.cie.2015.04.006
B. WASCHNECKA. REICHSTALLERL. BELZNERT. ALTENMÜLLERT. BAUERNHANSLA. KNAPPKYEK: "Optimization of global production scheduling with deep reinforcement learning", PROCEDIA CIRP, vol. 72, 2018, pages 1264 - 1269
M. BOTVINICKS. RITTERJ. X. WANGZ. KURTH-NELSONC. BLUNDELLD. HASSABIS: "Reinforcement learning, fast and slow", TRENDS IN COGNITIVE SCIENCES, 2019
W. ZHANGT. G. DIETTERICH: "A reinforcement learning approach to job-shop scheduling", IJCAI, CITESEER, vol. 95, 1995, pages 1114 - 1120
R. S. SUTTONA. G. BARTO ET AL.: "Introduction to reinforcement learning, 4", MIT PRESS CAM- BRIDGE, vol. 2, 1998
S. MAHADEVANG. THEOCHAROUS: "Optimizing production manufacturing using reinforcement learning", FLAIRS CONFERENCE, 1998, pages 372 - 377
S. J. BRADTKEM. O. DUFF: "Reinforcement learning methods for continuous-time markov decision problems", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 1995, pages 393 - 400
S. RIEDMILLERM. RIEDMILLER: "A neural reinforcement learning approach to learn local dispatching policies in production scheduling", IJCAI, vol. 2, 1999, pages 764 - 771
C. D. PATERNINA-ARBOLEDAT. K. DAS: "A multi-agent reinforcement learning approach to obtaining dynamic control policies for stochastic lot scheduling problem", SIMULATION MODELLING PRACTICE AND THEORY, vol. 13, no. 5, 2005, pages 389 - 406, XP004913036, DOI: 10.1016/j.simpat.2004.12.003
T. GABELM. RIEDMILLER: "2007 IEEE Symposium on Computational Intelligence in Scheduling", 2007, IEEE, article "Scaling adaptive agent-based reactive job-shop scheduling to large-scale problems", pages: 259 - 266
Y. C. F. REYNAY. M. JIM'ENEZJ. M. B. CABRERAB. M. M. HERNÄNDEZ: "A reinforcement learning approach for scheduling problems", INVESTIGACI6N OPERACIONAL, vol. 36, no. 3, 2015, pages 225 - 231
S. QUJ. WANGS. GOVILJ. O. LECKIE: "Optimized adaptive scheduling of a manufacturing process system with multi-skill workforce and multiple machine types: An ontology-based, multi-agent reinforcement learning approach", PROCEDIA CIRP, vol. 57, 2016, pages 55 - 60
V. MNIHK. KAVUKCUOGLUD. SILVERA. GRAVESI. ANTONOGLOUD. WIERSTRAM. RIED- MILLER: "Playing atari with deep reinforcement learning", ARXIV PREPRINT ARXIV, vol. 1312, 2013, pages 5602
A. KUHNLEL. SCHÄFERN. STRICKERG. LANZA: "Design, implementation and evaluation of reinforcement learning for an adaptive order dispatching in job shop manufacturing systems", PROCEDIA CIRP, vol. 81, 2019, pages 234 - 239
N. STRICKERA. KUHNLER. STURMS. FRIESS: "Reinforcement learning for adaptive order dispatching in the semiconductor industry", CIRP ANNALS, vol. 67, no. 1, 2018, pages 511 - 514, XP085415964, DOI: 10.1016/j.cirp.2018.04.041
J. SCHULMANS. LEVINEP. ABBEELM. JORDANP. MORITZ: "Trust region policy optimization", INTERNATIONAL CONFERENCE ON MACHINE LEARNING, 2015, pages 1889 - 1897
M. GOMBOLAYR. JENSENJ. STIGILES.-H. SONJ. SHAH: "Apprenticeship scheduling: Learning to schedule from human experts", AAAI PRESS/INTERNATIONAL JOINT CONFERENCES ON ARTIFICIAL INTELLIGENCE, 2016
H. INGIMUNDARDOTTIRT. P. RUNARSSON: "International conference on learning and intelligent optimization", SPRINGER, article "Supervised learning linear priority dispatch rules for job-shop scheduling", pages: 263 - 277
D. SILVERA. HUANGC. J. MADDISONA. GUEZL. SIFREG. VAN DEN DRIESSCHEJ. SCHRITTWIESERI. ANTONOGLOUV. PANNEERSHELVAMM. LANCTOT ET AL.: "Mastering the game of go with deep neural networks and tree search", NATURE, vol. 529, no. 7587, 2016, pages 484, XP055344199, DOI: 10.1038/nature16961
G. CHASLOTS. BAKKESI. SZITAP. SPRONCK: "Monte-carlo tree search: A new framework for game ai", AIIDE, 2008
D. SILVERJ. SCHRITTWIESERK. SIMONYANI. ANTONOGLOUA. HUANGA. GUEZT. HUBERTL. BAKERM. LAIA. BOLTON ET AL.: "Mastering the game of go without human knowledge", NATURE, vol. 550, no. 7676, 2017, pages 354, XP055500016, DOI: 10.1038/nature24270
D. SILVERT. HUBERTJ. SCHRITTWIESERI. ANTONOGLOUM. LAIA. GUEZM. LANCTOTL. SIFRED. KUMARANT. GRAEPEL ET AL.: "Mastering chess and shogi by self-play with a general reinforcement learning algorithm", ARXIV PREPRINT ARXIV:1712.01815, 2017
Attorney, Agent or Firm:
TRUMPF PATENTABTEILUNG (DE)
Download PDF:
Claims:
Patentansprüche

1. Verfahren zur Optimierung der Produktion von Blechteilen (Bi, B2) mit den

Prozessschritten: a) Ausschneiden und Vereinzeln der Blechteile (Bi, B2); b) Biegen der Blechteile (Bi, B2); wobei das Verfahren folgende Verfahrensschritte aufweist:

A) Training eines auf einem Monte-Carlo-tree-search-framework (22) ausgeführten neuronalen Netzes (24) mittels supervised-learning und self-play mit reinforcement-learning;

B) Erfassen von Randbedingungen (10) der Blechteile (Bi, B2), wobei die Randbedingungen (10) geometrische Daten der Blechteile (Bi, B2) umfassen;

C) Erstellen eines optimierten Produktionsplans durch das neuronale Netz (24);

D) Ausgabe des Produktionsplans.

2. Verfahren nach Anspruch 1, bei dem das Verfahren einen oder mehrere der folgenden Prozessschritte aufweist: c) Entgraten der Blechteile (Bi, B2); d) Fügen der Blechteile (Bi, B2); e) Beschichten der Blechteile (Bi, B2); f) Montieren der Blechteile (Bi, B2). 3. Verfahren nach Anspruch 1 oder 2, bei dem die Verfahrensschritte A) bis D) mit einem Algorithmus (20) durchgeführt wird, wobei der Algorithmus (20) auf AlphaGo oder AlphaGo Zero basiert und wobei der Algorithmus (20) das neuronale Netz aufweist. 4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem das Trai ning im Verfahrensschritt A) mit heuristisch ermittelten Lösungen opti mierter Produktionspläne durchgeführt wird.

5. Verfahren nach Anspruch 4, bei dem optimierte Produktionspläne in Form von earliest-due-date-Lösungen eingesetzt werden.

6. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Opti mierung sowohl die Verschnittminimierung als auch die Produktionszeitop timierung umfasst.

7. Verfahren nach Anspruch 6, bei dem die Randbedingungen (10) im Verfah rensschritt B) zusätzlich die Produktionsfristen der Blechteile (Bi, B2) um fassen.

8. Verfahren nach Anspruch 7, bei dem die Randbedingungen (10) im Verfah rensschritt B) zusätzlich die Werte der Blechteile (Bi, B2) umfassen.

9. Verfahren nach Anspruch 8, bei dem dem Verschnitt ein Verschnittscore zugeteilt wird und dem Erreichen der Produktionsfrist eine Produktions fristscore zugeteilt wird, der auf dem Wert der Blechteile (Bi, B2) basiert, wobei die Optimierung sowohl den Verschnittscore als auch den Produkti onsfristscore minimiert.

10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Verfah rensschritte B) bis D) Ereignis-getriggert durchgeführt werden, wobei das Einlesen des Ereignisses (46) über eine Ereignisschnittstelle (44) erfolgt.

11. Verfahren nach Anspruch 10, bei dem das Ereignis (46) in Form einer An frage zur weiteren Bearbeitung eines Blechteils (Bi, B2), in Form freiwer dender Produktionsmaschinenkapazität, in Form eines Produktionsmaschi nenausfalls und/oder in Form eines Eilauftrags vorliegt.

12. Verfahren nach Anspruch 10 oder 11, bei dem das Ereignis (46) von einer Produktionsmaschine (14), einem Indoor-Lokalisierungssystem (48) und/oder einem manufacturing execution System (36) ausgelöst und über die Ereignisschnittstelle (44) eingelesen wird. 13. Verfahren nach einem der vorhergehenden Ansprüche, bei dem in einem Verfahrensschritt E) eine Nutzerbewertung (40) des im Verfahrensschritt D) ausgegebenen Produktionsplans eingelesen wird und das neuronale Netz (24) mit der Nutzerbewertung (40) weiter trainiert wird.

14. Vorrichtung (18) zur Durchführung eines Verfahrens nach einem der vor hergehenden Ansprüche, wobei die Vorrichtung (18) einen Computer (50) zum Speichern und Ausführen des neuronalen Netzes (24), eine Randbe- dingungsschnittsteile (38) zum Einlesen der Randbedingungen (10) und eine Produktionsplanschnittstelle (34) zur Ausgabe des Produktionsplans aufweist.

15. Vorrichtung nach Anspruch 14 in Verbindung mit Anspruch 12, bei dem die Vorrichtung (18) die Ereignisschnittstelle (44) aufweist und die die Vorrich tung (18) weiterhin eine Produktionsmaschine (14), ein Indoor-Lokalisie- rungssystem (48) und/oder ein manufacturing execution System (36) auf weist, wobei ein von der Produktionsmaschine (14), dem Indoor-Lokalisie- rungssystem (48) und/oder dem manufacturing execution System (36) ausgelöstes Ereignis (46) über die Ereignisschnittstelle (44) einlesbar ist.

Description:
Verfahren und Vorrichtung zur optimierten Produktion von Blechteilen

Hintergrund der Erfindung

Die Erfindung betrifft ein Verfahren zur Optimierung der Produktion von Blechtei len. Die Erfindung betrifft weiterhin eine Vorrichtung zur Durchführung eines sol chen Verfahrens.

Blechteile kommen in verschiedensten Produkten in verschiedensten Geometrien vor. Zur Herstellung von Produkten mit Blechteilen werden die Blechteile aus einer großen Blechtafel ausgeschnitten, vereinzelt, entgratet, gebogen, gefügt, be schichtet und/oder montiert.

Die Herstellung der Blechteile erfolgt dabei in sogenannten Aufträgen. Ein Auftrag beinhaltet i) die Herstellung eines ausgeschnittenen, vereinzelten, gebogenen und/oder montierten Blechteils oder ii) die Herstellung mehrerer ausgeschnittener, vereinzelter, gebogener und/oder montierter Blechteile innerhalb einer vorgegebenen Produktionsfrist. Die einzelnen Blechteile sollten so aus der Blechtafel ausgeschnitten werden, dass möglichst wenig Restmaterial (Verschnitt) der Blechtafel als Abfall verbleibt. Da die Blechteile verschiedener Aufträge verschiedene Geometrien aufweisen können, kann es zur Verschnittoptimierung vorteilhaft sein, Blechteile verschiedener Auf träge platzsparend gemeinsam auf einer Blechtafel vorzusehen.

Die hierdurch entstehende zeitliche Vermischung der Aufträge erhöht jedoch die Komplexität bei der Produktionsplanung. Hinzu kommt, dass die Produktion der Blechteile auf mehreren gleichen oder ähnlichen Produktionsmaschinen erfolgen kann. Beispielsweise können zum Biegen der vereinzelten Blechteile mehrere glei- che oder ähnliche Biegemaschinen vorgesehen sein. Die Produktionsmaschinen sollten dabei mit möglichst hoher Auslastung betrieben werden.

Die Produktionsplanung, also die Planung, wann welches Blechteil auf welcher Pro duktionsmaschine bearbeitet wird, wird durch die beschriebenen Variablen sehr komplex, insbesondere im Fall von Ereignissen wie Produktionsmaschinenausfäl len, Eilaufträgen und/oder freiwerdenden Produktionsmaschinenkapazitäten.

Die optimale Produktionsplanung wird als Lösung eines job-shop-scheduling-prob- lems (JSSP) bezeichnet. Lösungen und Lösungsansätze hierzu finden sich in fol- genden Veröffentlichungen:

[1] F. Pfitzer, J. Provost, C. Mieth, and W. Liertz, "Event-driven production re- scheduling in job shop environments", in 2018 IEEE 14th International Con ference on Automation Science and Engineering (CASE), IEEE, 2018, pp. 939-944; [2] M. Putz and A. Schlegel, "Simulationsbasierte Untersuchung von Prioritäts und Kommissionierregeln zur Steuerung des Materialflusses in der Blechin dustrie"; [3] L. L. Li, C. B. Li, L. Li, Y. Tang, and Q. S. Yang, "An integrated approach for remanufacturing job shop scheduling with routing alternatives.", Mathemat- ical biosciences and engineering: MBE, vol. 16, no. 4, pp. 2063-2085, 2019;

[4] M. Gondran, M.-J. Huguet, P. Lacomme, and N. Tchernev, "Comparison be- tween two approaches to solve the job-shop scheduling problem with rout ing", 2019;

[5] J. J. van Hoorn, "The current state of bounds on benchmark instances of the job-shop scheduling problem", Journal of Scheduling, vol. 21, no. 1, pp. 127-128, 2018;

[6] S.-C. Lin, E. D. Goodman, and W. F. Punch III, "A genetic algorithm approach to dynamic job shop scheduling problem", in ICGA, 1997, pp. 481-488;

[7] T. Yamada and R. Nakano, "Scheduling by genetic local search with multi- step crossover", in International Conference on Parallel Problem Solving from Nature, Springer, 1996, pp. 960- 969;

[8] B. M. Ombuki and M. Ventresca, "Local search genetic algorithms for the job shop scheduling problem", Applied Intelligence, vol. 21, no. 1, pp. 99-109, 2004;

[9] E. S. Nicoara, F. G. Filip, and N. Paraschiv, "Simulation-based optimization using genetic algorithms for multi-objective flexible jssp", Studies in Infor- matics and Control, vol. 20, no. 4, pp. 333-344, 2011;

[10] L. Asadzadeh, "A local search genetic algorithm for the job shop scheduling problem with intelligent agents", Computers & Industrial Engineering, vol. 85, pp. 376-383, 2015;

[11] B. Waschneck, A. Reichstaller, L. Belzner, T. Altenmüller, T. Bauernhansl, A. Knapp, and Kyek, "Optimization of global production scheduling with deep reinforcement learning", Procedia CIRP, vol. 72, pp. 1264-1269, 2018;

[12] M. Botvinick, S. Ritter, J. X. Wang, Z. Kurth-Nelson, C. Blundell, and D. Has- sabis, "Reinforcement learning, fast and slow", Trends in cognitive Sciences, 2019.

Weiterhin ist es aus der WO 2017/157809 Al bekannt geworden, eine Produkti onsplanung mit einer Optimiereinheit und einer davon getrennten Verteileinheit vorzusehen. Trotz umfangreicher Bemühungen konnte aufgrund der Komplexität der Aufgabe eine zufriedenstellende Produktionsplanung jedoch bislang nicht erzielt werden.

Aufgabe der Erfindung

Es ist daher Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung zur opti mierten Produktion von Blechteilen bereit zu stellen.

Beschreibung der Erfindung

Diese Aufgabe wird erfindungsgemäß gelöst durch ein Verfahren gemäß An spruch 1 und eine Vorrichtung gemäß Anspruch 13. Die Unteransprüche geben bevorzugte Weiterbildungen wieder.

Die erfindungsgemäße Lösung umfasst somit ein Verfahren zur Optimierung der Produktion von Blechteilen. Das Verfahren umfasst zumindest folgende Prozess schritten (vor, nach und/oder zwischen den nachfolgenden Prozessschritten kann ein weiterer Prozessschritt oder können mehrere weitere Prozessschritte vorgese- hen sein): a) Ausschneiden und Vereinzeln der Blechteile (insbesondere mittels Stanzen oder Laserschneiden); b) Biegen der Blechteile.

Das Verfahren weist zumindest folgende Verfahrensschritte auf (vor, nach und/0- der zwischen den nachfolgenden Verfahrensschritten kann ein weiterer Verfah rensschritt oder können mehrere weitere Verfahrensschritte vorgesehen sein):

A) Training eines auf einem Monte-Carlo-tree-search-framework durchgeführ ten neuronalen Netzes mittels supervised-learning und self-play mit rein- forcement-learning; B) Erfassen von Randbedingungen der Blechteile, wobei die Randbedingungen zumindest geometrische Daten der Blechteile umfassen;

C) Erstellen eines optimierten Produktionsplans durch das neuronale Netz;

D) Ausgabe des Produktionsplans. Erfindungsgemäß ist es somit vorgesehen, eine Optimierung mit einem neuronalen Netz (NN) vorzusehen. Neuronale Netze sind dem Fachmann beispielsweise be kannt aus: [13] Günter Daniel Rey, Karl F. Wender, „Neuronale Netze", 2. Auflage, 2010,

Huber.

Das neuronale Netz weist über Kanten verbundene Entscheidungsknoten auf. Diese sind im vorliegenden Fall Teil eines Monte-Carlo-tree-search-(MCTS)-frame- works, also einem Algorithmus mit einem Entscheidungsbaum. Dabei wird in dem Entscheidungsbaum ein aussichtsreicher Pfad gewählt (selection), der Pfad erwei tert (expansion), eine Simulation auf Grundlage des erweiterten Pfads (Simulation) durchgeführt und auf Grundlage des Simulationsergebnisses eine Rückmeldung, insbesondere in Form einer Stärkung oder Schwächung, an den Entscheidungs- bäum gegeben (backpropagation). Details zur Implementierung eines MCTS- framework kann folgender Veröffentlichung entnommen werden:

[14]G. Chaslot, S. Bakkes, I. Szita, and P. Spronck, "Monte-carlo tree search: A new framework for game ai", in AIIDE, 2008. Im vorliegenden Fall wird die MCTS durch das neuronale Netz durchgeführt, wobei das neuronale Netz durch supervised-learning vortrainiert wird. Die Entschei dungsfindung und weiteres Training erfolgt mittels self-play und reinforcement learning. Unter reinforcement-learning (RL) wird ein Rückmeldungs-basierter Lernprozess verstanden, der insbesondere die Stärkung bzw. Schwächung des Entscheidungs baums des MCTS-frameworks umfasst. Reinforcement-learning steht allgemein für eine Reihe von Methoden des maschinellen Lernens, bei denen ein Agent selbst ständig eine Strategie erlernt, um erhaltene Belohnungen (rewards) zu maximie- ren. Dabei wird dem Agenten nicht vorgezeigt, welche Aktion in welcher Situation die beste ist, sondern er erhält zu bestimmten Zeitpunkten eine Belohnung, die auch negativ sein kann. Anhand dieser Belohnungen approximiert er eine Nutzen funktion, die beschreibt, welchen Wert ein bestimmter Zustand oder Aktion hat. Details zur Implementierung können folgenden Veröffentlichungen entnommen werden:

[15] W. Zhang and T. G. Dietterich, "A reinforcement learning approach to job- shop scheduling", in IJCAI, Citeseer, vol. 95, 1995, pp. 1114-1120;

[16] R. S. Sutton, A. G. Barto, et al., Introduction to reinforcement learning, 4. MIT press Cam- bridge, 1998, vol. 2;

[17] S. Mahadevan and G. Theocharous, "Optimizing production manufacturing using reinforcement learning.", in FI_AIRS Conference, 1998, pp. 372-377;

[18] S. J. Bradtke and M. 0. Duff, "Reinforcement learning methods for continu- ous-time markov decision Problems", in Advances in neural Information Pro cessing Systems, 1995, pp. 393-400;

[19] S. Riedmiller and M. Riedmiller, "A neural reinforcement learning approach to learn local dispatching policies in production scheduling", in IJCAI, vol. 2, 1999, pp. 764-771;

[20] C. D. Paternina-Arboleda and T. K. Das, "A multi-agent reinforcement learn ing approach to obtaining dynamic control policies for stochastic lot sched uling problem", Simulation Modelling Practice and Theory, vol. 13, no. 5, pp. 389-406, 2005;

[21]T. Gabel and M. Riedmiller, "Scaling adaptive agent-based reactive job-shop scheduling to large-scale Problems", in 2007 IEEE Symposium on Computa- tional Intelligence in Scheduling, IEEE, 2007, pp. 259-266;

[22]Y. C. F. Reyna, Y. M. Jim ' enez, J. M. B. Cabrera, and B. M. M. Hernändez, "A reinforcement learning approach for scheduling Problems", Investigaciön Operacional, vol. 36, no. 3, pp. 225-231, 2015;

[23] S. Qu, J. Wang, S. Govil, and J. O. Leckie, "Optimized adaptive scheduling of a manufacturing process System with multi-skill workforce and multiple machine types: An ontology-based, multi-agent reinforcement learning ap proach", Procedia CIRP, vol. 57, pp. 55-60, 2016;

[24]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra, and M. Ried- miller, "Playing atari with deep reinforcement learning", arXiv preprint arXiv: 1312.5602, 2013;

[25]A. Kuhnle, L. Schäfer, N. Stricker, and G. Lanza, "Design, Implementation and evaluation of reinforcement learning for an adaptive Order dispatching in job shop manufacturing Systems", Procedia CIRP, vol. 81, pp. 234-239, 2019;

[26] N. Stricker, A. Kuhnle, R. Sturm, and S. Friess, "Reinforcement learning for adaptive Order dispatching in the semiconductor industry", CIRP Annals, vol. 67, no. 1, pp. 511-514, 2018;

[27] J . Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, "Trust region policy optimization", in International Conference on machine learning, 2015, pp. 1889-1897.

Unter supervised-learning wird ein Training mit vorgegebenen Lösungen verstan den. Dieses überwachte Lernen ist allgemein ein Teilgebiet des maschinellen Ler nens. Mit Lernen ist dabei die Fähigkeit einer künstlichen Intelligenz gemeint, Ge setzmäßigkeiten nachzubilden. Die Ergebnisse sind durch Naturgesetze oder Ex pertenwissen bekannt und werden benutzt, um das System anzulernen. Ein Ler nalgorithmus versucht, eine Hypothese zu finden, die möglichst zielsichere Voraus sagen trifft. Unter Hypothese ist dabei eine Abbildung zu verstehen, die jedem Eingabewert den vermuteten Ausgabewert zuordnet. Die Methode richtet sich also nach einer im Vorhinein festgelegten zu lernenden Ausgabe, deren Ergebnisse be kannt sind. Die Ergebnisse des Lernprozesses können mit den bekannten, richtigen Ergebnissen verglichen, also „überwacht", werden. Details zur Implementierung kann den folgenden Veröffentlichungen entnommen werden:

[28] M. Gombolay, R. Jensen, J. Stigile, S.-H. Son, and J. Shah, "Apprenticeship scheduling: Learning to schedule from human experts", AAAI Press/Interna- tional Joint Conferences on Artificial Intelligence, 2016;

[29] H. Ingimundardottir and T. P. Runarsson, "Supervised learning linear priority dispatch rules for job-shop scheduling", in International Conference on learn ing and intelligent optimization, Springer, 2011, pp. 263-277.

Die Ausführung des Algorithmus erfolgt vorzugsweise in Form eines single-player- games.

Die Kombination aus Monte-Carlo-tree-search-framework basiertem neuronalen Netz und Training dieses neuronalen Netzes mittels supervised-learning und self- play mit reinforcement-learning führt zu einer Optimierung, die die bekannten Op timierungen in der Blechbearbeitung signifikant übertreffen.

Bevorzugte Ausführunqsformen

Die Ausgabe im Verfahrensschritt D) kann an ein manufacturing-execution-system (MES) erfolgen. Hierdurch kann der Produktionsplan direkt an den Produktionsma schinen umgesetzt werden.

Das erfindungsgemäße Verfahren kann zusätzlich zu den bereits genannten einen oder mehrere der folgenden Prozessschritte aufweist: c) Entgraten der Blechteile; d) Fügen, insbesondere Schweißen und/oder Löten, der Blechteile; e) Beschichten der Blechteile, insbesondere durch Lackieren und/oder

Pulverbeschichten; f) Montieren der Blechteile.

Jeder dieser Prozessschritte kann durch Produktionsmaschinen erfolgen und durch das erfindungsgemäße Verfahren optimiert werden.

In bevorzugter Ausgestaltung der Erfindung wird das erfindungsgemäße Verfahren mit dem Algorithmus AlphaGo, in besonders bevorzugter Ausgestaltung mit dem Algorithmus AlphaGo Zero, durchgeführt. In diesem Fall umfasst der Algorithmus das zuvor beschriebene Monte-Carlo-tree-search-framework mit dem mittels su- pervised-learning und self-play mit reinforcement-learning trainierte neuronale Netz. AlphaGo bzw. AlphaGo Zero hat sich im Rahmen der Erfindungsumsetzung als ein sehr leistungsstarker Algorithmus bei der Optimierung der Fertigung von Blechteilen erwiesen.

Der Algorithmus AlphaGo Zero ist auf folgenden Webseiten einsehbar:

• https://tmoer.github.io/AlphaZero/

• https://towardsdatascience.com/alphazero-implementation-and- tutorial- f4324d65fdfc • https://medium.com/applied-data-science/how-to-build-your-ow n-alpha- zero-ai-using-python-and-keras-7f664945cl88

AlphaGo bzw. AlphaGo Zero ist vorzugsweise in Python und/oder Tensorflow im plementiert. Weitere Details zur Implementierung von AlphaGo bzw. AlphaGo Zero sind folgenden Veröffentlichungen entnehmbar:

[30] D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. Van Den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, et al., "Mas- tering the game of go with deep neural networks and tree search", nature, vol. 529, no. 7587, p. 484, 2016.

[31]G. Chaslot, S. Bakkes, I. Szita, and P. Spronck, "Monte-carlo tree search: A new framework for game ai.", in AIIDE, 2008.

[32] D. Silver, J. Schrittwieser, K. Simonyan, I. Antonoglou, A. Huang, A. Guez, T. Hubert, L. Baker, M. Lai, A. Bolton, et al., "Mastering the game of go without human knowledge", Nature, vol. 550, no. 7676, p. 354, 2017.

[33] D. Silver, T. Hubert, J. Schrittwieser, I. Antonoglou, M. Lai, A. Guez, M. Lanctot, L. Sifre, D. Kumaran, T. Graepel, et al., "Mastering chess and shogi by self-play with a general reinforcement learning algorithm", arXiv preprint arXiv:1712.01815, 2017.

Die Offenbarung aller hier zitierten Veröffentlichungen und Websites wird vollum fänglich in die vorliegende Beschreibung aufgenommen (incorporated by refe- rence).

Weiter bevorzugt wird das Training im Verfahrensschritt A) mit heuristisch ermit telten Lösungen optimierter Produktionspläne durchgeführt. Hierdurch erhält das neuronale Netz einen guten Ausgangspunkt für seine weitere Optimierung.

Insbesondere können dabei optimierte Produktionspläne in Form von earliest-due- date-(EDD)-Lösungen eingesetzt werden. Diese Lösungen haben sich als beson ders vorteilhaft erwiesen, da in der Praxis oftmals Eilaufträge anfallen, die die vor herige Produktionsplanung obsolet machen. Eine besonders bevorzugte Ausgestaltung des Verfahrens betrifft den Fall, dass die Optimierung sowohl die Verschnittminimierung als auch die Produktionszeitopti mierung umfasst. Dies ermöglicht sowohl eine schnelle als auch kostengünstige und ressourcenschonende Fertigung. Ziele der Produktionszeitoptimierung sind insbesondere die minimale gesamte Verspätung und/oder die minimale gesamte Produktionszeit.

Die Randbedingungen im Verfahrensschritt B) können die Produktionsfristen der Blechteile umfassen. Die Produktionszeitoptimierung kann dann die Einhaltung der Produktionsfristen berücksichtigen. Der Einhaltung der Produktionsfristen kann da bei eine höhere Priorität zukommen als anderen Zielen.

Alternativ oder zusätzlich dazu können die Randbedingungen im Verfahrensschritt B) die Werte, also die Geldwerte bzw. Preise, der Blechteile umfassen. Hierdurch kann die Produktion in Abhängigkeit der Werte der jeweiligen Blechteile optimiert werden. Allgemein kann hierdurch der Wert eines Blechteils, beispielsweise der Preis seiner verspäteten Fertigung, im Rahmen der erfindungsgemäßen Optimie rung qualifiziert werden. Weiter bevorzugt wird dem Verschnitt ein Verschnittscore zugeteilt und dem Er reichen der Produktionsfrist eine Produktionsfristscore zugeteilt, der auf dem Wert der Blechteile basiert, wobei die Optimierung sowohl den Verschnittscore als auch den Produktionsfristscore minimiert. Durch die Zuteilung der Scores kann die Pro duktionszeitminimierung auf derselben Skala wie die Verschnittminimierung be- handelt bzw. optimiert werden.

Im Entscheidungsknoten wird in diesem Fall vorzugsweise der geschätzte maximal erreichbare Gesamtscore-Wert hinterlegt; auf den die Entscheidungsknoten ver bindenden Kanten wird vorzugsweise die Wahrscheinlichkeit (= Gewichtung) hin- terlegt, dass die jeweilige Entscheidung des Entscheidungsknotens die beste ist. Der Verschnittscore und der Produktionsfristscore können beispielsweise in Form eines Preises eingesetzt werden. Dann kann der Preis für Verschnittmaterial gegen den Preis eines zu spät produzierten Blechteils abgewogen werden. Im Rahmen des Verfahrens kann gemäß folgender Funktion optimiert werden:

Wobei c(W) den Wert für das insgesamt eingesetzte Material darstellt (inclusive Verschnitt, also Abfall), T, und v, jeweils die Verspätung und den Wert des Auf tragsteils i darstellen l ist ein Parameter, der Verspätung bestraft. r abs spiegelt die Summe der Blechteile wider, jeweils proportional zu Produktionsfristen reduziert, minus die gesamten Materialkosten. Mit der Formel kann eine Belohnung des neu ronalen Netzes generiert werden, insbesondere skaliert auf [0, 1], wobei der ma ximal mögliche Score r max (ohne Verspätung und ohne Verschnitt) ist. Die Verfahrensschritte B) bis D) können bedarfsgerecht durch Vorliegen eines Er eignisses getriggert werden, wobei das Einlesen des Ereignisses über eine Ereig nisschnittstelle erfolgt.

Vorzugsweise liegt das Ereignis dabei in Form einer Anfrage zur weiteren Bearbei- tung eines Blechteils, in Form freiwerdender Produktionsmaschinenkapazität, in Form eines Produktionsmaschinenausfalls und/oder in Form eines Eilauftrags vor.

Dabei kann das Ereignis automatisiert ausgelöst und über die Ereignisschnittstelle eingelesen werden. Besonders bevorzugt wird das Ereignis von einer Produktions- maschine, einem Indoor-Lokalisierungssystem und/oder einem manufacturing execution System ausgelöst und über die Ereignisschnittstelle eingelesen. Im Fall eines Indoor-Lokalisierungssystems kann die Planung durch von den Tags des In- door-Lokalisierungssystems übermittelte Ereignisse automatisiert weiter optimiert werden. Zur weiteren Verbesserung des neuronalen Netzes kann in einem Verfahrensschritt E) eine Nutzerbewertung des im Verfahrensschritt D) ausgegebenen Produktions plans eingelesen werden. Die Erfindung betrifft weiterhin ein Verfahren zur Herstellung von Blechteilen, bei dem ein zuvor angeführtes Verfahren durchgeführt wird und anschließend die Pro zessschritte a) und b) auf Grundlage des optimierten Produktionsplans durchge führt werden. Bei dem Verfahren zur Herstellung von Blechteilen kann/können nach den Prozess schritten a) und b) die Prozessschritte c), d), e) und/oder f) auf Grundlage des optimierten Produktionsplans durchgeführt werden.

Die erfindungsgemäße Aufgabe wird weiterhin gelöst durch eine Vorrichtung zur Durchführung eines hier beschriebenen Verfahrens, wobei die Vorrichtung einen Computer zum Speichern und Ausführen des neuronalen Netzes, eine Randbedin gungsschnittstelle zum Einlesen der Randbedingungen und eine Produktionsplan schnittstelle zur Ausgabe des Produktionsplans aufweist. Zum Einlesen der Nutzerbewertungen kann eine Nutzerbewertungsschnittstelle vorgesehen sein. Das neuronale Netz kann cloudbasiert ausgebildet sein, um das Training mit, insbesondere anonymisierten, Nutzerbewertungen zu erleichtern.

Die erfindungsgemäße Vorrichtung kann die Ereignisschnittstelle aufweisen und weiterhin eine Produktionsmaschine, ein Indoor-Lokalisierungssystem (mit meh reren Tags, die Ereignisse übermitteln) und/oder ein manufacturing execution Sys tem aufweisen, wobei ein von der Produktionsmaschine, dem Indoor-Lokalisie rungssystem und/oder dem manufacturing execution System ausgelöstes Ereignis über die Ereignisschnittstelle einlesbar ist. Die Vorrichtung ist in diesem Fall auto- matisiert bzw. teilautomatisiert optimierbar.

Weitere Vorteile der Erfindung ergeben sich aus der Beschreibung und der Zeich nung. Ebenso können die vorstehend genannten und die noch weiter ausgeführten Merkmale erfindungsgemäß jeweils einzeln für sich oder zu mehreren in beliebigen Kombinationen Verwendung finden. Die gezeigten und beschriebenen Ausfüh rungsformen sind nicht als abschließende Aufzählung zu verstehen, sondern haben vielmehr beispielhaften Charakter für die Schilderung der Erfindung.

Detaillierte Beschreibung der Erfindung und Zeichnung

Fig. 1 zeigt schematisch den Produktionsablauf bei der Fertigung von Blechteilen. Fig. 2 zeigt schematisch die Optimierung des Produktionsablaufs. Fig. 1 zeigt schematisch die Fertigung verschiedener Aufträge. In Fig. 1 sind exemplarisch die Aufträge Aoi bis Aio gezeigt. Die Aufträge Aoi-Aio umfassen die Herstellung von Produkten Poi bis Pio, die aus mehreren, insbesondere verschie denen, Blechteilen mit ihren jeweiligen geometrischen Daten gefertigt sind. Aus Gründen der Übersichtlichkeit sind in Fig. 1 nur die Blechteile Bi und B 2 mit einem Bezugszeichen versehen.

Wie durch Uhrensymbole in Fig. 1 angedeutet ist, weisen die einzelnen Blechteile Bi, B 2 verschiedene Fertigungszeiten auf. Weiterhin weisen die Aufträge A 0i bis A i0 verschiedene Produktionsfristen F 01 bis F 10 auf. Sparschweine deuten an, dass die Blechteile Bi, B 2 verschiedene (Geld-)Werte aufweisen. Die beschriebenen Vorga ben stellen Randbedingungen 10 der Blechteile Bi, B 2 dar.

Die Blechteile Bi, B 2 werden auf einer Blechtafel 12 möglichst so angeordnet, dass der Verschnitt minimal ist. Wie aus Fig. 1 ersichtlich ist, kann dies zur Vermischung von Blechteilen Bi, B 2 verschiedener Aufträge A01-A10 führen. Die Blechteile Bi, B 2 werden auf Produktionsmaschinen 14 bearbeitet, von denen in Fig. 1 Produktions maschinen Ci, C 2 (cut) zum Schneiden und Vereinzeln, Produktionsmaschinen bi, b 2 (bend) zum Biegen und Produktionsmaschinen ai, a 2 (assemble) zur Montage der Blechteile Bi, B 2 dargestellt sind. Darüber hinaus können weitere, in Fig. 1 nicht gezeigte, Produktionsmaschinen 14 zur Bearbeitung der Blechteile Bi, B 2 , beispielsweise zum Entgraten, Fügen und/oder Beschichten der Blechteile Bi, B 2 vorgesehen sein. Die fertigen, die Blechteile Bi, B 2 aufweisenden Produkte sind in Fig. 1 beim Bezugszeichen 16 dargestellt. Die Aufteilung der Blechteile Bi, B2 auf die Produktionsmaschinen 14 stellt bei den verschiedenen Randbedingungen 10 der Blechteile Bi, B2 ein hochkomplexes Prob lem dar. Dies insbesondere, da die einzelnen Prozessschritte verschieden lang dau- ern, Produktionsmaschinen 14 ausfallen und/oder Eilaufträge eingehen können.

Die erfindungsgemäße Optimierung des Produktionsablaufs ist in Fig. 2 darge stellt. Fig. 2 zeigt eine Vorrichtung 18 zur optimierten Fertigung bzw. optimierten Fertigungsplanung der Blechteile Bi, B 2 aus Fig. 1. Hierzu ist ein Algorithmus 20 vorgesehen. Der Algorithmus 20 liegt vorzugsweise als AlphaGo oder AlphaGo Zero vor. Der Algorithmus 20 umfasst ein Monte-Carlo-tree-search-framework 22. Das Monte-Carlo-tree-search-framework 22 wird von einem neuronalen Netz 24 modi fiziert. Hierbei wird zunächst ein supervised learning durchgeführt, also ein Trai ning anhand heuristisch ermittelter Problemlösungen.

Anschließend erfolgt self-play mit reinforcement-learning als single-player-game. Dies ist in Fig. 2 in den Schritten 26 (selection), 28 (expansion), 30 (Simulation) und 32 (backpropagation) dargestellt. Dabei wird im Schritt 26 ein Entscheidungs pfad über bestimmte Entscheidungsknoten gewählt, im Schritt 28 der Entschei- dungsbaum mit den Entscheidungsknoten nach dem Zufallsprinzip erweitert, das Ergebnis hieraus im Schritt 30 simuliert und die Entscheidungsknoten auf Grund lage dieses Simulationsergebnisses im Schritt 32 neu gewichtet (gestärkt oder ge schwächt). Die Schritte 26 bis 32 werden mehrfach wiederholt. Das so durchgeführte Ermitteln einer möglichst optimalen Aufteilung der Ferti gungsschritte erfolgt vorzugsweise sowohl im Hinblick auf Verschnittminimierung (nesting) als auch im Hinblick auf Produktionszeitoptimierung (scheduling). Dieser Vorgang kann als Optimierung durch einen nesting-Agenten und einen scheduling- Agenten beschrieben werden, bei dem die Agenten in einer Simulationsumgebung Entscheidungen treffen und dafür je nach Güte der Entscheidung eine Belohnung (reward) erhalten. Die Simulation ist dabei Abbild der Blechfertigung. Der optimierte Produktionsplan wird über eine Produktionsplanschnittstelle 34, insbesondere an ein manufacturing-execution-system 36, ausgeben. Das manu- facturing-execution-system 36 steuert die Produktionsmaschinen 14, also die reale Blechfertigung, mit dem optimierten Produktionsplan.

Dem Algorithmus 20 werden über eine Randbedingungsschnittstelle 38 die Rand bedingungen 10 zugeführt. Nutzerbewertungen 40 können über eine Nutzerbe wertungsschnittstelle 42 dem Algorithmus 20 zugeführt werden. Alternativ oder zusätzlich dazu kann eine Ereignisschnittstelle 44 vorgesehen sein, über die ein Ereignis 46 einlesbar ist. Das Ereignis 46 kann von dem manufac turing-execution-system 36, einer oder mehreren Produktionsmaschinen 14 und/oder einem Indoor-Lokalisierungssystem 48 ausgelöst werden. Das Ereignis 46 kann dabei beispielsweise einen Ausfall einer Produktionsmaschine 14, freiwer- dende Kapazität einer Produktionsmaschine 14, Fehler in der Produktion, Neuauf träge und/oder Auftragsänderungen umfassen. Insbesondere umfasst das Ereignis 46 die weitere Produktionsplanung für ein Blechteil Bi, B 2 (siehe Fig. 1), das einen Produktionsschritt in einer Produktionsmaschine 14 gerade abgeschlossen hat. Der Algorithmus 20 wird auf einem Computer 50 ausgeführt. Der Computer 50 kann cloudbasiert ausgebildet sein, um den Einsatz von Nutzerbewertungen 40 verschiedener Nutzer zu erleichtern. Das manufacturing-execution-system 36 kann (wie angedeutet) auf demselben Computer oder einem anderen Computer ausgeführt werden.

Unter Vornahme einer Zusammenschau aller Figuren der Zeichnung betrifft die Erfindung zusammenfassend ein Verfahren zur Optimierung einer Fertigung von Blechteilen Bi, B 2 . Das Verfahren optimiert die Zuteilung von Blechteilen Bi, B 2 zur Bearbeitung an verschiedenen Produktionsmaschinen 14 und gibt einen optimier ten Produktionsplan aus. Hierzu ist ein Algorithmus 20 vorgesehen, der einen Ent scheidungsbaum in Form eines Monte-Carlo-tree-search-frameworks 22 und ein neuronales Netz 24 aufweist. Der Algorithmus 20 wird mit jeder neuen Abfrage durch self-play und reinforcement learning trainiert. Ein Vortraining des Algorith mus 20 wird durch supervised learning erzielt. Der Algorithmus 20 optimiert vor zugsweise den Produktionsplan primär hinsichtlich minimal verspäteter Produkti onsfristen Foi bis Fio der Blechteile Bi, B2 und sekundär hinsichtlich eines minima- len Verschnitts. Durch die Vergabe von Scores können beide Ziele gemeinsam be wertet werden. Das Verfahren kann den Empfang von Abfrage-auslösenden Ereig nissen 46 und/oder den Betrieb von Produktionsmaschinen 14 gemäß dem Pro duktionsplan umfassen. Die Erfindung betrifft weiterhin eine Vorrichtung 18 zur Durchführung des Verfahrens.

Bezuaszeichenliste Aoi bis Aio Aufträge

Poi bis Pio Produkte Bi, B 2 Blechteile

Foi bis Fio Produktionsfristen

Ci, c 2 Schneide-Produktionsmaschinen bi, b 2 Biege-Produktionsmaschinen ai, a 2 Montage-Produktionsmaschinen 10 Randbedingungen

12 Blechtafel

14 Produktionsmaschinen

16 Produkte

18 Vorrichtung 20 Algorithmus

22 Monte-Carlo-tree-search-framework

24 neuronales Netz

26 Schritt - selection

28 Schritt - expansion 30 Schritt - Simulation

32 Schritt - backpropagation

34 Produktionsplanschnittstelle

36 manufacturing-execution-system

38 Randbedingungsschnittstelle 40 Nutzerbewertungen

42 Nutzerbewertungsschnittstelle

44 Ereignisschnittstelle

46 Ereignis

48 Indoor-Lokalisierungssystem 50 Computer