Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR THERMAL CONTROL OF AN ENGINE
Document Type and Number:
WIPO Patent Application WO/2020/249477
Kind Code:
A1
Abstract:
The invention relates to a method for optimising the thermal control of a vehicle engine (10), said vehicle comprising a device (30) for cooling the engine (10), said cooling device (30) comprising at least one actuator (310) allowing the cooling capacity of the engine (10) to be varied. The method is implemented by a computer (20), which is designed to control said at least one actuator (310) using a command (u(t)), in order to thermally control the engine (10). The method comprises a first operating phase, called "exploration phase", a second operating phase, called "imitation learning phase", and a third operating phase, called "autonomous phase".

Inventors:
POVLOVITSCH SEIXAS MICHEL (FR)
MÉTAYER JULIEN (FR)
SANS MARIANO (FR)
Application Number:
PCT/EP2020/065600
Publication Date:
December 17, 2020
Filing Date:
June 05, 2020
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
CONTINENTAL AUTOMOTIVE GMBH (DE)
International Classes:
F01P7/04; B60K11/08; F01P7/10; F01P7/16; B60K1/00; F01P7/14; F02D41/14; G05B13/02
Foreign References:
EP2944786A12015-11-18
DE19902923A12000-08-03
CN109515165A2019-03-26
Other References:
IVAN F WILDE: "NEURAL NETWORKS Contents", 26 February 2013 (2013-02-26), XP055187105, Retrieved from the Internet [retrieved on 20150430]
Attorney, Agent or Firm:
KAABOUNI, Fatima (FR)
Download PDF:
Claims:
Revendications

[Revendication 1] Procédé d’optimisation du contrôle thermique d’un moteur (10) de véhicule, ledit véhicule comprenant un dispositif de refroidissement (30) du moteur (10), ledit dispositif de refroidissement (30) comprenant au moins un actionneur (310) permettant de faire varier la capacité de refroidissement du moteur (10), le procédé est mis en œuvre par un calculateur (20), adapté pour contrôler ledit au moins un actionneur (310) à l’aide d’une commande (ut, ut(exP)), ledit calculateur (20) comprenant et mettant en œuvre une fonction de commande principale (TT) et une fonction de commande experte (ttQCr) prédéterminées et comprenant une mémoire (MEM) dans laquelle sont enregistrées des transitions permettant de déterminer la commande (ut, ut(exP)) à envoyer au dispositif de refroidissement (30) en fonction de l’état courant (st), désignant l’état de fonctionnement, d’un système (5) thermique comprenant le dispositif de refroidissement (30) et le moteur (10) afin de réaliser le contrôle thermique du moteur (10), ledit procédé étant caractérisé en ce qu’il comprend l’entrainement d’un algorithme d’apprentissage comprenant la mise en œuvre itérative des phases suivantes :

a) une première phase de fonctionnement (PH1), dite « d’exploration », dans laquelle la fonction de commande experte (ttQCr) contrôle le fonctionnement du système (5) et est exécutée par itération, chaque itération comportant une étape de:

- détermination d’au moins une commande dite « experte » (ut(exP)) de l’au moins un actionneur (310) par application de la fonction de commande experte (ttQCr) à l’état courant (st) du système (5) thermique et mise en œuvre de ladite fonction de commande experte (ttQCr),

- détermination d’un état modifié (st+i) du système (5) thermique après la mise en œuvre de ladite commande experte (ut(exP)),

- calcul, par la mise en œuvre d’une fonction de récompense thermodynamique du moteur (10), d’une valeur de récompense thermique modifiée (rt+i) à partir de l’état modifié (st+i) du système (5) thermique, et de ladite commande experte (ut(exP)),

- enregistrement dans la mémoire (MEM) de l’ensemble, appelé « transition », comprenant l’état courant (st), la commande experte (ut(exP)) appliquée, également nommée « démonstration », l’état modifié (st+i) et la récompense thermique modifiée (rt+i), ledit état modifié (st+i) devenant alors l’état courant (st) de l’itération suivante,

b) une deuxième phase de fonctionnement (PH2), dite « phase d’apprentissage par imitation », dans laquelle le calculateur (20) modifie la fonction de commande principale (TT) afin de minimiser la différence entre la commande experte (ut(eXp)) et une commande dite « principale » (ut), à partir des transitions enregistrées dans la première phase de fonctionnement (PH1), et dans laquelle la fonction de commande experte (TTexp) contrôle le fonctionnement du système (5),

c) une troisième phase de fonctionnement (PH3), dite « autonome », dans laquelle le calculateur (20) exécute la fonction de commande principale (TT) modifiée lors de la deuxième phase de fonctionnement (PH2) afin de contrôler le fonctionnement du système (5), et dans laquelle le calculateur (20) détermine si la fonction de commande principale (TT) doit agir selon la fonction de commande experte (TTexp) pour un état courant (st) d’une transition enregistrée en mémoire (MEM), en fonction de l’estimation de la performance thermique du système (5).

[Revendication 2] Procédé selon la revendication 1 , dans lequel lors de la première phase de fonctionnement (PH1), un bruit dit « d’exploration » est ajouté à une commande experte (ut(exp)), générée à partir de la fonction de commande experte (TTexp) et d’un état courant (st).

[Revendication 3] Procédé selon la revendication précédente, dans lequel le bruit d’exploration est défini comme un signal ajouté à la commande experte (ut(ex )) et permettant de faire varier ladite commande experte (ut(exP)) .

[Revendication 4] Procédé selon l’une quelconque des revendications précédentes, dans lequel la troisième phase de fonctionnement (PH3) comprend un premier mode de fonctionnement, dans lequel le système (5) fonctionne sans utiliser les transitions enregistrées, uniquement selon une fonction d’estimation de la performance thermique du système (5) et la fonction de commande principale (TT) générées à l’issue de la deuxième phase de fonctionnement (PH2).

[Revendication 5] Procédé selon l’une quelconque des revendications précédentes, dans lequel la troisième phase de fonctionnement (PH3) comprend un deuxième mode de fonctionnement, dans lequel la fonction de commande principale (TT) agit sur le système (5) selon la fonction de commande experte (TTexp) générée à l’issue de la première phase de fonctionnement (PH1) pour l’ensemble des transitions enregistrées en mémoire (MEM).

[Revendication 6] Calculateur (20) de contrôle thermique d’un moteur (10) de véhicule, ledit véhicule comprenant un dispositif de refroidissement (30) du moteur (10), ledit dispositif de refroidissement (30) comprenant au moins un actionneur (310) permettant de faire varier la capacité de refroidissement du moteur (10), ledit calculateur (20) étant adapté pour contrôler ledit au moins un actionneur (310) à l’aide d’une commande (ut, ut(ex )), comprenant et mettant en œuvre une fonction de commande principale (TT) et une fonction de commande experte (pqcr), et comprenant une mémoire (MEM) dans laquelle sont enregistrées des transitions permettant de déterminer la commande (ut) à envoyer au dispositif de refroidissement (30) en fonction de l’état courant (st), désignant l’état de fonctionnement, d’un système (5) thermique comprenant le dispositif de refroidissement (30) et le moteur (10) afin de réaliser le contrôle thermique du moteur (10), ledit calculateur

(20) étant caractérisé en ce qu’il est configuré pour mettre en œuvre le procédé selon l’une des revendications 1 à 5.

[Revendication 7] Calculateur (20) selon la revendication précédente, ledit calculateur (20) étant configuré pour, lors de la première phase de fonctionnement (PH1), ajouter un bruit dit « d’exploration » à une commande experte (ut(ex )) générée à partir de la fonction de commande experte (pbcr) et d’un état courant (st).

[Revendication 8] Calculateur (20) selon la revendication précédente, dans lequel le bruit d’exploration est défini comme un signal ajouté à la commande experte (ut(ex )) et permettant de faire varier ladite commande experte (ut(ex )).

[Revendication 9] Véhicule, notamment automobile, comprenant un moteur (10), un dispositif de refroidissement (30), comprenant au moins un actionneur (310) permettant de faire varier la capacité de refroidissement dudit moteur (10), et un calculateur (20) selon l’une quelconque des revendications 6 à 8.

Description:
DESCRIPTION

TITRE : Procédé de contrôle thermique d’un moteur

[Domaine technique]

[0001] L’invention concerne un procédé d’optimisation de contrôle thermique d’un moteur électrique de véhicule, un système pour la mise en œuvre de ce procédé ainsi qu’un véhicule comprenant un tel système.

[0002] L’invention vise notamment à optimiser le contrôle thermique d’un moteur électrique de véhicule afin d’en réduire la consommation.

[Etat de la technique antérieure]

[0003] Dans un véhicule automobile électrique ou hybride, il est connu de contrôler la température du moteur électrique afin d’augmenter à la fois la longévité et les performances dudit moteur. En effet, il est connu que la chaleur peut entraîner une déformation des matériaux et endommager les composants électroniques du moteur ou des équipements environnants du moteur, ce qui en réduit la durée de vie.

[0004] En outre, il est important de pouvoir optimiser le contrôle thermique du moteur afin de pouvoir le maintenir dans une plage de températures acceptables, tout en limitant la consommation d’énergie électrique induite par ce contrôle thermique afin d’optimiser l’autonomie du véhicule.

[0005] Ainsi, plusieurs approches sont considérées aujourd’hui pour effectuer le contrôle thermique d’un moteur électrique de véhicule. Elles sont mises en œuvre par un dispositif de refroidissement comprenant un actionneur adapté pour faire varier la capacité de refroidissement du moteur lorsque cet actionneur est commandé par ledit dispositif de refroidissement.

[0006] Dans une solution singulière connue et basée sur des réseaux de neurones, le dispositif de refroidissement comprend un module de surveillance et un module de commande. Le module de surveillance détermine l’état du moteur, du dispositif de refroidissement et des équipements environnants du moteur tandis que le module de commande détermine la commande à envoyer à l’actionneur en fonction des états déterminés par le module de surveillance.

[0007] Dans cette solution, le module de commande peut tester plusieurs commandes de l’actionneur établies à partir de combinaisons d’états afin de déterminer la commande permettant d’optimiser le fonctionnement du moteur dans une combinaison d’états donnée. Ces nombreuses itérations peuvent être coûteuses en temps, empêchant alors le fonctionnement optimal et rapide du dispositif de refroidissement, ce qui consomme notamment une quantité notable d’énergie, puisque le dispositif de refroidissement doit être alimenté pendant toute la durée des tests.

[0008] Il existe donc le besoin d’une solution fiable et optimisée pour remédier au moins en partie à ces inconvénients.

[Exposé de l’invention]

[0009] A cette fin, l’invention a tout d’abord pour objet un procédé d’optimisation du contrôle thermique d’un moteur de véhicule, ledit véhicule comprenant un dispositif de refroidissement du moteur, ledit dispositif de refroidissement comprenant au moins un actionneur permettant de faire varier la capacité de refroidissement du moteur , le procédé est mis en œuvre par un calculateur, adapté pour contrôler ledit au moins un actionneur à l’aide d’une commande, ledit calculateur comprenant et mettant en œuvre une fonction de commande principale et une fonction de commande experte prédéterminées et comprenant une mémoire dans laquelle sont enregistrées des transitions permettant de déterminer la commande à envoyer au dispositif de refroidissement en fonction de l’état courant, désignant l’état de fonctionnement, d’un système thermique comprenant le dispositif de refroidissement et le moteur afin de réaliser le contrôle thermique du moteur, ledit procédé étant remarquable en ce qu’il comprend l’entrainement d’un algorithme d’apprentissage comprenant la mise en œuvre itérative des phases suivantes :

a) une première phase de fonctionnement, dite « d’exploration », dans laquelle la fonction de commande experte contrôle le fonctionnement du système est exécutée par itération, chaque itération comportant une étape de:

- détermination d’au moins une commande dite « experte » de l’au moins un actionneur par application de la fonction de commande experte à l’état courant du système thermique et mise en œuvre de ladite fonction de commande experte,

- détermination d’un état modifié du système thermique après la mise en œuvre de ladite commande experte,

- calcul, par la mise en œuvre d’une fonction de récompense thermodynamique du moteur, d’une valeur de récompense thermique modifiée à partir de l’état modifié du système thermique, et de ladite commande experte,

- enregistrement dans la mémoire de l’ensemble, appelé « transition », comprenant l’état courant, la commande experte appliquée, également nommée « démonstration », l’état modifié et la récompense thermique modifiée, ledit état modifié devenant alors l’état courant de l’itération suivante, b) une deuxième phase de fonctionnement, dite « d’apprentissage par imitation », dans laquelle le calculateur modifie la fonction de commande principale afin de minimiser la différence entre la commande experte et la commande principale, à partir des transitions enregistrées dans la première phase de fonctionnement, et dans laquelle la fonction de commande experte contrôle le fonctionnement du système, c) une troisième phase de fonctionnement, dite « autonome », dans laquelle le calculateur exécute la fonction de commande principale modifiée lors de la deuxième phase de fonctionnement afin de contrôler le fonctionnement du système, et dans laquelle le calculateur détermine la commande principale et évalue s’il est pertinent que la fonction de commande principale imite la fonction de commande experte ou non.

[0010] Le procédé selon l’invention permet avantageusement de réaliser un apprentissage plus stable et fiable grâce notamment à la mise en œuvre de la phase d’exploration permettant de tester le système à partir de l’application d’une fonction de commande experte pertinente avant de mettre en œuvre la phase d’apprentissage. De plus, l’apprentissage est plus rapide. En effet, la phase d’apprentissage par itération permet à la fonction de commande principale d’acquérir rapidement l’expérience de la fonction de commande experte et ainsi d’éviter des expérimentations et des itérations inutiles. Ainsi, la fonction de commande principale converge plus rapidement et de façon stable vers son fonctionnement optimal, permettant de gérer et d’apprendre la complexité du système à contrôler.

[0011] De manière avantageuse, lors de la première phase de fonctionnement du procédé, un bruit dit « d’exploration » est ajouté à une commande experte, générée à partir de la fonction de commande experte et d’un état courant.

[0012] L’ajout d’un tel bruit d’exploration permet de modifier la commande experte et donc de modifier l’action réalisée par l’actionneur de manière à déterminer des transitions pour différentes commandes expertes.

[0013] De manière préférée, le bruit d’exploration est défini comme un signal ajouté à la commande experte et permettant de faire varier ladite commande experte.

[0014] Avantageusement, la troisième phase de fonctionnement du procédé comprend un premier mode de fonctionnement, dans lequel le système fonctionne sans utiliser les transitions enregistrées, uniquement selon une fonction d’estimation de la performance thermique du système et la fonction de commande principale générées à l’issue de la deuxième phase de fonctionnement. [0015] Ainsi, les transitions enregistrées à l’issu de la première phase de fonctionnement pour l’exécution de la deuxième phase de fonctionnement ne sont jamais utilisées dans la troisième phase de fonctionnement.

[0016] De préférence, la troisième phase de fonctionnement du procédé comprend un deuxième mode de fonctionnement, dans lequel la fonction de commande principale agit sur le système selon la fonction de commande experte générée à l’issue de la première phase de fonctionnement pour l’ensemble des transitions enregistrées en mémoire.

[0017] De manière préférée, la troisième phase de fonctionnement du procédé comprend un troisième mode de fonctionnement, dans lequel, le calculateur détermine si la fonction de commande principale doit agir ou non selon la fonction de commande experte pour un état courant d’une transition enregistrée en mémoire, en fonction de l’estimation de la performance thermique du système, et est configuré pour mettre en œuvre une commande différente et davantage adaptée de la commande donnée par la fonction de commande experte le cas échéant.

[0018] L’invention concerne également un calculateur de contrôle thermique d’un moteur de véhicule, ledit véhicule comprenant un dispositif de refroidissement du moteur, ledit dispositif de refroidissement comprenant au moins un actionneur permettant de faire varier la capacité de refroidissement du moteur, ledit calculateur étant adapté pour contrôler ledit au moins un actionneur à l’aide d’une commande, comprenant et mettant en œuvre une fonction de commande principale et une fonction de commande experte, et comprenant une mémoire dans laquelle sont enregistrées des transitions permettant de déterminer la commande à envoyer au dispositif de refroidissement en fonction de l’état courant, désignant l’état de fonctionnement, d’un système thermique comprenant le dispositif de refroidissement et le moteur afin de réaliser le contrôle thermique du moteur, ledit calculateur étant remarquable en ce qu’il est configuré pour mettre en œuvre le procédé tel que présenté précédemment.

[0019] De préférence, le calculateur est configuré pour, lors de la première phase de fonctionnement, ajouter un bruit dit « d’exploration » à une commande experte générée à partir de la fonction de commande experte et d’un état courant.

[0020] De manière préférée, le bruit d’exploitation est défini comme un signal ajouté à la commande experte et permettant de faire varier ladite commande experte.

[0021] L’invention concerne aussi un véhicule, notamment automobile, comprenant un moteur, un dispositif de refroidissement, comprenant au moins un actionneur permettant de faire varier la capacité de refroidissement dudit moteur, et un calculateur tel que présenté ci-avant.

[Description des dessins]

[0022] D’autres caractéristiques et avantages de l’invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en regard des dessins annexés sur lesquels :

[Fig. 1] : la figure 1 présente le système thermique d’un moteur de véhicule selon un mode de réalisation l’invention,

[Fig. 2] : la figure 2 représente la première phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention,

[Fig. 3] : la figure 3 représente la deuxième phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention,

[Fig. 4] : la figure 4 représente le deuxième mode de fonctionnement de la troisième phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention,

[Fig. 5] : la figure 5 représente le troisième mode de fonctionnement de la troisième phase de fonctionnement du procédé d’optimisation de contrôle thermique d’un moteur du véhicule selon l’invention.

[Description des modes de réalisation]

[0023] DISPOSITIF

[0024] Il va maintenant être décrit un véhicule automobile comprenant un dispositif de refroidissement selon l’invention. L’invention sera décrite dans le cas d’un véhicule automobile mais pourrait concerner tout type de véhicule comprenant un moteur électrique.

[0025] En référence à la figure 1 , le véhicule comprend un système 5 thermique comportant un moteur 10 électrique, un calculateur 20, un dispositif de refroidissement 30 dudit moteur 10 et des équipements 40 environnants dudit moteur 10.

[0026] Le dispositif de refroidissement 30 comprend un actionneur 310, adapté pour faire varier une capacité de refroidissement du moteur 10. On notera que, dans une autre forme de réalisation, le dispositif de refroidissement 30 pourrait comprendre plusieurs actionneurs 310.

[0027] Le calculateur 20 est adapté pour recevoir des informations sur l’état du moteur 10, du dispositif de refroidissement 30 et des équipements 40 environnants. Ces informations peuvent par exemple être mesurées par un ou plusieurs capteurs du véhicule tels que par exemple un capteur de température, de vitesse ou d’humidité.

[0028] Les équipements 40 situés dans l’environnement du moteur 10 peuvent notamment être un ou plusieurs équipements 40 parmi les suivants : un onduleur, une batterie, une pompe, une vanne, une grille, un ventilateur, un radiateur, des tuyaux d’écoulements du liquide de refroidissement, etc.

[0029] Le calculateur 20 est également adapté pour contrôler l’actionneur 310 par l’application de commandes (notées u t ou ci-après u t(exP) ) envoyées au dispositif de refroidissement 30 et agissant sur l’actionneur 310. En effet, les composantes de chaque commande u t , u t(exP) dépendent du moteur 10 et des équipements 40 environnants.

[0030] Le dispositif de refroidissement 30 peut être composé de tous types de composants seuls ou combinés permettant de refroidir un moteur 10 de véhicule. En effet, l’optimisation du contrôle thermique d’un moteur 10 de véhicule n’étant pas propre à un type de dispositif de refroidissement 30, toutes les combinaisons de composants de refroidissement sont considérées.

[0031] Par exemple, si le dispositif de refroidissement 30 comprend une pompe qui fait transiter un liquide de refroidissement vers le moteur 10, la commande u t , u t(ex ) de la pompe peut être une modification du débit de la pompe. Un autre exemple est celui dans lequel le dispositif de refroidissement 30 comprend une vanne ouvrant sur l’extérieur et dont la commande u t , u t(exP) consiste à ouvrir ou fermer la vanne d’un certain angle. Dans une autre forme de réalisation, le dispositif de refroidissement 30 comprend un ventilateur comprenant des pâles et la commande u t , u t(exP) consiste à activer les pâles du ventilateur à une vitesse déterminée afin de refroidir le moteur 10. Il est également possible que le dispositif de refroidissement 30 comprenne une grille et un radiateur que la commande u t , u t(exP) consiste à ouvrir ou fermer la grille, selon une position parmi une pluralité de positions possibles, pour refroidir le radiateur lorsque celui-ci évacue la chaleur du moteur 10.

[0032] L’invention n’exclut cependant pas le fait que les commandes u t , u t(exP) définies dans les exemples précédents peuvent être utilisées simultanément ou combinées d’une manière ou d’une autre. Ainsi, la pompe, la vanne, le ventilateur, la grille et le radiateur font partie intégrante du dispositif de refroidissement 30 et ne sont pas considérées comme plusieurs dispositifs de refroidissement 30 distincts.

[0033] Le calculateur 20 peut donc déterminer une commande u t , u t(ex ) commune, concernant plusieurs éléments différents d’un même dispositif de refroidissement 30.

[0034] Le calculateur 20 présente une architecture du type apprentissage rapide. [0035] En référence aux figures 4 et 5, cette architecture comprend un module de surveillance 22, un module de commande principale 21 , un module de contrôle 23, un module de commande experte 24, représentant une fonction de commande experte tt bcr prédéterminée de l’architecture, et un module d’exploration N. A cette fin, le calculateur 20 comprend un processeur apte à mettre en œuvre un ensemble d’instructions permettant de réaliser ces fonctions.

[0036] Le module de surveillance 22 évalue l’impact instantané d’une commande u t , u t(exP) sur le système 5. A cette fin, le module de surveillance 22 est configuré pour collecter les données générées par les capteurs afin de les transmettre au module de commande principale 21.

[0037] Le module de commande principale 21 représente l’acteur de l’architecture qui détermine et envoie une commande dite « principale » u t . A cette fin, le module de commande 21 reçoit l’état courant s t du système 5, à partir des données générées par les différents capteurs et collectées par le module de surveillance 22, et détermine au moins une commande principale u t à effectuer, par application d’une fonction de commande principale prédéterminée, désignée TT, à l’état courant s t . Ladite fonction de commande principale p définit donc la commande u t envoyée en fonction de l’état courant s t du système 5 et définit également une stratégie de contrôle principale. Avantageusement, ce module de commande principale 21 est mis en œuvre par un réseau de neurones artificiels implémentant la fonction de commande principale TT.

[0038] Le module de surveillance 22 est configuré pour déterminer l’état modifié s t+i , autrement dit le nouvel état du système 5. Le module de surveillance 22 est également configuré pour déterminer une valeur de récompense thermique modifiée r t+i , par application d’une fonction de récompense thermodynamique. Ladite récompense thermique modifiée r t+i est définie comme la quantité d’entropie interne créée au cours d’une transition d’état et diverses pénalités liées au non-respect des contraintes, lesdites contraintes pouvant par exemple être liées à un seuil de température maximum, à une variation temporelle maximale de la température... Une transition d’état comprend un premier ensemble de valeurs décrivant un état courant s t initial du système 5, une commande u t , u t(ex ) appliquée, également nommée « démonstration », un deuxième ensemble de valeurs décrivant un état modifié s t+i du système 5 et une récompense thermique modifiée r t+i . Pour ce faire, le module de surveillance 22 récupère les informations concernant la commande u t envoyée par le module de commande principale 21 et détermine l’état modifié s t+i et la récompense thermique modifiée r t+i notamment grâce aux équations de la thermodynamique. [0039] Le module de contrôle 23, appelé « critique » dans l’architecture, est configuré pour implémenter et mettre à jour une fonction d’estimation de la performance thermique du système 5. Ladite fonction d’estimation de la performance thermique permet de calculer la somme attendue de toutes les récompenses thermiques modifiées r t+i obtenues pour une série d’applications successives de la fonction de commande principale p à partir d’un état courant s t et d’une récompense thermique courante r t , correspondant à la récompense thermique de l’état de fonctionnement actuel du système 5. Cette fonction de commande principale p est avantageusement mise en œuvre par un réseau de neurones artificiels. Ainsi, le module de contrôle 23 permet au dispositif de refroidissement 30 de fonctionner de façon optimale.

[0040] Le module de transition 25 représente le fait que l’état modifié s t+i , respectivement la récompense thermique modifiée r t+i , estimé après application d’une commande u t , u t(ex ) devient ensuite le nouvel état courant s t du système 5, respectivement la récompense thermique courante r t du système 5.

[0041] Le module de commande experte 24 est configuré pour recevoir l’état courant s t du système 5, et détermine au moins une commande dite « experte » u t(exP) à effectuer, par application d’une fonction de commande experte p bcr à l’état courant s t . La fonction de commande experte p bcr comprend et définit des stratégies de contrôle expertes prédéterminées permettant d’optimiser le fonctionnement du dispositif de refroidissement 30.

[0042] PROCEDE

[0043] En référence aux figures 2 à 5, il va maintenant être décrit le procédé d’optimisation de contrôle thermique d’un moteur 10 du véhicule selon un mode de réalisation. Ce procédé permet de contrôler le dispositif de refroidissement 30 du moteur 10 du véhicule de façon, d’une part, à maintenir le moteur 10 du véhicule dans une plage de températures acceptables, et d’autre part, de réduire autant que possible la consommation d’énergie électrique par le dispositif de refroidissement 30 du véhicule.

[0044] Ledit procédé comprend une première phase de fonctionnement PH1 , dite d’exploration du comportement de la fonction de commande experte p bcr , une deuxième phase de fonctionnement PH2, dite phase d’apprentissage par imitation, et une troisième phase de fonctionnement PH3 dite autonome.

[0045] PREMIERE PHASE DE FONCTIONNEMENT

[0046] En référence à la figure 2, lors de la première phase de fonctionnement PH1 , dite d’exploration, les stratégies de contrôle expertes prédéterminées du calculateur 20 sont simulées par itération. Cela permet au module de commande principale 21 et au module de contrôle 23 d’acquérir l’expérience et le comportement apportés par le module de commande experte 24.

[0047] Pour cela, la phase d’exploration PH1 comprend une étape de détermination d’au moins une commande experte u t(exP) d’au moins un actionneur 310 à un état courant s t du système 5 thermique et mise en œuvre de ladite commande experte u t(exP) par application de la fonction de commande experte p bcr permettant le contrôle du système 5 via l’actionneur 310.

[0048] Ainsi, les stratégies de contrôle expertes du module de commande experte 24 sont exécutées par application de la fonction de commande experte p bcr , notamment en ajoutant aléatoirement un bruit d’exploration variable, via le module d’exploration N, à la commande experte u t(ex ) , afin d’exécuter aussi dans le voisinage de la trajectoire de contrôle de la commande experte u t(ex ) . L’ajout du bruit d’exploration à la commande experte u t(ex ) est également aléatoire de manière à exécuter parfois une commande experte u t(ex ) non bruitée et parfois une commande experte u t(ex ) bruitée. Par exemple, on peut ainsi obtenir, en moyenne, une action experte bruitée exécutée, définie comme une action du système 5 due à l’application d’une commande experte u t(ex ) bruitée, pour dix actions expertes exécutées, définies comme des actions du système 5 dues à l’application d’une commande experte u t(ex ) non bruitée. Le bruit d’exploration ajouté permet d’améliorer l’efficacité thermique du dispositif de refroidissement 30 et permet d’apprendre d’éventuelles actions optimisant davantage le fonctionnement du système 5 thermique.

[0049] La phase d’exploration PH1 comprend ensuite une étape de détermination d’un état modifié s t+i du système 5 thermique après la mise en œuvre de ladite commande experte u t(ex ) . C’est notamment le module de surveillance 22 qui détermine l’état modifié s t+i , autrement dit le nouvel état, du système 5 thermique.

[0050] La phase d’exploration PH1 comprend également une étape de calcul, par la mise en œuvre de la fonction de récompense thermodynamique, exécutée par le module de surveillance 22, d’une valeur de récompense thermique modifiée r t+i à partir de l’état modifié s t+i du système 5 thermique, et de ladite commande experte u t(ex ) . Lors de cette étape, le module de surveillance 22 détermine une valeur de récompense thermique modifiée r t+i associée à la transition d’état du système 5 thermique observée de l’état courant s t donné vers l’état modifié s t+i .

[0051] La phase d’exploration PH1 comprend ensuite une étape d’enregistrement dans une mémoire MEM de l’ensemble, appelé « transition », comprenant l’état courant s t , la commande experte u t(exP) appliquée, l’état modifié s t+i et la récompense thermique modifiée r t+i , ledit état modifié s t+i devenant alors l’état courant s t de l’itération suivante.

[0052] La mémoire MEM comprend une mémoire experte MEM1 et une mémoire dite « de répétition » (ou replay) MEM2. Dans la mémoire experte MEM1 , sont enregistrées les transitions expertes sans ajout de bruit d’exploration, autrement dit, les transitions provenant d’une expérimentation directe de la fonction de commande experte p bcr . D’autre part, dans la mémoire de répétition MEM2, sont enregistrées les transitions comprenant un ajout de bruit d’exploration, permettant notamment la mise à jour de la fonction d’estimation de la performance thermique lors de la troisième phase de fonctionnement PH3, dite autonome, décrite dans les paragraphes suivants.

[0053] Ainsi, dans la mémoire MEM sont enregistrées à la fois des transitions d’état avec un ajout de bruit d’exploration et des transitions d’état sans ajout de bruit d’exploration.

[0054] DEUXIEME PHASE DE FONCTIONNEMENT

[0055] En référence à la figure 3, lors de la deuxième phase de fonctionnement PH2, les paramètres de la fonction de commande principale p du module de commande principale 21 sont modifiés de manière à minimiser la différence entre la commande principale u t proposée et la commande experte u t(exP) pour un même état courant s t donné. Pour cela, le module de commande principale 21 utilise les transitions enregistrées dans la mémoire experte MEM1.

[0056] Afin de vérifier que la commande principale u t converge vers la commande experte u t(ex ) , un comparateur est utilisé. Un signal LBC permet de définir la différence entre la commande principale u t et la commande experte u t(ex ) . La modification des paramètres de la fonction de commande principale p du module de commande principale 21 est exécutée de manière à minimiser cette différence sur l’ensemble de transitions stockées dans la mémoire experte MEM1. Autrement dit, les transitions stockées dans la mémoire experte MEM 1 sont utilisées pour la modification et/ou la mise à jour de la fonction de commande principale TT.

[0057] Par ailleurs, lors de cette deuxième phase de fonctionnement PH2, le module de contrôle 23 est entraîné pour estimer la performance thermique du système en suivant la fonction de commande experte p bcr à partir d’un état courant s t donné. La mise-à-jour de la fonction d’estimation de la performance thermique est faite à partir des transitions enregistrées dans la mémoire experte MEM 1 et dans la mémoire de répétition MEM2 notamment en appliquant la relation récursive dite « de Bellman par bootstrap », comme décrit dans la publication « Continous Control With Deep Reinforcement Learning » (Lillicrap and al, 2015).

[0058] Avantageusement, la deuxième phase de fonctionnement PH2 est terminée lorsque la différence définie entre une commande experte u t(exP) , exécutée par la fonction de commande experte p bcr, stockée dans la mémoire experte MEM1 , et une commande principale u t proposée par le module de commande principale 21 , pour un même état courant s t du système 5, a atteint une précision minimale.

[0059] Il est notamment possible d’utiliser une méthode connue par l’homme du métier : la MAE, « Mean Absolute Error » en langue anglaise.

[0060] Une fois la phase de fonctionnement autonome PH3 activée et le module de commande experte 24 débranché ou éteint, et donc lorsque la fonction de commande experte p bcr est inactive, la deuxième phase de fonctionnement PH2 permet à la fonction de commande principale p de pouvoir contrôler de façon efficace le fonctionnement du système 5 thermique, via l’actionneur 310.

[0061] TROISIEME PHASE DE FONCTIONNEMENT

[0062] Lors de la troisième phase de fonctionnement PH3, le système est en mode autonome. Cette troisième phase de fonctionnement PH3 peut comprendre trois modes de fonctionnement permettant le contrôle du système 5 par la fonction de commande principale p via l’actionneur 310.

[0063] Dans un premier mode de fonctionnement, l’utilisation des commandes expertes u t(ex ) est inactive, puisque le module de commande experte 24 est inactif, le module de surveillance 22, le module de commande principale 21 et le module de contrôle 23 sont actifs. Il faut toutefois noter qu’à cet instant, le module de commande principale 21 et le module de contrôle 23 ont préalablement acquis l’expérience de la fonction de commande experte p bcr du module de commande experte 24 lors de la deuxième phase de fonctionnement PH2.

[0064] En référence à la figure 4, il est représenté un deuxième mode de fonctionnement de la phase de fonctionnement autonome PH3 dans laquelle le module de commande experte 24 est actif et, si le système 5 fonctionne selon un état courant s t connu par la fonction de commande experte p bcr du module de commande experte 24, alors le module de commande principale 21 fonctionne tel que la fonction de commande experte p bcr du module de commande experte 24 le préconise. [0065] En référence à la figure 5, il est représenté un troisième mode de fonctionnement de la phase de fonctionnement autonome PH3 dans laquelle le module de commande experte 24 est actif. Selon ce troisième mode de fonctionnement, si le système 5 fonctionne selon un état courant s t connu par la fonction de commande experte p bcr , alors le module de contrôle 23 peut décider de ne pas faire fonctionner le module de commande principale 21 tel que la fonction de commande experte p bcr le préconise, notamment lorsque le module de contrôle 23 considère que le fonctionnement proposé par la fonction de commande experte p bcr n’est pas optimale.