Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR ASSISTING WITH DRIVING AN AUTONOMOUS MOTOR VEHICLE ON A ROAD
Document Type and Number:
WIPO Patent Application WO/2022/128643
Kind Code:
A1
Abstract:
The invention relates to a method for assisting with driving a motor vehicle, comprising a step (E3) of generating a control response (Rep1) to be made with respect to a current situation, and a step (E4) of sending a command (K1) to an actuator in order to control the vehicle (10). In accordance with an item of quality information regarding the result of the command, the method further comprises a step (E5) of generating, by reinforcement learning, a new control response (Rep2), said new control response (Rep2) being optimised with respect to the current situation.

Inventors:
ATOUI HUSSAM (FR)
GONZALEZ BAUTISTA DAVID (FR)
MAHTOUT IMANE (FR)
GERARD DAVID (FR)
Application Number:
PCT/EP2021/084647
Publication Date:
June 23, 2022
Filing Date:
December 07, 2021
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
RENAULT SAS (FR)
International Classes:
B60W50/00; B60W60/00
Foreign References:
US20200218271A12020-07-09
US20200276988A12020-09-03
US20180348763A12018-12-06
Download PDF:
Claims:
Revendications

[Revendication 1] [Méthode d’aide à la conduite d’un véhicule automobile autonome (10) sur une route, ladite méthode d’aide à la conduite comportant : - une étape (E1) de réception d’une pluralité de données (datai , data2, data3) ;

- une étape (E2) de traitement de la pluralité des données reçues (datai, data2, data3) pour déterminer une situation actuelle (Sa) du véhicule automobile autonome (10) ;

- une étape (E3) de génération d’une réponse de contrôle (Rep1) à apporter par rapport à ladite situation actuelle (Sa) ; - une étape (E4) d’envoi d’une commande (K1) pour contrôler le véhicule automobile autonome (10), ladite commande (K1) étant fonction de ladite réponse à apporter (Rep1) ;

- la méthode étant caractérisée en ce que, en fonction d’une information de qualité sur le résultat de la commande pour contrôler le véhicule automobile autonome (10), une étape (E5) de génération par apprentissage par renforcement d’une nouvelle réponse de contrôle (Rep2), ladite nouvelle réponse de contrôle (Rep2) étant optimisée par rapport à la situation actuelle.

[Revendication 2] Méthode d’aide à la conduite selon la revendication 1, dans laquelle la pluralité des données reçues comprend un premier type de données (datai), un second type de données (data2) et un troisième type de données (data3), les données du premier type de données concernant une évolution du véhicule, les données du second type de données concernant une évolution de la route, les données du troisième type de données concernant une évolution de l’environnement.

[Revendication 3] Méthode d’aide à la conduite selon la revendication 2, dans laquelle les données du premier type de données (data 1) comprennent des données sélectionnées parmi la liste des données suivantes :

- des données de changement de masse ;

- des données de changement de pneumatique ;

- des données de changement d’état du véhicule automobile autonome.

[Revendication 4] Méthode d’aide à la conduite selon l’une quelconque des revendications 2 ou 3, dans laquelle les données du second type de données (data2) comprennent des données sélectionnées parmi la liste des données suivantes :

- des données de conditions météorologiques ; - des données du type de route ;

- des données d’état de route.

[Revendication 5] Méthode d’aide à la conduite selon l’une quelconque des revendications 2 à 4, dans laquelle les données du troisième type de données (data3) comprennent des données sélectionnées parmi la liste des données suivantes :

- des données de conduite libre ;

- des données de conduite nominale ;

- des données de conduite d’urgence.

[Revendication 6] Méthode d’aide à la conduite selon l’une quelconque des revendications 1 à 5, dans laquelle les étapes de réception et de traitement de la pluralité de données (datai, data2, data3), l’étape de génération d’une réponse de contrôle (Rep1) et l’étape d’envoi de la commande (K1) sont réalisées selon une logique floue.

[Revendication 7] Dispositif d’aide à la conduite d’un véhicule automobile autonome sur une route, ledit dispositif (30) comprenant : - un système flou (304) comportant :

- un bloc de fuzzification (3011) adapté pour recevoir et traiter une pluralité de données (datai , data2n data3) en vue de déterminer une situation actuelle (Sa) du véhicule automobile autonome (10) ;

- un moteur d’inférence (3012) adapté pour interroger une base de données (3012) en vue d’obtenir une réponse de contrôle (Rep1) à apporter par rapport à ladite situation actuelle ;

- un bloc de defuzzification (3014) adapté pour commander un actionneur en vue de contrôler le véhicule automobile autonome (10), en fonction de la réponse de contrôle (Rep1) à apporter ;

- un agent d’apprentissage par renforcement (305), ledit agent étant adapté pour générer une nouvelle réponse optimisée (Rep2) par rapport à la situation actuelle (Sa) en fonction d’une information de qualité sur le résultat de la commande (K1) pour le contrôle dudit véhicule automobile autonome (10).

[Revendication 8] Produit programme d’ordinateur comportant des instructions de programme exploitables par le dispositif d’aide à la conduite (30) de la revendication 7, qui lorsqu’elles sont exécutées ou interprétées par ledit dispositif d’aide à la conduite (30) déclenchent la mise en œuvre de la méthode d’aide à la conduite selon l’une quelconque des revendications 1 à 6 dans un véhicule automobile autonome (10). [Revendication 9] Véhicule automobile autonome comportant un dispositif d’aide à la conduite (30) selon la revendication 7.

Description:
Description

Méthode d’aide à la conduite d’un véhicule automobile autonome sur une route

[Domaine technique

La présente invention concerne une méthode d’aide à la conduite d’un véhicule automobile autonome sur une route, un dispositif d’aide à la conduite pour contrôler ledit véhicule automobile autonome, un produit programme d’ordinateur comportant des instructions de programme exploitables par ledit dispositif d’aide à la conduite et un véhicule automobile autonome comportant ledit dispositif d’aide à la conduite.

Technique antérieure

Ces dernières années, les progrès réalisés dans l’équipement des véhicules automobiles en système d’assistance au conducteur ont contribué à une amélioration significative de la sécurité routière. Le défi du futur est de concevoir des véhicules automobiles autonomes. Un véhicule automobile autonome est un véhicule automobile adapté pour rouler sur une route ouverte sans ou avec peu d’intervention d’un conducteur. Le concept vise à développer et à produire un tel véhicule pouvant à terme circuler en toute sécurité sur une voie publique et ceci quel que soit le trafic généré par d’autres véhicules ou des obstacles (humain, animal, arbre...) présents sur la voie. La notion de véhicule automobile autonome couvre ici un véhicule automobile totalement autonome dans lequel l’intervention d’un opérateur humain n’est pas nécessaire pour la conduite dudit véhicule. Cette notion couvre également un véhicule automobile dit « semi-autonome » disposant de systèmes automatisés d’aide à la conduite mais dans lequel l’intervention de l’opérateur humain reste globalement importante.

Le fonctionnement d’un véhicule automobile autonome est généralement régi conjointement par un dispositif de navigation embarqué et par un dispositif de définition d’une trajectoire prédéterminée. Le dispositif de navigation embarqué est conçu pour programmer un itinéraire à grande échelle, c’est-à-dire à l’échelle d’un réseau routier. Cet itinéraire comprend une série de segments de route consécutifs adaptés pour relier une position d’origine à une destination. Cette série de segments de route est éventuellement variable dynamiquement en fonction des conditions de circulation détectées ou des contraintes de déplacement prédéfinies du réseau routier (fermeture de certains tronçons pour travaux en cours, par exemple).

Le dispositif de définition de trajectoire de référence est quant à lui conçu pour traiter automatiquement des trajectoires de déplacement de véhicules à l’échelle locale, de l’ordre de plusieurs dizaines ou centaines de mètres. Ce dispositif de définition de trajectoire de référence est adapté pour mettre en œuvre l’itinéraire programmé par le système de navigation. Cette mise en œuvre est réalisée en déterminant la position, la direction et la vitesse du véhicule au fil du temps en fonction des contraintes de mouvement, telles que des contraintes dynamiques du véhicule automobile (vitesse maximale, accélération longitudinale, angle de braquage, etc...), des contraintes environnementales (obstacles sur la route, etc...) ou des contraintes d’optimisation (minimisation de l’accélération latérale du véhicule automobile, par exemple).

Dans un contexte de conduite autonome, un véhicule automobile est agencé pour suivre un itinéraire urbain ou extra-urbain prédéfini en parcourant une série de tronçons de route déterminée par le dispositif de navigation embarqué. La trajectoire de référence est définie par un ensemble de coordonnées cartésiennes variables dans le temps et calculées en temps réel en fonction du tronçon de route au niveau duquel l’itinéraire prédéfini est atteint et de paramètres environnementaux. La mise en œuvre de ce calcul peut se faire à l’aide d’un dispositif de reconnaissance de marquages routiers, des moyens de détection radar ou laser, d’un dispositif de reconnaissance d’obstacles etc. Au cours du roulage, le véhicule automobile suit une trajectoire réelle qui peut être différente de la trajectoire de référence. En effet, au cours de ce roulage, le véhicule automobile subit un certain nombre de contraintes (pression des roues, dénivelé de la route, force du vent, etc...) qui peuvent ne pas été intégré par le dispositif de définition de la trajectoire prédéterminée. Dès lors, il peut exister un décalage entre cette trajectoire réelle et la trajectoire de référence qu’il convient de minimiser.

Le document US2018/0348763 divulgue une méthode d’aide à la conduite conçue pour optimiser le contrôle d’un véhicule automobile autonome. Cette méthode comporte une étape de réception d’une pluralité de données de perception d’un environnement de conduite entourant le véhicule et une étape de génération d’une commande pour le contrôle dudit véhicule. Cette commande peut être générée selon un mode de délibération ou selon un mode intuitif. Dans le mode de délibération, la commande est générée à partir d’un ensemble de règles de conduite prédéfinie. Dans le mode intuitif, la commande est générée à partir d’un modèle d’apprentissage automatique. Le choix du mode décisionnel, mode de délibération ou mode intuitif, est réalisé à partir des données collectées. Dans une situation complexe, le procédé est adapté pour utiliser le mode de délibération. Dans une situation plus familière, le procédé est adapté pour utiliser le mode intuitif. Le procédé d’aide à la conduite se répète alors en passant d’un mode décisionnel à l’autre. Bien que ce procédé permette d’obtenir un procédé d’aide à la conduite adaptatif, il est nécessaire d’entretenir et de mettre à jour deux dispositifs décisionnels en parallèle, i.e. un dispositif basé sur des règles et un dispositif basé sur un apprentissage automatique. Ces deux dispositifs doivent être parfaitement synchronisés car le procédé peut faire appel à l’un ou l’autre selon le mode de fonctionnement sélectionné. Ceci peut entraîner des retards dans le processus qui peuvent être critiques pour certaines manœuvres. En outre, l’apprentissage automatique divulgué dans ce document nécessite un apprentissage complet à chaque traitement de nouvelles données qui peuvent fournir des performances différentes d’un cycle à l’autre.

Il existe donc un besoin de proposer une méthode d’aide à la conduite plus réactive tout en étant plus précise dans la réponse de la commande à apporter.

Exposé de l’invention

La présente invention vise à remédier au moins en partie à ce besoin.

Plus particulièrement, la présente invention vise à améliorer le contrôle d’un véhicule autonome sur une route.

Un premier objet de l’invention concerne une méthode d’aide à la conduite d’un véhicule automobile autonome sur une route. Cette méthode d’aide à la conduite comporte une étape de réception d’une pluralité de données et une étape de traitement de la pluralité des données reçues pour déterminer une situation actuelle du véhicule automobile autonome. De plus, la méthode comprend une étape de génération d’une réponse de contrôle à apporter par rapport à ladite situation actuelle et une étape d’envoi d’une commande pour contrôler le véhicule automobile autonome, ladite commande étant fonction de ladite réponse à apporter. En fonction d’une information de qualité sur le résultat de la commande pour contrôler le véhicule automobile autonome, la méthode comprend une étape de génération par apprentissage par renforcement d’une nouvelle réponse de contrôle, ladite nouvelle réponse de contrôle étant optimisée par rapport à la situation actuelle.

L’invention propose un système décisionnel à évolution multiple capable de générer la réponse la plus adaptée en combinant en temps réel toutes les informations disponibles avec les connaissances acquises dans des situations similaires dans le passé. Ce dispositif offre deux fonctionnalités principales pour satisfaire ces exigences. Dans une première fonctionnalité, le procédé permet de prendre en compte les données approximatives de trois principaux paramètres affectant les performances du véhicule automobile autonome, à savoir l’état du véhicule, l’état de la route et l’interaction avec l’environnement. Dans une seconde fonctionnalité, le procédé permet d’adapter la décision à une situation actuelle en comparant cette situation actuelle avec d’autres situations précédentes auxquelles le véhicule a été confronté. Cet apprentissage permet d’adapter en conséquence le contrôle du véhicule.

Dans un mode de réalisation particulier, la pluralité des données reçues comprend un premier type de données, un second type de données et un troisième type de données, les données du premier type de données concernant une évolution du véhicule, les données du second type de données concernant une évolution de la route, les données du troisième type de données concernant une évolution de l’environnement.

Dans un mode de réalisation particulier, les données du premier type de données comprennent des données sélectionnées parmi la liste des données suivantes :

- des données de changement de masse ;

- des données de changement de pneumatique ;

- des données de changement d’état du véhicule automobile autonome.

Dans un mode de réalisation particulier, les données du second type de données comprennent des données sélectionnées parmi la liste des données suivantes :

- des données de conditions météorologiques ;

- des données du type de route ;

- des données d’état de route.

Dans un mode de réalisation particulier, les données du troisième type de données comprennent des données sélectionnées parmi la liste des données suivantes :

- des données de conduite libre ;

- des données de conduite nominale ;

- des données de conduite d’urgence.

Dans un mode de réalisation particulier, les étapes de réception et de traitement de la pluralité de données, l’étape de génération d’une réponse de contrôle et l’étape d’envoi de la commande sont réalisées selon une logique floue. L’invention propose un système basé sur la logique floue qui est légèrement mis à jour/modifié en fonction des résultats des actions du véhicule. Il n’est pas ainsi nécessaire d’effectuer un apprentissage complet à chaque fois. Ce type d’apprentissage complet peut en effet fournir des performances complètement différentes d’un test à l’autre.

Un autre objet de l’invention concerne un dispositif d’aide à la conduite d’un véhicule automobile autonome.

Un autre objet de l’invention concerne un dispositif d’aide à la conduite d’un véhicule automobile autonome sur une route. Le dispositif comprend :

- un système flou comportant :

- un module de fuzzification adapté pour recevoir et traiter une pluralité de données en vue de déterminer une situation actuelle du véhicule automobile autonome ;

- un moteur d’inférence adapté pour interroger une base de données en vue d’obtenir une réponse de contrôle à apporter par rapport à ladite situation actuelle ;

- un module de defuzzification adapté pour commander un actionneur en fonction de la réponse à apporter, en vue de contrôler le véhicule automobile autonome.

Le dispositif comprend également un agent d’apprentissage par renforcement, ledit agent étant adapté pour générer une nouvelle réponse optimisée par rapport à la situation actuelle en fonction d’une information de qualité sur le résultat de la commande pour le contrôle dudit véhicule automobile autonome.

Ainsi, grâce à ce dispositif décisionnel, la conduite autonome aura la possibilité d'imiter les réactions du conducteur humain lors des scénarios complexes en créant une base d’apprentissage pour optimiser en temps réel la réponse à apporter.

Un autre objet de l’invention concerne un produit programme d’ordinateur comportant des instructions de programme exploitables par le dispositif d’aide à la conduite selon un objet précédent, qui lorsqu’elles sont exécutées ou interprétées par ledit dispositif d’aide à la conduite déclenchent la mise en œuvre de la méthode d’aide à la conduite selon un autre objet précédent dans un véhicule automobile autonome. Un autre objet de l’invention concerne un véhicule autonome comportant un dispositif d’aide à la conduite selon un des objets précédents.

La présente invention sera mieux comprise à la lecture de la description détaillée de modes de réalisation pris à titre d’exemples nullement limitatifs et illustrés par les dessins annexés sur lesquels :

La figure 1 est une vue schématique illustrant un véhicule automobile autonome conforme à l’invention ;

La figure 2 illustre le véhicule automobile autonome de la figure 1 en fonctionnement sur une route ;

La figure 3 est un schéma illustrant un dispositif d’aide à la conduite du véhicule automobile de la figure 1 sur la route de la figure 2 ;

La figure 4 est un schéma détaillant un système flou appartenant au dispositif d’aide à la conduite de la figure 3 ;

La figure 5 est un schéma détaillant le fonctionnement d’un agent d’apprentissage par renforcement appartenant au dispositif d’aide à la conduite de la figure 3 ;

La figure 6 est un schéma illustrant différentes étapes d’une méthode d’aide à la conduite duvéhicule automobile de la figure 1 , ladite méthode de contrôle étant mise en œuvre par le dispositif d’aide à la conduite de la figure 3.

L’invention n’est pas limitée aux modes de réalisation et variantes présentées et d’autres modes de réalisation et variantes apparaîtront clairement à l’homme du métier.

Sur les différentes figures, les éléments identiques ou similaires portent les mêmes références.

La figure 1 représente schématiquement une vue de dessus d’un véhicule automobile 10 conforme à la présente invention. Ce véhicule automobile 10 comprend une partie avant de véhicule, une partie arrière de véhicule, un toit de véhicule, un intérieur de véhicule, des moyens de direction (non représentés). Le véhicule automobile comprend également un châssis et un ou plusieurs panneaux de carrosserie montés ou fixés sur ledit châssis.

Le véhicule automobile 10 est ici un véhicule autonome. Par véhicule autonome, on entend un véhicule automobile totalement autonome ou semi-autonome. Il existe en effet plusieurs niveaux d’autonomie dans un véhicule automobile. Dans un premier niveau, dit niveau 1, le véhicule automobile est responsable d’un nombre limité d’opérations de conduite associées audit véhicule automobile. Le conducteur reste alors responsable de la plupart des opérations de contrôle de conduite. Dans le niveau 1, les opérations de commande d’accélération et/ou de freinage (régulateur de vitesse, etc...) sont commandées par le véhicule automobile. Ce niveau 1 correspond à un niveau d’assistance à la conduite.

Dans un second niveau, dit niveau 2, le véhicule automobile est adapté pour collecter des informations (par exemple, via un ou plusieurs systèmes d’aide à la conduite, des capteurs, etc...) sur l’environnement externe (la route autour du véhicule automobile, la chaussée, le trafic routier, les conditions ambiantes). Dans ce niveau 2, le véhicule autonome est adapté pour utiliser les informations collectées afin de contrôler certaines opérations de conduite (par exemple, la direction, l’accélération, et/ou le freinage). Ce niveau 2 est un niveau d’automatisation partielle du véhicule automobile. Il convient de noter que pour le niveau 1 et le niveau 2, le conducteur doit conserver la pleine surveillance des opérations de conduite effectuées par le véhicule automobile autonome.

Dans un troisième niveau, dit niveau 3, le conducteur délègue toutes les opérations de conduite au véhicule automobile sauf lorsque ledit véhicule automobile demande au conducteur d’agir ou d’intervenir pour contrôler une ou plusieurs de ces opérations de conduite. Ce niveau 3 est un niveau d’automatisation conditionnelle.

Dans un quatrième niveau, dit niveau 4, le conducteur ne gère plus aucune opération de conduite. C’est le véhicule automobile qui contrôle alors l’ensemble des opérations de conduite, y compris lorsque le conducteur ne répond pas à une demande d’intervention. Le niveau 4 est un niveau d’automatisation élevée.

Dans un cinquième niveau, dit niveau 5, le véhicule automobile contrôle toutes les opérations de conduite. Le véhicule automobile surveille ainsi au cours du roulage le trafic routier, les acteurs mobiles sur la route (êtres humains, animaux), les obstacles immobiles sur la route, la route. A ce niveau 5, aucune interaction avec un conducteur humain n’est requise. Le niveau 5 est le niveau d’automatisation complète. Il convient de noter que pour les niveaux 3 à 5, le véhicule automobile est adapté pour surveiller les opérations de conduite ainsi que pour surveiller l’environnement externe audit véhicule automobile.

Pour pouvoir réaliser les différentes opérations de conduite dans ces différents niveaux d’autonomie, le véhicule automobile 10 comprend un certain nombre de capteurs tels que :

- un radar avant 11 A, 11 B ;

- un radar arrière 12A, 12B; - un capteur ultrasons 13 ;

- une caméra vidéo 14 ;

- un LIDAR 15;

- une antenne GPS 16.

Le radar avant comprend deux éléments de radar avant 11 A, 11B disposés sur la partie avant de véhicule de part et d’autre d’un axe de symétrie dudit véhicule automobile 10. Le radar avant possède une zone de détection 111 à l’avant du véhicule automobile. Il est ainsi adapté pour détecter les positions des objets environnants. Il permet de mesurer la vitesse du véhicule automobile. Les informations recueillies par le radar avant 11 A, 11B sont particulièrement utiles pour mettre en œuvre certaines opérations de conduite telles que le freinage d’urgence ou l’anti-franchissement de bandes centrales.

Le radar arrière comprend deux éléments de radar arrière 12A, 12B disposés sur la partie arrière de véhicule de part et d’autre de l’axe de symétrie dudit véhicule automobile 10. Le radar arrière possède une zone de détection 112 à l’arrière du véhicule automobile. Il est ainsi adapté pour détecter les positions des objets environnants. Il permet de mesurer la vitesse des autres véhicules automobiles qui suivent ledit véhicule automobile 10. Les informations recueillies par le radar arrière 12A, 12B sont particulièrement utiles pour mettre en œuvre certaines opérations de conduite telles que le freinage d’urgence ou l’anti- franchissement de bandes centrales.

Le capteur ultrasons 13 est disposé sur la partie avant du véhicule entre les deux éléments de radar avant 11A, 11 B. Le capteur ultrasons 13 possède une zone de détection 113 beaucoup plus faible que la zone de détection 111 du radar avant 11 A, 11 B. Ce capteur à ultrasons 13 est ainsi adapté pour détecter des obstacles très proches. Les informations recueillies sont particulièrement utiles pour mettre en œuvre des opérations de conduite telles que le maintien d’un écart de sécurité avec un autre véhicule automobile précédent directement ledit véhicule automobile 10.

La caméra vidéo 14 est située ici derrière le rétroviseur. Les informations recueillies par cette caméra vidéo 14 sont particulièrement utiles pour la mise en œuvre de certaines opérations de conduite telles que le déchiffrage des panneaux de signalisation, le repérage des bordures et des bandes centrales, la détection d’acteurs mobiles sur la route (êtres humains, animaux).

Le LIDAR 15 (pour « Light Detection And Ranging » en anglais) est un capteur situé ici sur le toit du véhicule automobile 10. Il permet d’effectuer des mesures de télédétection par laser. La télédétection par laser est une technique de mesure à distance fondée sur l’analyse des propriétés d’un faisceau de lumière renvoyé vers son émetteur. Le LIDAR possède une zone de détection 115 assez large, par exemple de l’ordre de 50 mètres de diamètre. Il permet de scanner en permanence l’environnement à 360° pour en faire une cartographie en 3D. Les informations recueillies par le LIDAR 15 sont utiles pour la mise en œuvre de certaines opérations de conduite telles que la détection d’obstacles, y compris la nuit.

L’antenne GPS 16 est située sur la partie arrière du véhicule automobile 10. Elle permet de recevoir des signaux GPS (pour « Global Positioning System » en anglais). Les données de navigation peuvent alors être mises à jour dans le véhicule automobile 10 à partir de ces signaux GPS.

Le véhicule automobile comprend également un ordinateur central 17 adapté pour traiter les différentes données des capteurs 11 A, 11 B, 12A, 12B, 13, 14, 15, 16. L’ordinateur central 17 et les capteurs 11 A, 11 B, 12A, 12B, 13, 14, 15, 16 sont reliés dans le véhicule automobile par un ou plusieurs réseaux (non représentés) de type bus CAN (pour « Controller Area Network » en anglais) pour le transport desdites données des capteurs.

La figure 2 illustre le véhicule automobile autonome de la figure 1 sur une route 20. Afin de simplifier cette illustration, les capteurs 11 A, 11 B, 12A, 12B, 13, 14, 15 n’ont pas été représentés sur la figure 2. La route 20 est délimitée par deux bordures 21. Elle est de plus divisée en deux voies séparées par une pluralité de bandes centrales 22. Sur la figure 2, le véhicule roule sur la voie de droite en suivant une trajectoire réelle P. Cette trajectoire réelle P est ici décalée latéralement d’une distance DL par rapport à une trajectoire de référence T. La trajectoire de référence T a été préalablement calculée par le système de navigation du véhicule automobile 10, notamment à partir des données des signaux GPS reçues par l’antenne GPS 16. Cette trajectoire de référence T s’étend ici à mi-distance entre la bordure 21 et les bandes centrales 22. L’invention a pour but d’aider le véhicule 10 à suivre au mieux la trajectoire de référence T. Pour cela, le véhicule automobile 10 comprend un dispositif d’aide à la conduite 30 illustré à la figure 3. Ce dispositif d’aide à la conduite 30 est dans un mode de réalisation préférentiel intégré directement dans l’ordinateur central 16 du véhicule automobile de la figure 1.

La figure 3 illustre plus en détail le dispositif d’aide à la conduite 30. Comme il a déjà été précisé, ce dispositif d’aide à la conduite 30 est adapté pour contrôler les mouvements du véhicule automobile autonome 10. Il comprend : - un module 301 d’évolution du véhicule ;

- un module 302 d’évolution de la route ;

- un module 303 d’évolution de l’environnement ;

- un système flou 304 ;

- un agent d’apprentissage par renforcement 305 ;

- un bloc 306 de contrôle d’un actionneur ;

- une interface Homme-Machine 307.

Le module d’évolution 301 du véhicule est adapté pour fournir un premier type de données datai. Ce premier type de données data 1 apporte des informations sur toute situation potentielle susceptible de modifier la dynamique du véhicule 10. Le module d’évolution 301 comprend :

- un bloc de changement de masse 3011 ;

- un bloc de changement de pneumatique 3012 ;

- un bloc de changement d’état du véhicule 3013 ;

Le bloc de changement de masse 3011 est adapté pour fournir des données de changement de masse. Ces données concernent la masse du véhicule automobile autonome 10 ainsi que sa répartition dans ledit véhicule (passagers, marchandise, etc...). Les données de changement de masse sont importantes car les caractéristiques associées à la masse du véhicule peuvent modifier complètement la dynamique du véhicule et influencer la décision la plus appropriée à prendre en fonction de la situation. Le bloc 3011 est ainsi chargé d’analyser tout biais par rapport à des valeurs nominales.

Le bloc de changement de pneumatique 3012 est adapté pour fournir des données de changement de pneumatique. Les pneumatiques constituent des points de contact entre le véhicule 10 et la route 20. Les données associées sont donc importantes car elles permettent d’obtenir une bonne estimation de la relation entre les forces latérales et l’angle de glissement, c’est-à-dire la raideur d’envirage. Cette raideur peut être évaluée en utilisant un observateur pour mesurer l’écart entre des valeurs nominales/des valeurs d’usines et des valeurs actualisées en temps réel.

Le bloc de changement d’état du véhicule 3013 est adapté pour fournir des données sur tout changement inattendu dans le véhicule automobile susceptible de modifier la dynamique de ce véhicule, tel qu’une panne de capteur, une crevaison, etc. Les données du premier type de données datai du module d’évolution 301 sont donc une combinaison de données provenant de ces différents blocs 3011, 3012, 3013.

Le module d’évolution 302 de la route est adapté pour fournir un second type de données data2. Ce second type de données data 2 apporte des informations sur toute situation potentielle susceptible de modifier l’état de la route. L’état de la route a une forte incidence sur la conduite du véhicule. Le module d’évolution 302 surveille ainsi tout changement potentiel pouvant découler du tracé de la chaussée.

Le module d’évolution 302 comprend :

- un bloc de conditions météorologiques 3021 ;

- un bloc de type de route 3022 ;

- un bloc d’état de la route 3023.

Le bloc de conditions météorologiques 3021 est adapté pour gérer l’évolution des conditions météorologiques, notamment en cas de neige, de verglas, de sécheresse ou de pluie. Le bloc 3021 est ainsi capable d’adapter la réponse optimale à la situation spécifique. Cette évolution peut être mesurée par un capteur de température installé sur le véhicule 10 ou par tout autre moyen.

Le bloc de type de route 3022 est adapté pour gérer l’évolution du type de route sur laquelle roule le véhicule 10. En effet, l’adhérence change considérablement lorsque le véhicule roule sur du béton, de l’asphalte, du gravier, des pavés ou toute autre surface, ce qui modifie la dynamique du véhicule. Cette évolution peut être mesurée par une caméra frontale pour détecter la surface de conduite, par une carte numérique détaillée incluant cette information ou par tout autre moyen.

Le bloc d’état de la route 3023 est adapté pour détecter tout changement soudain et inattendu de la surface de la route, tel qu’un trou, une tache d’huile ou toute autre situation dangereuse qui pourrait avoir un impact sur la dynamique du véhicule.

Les données du second type de données data2 du module d’évolution 302 sont donc une combinaison de données provenant de ces différents blocs 3021 , 3022, 3023.

Le module 303 d’évolution de l’environnement est adapté pour fournir un troisième type de données data3. Ce troisième type de données data3 apporte des informations sur des interactions avec des tiers tels que des piétons, d’autres véhicules automobiles (voitures, motos, camions etc...).

Le module 303 d’évolution de l’environnement comprend :

- un bloc 3031 de conduite libre ; - un bloc 3032 de conduite nominale ;

- un bloc 3033 de conduite d’urgence.

Le bloc 3031 de conduite libre comprend l’ensemble des cas où aucune interaction n’est présente. Ce bloc fournit ainsi des données de conduite libre reprenant tous les scénarios de conduite sur autoroute peu encombrée ou tout autre situation potentielle dans laquelle aucun tiers ne se trouve dans l’horizon électronique du véhicule, c’est-à-dire le champ de vision des capteurs d’obstacle.

Le bloc 3032 de conduite nominale comprend tous les scénarios potentiels et la manière dont ils sont gérés. Ce bloc fournit ainsi des données de conduite nominale reprenant différents comportements en fonction du scénario de conduite, tel qu’un rond-point, une intersection, une réduction de voie, une interaction avec des feux de circulation, une voie de sortie, etc. Le bloc 3032 peut inclure des traitements spécifiques pour chaque scénario basé sur des cas d’utilisation ou un traitement général selon un concept de généralisation dans lequel tous les véhicules sont traduits en une seule voie et traités en tant que tel.

Le bloc 3033 de conduite d’urgence est adapté pour gérer tous les changements soudains et inattendus au cours de la conduite. Ce bloc fournit ainsi des données de conduit d’urgence concernant, par exemple, un arrêt suite à l’injonction des forces de l’ordre, un camion de pompier, un piéton inattendu ou toute autre situation soudaine parmi les situations de conduite nominales où le véhicule doit modifier ses règles de décision préétablies.

Les données du troisième type de données data3 du module 303 d’évolution de l’environnement sont donc une combinaison de données provenant de ces différents blocs 3031, 3032, 3033.

Les données du premier type de données datai, les données du second type de données data 2 et les données du troisième type de données data 3 déterminent une situation actuelle Sa dans laquelle se trouve le véhicule automobile autonome 10.

Le dispositif d’aide à la conduite 30 comprend également le système flou 304, l’agent d’apprentissage par renforcement 305, le bloc 306 de contrôle d’un actionneur et l’interface Homme-Machine 307. Le système flou 304 est adapté pour délivrer une première commande K1 au bloc 306 de contrôle d’un actionneur et une seconde commande K2 à une interface Homme-Machine 307. Ces commandes K1 et K2 sont générées à partir de la situation actuelle résultant des données de premier type de données datai, des données de second type de données data2 et des données de troisième type de données data3. Le système flou 304 est, ici, également adapté pour transmettre à l’agent d’apprentissage par renforcement 305 la première commande K1 et la seconde commande K2 résultant de la situation actuelle. Le système flou 304 est adapté pour recevoir de la part de l’agent d’apprentissage par renforcement 305 une nouvelle réponse de contrôle Rep2. Cette nouvelle réponse de contrôle Rep2 est optimisée par rapport à la situation actuelle Sa. Le système flou 304 sera décrit plus en détail par la suite à l’aide de la figure 4.

L’agent d’apprentissage par renforcement 305 est adapté pour recevoir les commandes K1 et K2 générées par le système flou 304. L’agent d’apprentissage par renforcement 305 est adapté pour recevoir également une information de qualité (non représentée) sur le résultat de la première commande K1 pour contrôler le véhicule automobile autonome. En fonction de cette information de qualité, l’agent d’apprentissage par renforcement 305 délivre au système flou 304 la nouvelle réponse de contrôle Rep2. Le fonctionnement de l’agent d’apprentissage par renforcement 305 sera décrit plus en détail par la suite à l’aide de la figure 5.

Le bloc 304 de contrôle d’un actionneur est adapté pour recevoir la première commande K1. En fonction de cette commande K1 , un actionneur est utilisé pour piloter la trajectoire du véhicule automobile autonome 10. Cet actionneur est, par exemple, une colonne de direction du véhicule automobile autonome.

L’interface Homme-Machine 307 est adaptée pour communiquer avec un conducteur humain. Il peut comprendre ainsi des dispositifs sonores ou des dispositifs lumineux. Ces dispositifs sont activés, par exemple, en cas de danger nécessitant un changement brusque de la trajectoire du véhicule automobile autonome 10.

La figure 4 illustre de manière plus détaillée le système flou 304 du dispositif d’aide à la conduite 30. Ce système flou 304 comprend :

- un bloc de fuzzification 3011 ;

- un moteur d’inférence 3012 ;

- une base de données 3013 ;

- un bloc de defuzzification 3014.

Le bloc de fuzzification 3011 est adapté pour recevoir et traiter une pluralité de données des différents types de données datai, data2, data3 en vue de déterminer la situation actuelle Sa à laquelle est confronté le véhicule automobile autonome 10. Dans ce bloc, la pluralité de données des différents types de données datai, data2, data3 sont traduites en valeurs linguistiques représentant la situation actuelle Sa. Cette traduction dépend de fonctions d’appartenance qui représentent les connaissances subjectives du conducteur humain. La situation actuelle Sa est ensuite transmise à la base de données 3013 et au moteur d’inférence 3012.

La base de données 3013 est adaptée pour stocker des règles d’inférences. Ces règles d’inférences ont été formulées à partir de l’expérience humaine. Une telle règle d’inférence est par exemple : Si la masse du véhicule est "lourde" et que les pneus sont "usés", le risque est "élevé" et la décision est "conservatrice". La base de données 3013 est adaptée pour transmettre au moteur d’inférence 3012 la règle d’inférence Rule adaptée à la situation actuelle Sa. La base de données 3013 est, en outre, adaptée pour recevoir la nouvelle réponse de contrôle Rep2 provenant de l’agent d’apprentissage par renforcement 305. Cette nouvelle réponse Rep2 permet de mettre à jour les règles d’inférence afin d’optimiser la réponse à apporter au regard de la situation actuelle Sa, si celle-ci se reproduit dans le futur.

Le moteur d’inférence 3012 est adapté pour recevoir la règle d’inférence Rule provenant de la base de données 3013. Le moteur d’inférence 3012 applique alors cette règle d’inférence à la situation actuelle Sa pour générer une réponse de contrôle Rep1 appropriée. Par exemple, le moteur d’inférence 3012 peut générer une réponse de contrôle Rep1 de la forme : la masse du véhicule est lourde et les pneus sont usés, le risque est élevé et la décision est conservatrice.

Le bloc de defuzzification 3014 est adapté pour recevoir la réponse de contrôle Rep1 appropriée. A partie de cette réponse de contrôle Rep1, le bloc de defuzzification 3014 transmet la première commande K1 au bloc 306 de contrôle d’un actionneur et la seconde commande K2 à l’interface Homme-Machine 307. La première commande K1 et la seconde commande K2 sont, ici, également transmises à l’agent d’apprentissage par renforcement 305. Le bloc de defuzzification 3014 met en œuvre la méthode du centre de l’aire dite méthode CoA (pour Center of Area en anglais) en vue de fournir un résultat moyen à partir d’une conclusion de chaque règle donnée dans le processus d’inférence. La première commande K1 va de valeurs floues à des valeurs nettes, donnant ainsi une mesure du risque de la situation et de la stratégie à suivre. La première commande K1 inclut une valeur de mesure pour le risque de la manœuvre en cours et une valeur de décision pour la stratégie de conduite à suivre. Les deux valeurs se situent dans la fourchette de [0, 1] où 0 signifie le risque le plus faible et la stratégie la plus performante et 1 signifie le risque le plus élevé et la nécessité d’adopter la stratégie la plus prudente. Une représentation mathématique de la méthode CoA est la suivante : Dans laquelle Wj représente le poids attribué à chaque évaluation de règle dans le processus d'inférence et Oj représente les valeurs de singletons attribuées aux valeurs linguistiques de sortie. Le résultat Output correspond à la sortie du bloc de defuzzification 3014.

La figure 5 détaille le fonctionnement de l’agent d’apprentissage par renforcement 305.

A chaque cycle, l’agent d’apprentissage 305 reçoit des informations sur l’état de l’environnement (les données datai , data2, data3). A partir de ces informations, l’agent 305 sélectionne une décision à exécuter qui modifie l’état de l’environnement et entraine une récompense. Le problème que cherche résoudre l’agent d’apprentissage 304 est composé des éléments suivants : un ensemble S d’états possibles de l’environnement, un ensemble A d’actions possibles a et un ensemble R de récompenses r. Cependant, il est nécessaire de souligner que, malgré la récompense immédiate r, le véritable objectif est de trouver une politique ou une tactique d’action qui maximise une récompense finale rf. Considérant que la conduite est un processus d’apprentissage, l’application de cette technique s’inscrit parfaitement dans le module de prise de décision autonome du véhicule. Pour l’apprentissage, l’agent d’apprentissage 305 utile le Q-learning. Le Q-learning est une méthode d’apprentissage par renforcement qui est basée sur le calcul d’une valeur de qualité Q associée aux actions disponibles dans un état donné. Cette estimation de la qualité est effectuée de manière itérative, c’est-à-dire en actualisant une valeur Q(s,a) à chaque cycle où l’action a est sélectionnée dans cet état. La mise à jour se fait par le biais de l’équation suivante :

Dans laquelle s t et a t sont l’état et l’action entreprise au moment t et r t la récompense obtenue pour cette action. La variable a est un paramètre connu sous le nom de taux d’apprentissage, qui fait référence à la vitesse à laquelle l’algorithme ajuste ses connaissances en fonction de l’expérience. La valeur de cette variable a est comprise entre 0 et 1, cette valeur étant proportionnelle à la vitesse souhaitée. La variable p est un facteur d’actualisation de l’algorithme qui établit la priorité de la récompense à long terme par rapport à la récompense immédiate. La variable de cette variable p est comprise entre 0 et 1, où 1 représente la priorité la plus élevée de la récompense à long terme. Une fois que la fonction Q converge vers sa valeur finale, la politique optimale du système peut être obtenue en sélectionnant dans chaque état l’action ayant la valeur maximale de Q. Cette politique se traduit par le terme max a t+i(Q(st+i, a t +i)). Le principal avantage de cette approche par récompense est qu'elle ne dépend pas de la définition d'un modèle d'évolution ou d'une politique de contrôle préalablement définie par l'utilisateur, mais qu'elle est basée directement sur l'interaction du système avec son environnement et sur la récompense reçue à chaque étape. En outre, elle correspond parfaitement à l'objectif du bloc d'apprentissage de ce dispositif puisqu'elle n'intervient que lorsqu'elle rencontre une situation à laquelle elle a déjà été confrontée, et non pas en utilisant l'apprentissage pour de nouvelles situations qui seront basées sur le bloc de décision multi-évolution. Cela correspond au comportement humain où des manœuvres plus agressives sont effectuées pour des situations de conduite déjà rencontrées dans le passé, alors qu'un comportement plus conservateur est appliqué pour les nouvelles situations/scénarios de conduite.

La méthode d’aide à la conduite du véhicule automobile de la figure 10 est décrite par la suite à l’appui des figures 1 à 5 et de la figure 6.

Sur la figure 6, dans une étape E1 de réception, une pluralité de données datai, data2, data3 sont reçues par le bloc de fuzzification 3011.

Dans une étape E2 de traitement, les données reçues datai , data2, data3 sont traitées par le bloc de fuzzification 3011 pour déterminer la situation actuelle Sa du véhicule automobile autonome 10.

Dans une étape E3, une réponse de contrôle Rep1 est générée par le moteur d’inférence 3012 par rapport à la situation actuelle Sa.

Dans une étape E4, une commande K1 est envoyée par le bloc de defuzzification 3014 pour contrôler le véhicule automobile autonome 10. Cette commande K1 est fonction de la réponse à apporter Rep1. Au cours de cette étape E4, la commande K1 est également transmise à l’agent d’apprentissage par renforcement 305.

Dans une étape E5 de génération par renforcement, la nouvelle réponse de contrôle Rep2 est générée par l’agent d’apprentissage par renforcement 305. Cette nouvelle réponse de contrôle Rep2 est fonction d’une information de qualité sur le résultat de la commande K1 pour contrôler le véhicule 10. Celle-ci est optimisée par rapport à la situation actuelle Sa. Cette nouvelle réponse de contrôle Rep 2 est transmise à la base de données 3013 pour une mise à jour des règles d’inférences.

Les étapes de réception E1 et de traitement E2 de la pluralité de données datai, data2, data3, l’étape E3 de génération d’une réponse de contrôle Rep1 et l’étape E4 d’envoi de la commande K1 sont réalisées selon une logique floue. La méthode d’aide à la conduite du véhicule automobile 10 et le système d’aide à la conduite 30 associé permettent ainsi d’avoir :

- un système intelligent de prise de décision relié à un module d’évolution du véhicule relatif à toute situation potentielle susceptible de modifier la dynamique du véhicule ;

- un apprentissage implémenté par une logique flou et un apprentissage par renforcement.

L’invention concerne également un produit programme d’ordinateur comportant des instructions de programme exploitables par le dispositif d’aide à la conduite 30, qui lorsqu’elles sont exécutées ou interprétées par ledit dispositif d’aide à la conduite 30 déclenchent la mise en œuvre de la méthode d’aide à la conduite.

L’invention concerne également un véhicule automobile 10 comprenant le dispositif d’aide à la conduite 30. Ce véhicule automobile est un véhicule de tourisme, comme il est représenté sur la figure 1 et la figure 2. En variante, le véhicule automobile est un tout autre véhicule tel qu’un bus ou un camion.

L’invention n’est pas limitée aux modes de réalisation et variantes présentées et d’autres modes de réalisation et variantes apparaîtront clairement à l’homme du métier.