Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
AUTOMATIC METHOD FOR MONITORING ROTATING PARTS OF ROTATING MACHINES BY MEANS OF DOMAIN ADAPTATION
Document Type and Number:
WIPO Patent Application WO/2023/222985
Kind Code:
A1
Abstract:
The invention relates to a method (100) for automatically monitoring a plurality of rotating parts of rotating machines on the basis of a target database comprising a plurality of time signals from a distribution generated from each rotating part and on the basis of a source database comprising a plurality of time signals from a distribution S different from the distribution T generated from a source rotating part of a source rotating machine and being associated with an operating class, the monitoring being carried out by means of an adaptive deep learning model making it possible to adapt the source distribution to the target distribution, the deep learning module being trained by minimisation of a cost function relating to Gaussian kernel functions having a parameter σ; σ being calculated in each period on the basis of the difference in distributions weighted by a constant static value estimated on the basis of a Pascal's triangle.

Inventors:
MARNISSI YOSRA (FR)
ABBOUD DANY (FR)
KARKAFI FADI (FR)
DOQUET GUILLAUME (FR)
EL BADAOUI MOHAMMED (FR)
Application Number:
PCT/FR2023/050716
Publication Date:
November 23, 2023
Filing Date:
May 17, 2023
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SAFRAN (FR)
International Classes:
G01M13/045; G01M13/028; G01N29/44; G06N3/08; G06N3/096
Foreign References:
CN113705105A2021-11-26
CN110176033A2019-08-27
Other References:
SCHWENDEMANN SEBASTIAN ET AL: "Bearing fault diagnosis with intermediate domain based Layered Maximum Mean Discrepancy: A new transfer learning approach", ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE, PINERIDGE PRESS, SWANSEA, GB, vol. 105, 11 August 2021 (2021-08-11), XP086779624, ISSN: 0952-1976, [retrieved on 20210811], DOI: 10.1016/J.ENGAPPAI.2021.104415
FARINA A ET AL: "Tartaglia-Pascal's triangle: a historical perspective with applicat", SIGNAL, IMAGE AND VIDEO PROCESSING, SPRINGER-VERLAG, LONDON, vol. 7, no. 1, 25 May 2011 (2011-05-25), pages 173 - 188, XP035157416, ISSN: 1863-1711, DOI: 10.1007/S11760-011-0228-6
TONY PHILLIPS: "From Pascal's Triangle to the Bell-shaped Curve", 9 February 2018 (2018-02-09), 201 Charles Street Providence, Rhode Island 02904-2213, pages 1 - 9, XP093016028, Retrieved from the Internet [retrieved on 20230120]
Attorney, Agent or Firm:
LEBKIRI, Alexandre (FR)
Download PDF:
Claims:
REVENDICATIONS

[Revendication 1] Procédé (100) de surveillance automatique d'au moins une pièce tournante d'une machine tournante, à partir d'une base de données non étiquetée dite base de données cible comprenant au moins un signal temporel issu d'une distribution T, le signal temporel étant généré à partir de la pièce tournante, et à partir à partir d'une base de données source comprenant une pluralité de signaux temporels issus d'une distribution S différente de la distribution T, chaque signal temporel de la base de données source étant généré à partir d'une pièce tournante source d'une machine tournante source et étant associé à une classe de fonctionnement parmi un ensemble des classes de fonctionnement comprenant au moins une classe de fonctionnement nominal et une classe de fonctionnement défectueux, le procédé étant caractérisé en ce qu'il comprend les étapes suivantes :

- Entrainement (101 ) d'un premier réseau de neurones entraîné capable d'associer à un signal temporel non stationnaire issu de la distribution S une classe de fonctionnement parmi l'ensemble de classes de fonctionnement, le premier réseau de neurones comprenant une première partie d'extraction de caractéristiques et une deuxième partie de classification, le réseau de neurones artificiels étant entraîné sur la base de données source,

- Entrainement (102) d'un réseau de neurones artificiels dit adaptatif selon un nombre d'époques M d'entrainements, pour obtenir un réseau de neurones artificiels entraîné capable d'associer à un signal temporel issu d'une distribution union de S et de T une classe parmi l'ensemble des classes de fonctionnement, le réseau de neurones adaptatif comprenant une première partie d'extraction de caractéristiques, correspondant à la première partie du premier réseau de neurones, et une deuxième partie d'adaptation de la distribution S vers la distribution T et de classification, le réseau de neurones artificiels étant entraîné simultanément sur les bases de données source et cible, l'entrainement étant réalisé par minimisation d'une fonction coût comprenant : o un premier terme correspondant à l'erreur entre la classe obtenue par le réseau de neurones pour chaque signal de la base de données source et la classe associée au dit signal de la base de données sources; o un deuxième terme calculé à partir d'au moins un écart maximal moyen entre une fonction de la base de données source et une fonction de la base de données cible, l'écart maximal moyen étant calculé à partir d'au moins une fonction noyau Gaussienne de paramètre o, le paramètre o étant estimé à partir d'un triangle pascal, le paramètre o étant relatif à une variance de la fonction noyau Gaussienne et étant dépendant de chaque époque d'entrainement, la fonction noyau Gaussienne, d'ordre étant déterminée à partir de la dernière ligne d'un triangle de pascal de taille

- Utilisation (103) sur chaque signal de la base de données cible du réseau de neurones artificiels adaptatif, entraîné, pour associer une classe de fonctionnement au dit signal.

[Revendication 2] Procédé (100) selon l'une quelconques de revendications précédente caractérisé en ce que la première partie du réseau de neurones adaptatif comprend un nombre de couches étant un entier naturel supérieur ou égal à 1 et en ce que la deuxième partie du réseau de neurones adaptatif comprend un nombre de couches Nc2, Nc2 étant un entier naturel supérieur ou égal à 1 , le deuxième terme de la fonction coût étant calculé sur une ou plusieurs couches appartenant à la deuxième partie du réseau de neurones, et situées avant une dernière couche de la deuxième partie.

[Revendication s] Procédé (100) selon l'une quelconques des revendications précédentes caractérisé en ce que la surveillance est réalisée pour une pluralité de pièces tournantes de machines tournantes et en ce que base de données cible comprend une pluralité de signaux notée

[Revendication 4] Procédé selon les revendications 2 et 3 caractérisé en ce que la pluralité de signaux de la base de données source est notée et en ce que le deuxième terme de la fonction coût est calculé à chaque époque à partir de la fonction l'ensemble de signaux représentant la sortie de la m-ième couche du réseau de neurones artificiels adaptatif pour une entrée , chaque signal ayant une longueur et l'ensemble de signaux représentant la sortie de la m-ième couche du réseau de neurones artificiels adaptatif pour une entrée XT , chaque signal ayant une longueur m étant un entier compris dans un ensemble Ncc comprenant chaque numéro de couche de la deuxième partie à partir de laquelle un écart maximal moyen est calculé, avec :

Avec :

- avec la variance de la fonction noyau Gaussiene kp relative à l'ensemble

- avec la variance de la fonction noyau gaussienne relative à l'ensemble

- avec la variance de la fonction noyau Gaussienne kp relative à l'ensemble et à l'ensemble

P étant un entier naturel supérieur ou égal à 1 , chaque vecteur étant noté O , chaque vecteur étant noté , chaque vecteur étant étant notée , le paramètre étant égal à l'ensemble

[Revendication 5] Procédé (100) selon la revendication précédente caractérisé en ce que l'étape d'entrainement (102) du réseau de neurones adaptatif est réalisée selon un nombre d'époques M, et en ce que pour chaque époque du nombre d'époques M, le paramètre est estimé selon les sous-étapes suivantes :

- Pour chaque couche o Détermination de max, max étant la longueur maximale entre la longueur de chaque signal de l'ensemble et chaque signal de l'ensemble o Rééchantillonnage de chaque signal en une image en deux dimensions de taille et rééchantillonnage de chaque signal en une image en deux dimensions de taille o Détermination d'une variance d'une fonction noyau

Gaussienne d'ordre selon les sous-étapes suivantes :

■ Construction d'une matrice représentant un noyau gaussien d'ordre la matrice égale représentant la dernière ligne d'un triangle de pascal d'ordre étant la transposée de

■ Calcul de la variance à partir de la formule : étant égal à la valeur maximale de la matrice o Calcul d'un vecteur selon les sous-étapes suivantes :

Calcul de à partir

Calcul de à partir Calcul de à partir o Calcul de selon la formule suivante :

[Revendication 6] Procédé (100) selon la revendication précédente caractérisé en ce que :

- chaque coefficient o

- chaque coefficient étant égal à

- chaque coefficient (P) étant égal à

[Revendication 7] Procédé (100) selon l'une quelconques des revendications 4 à 6 caractérisé en ce que P est égal à 5.

[Revendication 8] Produit-programme d'ordinateur comprenant des instructions qui, quand le programme est exécuté sur un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé (100) selon l'une quelconque des revendications 1 à 7.

Description:
DESCRIPTION

TITRE : procédé automatique de surveillance de pièces tournantes de machines tournantes par adaptation de domaines.

DOMAINE TECHNIQUE DE L'INVENTION

[0001] Le domaine technique de l'invention est celui de l'adaptation de domaine de distributions et du transfert d'apprentissage profond.

[0002] La présente invention concerne un procédé automatique de surveillance de pièce tournante de machine tournante.

ARRIERE-PLAN TECHNOLOGIQUE DE L'INVENTION

[0003] Dans de nombreux secteurs industriels, le diagnostic et la surveillance de pièces mécaniques, telles que des moteurs et leurs différentes pièces tournantes (roulement, engrenage, arbre, fan,...) sont primordiaux afin de connaître leur état de fonctionnement ou de santé et ainsi planifier des opérations de maintenance de manière à minimiser leur durée d'indisponibilité. Un système ou procédé de diagnostic et de surveillance fiable permet ainsi une détection et une identification précoce d'un endommagement, afin d'éviter la propagation de ce dernier à d'autres pièces mécaniques, et de programmer une maintenance adaptée basé sur l'état de santé de la pièce surveillé. Ainsi, la surveillance mécanique présente un enjeu majeur pour les industries mécaniques et particulièrement pour l'industrie aéronautique.

[0004] La surveillance d'une pièce tournante d'une machine tournante est classiquement réalisée par analyse de signaux vibratoires générés par la pièce tournante et acquis par des capteurs vibro-acoustiques, tels que des accéléromètres, et est couramment utilisée pour déterminer l'état de fonctionnement de moteurs d'aéronef et de leurs pièces tournantes. Lors des phases de production ou de maintenance, des signaux vibratoires haute fréquence sont acquis lorsque la machine tournante est en fonctionnement, afin de détecter des signaux faibles, caractéristiques d'endommagements d'une pièce mécanique, appelés signatures, et ainsi prévenir une défaillance des moteurs. La surveillance par analyse des signaux vibratoires est l'une des méthodes les plus utilisées en raison de son aspect non-intrusif et de la richesse des signaux vibratoires en termes d'information de diagnostic. [0005] L'approche classique des méthodes de diagnostic vibratoire est basée sur des méthodes de traitement du signal à partir de signaux vibratoires. Les signaux sont à l'entrée d'une tache de traitement comprenant des méthodes de traitement (séparation de sources, filtrage, débruitage, et) ayant comme but d'extraire ou d'améliorer une « signature vibratoire » d'intérêt et de l'associer à une pièce mécanique. L'analyse vibratoire consiste donc à inférer l'état de santé d'une pièce mécanique tournante à travers sa signature vibratoire, cette inférence nécessitant une connaissance cinématique à priori, ainsi qu'un expert de surveillance. Par la suite, des indicateurs appropriés peuvent être construits pour quantifier l'endommagement et faciliter la prise de décision.

[0006] Des méthodes de surveillance et de diagnostic basées sur l'intelligence artificielle sont de plus en plus développées actuellement. Le but principal de ces méthodes est de remplacer la connaissance humaine requise dans les approches traditionnelles, par un apprentissage des machines à partir d'un nombre abondant de données.

[0007] Dans ce contexte, le diagnostic intelligent des défauts (DID) émerge comme une solution auxiliaire ou alternative à l'approche « traitement du signal » déjà évoquée. Avec le développement rapide de l'apprentissage profond, le diagnostic intelligent des défauts a présenté des intérêts significatifs durant ces dernières années.

[0008] Le succès d'un modèle d'apprentissage profond dépend à la fois du choix de l'architecture dudit modèle ainsi que la représentativité et l'abondance des données d'entrainement. Par exemple dans le cas où on s'intéresse à la surveillance des roulements, des signaux de roulements sains et avec chaque type de défaut sont requis pour entrainer le modèle afin qu'il puisse analyser de nouveaux roulements et classifier leur état. Le succès des approches de DID est soumis à une hypothèse commune : il existe suffisamment de données étiquetées pour former des modèles de diagnostic fiables. En aéronautique, cependant, il est difficile de collecter suffisamment de données étiquetées à cause de la rareté des défauts. En conséquence, les données non étiquetées provenant des machines réelles ne peuvent pas entraîner les modèles de diagnostic pour fournir des résultats précis. De plus, la différence de contexte d'acquisition entre les signaux d'entrainement des bases de données existantes et les signaux à classifier affecte la performance des modèles d'apprentissage car deux signaux acquis dans deux contextes différents sont issus de deux distributions de probabilités différentes.

[0009] L'adaptation du domaine est un outil permettant de réutiliser les connaissances apprises par un ensemble de signaux acquis à partir d'une machine tournante dans un premier contexte, cet ensemble de données est appelé domaine source, en les transférant à des analyses de signaux connexes, acquis pour le même type de machine tournante mais dans un contexte différent : ce groupe de données est appelé le domaine cible. Le domaine source représente un ensemble de données déjà acquises et étiquetées, c.à.d. que leur classe de fonctionnement est connue.

[0010] Afin de réutiliser les bases de données sources pour les tâches de diagnostic d'une base de données cible, des modèles d'apprentissage par transfert profond, en considérant des paramètres à régler, notamment pour la fonction coût du modèle, sont utilisés en raison de leur efficacité et leur capacité à réduire la grande différence de distribution entre le domaine source et le domaine cible. En revanche, l'état de santé de la pièce mécanique surveillé est inconnu. Les données du domaine cible sont donc naturellement non étiquetées. Pour cela, le problème principal revient à pouvoir régler les paramètres du modèle d'apprentissage profond sans avoir recours aux étiquettes de l'état de fonctionnement de la machine tournante pour identifier si le modèle a prédit correctement son état actuel.

RESUME DE L'INVENTION

[0011] L'invention offre une solution aux problèmes évoqués précédemment, en permettant de réaliser une surveillance automatique de pièce tournante, dont la classe de fonctionnement est inconnue, à partir d'un modèle d'apprentissage par transfert profond sur une base de données source et cible en réglant des paramètres relatifs au modèle d'apprentissage indépendamment des étiquettes de la base de données cible.

[0012] Un premier aspect de l'invention concerne un procédé de surveillance automatique d'au moins une pièce tournante d'une machine tournante, à partir d'une base de données non étiquetée dite base de données cible comprenant au moins un signal temporel issu d'une distribution T, le signal temporel étant généré à partir de la pièce tournante, et à partir à partir d'une base de données source comprenant une pluralité de signaux temporels issus d'une distribution S différente de la distribution T, chaque signal temporel de la base de données source étant généré à partir d'une pièce tournante source d'une machine tournante source et étant associé à une classe de fonctionnement parmi un ensemble des classes de fonctionnement comprenant au moins une classe de fonctionnement nominal et une classe de fonctionnement défectueux, le procédé étant caractérisé en ce qu'il comprend les étapes suivantes:

Entrainement d'un premier réseau de neurones entraîné capable d'associer à un signal temporel non stationnaire issu de la distribution S une classe de fonctionnement parmi l'ensemble de classes de fonctionnement, le premier réseau de neurones comprenant une première partie d'extraction de caractéristiques et une deuxième partie de classification, le réseau de neurones artificiels étant entraîné sur la base de données source,

Entrainement d'un réseau de neurones artificiels dit adaptatif selon un nombre d'époques M d'entrainements, pour obtenir un réseau de neurones artificiels entraîné capable d'associer à un signal temporel issu d'une distribution union de S et de T une classe parmi l'ensemble des classes de fonctionnement, le réseau de neurones adaptatif comprenant une première partie d'extraction de caractéristiques, correspondant à la première partie du premier réseau de neurones, et une deuxième partie d'adaptation de la distribution S vers la distribution T et de classification, le réseau de neurones artificiels étant entraîné simultanément sur les bases de données source et cible, l'entrainement étant réalisé par minimisation d'une fonction coût comprenant : un premier terme correspondant à l'erreur entre la classe obtenue par le réseau de neurones pour chaque signal de la base de données source et la classe associée au dit signal de la base de données sources; un deuxième terme calculé à partir d'au moins un écart maximal moyen entre une fonction de la base de données source et une fonction de la base de données cible, l'écart maximal moyen étant calculé à partir d'au moins une fonction noyau Gaussienne de paramètre o, le paramètre o étant estimé à partir d'un triangle pascal, le paramètre o étant relatif à une variance de la fonction noyau Gaussienne et étant dépendant de chaque époque d'entrainement, la fonction noyau Gaussienne, d'ordre étant déterminée à partir de la dernière ligne d'un triangle de pascal de taille

Utilisation sur chaque signal de la base de données cible du réseau de neurones artificiels adaptatif, entraîné, pour associer une classe de fonctionnement au dit signal.

[0013] On définit le domaine cible D Τ tel que D Τ = { X, T= PT(X 7 )} ; où X est un espace de descripteurs des caractéristiques d'un signal, T = P(X T ) est la distribution de la probabilité marginale et X Τ ∈ X.

[0014] On définit le domaine source Ds tel que Ds = { X, S= Ps(X s )} ; où X est un espace de descripteurs des caractéristiques d'un signal, S = P(X S ) est la distribution de la probabilité marginale et Xs∈ X.

[0015] Par " distribution S différente de la distribution T" on entend

[0016] En particulier, l'adaptation de la distribution S vers la distribution T est réalisée par minimisation du deuxième terme de la fonction coût, qui est calculé à partir de la base de données source issue de la distribution S et de la base de données cible issue de la distribution T. Le but de l'adaptation du domaine est de réduire l'écart des distributions des deux bases de données source et cible (durant ou après l'entrainement) afin que la classification de la base de données cible soit presque identique à celle source. Les deux bases traitent le même sujet (des défauts des roulements par exemple de la machine tournante) mais chacune concerne des différentes conditions de fonctionnement de la machine tournante (vitesses de rotation, charge, couple, etc.). En particulier, l'écart maximal moyen (appelé MMD ou Maximum Mean Discrepancy en anglais) est par exemple l'une des fonctions les plus efficaces, basée sur la minimisation de l'écart maximal entre les distributions, pour minimiser l'écart entre les distributions et donc réaliser une adaptation entre les domaines.

[0017] Ainsi, la première partie du réseau de neurones artificiels adaptatif est confondue avec la première partie du premier réseau de neurones avant l'entrainement du réseau de neurones artificiels adaptatif. L'architecture et les paramètres de la première partie du réseau de neurones artificiels sont identiques à l'architecture et les paramètres de la première partie du premier réseau de neurones. L'architecture d'un réseau de neurone (ou d'une partie du réseau) correspond au nombre de couches, de neurones et leur disposition. Autrement dit, la première partie du réseau de neurones artificiels et la première partie du premier réseau de neurones sont identiques.

[0018] L'invention permet avantageusement de classifier des signaux d'une base de données cible non étiquetée, l'état de la machine tournante étant donc inconnu dans les conditions d'acquisitions des signaux de distribution T, dans une classe d'un ensemble de classe, à partir d'une base de données source étiquetées, les signaux de la base de données source étant de distribution différente de la distribution des signaux de la base de données cible, grâce à un paramètre o dépendant d'un triangle de pascal, sans nécessiter de réglage à partir d'étiquettes manquantes de la base de données cibles. En effet, la minimisation de la fonction coût du réseau de neurones étant réalisée en partie grâce à partir d'une fonction noyau Gaussienne, la dernière ligne d'un triangle de pascal permet avantageusement de représenter une fonction noyau Gaussienne de même taille que la dernière ligne que le triangle, la taille étant choisie selon les bases de données sources et cibles par exemple, et de déterminer donc ses paramètres, sans réglage supplémentaire extérieur. Ainsi, L'invention permet de réaliser une surveillance automatisée de pièces tournantes de machines tournantes, grâce à des signaux issus d'une distribution T sans étiquettes associées, sans intervention d'un expert et permet donc d'avoir un gain de temps lors de la maintenance des machines tournantes.

[0019] Le noyau gaussien permettant de calculer le paramètre o (et donc la fonction coût) est introduit dans le but de réduire la différence des distributions des bases de données chacune par rapport à l'autre et au sein même de chacune des bases de données. Alors, l'utilisation du même noyau pour réduire cette différence chaque fois n'est pas très efficace puisqu'elle change à chaque fois le modèle ajuste ses poids (c'est-à-dire à chaque époque d'entrainement). Par conséquent, le noyau gaussien doit être défini durant chaque itération pour actualiser le motif de cette réduction. D'autre part, le paramètre définissant le noyau gaussien étant sa variance ou de manière équivalente son écart type qui est noté dans ce cas o, o est donc dépendant de la différence des distributions pour qu'elle change respectivement. [0020] Ainsi, le paramètre a variant selon chaque époque d'entrainement, durant laquelle les distributions sont rapprochées, l'estimation de ce paramètre est bien robuste à la variance relative à la différence des distributions.

[0021] Avantageusement, le deuxième terme de la fonction coût et en particulier l'écart maximal moyen est une valeur dynamique qui varie à chaque époque d'entrainement.

[0022] Avantageusement, pas d'essai et d'erreurs ni de réglages ne sont réalisés par un opérateur pour trouver la meilleure variance (ou écart-type de manière équivalente) du noyau gaussien.

[0023] Outre les caractéristiques qui viennent d'être évoquées dans le paragraphe précédent, le procédé selon un premier aspect de l'invention peut présenter une ou plusieurs caractéristiques complémentaires parmi les suivantes, considérées individuellement ou selon toutes les combinaisons techniquement possibles : la première partie du réseau de neurones adaptatif comprend un nombre de couches Ne, Nd étant un entier naturel supérieur ou égal à 1 et en ce que la deuxième partie du réseau de neurones adaptatif comprend un nombre de couches Nc2, Nc2 étant un entier naturel supérieur ou égal à 1 , le deuxième terme de la fonction coût étant calculé sur une ou plusieurs couches appartenant à la deuxième partie du réseau de neurones, et situées avant une dernière couche de la deuxième partie. En particulier, sur chaque couche d'un ensemble de couches (situées avant la dernière couche) de la deuxième partie, un écart moyen maximal est calculé. Le deuxième terme de la fonction coût comprend ainsi la somme de chaque écart maximal moyen calculé. La dernière couche est une couche de décision permettant de classer le signal d'entrée dans une classe de fonctionnement, après un rapprochement des distributions réalisé dans la/les couches précédant la dernière couche. la surveillance est réalisée pour une pluralité de n Τ pièces tournantes de machines tournantes et en ce que base de données cible comprend une pluralité de signaux notée la pluralité de signaux de la base de données source est notée et le deuxième terme de la fonction coût est calculé à chaque époque à partir de la fonction l'ensemble de signaux représentant la sortie de la m-ième couche du réseau de neurones artificiels adaptatif pour une entrée X s , chaque signal f m (Xf) ayant une longueur Lms , et l'ensemble de signaux représentant la sortie de la m-ième couche du réseau de neurones artificiels adaptatif pour une entrée X T , chaque signal j ayant une longueur Lm Τ , m étant un entier compris dans un ensemble Ncc comprenant chaque numéro de couche de la deuxième partie à partir de laquelle un écart maximal moyen est calculé, avec :

Avec : la variance de la fonction noyau Gaussiene k p relative à l'ensemble f m (X s ) , p j la variance de la fonction noyau gaussienne k p relative à l'ensemble f m (X r ) | a variance de la fonction noyau Gaussienne k p relative à l'ensemble f m (X s ) et à l'ensemble f m (X r ),

P étant un entier naturel supérieur ou égal à 1 , chaque vecteur [Omss (p)] P >1 étant noté Omss, chaque vecteur étant noté OmT Τ , chaque vecteur étant noté et étant notée , le paramètre o étant égal à l'ensemble Avantageusement, le nombre P de fonctions Noyau Gaussiennes k p permet d'augmenter la précision de calcul de la fonction p p et donc de la fonction coût d'entrainement du réseau de neurones artificiels adaptatif. En particulier, durant chaque époque d'entrainement, les distributions de S et de T varient. Ainsi, à chaque époque, le paramètre permettant de calculer le deuxième terme de la fonction coût (et comprenant trois composantes) varie également pour correspondre aux nouvelles distributions. Ainsi, les trois composantes varient à chaque époque pour s'adapter aux variations des distributions S et T. l'étape d'entrainement du réseau de neurones adaptatif est réalisée selon un nombre d'époques M, et pour chaque époque du nombre d'époques M, le paramètre est estimé selon les sous-étapes suivantes :

Pour chaque couche : o Détermination de Lmax, Lmax étant la longueur maximale entre la longueur de chaque signal de l'ensemble et chaque signal de l'ensemble o Rééchantillonnage de chaque signal en une image en deux dimensions de taille et rééchantillonnage de chaque signal en une image en deux dimensions de taille o Détermination d'une variance d'une fonction noyu a

Gaussienne d'ordre selon les sous-étapes suivantes :

■ Construction d'une matrice représentant un noyau gaussien d'ordre la matrice égale à

TP^Lmax représentant la dernière ligne d'un triangle de pascal d'ordre et étant la transposée de ■ Calcul de la variance à partir de la formule : , m étant égal à la valeur maximale de la matrice

Calcul d'un vecteur selon les sous-étapes suivantes :

Calcul de s à partir de Calcul de à partir de Calcul de à partir de Calcul de selon la formule suivante :

Avantageusement, les signaux sont rééchantillonnés et convertis en images afin de gagner en temps de calculs. De plus, le paramètre o est estimé grâce à aux deux bases de données source et cible et grâce au triangle de pascal, sans nécessiter d'étiquettes pour la base de données cible à classifier. Les composantes sont calculées à chaque époque d'entrainement parce qu'elles dépendent de la différence de distribution qui change durant chaque époque d'entrainement. est une valeur de référence statique (en d'autres termes : cette valeur ne varie pas en fonction des époques d'entrainement) et permet d'évaluer le changement après chaque époque d'entrainement et donc chaque ajustement des paramètres (ou poids) du réseau de neurones adaptatif .

Selon un mode de réalisation :

- chaque coefficient - chaque coefficient

' chaque coefficient

P est égal à 5. Plus P est élevé plus l'estimation du paramètre est précise. Le fait d'augmenter l'ordre présente un inconvénient du point de vue ressources disponibles pour exécuter les calculs. Avantageusement, P égal à 5 permet d'obtenir un compromis entre une estimation correcte de et un temps de calcul réduit.

[0024] Un troisième aspect de l'invention concerne un produit-programme d'ordinateur comprenant des instructions qui, quand le programme est exécuté sur un ordinateur, conduisent celui-ci à mettre en œuvre les étapes du procédé selon un premier aspect de l'invention et le procédé selon un deuxième aspect de l'invention.

[0025] L'invention et ses différentes applications seront mieux comprises à la lecture de la description qui suit et à l'examen des figures qui l'accompagnent.

BREVE DESCRIPTION DES FIGURES

[0026] Les figures sont présentées à titre indicatif et nullement limitatif de l'invention.

La [Fig. 1] montre un schéma synoptique d'un procédé de surveillance de pièce tournante de machine tournante selon l'invention,

La [Fig. 2] représente le rééchantillonnage d'un signal temporel en une image en deux dimensions,

La [Fig. 3] représente un noyau Gaussien de taille 28 x 28,

DESCRIPTION DETAILLEE

[0027] Les figures sont présentées à titre indicatif et nullement limitatif de l'invention. [0028] La [Fig. 1 ] montre une représentation schématique d'un schéma synoptique d'un procédé 100 de surveillance automatique d'au moins une pièce tournante d'une machine tournante, à partir d'une base de données dite cible comprenant au moins un signal temporel issu d'une distribution T et généré à partir de la pièce tournante, et à partir d'une base de données source comprenant une pluralité de signaux temporels issus d'une distribution S différente de la distribution T.

[0029] La machine tournante est par exemple un moteur, de préférence un turboréacteur d'aéronef.

[0030] Par exemple, la pièce tournante de la machine tournante est un ou plusieurs arbre mécanique, un ou plusieurs roulements, un ou plusieurs fans, un ou plusieurs turbines ou un ou plusieurs compresseurs.

[0031] Selon un mode de réalisation, la surveillance est réalisée pour une pluralité de n Τ pièces tournantes de machines tournantes et en ce que base de données cible comprend une pluralité de signaux notée X étant un entier naturel supérieur à 1.

[0032] Les n Τ pièces tournantes sont de même type, ainsi, les n Τ pièces tournantes sont des roulements par exemple.

[0033] Chaque signal temporel est généré à partir d'une pièce tournante parmi les n Τ pièces tournantes .

[0034] Chaque signal temporel peut être un signal temporel non stationnaire. Par "signal temporel non stationnaire", on entend un signal physique temporel dont le contenu fréquentiel varie dans le temps.

[0035] Dans la suite de la rédaction, on utilisera indifféremment les termes "signal temporel " ou "signal".

[0036] Dans la suite de la rédaction, on utilisera indifféremment les termes "signal de la base de données cible " ou "signal cible".

[0037] Chaque signal cible est généré de préférence à partir de vibrations d'une pièce tournante dite cible d'une machine tournante dite cible.

[0038] Chaque signal cible est par exemple mesuré à l'aide d'un capteur, éventuellement embarqué dans une machine tournante cible, par exemple un capteur vibro-acoustique. Le capteur vibro-acoustique est par exemple un accéléromètre, une jauge de contrainte ou un microphone.

[0039] Chaque signal cible comprend un nombre L Τ de points, le nombre LT pouvant dépendre de la fréquence d'échantillonnage du capteur.

[0040] Selon un mode de réalisation préféré, chaque signal cible est un signal vibratoire.

[0041] La pluralité de signaux cibles est notée n Τ étant un entier naturel non nul représentant le nombre de signaux cibles dans la base de données cible.

[0042] Chaque signal temporel non stationnaire issu d'une distribution T est un signal généré à partir des vibrations de la pièce tournante de la machine tournante dans un contexte T'.

[0043] On définit le domaine cible D Τ tel que D Τ = { X, T= PT(X 7 )} ; où X est un espace de descripteurs des caractéristiques d'un signal, T = P(X T ) est la distribution de la probabilité marginale et X Τ E X.

[0044] Un contexte correspond aux conditions de fonctionnements d'une machine tournante, par exemple les valeurs des paramètres relatifs à la machine tournante. Un paramètre relatif à la machine tournante peut être la vitesse de rotation de la machine tournante, la charge, la température de la machine tournante, le type de machine tournante, ou la position du capteur vibro-acoustique dans la machine tournante.

[0045] La pluralité de signaux source est notée ns étant un entier naturel non nul représentant le nombre de signaux sources dans la base de données source. La base de données sources comprend ns signaux générés à partir de ns pièces tournantes sources de machines tournantes sources.

[0046] Chaque signal temporel de la base de données source est généré à partir d'une pièce tournante source d'une machine tournante source et est associé à une classe de fonctionnement parmi un ensemble des classes de fonctionnement. De préférence, chaque signal de la base de données source est généré à partir de vibrations de la pièce tournante source. [0047] Une base de données dont chaque signal est associé à une classe parmi un ensemble de classes est dite "étiquetée". Ainsi, la base de données source est étiquetée.

[0048] Dans la suite de la rédaction, on utilisera indifféremment les termes "signal de la base de données source " ou "signal source".

[0049] Chaque signal source est par exemple mesuré à l'aide d'un capteur, éventuellement embarqué dans une machine tournante source, par exemple un capteur vibro-acoustique. Le capteur vibro-acoustique est par exemple un accéléromètre, un jauge de contrainte ou un microphone.

[0050] Chaque pièce tournante source est de même type que chaque pièce tournante, c'est-à-dire que si chaque pièce tournante est un roulement, chaque pièce tournante source est un roulement.

[0051] Chaque signal source comprend un nombre Ls de points, le nombre Ls pouvant dépendre de la fréquence d'échantillonnage du capteur.

[0052] Chaque machine tournante source est de même type que chaque machine tournante cible, c'est-à-dire que si chaque machine tournante cible est un moteur d'aéronef, chaque machine tournante source est également un moteur d'aéronef.

[0053] L'entier naturel ns peut être égal ou différent de l'entier naturel HT.

[0054] Deux signaux sont issus d'une même distribution si, lors de leur acquisition, la valeur d'un seul paramètre relatif à la machine tournante varie.

[0055] Chaque signal temporel non stationnaire issu de la distribution S est un signal généré à partir des vibrations de la pièce tournante de la machine tournante dans un contexte S'.

[0056] On définit le domaine source Ds tel que Ds = { X, S= Ps(Xs)} ; où X est l'espace de descripteurs des caractéristiques d'un signal, S = Ps(Xs) est la distribution de la probabilité marginale et Xs∈ X.

[0057] Les contextes S' et T' sont différents.

[0058] Si deux signaux sont acquis dans deux contextes différents, au moins deux paramètres relatifs à la machine tournante ont des valeurs différentes et les deux signaux sont de distribution différentes. [0059] Lorsque deux signaux sont acquis dans deux contextes différentes, on considère que leurs domaines sont de distributions différentes. On considère ainsi que les domaines D s et D Τ sont de distributions différentes.

[0060] Par " domaines D s et D Τ sont de distributions différentes " on entend :

[0061] Par exemple, un ensemble de signaux comprenant un premier, un deuxième et un troisième signal, est mesuré par un capteur fixé sur une même machine tournante . Chaque signal est mesuré sur le même type de machine tournante, à température de la machine tournante égale et à position égale de la machine tournante, le seul paramètre dont la valeur varie est la vitesse de rotation de la machine tournante, notée N2. Le premier signal est mesuré pour N2 = 600 tours par minutes, le deuxième signal est mesuré lorsque N2 = 800 tours par minutes, le troisième signal est mesuré pour N2 = 1000 tours par minutes. Le premier, deuxième et troisième signal sont mesurés dans un même contexte et font partie d'une même distribution.

[0062] Par exemple, un premier signal et un deuxième signal sont mesurés par un capteur fixé sur une. Le premier signal est mesuré pour une vitesse N2 = 600 tours et pour une charge égale à 1 HP, le deuxième signal est mesuré pour une vitesse N2=800 tours et pour une charge égale à 3HP. Deux paramètres relatifs à la machine tournante ont des valeurs différentes lors de l'acquisition du premier signal et du deuxième signal, ainsi le premier et le deuxième signal ne sont pas issus de la même distribution.

[0063] L'ensemble des classes de fonctionnement est un ensemble de classes de fonctionnement de la pièce tournante.

[0064] Par exemple, l'ensemble des classes de fonctionnement de la pièce tournante comprend au moins les classes suivantes : classe de fonctionnement nominal et classe de fonctionnement défectueux.

[0065] Par exemple, l'ensemble des classes de fonctionnement de la pièce tournante comprend les classes suivantes : classe de fonctionnement nominal, classe de fonctionnement présentant un premier défaut, classe de fonctionnement présentant un deuxième défaut, classe de fonctionnement présentant un troisième défaut. Un premier défaut peut être un défaut d'usure par exemple. Un deuxième défaut peut être un défaut d'écaillement par exemple.

[0066] Selon un premier mode de réalisation, le procédé 100 peut comprendre une première étape 101 d'entrainement supervisé d'un premier réseau de neurones artificiels pour obtenir un réseau de neurones artificiels entrainé capable de fournir à partir d'un signal appartenant à la distribution S, une classe comprise dans l'ensemble des classes de fonctionnement.

[0067] L'entraînement supervisé, autrement appelé apprentissage supervisé, permet d'entraîner un réseau de neurones artificiels à une tâche prédéfinie, en mettant à jour ses paramètres de manière à minimiser une fonction de coût correspondant à l'erreur entre la donnée de sortie fournie par le réseau de neurones artificiels et la vraie donnée de sortie, c'est-à-dire ce que le réseau de neurones artificiels devrait fournir en sortie pour remplir la tâche prédéfinie sur une certaine donnée d'entrée.

[0068] Le réseau de neurones artificiels comprend de préférence une première partie d'extraction de caractéristiques, et une deuxième partie de classification.

[0069] La première partie comprend de préférence un ensemble de couches de neurones artificiels de convolution et un ensemble de couche de neurones artificiels dite de "pooling", chaque couche de neurones artificiels de pooling étant précédée d'une couche de neurones artificiels de convolution et suivie d'une couche de neurones artificiels de convolution. Par exemple, la première partie réalise l'extraction d'indicateurs de santé de la machine tournante et est entraînée de manière à extraire correctement (grâce à une fonction coût) les caractéristiques de ces indicateurs de santé.

[0070] La première partie comprend un nombre de couches Nd , Nd étant un entier naturel supérieur ou égal à 1 et de préférence égal à 4.

[0071 ] L'entraînement supervisé du premier réseau de neurones artificiels consiste à mettre à jour les paramètres du premier réseau de neurones artificiels de manière à minimiser une fonction de coût correspondant à l'erreur entre la prédiction de la classe fournie par le réseau de neurones artificiels à partir d'un signal source de la base de données source et la classe associée au dit signal source dans la base de données source. [0072] La fonction de coût est par exemple une fonction quadratique moyenne ou une fonction entropie croisée.

[0073] La minimisation de la fonction coût est par exemple réalisée par un algorithme de descente du gradient stochastique avec rétropropagation (« Back- Propagation Through Time » en anglais ou BPTT).

[0074] L'entrainement du premier réseau de neurones est réalisé selon un nombre d'époques B, B étant un entier naturel supérieur à 1 .

[0075] Le procédé 100 comprend une étape 102 d'entrainement d'un réseau de neurones artificiels dit adaptatif pour obtenir un réseau de neurones artificiels entraîné capable d'associer à un signal temporel non stationnaire issu d'une distribution union de S et de T une classe parmi l'ensemble de classes. Un signal temporel non stationnaire issu d'une distribution union de S et de T est un signal pouvant être issu de la distribution S ou de la distribution T.

[0076] Le réseau de neurones artificiels adaptatif est entraîné simultanément sur la base de données source et sur la base de données cible.

[0077] le réseau de neurones adaptatif comprend une première partie d'extraction de caractéristiques et une deuxième partie dite d'adaptation de domaines et de classification.

[0078] De préférence, la première partie du réseau de neurones adaptatif est confondue avec la première partie du premier réseau de neurones avant de débuter l'entrainement du réseau de neurones adaptatif. Ainsi, la première partie du réseau de neurones adaptatif comprend un nombre de couches étant un entier naturel supérieur ou égal à 1 et de préférence égal à 4.

[0079] De préférence, la deuxième partie du réseau de neurones adaptatif comprend un ensemble de couches dites "fully-connected" (de l'anglais, entièrement connectées).

[0080] De préférence, la deuxième partie du réseau de neurones artificiels adaptatif comprend un nombre de couches étant un entier naturel supérieur ou égal à 1 et de préférence égal à 4 ou 5 par exemple.

[0081] Dans la suite, la notation f m X s ) représente la sortie de la m-ième couche du réseau de neurones artificiels adaptatif pour une entrée X s , et f m (X r ) représente la sortie de la m-ième couche du réseau de neurones artificiels adaptatif pour une entrée X , m étant un entier naturel compris dans l'intervalle

[0082] L'ensemble

[0083] Chaque élément de l'ensemble est un signal ayant un nombre de points Lms, Lms étant un entier naturel non nul.

[0084] L'ensemble

[0085] Chaque élément est un signal de ayant un nombre de points étant un entier naturel non nul.

[0086] Les entiers peuvent être égaux ou différents.

[0087] Dans la suite, on confondra les expressions "nombre de points d'un signal" et "longueur d'un signal".

[0088] L'entrainement du réseau de neurones adaptatif est réalisé selon un nombre d'époques M,M étant un entier supérieur ou égal à 1 , par minimisation d'une fonction coût relative au réseau de neurones artificiels adaptatif à chaque époque.

[0089] Dans la suite, on confondra les expressions " fonction coût relative au réseau de neurones artificiels adaptatif " et "fonction de coût adaptative".

[0090] La minimisation de la fonction coût adaptative est par exemple réalisée par un algorithme de descente du gradient stochastique avec rétropropagation (« Back- Propagation Through Time » en anglais ou BPTT).

[0091] La fonction coût comprend au moins un premier terme et un deuxième terme.

[0092] Le premier terme de la fonction coût est proportionnel à l'erreur entre la prédiction de la classe fournie par le réseau de neurones artificiels adaptatif à partir d'un signal source de la base de données source et la classe, parmi l'ensemble des classes fonction associée au dit signal source dans la base de données source.

[0093] Le deuxième terme de la fonction coût est calculé à partir d'au moins la somme de chaque écart maximal moyen (en anglais MMD : "maximum mean discreapancy") calculé à la sortie d'au moins une couche de la deuxième partie, pour la base de données source et la base de données cible en entrée du réseau de neurones adaptatifs.

[0094] Le deuxième terme est calculé à partir de la formule suivante :

[0095]

[0096] L'indice m appartenant à un ensemble Ncc comprenant chaque numéro de couche de la deuxième partie choisie et à partir de laquelle un écart maximal moyen est calculé. Ncc peut comprendre un seul numéro de couche ou un nombre de numéros de couches supérieur à 1 et strictement inférieur à

[0097] La formule de de est la suivante :

[0098]

[0099] k P étant une fonction noyau Gaussienne.

[00100] On considère qu'une somme de fonctions noyau Gaussiennes est une fonction noyau Gaussienne.

[00101] P est un entier naturel supérieur ou égal à 1 représentant le nombre de fonctions noyau Gaussiennes considérées pour le calcul du deuxième terme.

[00102] Notons le terme avec )égal à : avec la variance de la fonction noyau Gaussienne k p relative à l'ensemble

[00103] Notons MMDTT P le terme avec égal à : , avec la variance de la fonct ion noyau gaussienne k p relative à l'ensemble f m (X T ) .

[00104] Notons MMDST P le terme avec égal à : e avec la variance de la fonction noyau Gaussienne k p relative à l'ensemble et à l'ensemble [00105] Ainsi,

[00106] Chaque vecteur est noté chaque vecteur est notée et l'ensemble est noté . Ainsi, o est un paramètre de la fonction

[00108] La fonction est une somme de fonctions noyau Gaussiennes.

[00109] A chaque époque du nombre de M d'époques de l'entrainement du réseau de neurones adaptatif, la fonction coût est minimisée, et donc le premier terme et le deuxième termes de la fonction sont minimisés.

[00110] Le paramètre o est estimé à chaque époque du nombre d'époques M, avant la minimisation du deuxième terme de la fonction coût.

[00111] La détermination du paramètre o comprend une pluralité de sous-étapes décrites dans la suite.

[00112] Pour chaque couche une première sous-étape de détermination du paramètre o est une sous-étape de détermination d'une longueur Lmax , représentant la longueur maximale entre la longueur Lm Τ et la longueur Lms.

[00113] Une deuxième étape du procédé 100 d'estimation est une étape de rééchantillonnage de chaque signal en une image , en deux dimensions sur une échelle de gris et de chaque signal en une image en deux dimensions sur une échelle de gris.

[00114] Chaque colonne de l'image comprend un nombre de pixels égal à et chaque ligne de comprend un nombre de pixels égal à

[00115] Chaque colonne de l'image verticale comprend un nombre de pixels égal à et chaque ligne de l'image comprend un nombre de pixels égal à [00116] La [Fig. 2] est une représentation de l'étape de rééchantillonnage en deux- dimensions d'un signal de longueur M.

[00117] Une deuxième sous-étape de détermination du paramètre o est une sous- étape de construction d'une matrice représentant un noyau gaussien de taille et de variance à partir de la dernière ligne d'un triangle de pascal d'ordre

[00118] La construction de la matrice est réalisée à partir d'un vecteur comportant colonnes et une ligne et représentant la dernière ligne du triangle de pascal d'ordre

[00119] La matrice est égale à étant la transposée de

[00120] La matrice représente une reproduction du noyau gaussien de taille la valeur centrale de la matrice étant la valeur maximale, les valeurs de ladite matrice diminuant petit à petit en s'éloignant du centre, afin d'arriver aux coins de la matrice présentant des valeurs égales à 1 .

[00121] Par exemple, pour la dernière ligne d'un triangle de Pascal d'ordre 5 est le vecteur suivant : [1 4 6 4 1],

[00122] Ainsi, pour

[00123] Ainsi N

[00124] L'image d'une matrice représentant un noyau gaussien de taille

28*28 est représentée dans la [Fig. 3].

[00125] Une troisième sous-étape de détermination du paramètre o est une sous- étape de calcul de la variance du noyau gaussien représenté par la matrice La matrice représente le noyau Gaussien de formule suivante : La fonction est maximale lorsque le terme exponentiel tend vers 1 , ainsi et vaut

[00126] Notons la valeur maximale de la matrice ainsi, ce qui permet d'obtenir : x

[00127]

[00128] ne dépend pas de l'époque d'entrainement, ainsi, peut être calculé uniquement à la première époque puis réutilisé pour chaque époque parmi le nombre d'époques M, ou recalculé à chaque époque.

[00129] Une quatrième sous-étape de détermination du paramètre o est une sous- étape de calcul de d'une matrice

[00130] est calculé à partir de la formule

[00131] est calculé à partir de la formule

[00132] est calculé à partir de la formule

[00133] De préférence, Chaque coefficient de la matrice oss est égal à

[00134] De préférence Chaque coefficient de la matrice δ est égal à

[00135] De préférence, Chaque coefficient δST(P) de la matrice δS Τ est égal à [00136] Selon un mode de réalisation ,P est égal à 1. Ainsi, dans ce mode de réalisation,

[00137] De préférence, P est égal à 5. Un nombre P égal à 5 permet d'obtenir un d'équilibre entre le temps de calcul de la fonction de coût adaptative et une précision satisfaisante de l'estimation de la différence de distributions

[00138] Ainsi, la matrice dépend de chaque époque d'entrainement, l'ensemble et l'ensemble étant modifiés à chaque époque d'entrainement du nombre M d'époques.

[00139] Le procédé d'estimation de la matrice comprend une étape de calcul de la matrice à partir du produit de la variance et de la matrice

[00140] De préférence

[00141] Ainsi, le paramètre égal à l'ensemble est estimé selon les sous- étapes précédentes.

[00142] Le procédé 100 comprend une étape d'utilisation 103 sur chaque signal de la base de données cible du réseau de neurones artificiels adaptatif, entraîné, pour associer une classe de fonctionnement au dit signal.