Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD FOR MONITORING THE PROPER OPERATING CONDITION OF A COMPUTER
Document Type and Number:
WIPO Patent Application WO/2007/031426
Kind Code:
A2
Abstract:
The invention concerns computers executing in shared time, under the control of their operation systems, multiple separate and independent applicative programmes. In particular, the invention concerns networks of IMA-type integrated computers executing applicative programmes written independently of the hardware features of the computers and not permanently residing in the computers. It consists in associating with the digital core of each computer of the network an independently operating monitoring automaton and in controlling with the monitoring automaton the proper observation by the associated computer of the of the temporal ordering of the tasks and fixed partition allocations. Furthermore, the monitoring automata may be configured to execute monitoring service applications such as missed appointments and watchdog applications to which the applicative programmes executed by the computers of the network may subscribe.

Inventors:
ROUSSEL PIERRE (FR)
Application Number:
PCT/EP2006/065982
Publication Date:
March 22, 2007
Filing Date:
September 04, 2006
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
THALES SA (FR)
ROUSSEL PIERRE (FR)
International Classes:
G06F11/07
Foreign References:
FR2682202A11993-04-09
FR2770917A11999-05-14
Other References:
None
Attorney, Agent or Firm:
BEYLOT, Jacques et al. (31-33 Avenue Aristide Briand, Arcueil Cedex, FR)
Download PDF:
Claims:

REVENDICATIONS

1. Procédé de contrôle du bon fonctionnement d'un calculateur comportant un cœur numérique (40) exécutant en temps partagé plusieurs programmes applicatifs distincts et indépendants partitionnés en tâches, sous le contrôle d'un système d'exploitation (21 , 22) allouant des partitions mémoire, des fenêtres temporelles (MAF) d'exécution de programme applicatif et des sous-fenêtres temporelles (MIF) d'exécution de tâches organisées en trames caractérisé en ce qu'il consiste à :

- associer au calculateur (40) un automate (50) câblé de surveillance à fonctionnement indépendant du cœur numérique du calculateur,

- lors de l'initialisation du système d'exploitation (21 , 22) du calculateur (40), faire transmettre par le cœur numérique du calculateur (40) à l'automate de surveillance (50), une définition des trames des fenêtres et sous-fenêtres temporelles (MAF,

MIF) et des allocations de partitions mémoire,

- faire signaler par le cœur numérique du calculateur (40) à l'automate de surveillance (50) chaque changement de fenêtre temporelle (MAF), - faire communiquer par le cœur numérique du calculateur (40) à l'automate de surveillance (50), à chaque changement d'allocation de partitions mémoire, l'identité de la partition mémoire quittée, les heures de début et de fin d'allocation de la partition mémoire quittée et le numéro d'ordre, au sein d'une fenêtre temporelle (MIF), de la sous-fenêtre temporelle (MIF) d'occurrence de l'allocation de la partition mémoire quittée,

- à partir des signalements de changement d'allocation de partitions mémoire délivrés par le cœur numérique du calculateur (40), faire surveiller par l'automate de surveillance (50), le respect par le calculateur (40) des trames des fenêtres temporelles (MAF) d'exécution de programmes applicatifs et des sous-fenêtres temporelles (MIF) d'exécution de tâches, et des allocations de partitions mémoire qu'il a fourni à l'initialisation de son système d'exploitation, et

- faire émettre par l'automate de surveillance (50), une alarme de dysfonctionnement à chaque incohérence détectée entre les signalements du cœur numérique du calculateur (40) et les définitions de la trame des fenêtres et sous-fenêtres temporelles (MAF, MIF) d'exécution de programmes applicatifs et de tâches, et des allocations de partitions mémoire reçues à l'initialisation, du système d'exploitation du calculateur (40).

2. Procédé selon la revendication 1 , caractérisé en ce que le cœur numérique du calculateur (40) et l'automate de surveillance (50) qui lui est associé sont pourvus d'horloges indépendantes (401 , 501 ).

3. Procédé selon la revendication 2, caractérisé en ce que, à chaque changement de fenêtre temporelle (MAF) d'exécution de programme applicatif, l'automate de surveillance (50) teste la dérive de son horloge par rapport à celle du cœur numérique du calculateur (40), resynchronise son horloge sur celle du calculateur (40) si la dérive reste dans une fenêtre de tolérance arbitraire et émet une alarme de dysfonctionnement dans le cas contraire.

4. Procédé selon la revendication 3, caractérisé en ce que la fenêtre de tolérance arbitraire a une largeur de l'ordre du dixième de la durée d'une fenêtre temporelle (MAF).

5 Procédé selon la revendication 1 , caractérisé en ce qu'il consiste en outre à établir, pour les programmes applicatifs exécutés par le calculateur (40), un système d'abonnement facultatif à des applications programmables de service de surveillance exécutées par l'automate de surveillance (50).

6. Procédé selon la revendication 5, caractérisé en ce que les applications programmables de service de surveillance exécutées par l'automate de surveillance (50) sont paramétrées lors de l'initialisation du système d'exploitation du calculateur associé (40).

7. Procédé selon la revendication 5, caractérisé en ce que les applications programmables de service de surveillance exécutées par l'automate de surveillance (50) opèrent leur surveillance au niveau de ports d'entrée-sortie du calculateur (40).

8. Procédé selon la revendication 5, caractérisé en ce que les applications programmables de service de surveillance exécutées par l'automate de surveillance (50) sont de type rendez-vous manqué.

9. Procédé selon la revendication 5, caractérisé en ce que les applications programmables de service de surveillance exécutées par l'automate de surveillance (50) sont de type chien de garde.

10. Procédé selon la revendication 1 , caractérisé en ce que les alarmes de dysfonctionnement émises sont utilisées pour réinitialiser le programme applicatif à l'origine de l'alarme.

11. Procédé selon la revendication 1 , caractérisé en ce que les alarmes de dysfonctionnement émises sont utilisées pour réinitialiser le système d'exploitation du calculateur (40).

12. Procédé selon la revendication 11 , caractérisé en ce que, dans le cas d'un cœur numérique de calculateur (40) pourvu d'un système d'interruptions non masquables, les alarmes de dysfonctionnement émises par l'automate de surveillance (50) qui lui est associé, sont utilisées pour le réinitialiser, au bout d'un certain délai, par l'intermédiaire d'une interruption non masquable, le délai étant mis à profit pour enregistrer le contexte du dysfonctionnement.

13. Procédé selon la revendication 1 , caractérisé en ce qu'il consiste en outre, lorsque le calculateur (40) est relié à un équipement de maintenance, à exploiter les alarmes de dysfonctionnement émises par l'automate de surveillance (50) qui lui est associé, pour envoyer un compte- rendu de panne à l'équipement de maintenance.

14. Procédé selon la revendication 1 , caractérisé en ce qu'il consiste en outre, lorsque le calculateur fait partie d'un réseau de calculateurs (5, 6, 7) équipés d'automates individuels de surveillance, à exploiter les alarmes de dysfonctionnement émises par les automates individuels de surveillance (50) des différents calculateurs (5, 6, 7) pour envoyer aux autres calculateurs des sémaphores de dysfonctionnement mentionnant le ou les calculateurs concernés.

15. Procédé selon la revendication 14 caractérisé en ce qu'un sémaphore de dysfonctionnement mentionne, en plus du calculateur concerné, le programme applicatif impliqué dans le dysfonctionnement.

16. Procédé selon la revendication 1 , caractérisé en ce qu'il consiste en outre, lorsque les programmes applicatifs sont exécutés en parallèle, de manière redondante, sur plusieurs calculateurs (5, 6, 7) qui sont équipés individuellement d'automates de surveillance (50) et dont un a pris la main, les autres fonctionnant en miroir en arrière plan, à exploiter les alarmes de dysfonctionnement émises par les automates individuels de surveillance (50) des différents calculateurs (5, 6, 7) pour mettre en retrait, pour le programme applicatif concerné par une alarme, le calculateur à l'origine de cette alarme et pour le remplacer, s'il est en charge de ce programme applicatif, par un calculateur fonctionnant auparavant en miroir en arrière plan, qui prend alors la main pour le programme applicatif considéré.

Description:

PROCEDE DE CONTROLE DU BON FONCTIONNEMENT D 1 UN

CALCULATEUR

La présente invention est relative aux calculateurs exécutant en temps partagé, sous le contrôle de leurs systèmes d'exploitation, plusieurs applications distinctes et indépendantes, partitionnées en tâches. Elle concerne notamment, les réseaux de calculateurs embarqués de type IMA tiré de l'expression anglo-saxonne :"lntegrated Modular Avionics" qui sont composés de calculateurs interchangeables, assemblés en réseau, exécutant des programmes applicatifs écrits indépendamment des caractéristiques matérielles des calculateurs et ne résidant pas de façon permanente dans les calculateurs.

Le pilotage d'un aéronef nécessite l'exécution d'un certain nombre d'opérations de commande d'actionneurs et d'affichage déduites de modélisations mathématiques des comportements de l'aéronef et de certains de ses sous-ensembles qui sont mises en œuvre par des calculateurs et qui tiennent compte des valeurs courantes des paramètres de vol et des consignes de l'équipage.

Au début, les calculateurs embarqués à bord d'un aéronef avaient chacun une configuration spécifique adaptée à une modélisation convenant à un type particulier d'opérations : fonctions de pilotage, fonctions de gestion du vol, fonctions de gestions des alarmes, etc.. Cette architecture s'est rapidement révélée pénalisante pour la maintenance car elle nécessite la gestion d'un parc important de calculateurs de rechange spécialisés et non interchangeables entre eux.

Pour faciliter la maintenance, on cherche à regrouper les calculateurs embarqués au sein d'une même armoire technique, à adopter une même architecture pour la majorité d'entre eux et à ne les spécialiser qu'au niveau de leurs entrées-sorties rendues interchangeables et de leur programmation, c'est-à-dire des calculs où applications qu'ils exécutent. Cela conduit à la notion de réseau de calculateurs IMA. Les erreurs d'exécution d'une tâche au sein d'une application et leurs propagations aux autres applications exécutées concurremment pouvant avoir des conséquences particulièrement néfastes dans le cadre du pilotage d'un aéronef, des mesures d'insensibilisation à leur encontre doivent

être prises dans le cadre d'un réseau de calculateurs IMA. Ces mesures d'insensibilisation consistent à pourvoir les différentes applications de tâches de surveillance de bonne exécution et à faire tourner une même application sur plusieurs calculateurs identiques fonctionnant de façon indépendante, l'un d'entre eux ayant la main et le ou les autres calculateurs faisant tourner en miroir la même application prenant la main en cas de détection d'une mauvaise exécution de l'application par le calculateur en prise.

La tâche de surveillance de bonne exécution d'une application consiste habituellement à poser périodiquement des questions à réponses convenues à l'application surveillée et à vérifier l'exactitude des réponses fournies.

Cette méthode à l'inconvénient d'aller à rencontre de la portabilité des applications car elle demande de tenir compte, à la conception d'une application, de l'architecture du calculateur devant l'exécuter. En effet la recherche des réponses convenues aux questions posées par la tâche de surveillance doit faire participer le plus d'éléments possibles du calculateur pour que la surveillance soit efficace.

La présente invention a pour but une surveillance du bon fonctionnement d'un calculateur au niveau de son système d'exploitation, afin de sauvegarder la portabilité des applications qu'il exécute.

Elle a pour objet un procédé de contrôle du bon fonctionnement d'un calculateur comportant un cœur numérique exécutant en temps partagé plusieurs programmes applicatifs distincts et indépendants partitionnés en tâches sous le contrôle d'un système d'exploitation allouant des partitions mémoire, des fenêtres temporelles d'exécution de programmes applicatifs et des sous-fenêtres temporelles d'exécution de tâches organisées en trames. Ce procédé est remarquable en ce qu'il consiste à : - associer au calculateur un automate câblé de surveillance à fonctionnement indépendant du cœur numérique du calculateur,

- lors de l'initialisation du système d'exploitation du calculateur, faire transmettre par le cœur numérique du calculateur à l'automate de surveillance, une définition des trames des

fenêtres et sous-fenêtres temporelles et des allocations de partitions mémoire,

- faire signaler par le cœur numérique du calculateur à l'automate de surveillance, chaque changement de fenêtre temporelle, - faire communiquer par le cœur numérique du calculateur à l'automate de surveillance, à chaque changement d'allocation de partitions mémoire, l'identité de la partition mémoire quittée, les heures de début et de fin d'allocation de la partition mémoire quittée et le numéro d'ordre, au sein d'une fenêtre temporelle, de la sous-fenêtre temporelle d'occurrence de l'allocation de la partition mémoire quittée,

- à partir des signalements de changement d'allocation de partitions mémoire délivrés par le cœur numérique du calculateur, faire surveiller par l'automate de surveillance, le respect par le calculateur, de la trame des fenêtres temporelles d'exécution de programmes applicatifs et des sous-fenêtres temporelles d'exécution de tâches, et des allocations de partitions mémoire qu'il a fourni à l'initialisation de son système d'exploitation, et - faire émettre par l'automate de surveillance, une alarme de dysfonctionnement à chaque incohérence détectée entre les signalements du cœur numérique du calculateur et les définitions de la trame des fenêtres et sous-fenêtres d'exécution de programmes applicatifs et de tâches, et des allocations de partitions mémoire reçues à l'initialisation du système d'exploitation du calculateur.

Avantageusement, le cœur numérique du calculateur et l'automate de surveillance qui lui est associé sont pourvus d'horloges indépendantes.

Avantageusement, à chaque changement de fenêtre temporelle d'exécution de programme applicatif, l'automate de surveillance teste la dérive de son horloge par rapport à celle du cœur numérique du calculateur, resynchronise son horloge sur celle du calculateur(40) si la dérive reste dans une fenêtre de tolérance arbitraire et émet une alarme de dysfonctionnement dans le cas contraire.

Avantageusement, la fenêtre de tolérance arbitraire utilisée pour un test de dérive d'horloge a une largeur de l'ordre du dixième de la durée d'une fenêtre temporelle.

Avantageusement, il est prévu d'établir, pour les programmes applicatifs exécutés par le calculateur, un système d'abonnement facultatif à des applications programmables de service de surveillance exécutées par l'automate de surveillance.

Avantageusement, les applications programmables de service de surveillance exécutées par l'automate de surveillance sont paramétrées lors de l'initialisation du système d'exploitation du calculateur.

Avantageusement, les applications programmables de service de surveillance exécutées par un automate de surveillance opèrent leur surveillance au niveau de ports d'entrée-sortie du calculateur.

Avantageusement, les applications programmables de service de surveillance exécutées par l'automate de surveillance sont de type rendez- vous manqué.

Avantageusement, les applications programmables de service de surveillance exécutées par l'automate de surveillance sont de type chien de garde. Avantageusement, les alarmes de dysfonctionnement émises sont utilisées pour réinitialiser le programme applicatif à l'origine de l'alarme.

Avantageusement, les alarmes de dysfonctionnement émises sont utilisées pour réinitialiser le système d'exploitation du calculateur.

Avantageusement, lorsque le cœur numérique du calculateur est pourvu d'un système d'interruptions non masquables, les alarmes de dysfonctionnement émises par l'automate de surveillance qui lui est associé, sont utilisées pour le réinitialiser, au bout d'un certain délai, par l'intermédiaire d'une interruption non masquable, le délai étant mis à profit pour enregistrer le contexte du dysfonctionnement. Avantageusement, lorsque le calculateur est relié à un équipement de maintenance, les alarmes de dysfonctionnement émises par l'automate surveillance sont utilisées pour envoyer un compte-rendu de panne à l'équipement de maintenance.

Avantageusement, lorsque le calculateur fait partie d'un réseau de calculateurs équipés d'automates individuels de surveillance, les alarmes de

dysfonctionnement émises par les automates individuels de surveillance des différents calculateurs sont utilisées pour envoyer aux autres calculateurs des sémaphores de dysfonctionnement mentionnant le ou les calculateurs concernés. Avantageusement, un sémaphore de dysfonctionnement mentionne, en plus du calculateur concerné, le programme applicatif impliqué dans le dysfonctionnement.

Avantageusement, lorsque les programmes applicatifs sont exécutés en parallèle, de manière redondante, sur plusieurs calculateurs qui sont équipés individuellement d'automates de surveillance et dont un a pris la main, les autres fonctionnant en miroir en arrière plan, les alarmes de dysfonctionnement émises par les automates individuels de surveillance des différents calculateurs sont exploitées pour mettre en retrait, pour le programme applicatif concerné par une alarme, le calculateur à l'origine de cette alarme et pour le remplacer, s'il est en charge de ce programme applicatif, par un calculateur fonctionnant auparavant en miroir en arrière plan, qui prend alors la main pour le programme applicatif considéré.

D'autres caractéristiques et avantages de l'invention ressortiront de la description ci-après d'un mode de réalisation donné à titre d'exemple. Cette description sera faite en regard du dessin dans lequel :

- une figure 1 est un schéma illustrant, de manière schématique, l'architecture d'un réseau de calculateurs IMA,

- une figure 2 illustre, de manière schématique, la structure en couche des logiciels régissant la marche d'une carte de calculateur ou module IMA,

- une figure 3 est un diagramme de temps montrant un exemple de trame d'allocation de partitions mémoire d'une carte de calculateur ou module IMA, et - une figure 4 est un schéma d'une architecture de carte de calculateur mettant en œuvre le procédé selon l'invention.

Comme montré à la figure 1 , un réseau de calculateurs 1 de type

IMA regroupe dans un ou plusieurs racks 2, 3, 4 des cartes de calculateur ou modules 5, 6, 7... à base de composants microprocesseurs, mémoire vive,

mémoire morte, reliées par un réseau de communication commun, d'une part, à des entrées de signaux provenant de capteurs 8, (capteurs de pression normale et dynamique, capteurs inertiels, etc.) permettant de déterminer l'attitude de l'aéronef, les paramètres du mouvement de l'aéronef et sa localisation (radar, récepteurs de positionnement par satellites, etc..) ou de boutons de commande 9 du cockpit actionnés par l'équipage de l'aéronef et, d'autre part, à des sorties de signaux en direction d'actionneurs 10 ou d'afficheurs 11 du cockpit.

Les cartes de calculateurs ou modules sont des cartes standards d'un nombre limité de types fonction de leurs spécialisations : traitement de signaux analogiques, traitement de signaux numériques, traitements de signaux graphiques, etc.. Elles constituent des machines physiques associées à des machines virtuelles qui sont des ensembles cohérents de logiciels permettant de les utiliser. Comme montré à la figure 2, une approche logicielle à plusieurs couches permet, dans un réseau de calculateurs IMA, de rendre la technologie transparente aux programmes applicatifs.

Les programmes applicatifs, qui constituent une première couche logicielle 20, sont mis en forme pour une assimilation par une deuxième couche logicielle 21 constituée par un système d'exploitation réseau par l'intermédiaire d'une première interface logicielle APINOS 200 ("Application Network Operating System" en anglo-saxon) assurant une suite de services nécessaires aux fonctionnalités du système d'exploitation réseau. Après leur assimilation par la deuxième couche logicielle 21 du système d'exploitation réseau, les programmes applicatifs sont une nouvelle fois mis en forme pour leur assimilation par une troisième couche logicielle 22 constituée par un système d'exploitation calculateur par l'intermédiaire d'une deuxième interface logicielle APICOS 210 ("Application Calculator Operating System" en anglo-saxon) assurant une suite de services nécessaires aux fonctionnalités du système d'exploitation calculateur.

La deuxième couche logicielle 21 du système d'exploitation réseau assurent la répartition des tâches entre les cartes de calculateur 5, 6, 7 du réseau et évite aux programmes applicatifs d'avoir à résider de manière permanente dans les mémoires des cartes de calculateur ou modules 5, 6, 7. A l'initialisation, elle répartit les exécutions des programmes applicatifs entre

les différentes cartes de calculateur selon une planification prévue à l'avance et mémorisée, par exemple, dans une mémoire de masse puis veille au respect de la planification adoptée. Toutefois Cette couche peut se limiter dans des architectures simplifiées à gérer que les tâches sur un seul calculateur.

La troisième couche logicielle 22 d'un système d'exploitation calculateur interprète les programmes applicatifs 1 en fonction des particularités de la machine physique correspondant à la carte de calculateur concernée. Plus généralement, ces couches logicielles permettent de gérer les ressources de la machine physique d'une carte de calculateur ou module en assurant le partage des ressources de la carte de calculateur ou module entre un ensemble plus ou moins grand d'utilisateurs constitués de programmes applicatifs. Il est constitué en général par un noyau assurant les fonctionnalités suivantes :

- gestion des tâches,

- gestion des fichiers,

- gestion des ports d'entrée/sortie,

- gestion de mémoire, - gestion des tâches, interruptions, sémaphores, etc. et par un ensemble d'outils système.

Grâce aux trois couches logicielles 20, 21 , 22, les programmes applicatifs peuvent être écrits dans des langages de programmation faisant abstraction des particularités de l'architecture du réseau et des cartes de calculateur qu'il contient. Une première compilation par l'interface logicielle 200 les adapte au système d'exploitation du réseau qui est fonction de l'architecture du réseau et une deuxième compilation par l'interface logicielle 210 les adapte aux systèmes d'exploitation calculateur des cartes de calculateur ou modules auxquelles leur exécution a été assignée. Au cours d'une phase d'initialisation, le système d'exploitation réseau définit, au niveau réseau, la répartition des exécutions des programmes applicatifs entre les différentes cartes de calculateur et, au niveau de chaque carte de calculateur, les ordonnancements temporels des tâches des programmes applicatifs et allocations de partitions mémoire.

Les systèmes d'exploitation réseau et calculateur permettent le multitâche et le multi utilisateur au niveau d'une carte de calculateur ou module du réseau IMA. Au niveau d'une carte de calculateur ou module, Ils comportent un gestionnaire de tâches ou allocateur qui, à l'initialisation du réseau, planifie un ordonnancement temporel des tâches et des allocations de partitions mémoire de la carte de calculateur considérée, et qui, au cours du fonctionnement, assure le respect par la carte de calculateur considérée, de l'ordonnancement temporel et des allocations de partitions mémoire qui ont été planifiés. La figure 3 donne un exemple d'ordonnancement temporel et d'allocation de partitions mémoire fournis à une carte de calculateur. L'ordonnancement temporel respecte une trame 30 constituée d'une succession de plusieurs fenêtres temporelles MAF 31 subdivisées en une succession de sous-fenêtres temporelles MIF 32 elles-mêmes subdivisées en unités de partition temporelle UPT 33. Les fenêtres temporelles MAF 31 sont de même durée, de même que les sous-fenêtres temporelles MIF 32 tandis que les partitions temporelles UPT peuvent avoir des durées temporelles différentes.

Les fenêtres temporelles MAF 31 sont allouées à des programmes applicatifs exécutés en temps partagé, leurs sous-fenêtres temporelles MIF 32 à des tâches appelées par les programmes applicatifs allocataires de la fenêtre temporelle MAF 31 d'appartenance et les unité de partition temporelle UPT 33 à des processus appelés par les tâches allocataires de la sous-fenêtre temporelle MIF 32 d'appartenance. Dans l'exemple représenté, chaque fenêtre temporelle MAF 31 renferme une sous-trame de quatre sous-fenêtres MIF 32 de même durée, donnant la possibilité d'exécuter en temps partagé, quatre tâches distinctes et chaque sous-fenêtre MIF 32 une succession de huit unités de partition temporelle UPT 33 de même durée donnant la possibilité d'exécuter en temps partagé, huit processus distincts. Le tableau d'allocation de partitions mémoire 4 rassemble trois partitions : la partition a représentée en grisé sombre, la partition b représentée en grisé clair et la partition c représentée en texture à chevrons, que se partagent les processus.

On cherche à sécuriser par redondance, les exécutions des programmes applicatifs intéressant des fonctions vitales d'un aéronef. Cette

sécurisation consiste à faire exécuter un même programme applicatif en parallèle sur plusieurs cartes de calculateurs, en général deux de configurations différentes, une seule ayant la main sur les sorties, la ou les autres fonctionnant en miroir et à surveiller la bonne exécution du programme applicatif au niveau des cartes de calculateur, la détection d'une anomalie d'exécution entraînant la mise à l'écart de la carte de calculateur concernée qui, si elle à la main sur les sorties du réseau, la laisse au profit de l'une des cartes de calculateur fonctionnant en miroir.

D'une façon générale, la portabilité des programmes applicatifs dans une structure de réseaux de calculateurs de type IMA, interdit une surveillance directe l'exécution d'un programme applicatif par une carte de calculateur. Pour tourner cet interdit, on peut avoir recours, au niveau de chaque carte de calculateur, à l'exécution d'un deuxième programme applicatif de monitoring qui échange régulièrement des données avec le programme applicatif dont l'exécution est surveillée et, soit analyse la validité des données retournées, soit les transmet pour analyse à une autre carte de calculateur exécutant un programme de validation. Un tel recours a l'inconvénient de mobiliser de la puissance de calcul d'une carte de calculateur au détriment du nombre des exécutions des programmes applicatifs.

On propose ici de réaliser une surveillance d'un réseau de calculateurs garantissant la portabilité des programmes applicatifs exécutés, tel qu'un réseau de calculateurs IMA, sans faire appel à des programmes de monitoring consommant du temps de calcul d'une carte de calculateur exécutant des programmes applicatifs.

Le principe est le suivant : A chaque cœur numérique d'une carte de calculateur est associé individuellement un automate de surveillance câblé, à fonctionnement indépendant, de type chien de garde (watchdog en anglo-saxon). Cet automate de surveillance peut être localisé dans la carte de calculateur. Il est le plus indépendant possible du cœur numérique de la carte de calculateur qui supporte les programmes applicatifs afin d'avoir le minimum de possibilité de panne commune, ce minimum se réduisant par exemple aux seules pannes d'alimentation.

Durant la phase d'initialisation et avant le démarrage de l'ordonnancement temporel des programmes applicatifs, le système

d'exploitation réseau d'une carte de calculateur transmet, à l'automate de surveillance associé individuellement au cœur numérique de la carte de calculateur concernée, les données suivantes : le cadencement des sous-fenêtres temporelles MIF ou horloge temps réel (instants de changement de sous-fenêtre temporelle MIF), le cadencement des fenêtres temporelles MAF qui est un sous-multiple en fréquence de l'horloge temps réel (instants de changement de fenêtre temporelle MAF),

- pour chacun des découpages temporels correspondant à une allocation de partitions mémoire, l'identité de la partition, le point de démarrage temporel de l'allocation de partitions mémoire par rapport au début de sa fenêtre temporelle MAF d'occurrence, le point de fin temporel de l'allocation de partitions mémoire par rapport au début de sa fenêtre temporelle MAF d'occurrence, et la position relative de sa sous-fenêtre d'occurrence MIF par rapport aux autres sous-fenêtres temporelles MIF appartenant à la même fenêtre temporelle MAF.

Ces données permettent à un automate de surveillance d'avoir, dès la fin de la séquence d'initialisation, une connaissance complète de la séquence d'allocation des ressources de sa carte de calculateur, qu'il copie dans une mémoire indépendante gérée par lui seul.

Dès le démarrage du gestionnaire de tâches des systèmes d'exploitation réseau et calculateur, le cœur numérique du calculateur d'une carte ou module signale à son automate de surveillance, au moyen d'un code spécial, chaque début de fenêtre temporelle MAF consacrée à l'exécution d'un programme applicatif. En outre, il lui transmet, à chaque changement d'allocation de partitions mémoire, les données relatives à la dernière allocation de partitions mémoire exécutée, à savoir : son identité, ses heures effectives de début et de fin, et le numéro d'ordre, au sein d'une fenêtre temporelle MAF de la sous-fenêtre temporelle MIF d'occurrence de l'allocation de la partition mémoire quittée.

L'automate de surveillance utilise ces données et la séquence d'allocation des ressources stockée dans sa mémoire privative pour contrôler, par rapport à une horloge locale qui lui est propre et indépendante de celle du système d'exploitation calculateur, l'exécution de la séquence d'allocation temporelle par le système d'exploitation calculateur de sa carte

de calculateur ou module. Outre le contrôle de la bonne exécution de la séquence d'allocation, l'automate de surveillance vérifie la cohérence de date dynamique en comparant chaque date de fin de sous-fenêtre MIF déclarée par le système d'exploitation calculateur avec la date de réception lue sur son horloge locale (ceci avec une tolérance autorisée et préprogrammée). Si un rendez-vous est manqué ou erroné, L'exécution du programme applicatif associé à la fenêtre temporelle MAF en cours est considérée comme défaillante et une sanction est prise par l'automate de surveillance. La sanction prise dépend de la criticité de la carte de calculateur ou module concerné. Elle peut être :

- une remise à zéro instantanée (reset) de la carte de calculateur, une émission d'une interruption non masquable (Non maskable interrupt) aboutissant à une remise à zéro de la carte de calculateur au bout d'un certain délai, ce qui permet au système d'exploitation du calculateur d'enregistrer, lorsqu'il en est capable, le contexte de l'erreur avant de subir une remise à zéro.

- une signalisation de la carte de calculateur à problème aux autres cartes de calculateur du réseau au moyen d'un sémaphore de dysfonctionnement prenant une valeur booléenne attribuée à un défaut. Comme les horloges du système d'exploitation calculateur et de l'automate de surveillance d'une carte de calculateur sont indépendantes, une dérive peut apparaître entre les deux avec le temps et justifier une resynchronisation. Pour cette resynchronisation, l'automate de surveillance se base sur l'occurrence d'un message de changement de fenêtre temporelle MAF envoyé par le système d'exploitation calculateur de la carte. Il vérifie que ce message arrive dans une fenêtre temporelle de largeur prédéterminée, par exemple, +/- 10% de celle d'une fenêtre temporelle MAF, centrée sur sa position attendue par rapport à sa propre horloge. Si c'est le cas, l'automate resynchronise son horloge sur le message de changement de fenêtre temporelle MAF reçu du système d'exploitation calculateur de sa carte. Si ce n'est pas le cas, une sanction est prise par l'automate de surveillance en fonction de la criticité de sa carte de calculateur (remise à zéro de la carte, émission d'une interruption non-masquable entraînant une remise à zéro au bout d'un certain délai, signalisation de défaut, etc.).

On peut parfaire cette surveillance de la bonne exécution de programmes applicatifs par les cartes de calculateur ou modules d'un réseau IMA en ajoutant à la deuxième interface logiciel APICOS 210 une ou des applications de service spécialisées dans la surveillance du bon fonctionnement, auxquelles les programmes applicatifs peuvent s'abonner et dont l'exécution est confiée à l'automate de surveillance du cœur numérique de chaque carte de calculateur. Une application de service de surveillance peut être une application de type rendez-vous manqué (time-out en anglo- saxon), tout programme applicatif abonné devant périodiquement produire un événement particulier dont l'avènement en temps opportun est constaté par l'automate de surveillance ou une application de type chien de garde, tout programme applicatif devant répondre de la manière convenue à des questions posées périodiquement par l'automate de surveillance.

Les paramètres de configuration des modes d'action et des sanctions infligées par ces applications de service de surveillance de l'interface logiciel APICOS sont mis dans une table de configuration de la carte de calculateur comportant l'automate de surveillance susceptible de les exécuter.

Un programme applicatif s'abonne à une application de service de surveillance en présentant, au cours de la phase d'initialisation du réseau, une demande d'abonnement sur un port de communication du ou des automates de surveillance de la ou des cartes de calculateur chargées de son exécution. Une fois la demande faite, elle n'est plus révocable. Le ou les automates de surveillance exécutent en arrière plan l'application de service de surveillance concernée et appliquent, en cas de faute détectée, la sanction prévue dans les paramètres de configuration. La sanction prise par un automate de surveillance en exécution d'une application de service de surveillance dépend de la criticité du programme applicatif surveillé vis à vis du fonctionnement de la carte de calculateur associée à l'automate de surveillance

Lorsque le programme applicatif surveillé est considéré comme critique vis à vis du fonctionnement du module, la sanction prise par un automate de surveillance à la suite d'une absence de réponse convenable à une application de service de surveillance peut être comme précédemment :

- une remise à zéro instantanée (reset) de la carte de calculateur associée à l'automate de surveillance,

- une émission d'une interruption non masquable (Non maskable interrupt) aboutissant à une remise à zéro de la carte de calculateur associée à l'automate de surveillance au bout d'un certain délai, ce qui permet au système d'exploitation du calculateur d'enregistrer, lorsqu'il en est capable, le contexte de l'erreur avant de subir une remise à zéro, une signalisation de la carte de calculateur à problème aux autres cartes de calculateur du réseau au moyen d'un sémaphore de dysfonctionnement identifiant non seulement la carte de calculateur en défaut mais également le programme applicatif dont l'exploitation est à l'origine du dysfonctionnement.

Lorsque le programme applicatif surveillé doit subir une sanction mais que son défaut d'exécution n'affecte pas le reste du fonctionnement de la carte de calculateur associée à l'automate de surveillance, la sanction peut être traitée par les systèmes d'exploitation réseau et calculateur de cette carte. Elle peut consister en une réinitialisation ou un arrêt définitif de l'exécution du programme applicatif concerné avec retrait simultané de son abonnement aux applications de service de surveillance. Cet abonnement sera repris par le programme applicatif lui-même quand son exécution redémarrera.

Le retrait d'un abonnement d'un programme applicatif à une application de service de surveillance de bonne exécution peut également subvenir à l'initiative des systèmes d'exploitation réseau et calculateur d'une carte de calculateur lorsque ceux-ci provoquent la réinitialisation d'un programme applicatif après avoir détecté par eux-mêmes une faute d'exécution ou avoir reçus un ordre d'arrêt de l'exécution d'un programme applicatif.

La figure 4 donne un exemple de carte de calculateur ou module d'un réseau IMA équipée d'un automate individuel câblé de surveillance du bon fonctionnement. On y distingue la partie habituelle de calculateur 40 avec un processeur 400 associé à une horloge 401 , des mémoires de travail

RAM et de programmation ROM 402, des ports d'entrée-sortie PIO 403 donnant accès à la partie calculateur de la carte aux bus 41 de communication du réseau de calculateurs, et une interface analogique 404

permettant à la partie calculateur de la carte de traiter des informations analogiques provenant de capteurs et de donner des consignes analogiques à des actionneurs raccordés au réseau de calculateurs par des liaisons du bus de communication 41. Bien entendu, la partie calculateur d'une carte peut comporter plusieurs processeurs de nature différentes dialoguant entre eux ou encore des circuits logiques spécialisés tels que des minuteries.

La partie calculateur proprement dite 40 d'une carte de calculateur ou module de réseau IMA est complétée par un automate individuel câblé 50 de surveillance de son bon fonctionnement. Cet automate 50, est comme la partie calculateur 40, à base d'un processeur 500 associé à une horloge 501 , à des mémoires de travail RAM et de programmation ROM 502 et à des ports d'entrée-sortie PIO 503 mais il a une capacité de calcul beaucoup plus réduite et se limite à la surveillance des signaux logiques apparaissant sur les ports d'entrée-sortie PIO 403 de la partie calculateur. Toutefois le processeur 500 peut être remplacé par un automate de type câblé réalisé dans un ASIC ou un composant programmable. Il est relié au bus de communication du réseau pour la signalisation d'un défaut d'exécution d'un programme applicatif par la partie calculateur de la carte. Pour assurer la surveillance du bon fonctionnement, il scrute les ports d'entrée-sortie PIO 403 de la partie calculateur de la carte où il est monté, soit directement, soit par l'intermédiaire du bus de communication 41 du réseau de calculateur IMA.

Lorsque le réseau de calculateurs IMA comporte un dispositif de maintenance, les alarmes de dysfonctionnement des automates de surveillance des différentes cartes de calculateur lui sont communiquées pour la confection d'un compte-rendu de panne.