Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD OF IDENTIFICATION OF A RELATIONSHIP BETWEEN BIOLOGICAL ELEMENTS
Document Type and Number:
WIPO Patent Application WO/2015/180972
Kind Code:
A1
Abstract:
The present invention relates to a method for identification of a relationship between biological elements, said elements potentially having a measurable activity, the method comprising the following steps: - defining candidate graphs, each candidate graph being a graph associated with one of the threshold values of the plurality of threshold values, - for each threshold value, obtaining an associated distribution by optimization of the distribution into classes of peaks of the associated graph at the considered threshold value, the optimization starting from an initial distribution in which each core is associated with a class for obtaining a final distribution in which each peak of a class shares more links with the other peaks of the same class than with the peaks of another class, - selecting an optimal graph from among the plurality of candidate graphs according to at least one criterion.

Inventors:
BRUNET ANNE-CLAIRE (FR)
LOUBES JEAN-MICHEL (FR)
AZAIS JEAN-MARC (FR)
COURTNEY MICHAEL (FR)
Application Number:
PCT/EP2015/060779
Publication Date:
December 03, 2015
Filing Date:
May 15, 2015
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
VAIOMER (FR)
UNIV TOULOUSE 3 PAUL SABATIER (FR)
CENTRE NAT RECH SCIENT (FR)
International Classes:
G16B5/00
Foreign References:
US20030219764A12003-11-27
US20130151452A12013-06-13
US20030023388A12003-01-30
Other References:
See also references of EP 3149638A1
Attorney, Agent or Firm:
BLOT, Philippe et al. (FR)
Download PDF:
Claims:
REVENDICATIONS

1 . - Procédé d'identification d'une relation entre des éléments biologiques, lesdits éléments biologiques présentant éventuellement une activité mesurable, le procédé étant mis en œuvre par ordinateur et comprenant les étapes suivantes :

- fournir des données à partir d'échantillons biologiques d'une pluralité d'individus biologiques, les données comprenant une grandeur représentative des éléments biologiques ou de leur activité pour la pluralité d'individus biologiques,

- estimer la matrice de covariance entre les différentes grandeurs représentatives des éléments biologiques ou de leur activité à partir des données fournies,

- associer un graphe à une valeur de seuillage, le graphe associé comprenant des sommets représentatifs des éléments biologiques et des liens entre les sommets lorsque la valeur de la covariance entre les sommets considérés est supérieure à la valeur de seuillage considérée,

- obtenir des cœurs par analyse de l'évolution des graphes par utilisation d'une pluralité de valeurs de seuillage, un cœur étant un ensemble de sommets d'un graphe tel que le nombre de sommets est supérieur ou égal à un nombre fixé, tel qu'il existe une valeur de seuillage pour laquelle le cœur est une composante connexe du graphe associé à la valeur de seuillage et tel qu'il n'existe pas d'autres composantes connexes d'un graphe dont le nombre de sommets est supérieur ou égal au nombre fixé et qui soit incluse dans le cœur,

- définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage,

- pour chaque valeur de seuillage de la pluralité de valeurs de seuillage, obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque cœur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe,

- sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.

2. - Procédé selon la revendication 1 , dans lequel à l'étape d'obtenir des cœurs, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière croissante.

3.- Procédé selon la revendication 1 ou 2, dans lequel à l'étape d'obtenir une répartition associée, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière décroissante. 4.- Procédé selon l'une quelconque des revendications 1 à 3, dans lequel l'étape d'estimer la matrice de covariance comporte une sous-étape de calcul de la matrice de covariance empirique, une sous-étape de régularisation et une sous-étape de normalisation. 5.- Procédé selon l'une quelconque des revendications 1 à 4, dans lequel l'étape d'obtenir des cœurs met en œuvre un algorithme de parcours en profondeur.

6. - Procédé selon l'une quelconque des revendications 1 à 5, dans lequel la répartition finale comporte moins de classes que le nombre de cœurs obtenus.

7. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 6, dans lequel le nombre d'éléments biologiques est supérieur ou égal à 1000, de manière préférentielle supérieur ou égal à 3000, de manière encore plus préférentielle supérieur ou égal à 5000.

8. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 7, dans lequel le rapport entre le nombre d'éléments biologiques et le nombre d'individus biologiques est supérieur ou égal à 10, de manière préférentielle supérieur ou égal à 30, de manière encore plus préférentielle supérieur ou égal à 50.

9. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 8, dans lequel les éléments biologiques sont des gènes, des ARN, des protéines ou des métabolites.

10. - Procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 9, dans lequel les individus biologiques sont des animaux, de manière préférentielle des mammifères, de manière encore plus préférentielle des humains. 1 1 .- Procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant les étapes suivantes : - mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative,

- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative,

- comparer la première répartition et la deuxième répartition, et

- sélectionner comme cible thérapeutique le gène, ou un produit de l'expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.

12.- Procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie, le procédé comprenant les étapes suivantes :

- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative,

- mettre en œuvre le procédé selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative,

- comparer la première répartition et la deuxième répartition, et - sélectionner comme biomarqueur le gène, ou une expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement. 13.- Procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant les étapes suivantes :

- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et ayant reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative,

- mettre en œuvre le procédé d'identification d'une relation selon l'une quelconque des revendications 1 à 10, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative,

- comparer la première répartition et la deuxième répartition, et

- sélectionner le composé si les sommets représentatifs de la cible thérapeutique connue appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.

14.- Produit programme d'ordinateur comportant un support lisible d'informations, sur lequel est mémorisé un programme d'ordinateur comprenant des instructions de programme, le programme d'ordinateur étant chargeable sur une unité de traitement de données et adapté pour entraîner la mise en œuvre d'un procédé selon l'une quelconque des revendications 1 à 13 lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données.

Description:
PROCEDE D'IDENTIFICATION D'UNE RELATION ENTRE DES ELEMENTS BIOLOGIQUES

La présente invention concerne un procédé d'identification d'une relation entre des éléments physiques. L'invention se rapporte également à un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie. L'invention concerne aussi un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. L'invention propose également un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. L'invention concerne aussi les produits programme d'ordinateur associés.

L'apparition du séquençage des protéines dans les années 1950 puis de l'ADN dans les années 1970, et la mise au point de séquenceurs automatiques, a révolutionné la biologie. A l'approche classique descriptive et réductionniste (un gène, un ARN messager, une protéine) a succédé une compréhension plus globale des systèmes biologiques basée sur l'analyse d'ensembles d'éléments biologiques (« -ornes ») dont on étudie les structures (« -omiques »). L'idée de base associée aux approches « omiques » consiste à appréhender la complexité du vivant dans son ensemble, au moyen de méthodologies les moins restrictives possibles sur le plan descriptif.

De telles approches comprennent principalement : la génomique (étude des gènes), la transcriptomique (analyse de l'expression des gènes et sa régulation), la protéomique (étude des protéines), la métabolomique (analyse des métabolites).

La génomique se divise en deux branches : la génomique structurale, qui porte sur le séquençage du génome entier, et la génomique fonctionnelle, qui vise à déterminer la fonction et l'expression des gènes séquencés. Dans la génomique fonctionnelle, les techniques sont appliquées à un grand nombre de gènes en parallèle : par exemple le phénotype de mutants peut ainsi être analysé pour toute une famille de gènes, ou l'expression de tous les gènes d'un organisme entier.

La transcriptomique est l'étude de l'ensemble des ARN messagers produits lors du processus de transcription d'un génome. Elle repose sur la quantification de l'ensemble de ces ARN messagers, ce qui permet d'avoir une indication relative du taux de transcription de différents gènes dans des conditions données.

La protéomique est l'analyse de l'ensemble des protéines d'un organite, d'une cellule, d'un tissu, d'un organe ou d'un organisme dans des conditions données. La protéomique s'attache à identifier de manière globale les protéines extraites d'une culture cellulaire, d'un tissu ou d'un fluide biologique, leur localisation dans les compartiments cellulaires, leurs éventuelles modifications post-traductionnelles, ainsi que leur quantité. Elle permet de quantifier les variations de leur taux d'expression par exemple en fonction du temps, de leur environnement, de leur état de développement, de leur état physiologique et pathologique, de l'espèce d'origine... Elle étudie aussi les interactions que les protéines ont avec d'autres protéines, avec l'ADN ou l'ARN, ou d'autres substances.

La métabolomique étudie l'ensemble des métabolites (sucres, acides aminés, acides gras, etc.) présents dans une cellule, un organe, un organisme.

Les approches précédentes permettent d'obtenir de très nombreuses informations sur la réponse cellulaire et/ou tissulaire à une exposition in vitro ou in vivo. Elles peuvent en particulier être utiles pour mettre en évidence et identifier de nouveaux biomarqueurs (de diagnostic, de susceptibilité, de pronostic, d'exposition, d'effet), générer de nouvelles connaissances sur le plan mécanistique (modes d'action), ou encore élaborer de nouveaux outils d'efficacité ou de toxicologie prédictive pour aider à l'identification de nouvelles cibles thérapeutiques ou de nouveaux médicaments candidats.

L'automatisation des techniques de séquençage et le développement des techniques à haut débit, rendus possible notamment grâce à l'apparition de plateformes technologiques spécialisées, a permis l'industrialisation de la production des données et l'analyse simultanée d'un grand nombre de variables.

II en découle un très grand nombre de données à traiter, analyser, visualiser et interpréter de la manière la plus informative possible afin d'en extraire le maximum d'information sur le processus biologique ou sur le système biologique étudié.

Il est donc souhaitable de disposer de moyens biostatistiques et bioinformatiques puissants permettant de traiter, analyser et interpréter la masse de données générées par les approches « omiques ».

Du point de vue biostatistique, les données obtenues par les approches « omiques » portent sur de très nombreuses variables qu'il convient d'analyser conjointement. Par exemple, les analyses transcriptomiques permettent d'étudier simultanément l'expression de plusieurs milliers de gènes. En revanche, le nombre d'individus sur lesquelles ces analyses sont réalisées est limité du fait de la difficulté à constituer des cohortes de patients, de sorte que le nombre de variables excède généralement la taille de l'échantillon. Les méthodes classiques en statistique ne peuvent plus être utilisées. L'analyse des données obtenues revient alors à considérer deux problématiques distinctes de la recherche en statistique, à savoir le calcul de la matrice de covariance et la classification non supervisée des sommets d'un graphe aussi appelée partitionnement du graphe. Concernant la première problématique, dans le contexte de la grande dimension, quand le nombre de variables excède la taille de l'échantillon, il existe deux grandes familles de méthodes pour faire une estimation pénalisée de la matrice de covariance. La première famille regroupe des méthodes qui tirent parti d'un ordre naturel dans les données en faisant l'hypothèse que plus les variables sont éloignées suivant cet ordre et plus leur dépendance est faible. La deuxième famille de méthodes regroupe des méthodes d'estimation de la covariance insensible à l'ordre de présentation des données. C'est le cas des méthodes qui consistent à ajouter une pénalité 11 au problème de maximisation de la vraisemblance dans le cas gaussien ou des méthodes de seuillage sur la matrice de covariance empirique.

Toutefois, les deux familles de méthodes sont inefficaces lorsque l'échantillon est de trop petite taille. En effet, les deux familles de méthodes impliquent de fixer un paramètre de régularisation de façon à obtenir un estimateur optimal. Or, il n'existe pas de manière analytique de fixation du paramètre de régularisation. De plus, les méthodes précédentes s'avèrent coûteuse en temps de calcul quand le nombre de variables est très grand.

La deuxième problématique relative au partitionnement se pose après la première problématique du calcul de la matrice de covariance. De fait, la covariance calculée peut être représentée par un graphe et la construction du graphe ne présente pas de difficulté particulière. Deux sommets (variables) sont connectés sur le graphe si leur covariance est non nulle. La deuxième problématique est celle de l'identification des groupes de sommets connectés sur le graphe (partitionnement de graphe). Pour cela, de nombreuses approches sont envisageables. A titre d'exemple, les méthodes spectrales reposent sur la définition d'une mesure de similarité sur l'espace des sommets du graphe à partir des vecteurs propres du Laplacien du graphe qui est utilisée pour partitionner le graphe avec un algorithme de type k-moyenne (souvent désigné sous sa dénomination anglaise de « k-means ») par exemple.

Toutefois, toutes ces méthodes sont coûteuses en terme de temps et imposent le plus souvent de fixer a priori le nombre de classes, ce qui limite la qualité des partitionnements obtenus.

Il existe donc un besoin pour un procédé d'identification d'une relation entre des éléments physiques permettant de surmonter les inconvénients précédents.

A cet effet, il est proposé un procédé d'identification d'une relation entre des éléments physiques, lesdits éléments présentant éventuellement une activité mesurable, le procédé comprenant l'étape de fournir des données, les données comprenant une grandeur représentative des éléments physiques ou de leur activité pour une pluralité d'individus, l'étape d'estimer la matrice de covariance entre les différentes grandeurs représentatives des éléments physiques ou de leur activité à partir des données fournies, l'étape d'associer un graphe à une valeur de seuillage, le graphe associé comprenant des sommets représentatifs des éléments physiques et des liens entre les sommets lorsque la valeur de la covariance entre les sommets considérés est supérieure à la valeur de seuillage considérée. Le procédé comporte également l'étape d'obtenir des cœurs par analyse de l'évolution des graphes par utilisation d'une pluralité de valeurs de seuillage, un cœur étant un ensemble de sommets d'un graphe tel que le nombre de sommets est supérieur ou égal à un nombre fixé, tel qu'il existe une valeur de seuillage pour laquelle le cœur est une composante connexe du graphe associé à la valeur de seuillage et tel qu'il n'existe pas d'autres composantes connexes d'un graphe dont le nombre de sommets est supérieur ou égal au nombre fixé et qui soit incluse dans le cœur, l'étape de définir des graphes candidats, chaque graphe candidat étant un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage. Le procédé comporte également, pour chaque valeur de seuillage de la pluralité de valeurs de seuillage, une étape d'obtenir une répartition associée par optimisation de la répartition en classes des sommets du graphe associé à la valeur de seuillage considérée, l'optimisation partant d'une répartition initiale dans laquelle à chaque cœur est associé une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe, Le procédé comprend aussi une étape de sélectionner un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.

L'originalité du procédé d'identification d'une relation proposé réside notamment dans le fait que les deux problématiques de calcul de la matrice de covariance et de partitionnement du graphe sont traitées conjointement.

Ainsi, d'une part il est suggéré d'analyser l'évolution de la structure du graphe en fonction d'une valeur de seuillage et de choisir la matrice de covariance et le graphe associé en se basant sur des critères portant sur le graphe (densité, répartition des degrés...) et sur son partitionnement (modularité, nombre de classes, stabilité des classes...). D'autre part, la partition du graphe repose sur la sélection de cœurs qui sont un ensemble de sommets fortement connectés sur les graphes, c'est-à-dire par des liens de fort poids (covariance). De ce fait, la méthode de partitionnement des graphes prend en compte la partie la plus fiable de l'information contenue dans la matrice de covariance.

Le procédé d'identification d'une relation s'applique à des données de très grande dimension (plusieurs milliers de variables). En outre, le nombre de classes n'est pas fixé, de même que la valeur du paramètre de seuillage. Selon un mode de réalisation préféré, le procédé d'identification permet d'analyser l'évolution des graphes en fonction du choix de la valeur de seuillage en deux temps. Dans un premier temps, il est recherché les cœurs de classes en augmentant pas à pas la valeur de seuillage de façon à "effeuiller" progressivement le graphe et à identifier des petits ensembles de sommets stables au sein des différentes composantes connexes des graphes. Dans un deuxième temps, en baissant progressivement la valeur de seuillage, les sommets du graphe sont progressivement reconnectés pour pouvoir leur attribuer une classe définie autour d'un cœur.

Le procédé d'identification d'une relation permet finalement de choisir la matrice de covariance et le graphe associé qui présente la structure d'interaction la plus claire et la plus stable.

En particulier, la procédé d'identification d'une relation peut permettre d'identifier des ensembles de gènes présentant une relation entre eux sur la base de leurs niveaux d'expression dans les échantillons considérés, ou présentant des profils d'expression similaires. Des gènes dont les profils d'expression sont similaires (gènes co-exprimés) peuvent par exemple présenter des mécanismes de régulation identiques ou faire partie d'une même voie de régulation, c'est-à-dire être co-régulés.

La régulation de l'expression d'un gène désigne l'ensemble des mécanismes de régulation mis en œuvre au cours du processus de synthèse d'un produit de gène fonctionnel (ARN ou protéine) à partir de l'information génétique contenue dans une séquence d'ADN. La régulation désigne une modulation, en particulier une augmentation ou une diminution de la quantité des produits de l'expression d'un gène (ARN ou protéine). Toutes les étapes allant de la séquence d'ADN au produit final de l'expression d'un gène peuvent être régulées, que ce soit la transcription, la maturation des ARN messagers, la traduction des ARN messagers ou la stabilité des ARN messagers ou des protéines.

Par exemple, le procédé d'identification d'une relation peut permettre d'identifier une relation entre des gènes ou des protéines qui sont tous fortement exprimés, ou fortement sur-exprimés par rapport à un contrôle, ou entre des gènes ou des protéines qui sont tous peu exprimés, ou fortement sous-exprimés par rapport à un contrôle.

Dans un mode de réalisation préféré, le procédé d'identification d'une relation permet avantageusement d'organiser les gènes, ARN ou protéines, dont les profils d'expression sont identiques, en groupes ou ensembles, selon un regroupement hiérarchique.

Selon un mode de réalisation particulier, le procédé d'identification d'une relation permet avantageusement d'identifier des interactions entre des gènes. Selon un autre mode de réalisation, le procédé d'identification d'une relation permet avantageusement d'identifier des ensembles de gènes qui sont co-exprimés et/ou co-régulés. Cela peut permettre d'identifier des voies de régulation non encore connues. Par ailleurs, un gène dont la fonction est inconnue et qui fait partie d'un ensemble contenant un grand nombre de gènes impliqués dans une fonction cellulaire particulière ou un processus cellulaire particulier, a une forte probabilité d'être lui aussi impliqué dans cette fonction ou dans ce processus. Ainsi, en partant de l'hypothèse que des gènes co- exprimés et/ou co-régulés peuvent être reliés fonctionnellement, la méthode peut permettre d'identifier la fonction putative de certains gènes.

Suivant des modes de réalisation particuliers, le procédé d'identification d'une relation entre des éléments physiques comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toute combinaison techniquement possible :

- à l'étape d'obtenir des cœurs, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière croissante.

- l'étape d'obtenir une répartition associée, les valeurs de la pluralité de valeurs de seuillage sont utilisées de manière décroissante.

- l'étape d'estimer la matrice de covariance comporte une sous-étape de calcul de la matrice de covariance empirique, une sous-étape de régularisation et une sous-étape de normalisation.

- l'étape d'obtenir des cœurs met en œuvre un algorithme de parcours en profondeur.

- la répartition finale comporte moins de classes que le nombre de cœurs obtenus.

- le nombre d'éléments physiques est supérieur ou égal à 1000, de manière préférentielle supérieur ou égal à 3000, de manière encore plus préférentielle supérieur ou égal à 5000.

- le rapport entre le nombre d'éléments physiques et le nombre d'individus est supérieur ou égal à 10, de manière préférentielle supérieur ou égal à 30, de manière encore plus préférentielle supérieur ou égal à 50.

- le procédé d'identification d'une relation étant mis en œuvre par ordinateur.

- les éléments physiques sont des gènes, des ARN, des protéines ou des métabolites.

- les individus sont des individus biologiques tels que des animaux, de manière préférentielle des mammifères, de manière encore plus préférentielle des humains. Il est également proposé un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé d'identification d'une cible thérapeutique comprend également l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé comporte aussi l'étape de comparer la première répartition et la deuxième répartition, et l'étape de sélectionner comme cible thérapeutique le gène, ou un produit de l'expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.

Il est aussi proposé un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. Le procédé d'identification d'un biomarqueur comprend l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé d'identification d'un biomarqueur comprend également l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques ne souffrant pas de ladite pathologie et la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé d'identification d'un biomarqueur comporte aussi l'étape de comparer la première répartition et la deuxième répartition, et de sélectionner comme biomarqueur le gène, ou une expression du gène, si les sommets représentatifs dudit gène appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.

Il est également proposé un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie, le procédé comprenant l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et ayant reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une première répartition dans laquelle chaque première classe est associée de manière biunivoque à une première valeur de la grandeur représentative, Le procédé de criblage d'un composé comporte aussi l'étape de mettre en œuvre le procédé d'identification d'une relation tel que précédemment décrit, la pluralité d'individus étant une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative étant la quantification de l'expression d'au moins un gène de la pluralité d'individus, et les données comprenant la grandeur représentative de la cible thérapeutique, pour obtenir une deuxième répartition dans laquelle chaque deuxième classe est associée de manière biunivoque à une deuxième valeur de la grandeur représentative. Le procédé de criblage d'un composé comprend aussi l'étape de comparer la première répartition et la deuxième répartition, et l'étape de sélectionner le composé si les sommets représentatifs de la cible thérapeutique connue appartiennent à une première classe et à une deuxième classe dont la première valeur et la deuxième valeur diffèrent significativement.

Il est aussi proposé un produit programme d'ordinateur comportant un support lisible d'informations, sur lequel est mémorisé un programme d'ordinateur comprenant des instructions de programme, le programme d'ordinateur étant chargeable sur une unité de traitement de données et adapté pour entraîner la mise en œuvre d'un procédé tel que précédemment décrit lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données.

D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description qui suit de modes de réalisation de l'invention, donnée à titre d'exemple uniquement et en référence aux dessins qui sont :

- figure 1 , une vue schématique d'un exemple de système permettant la mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques, - figure 2, un ordinogramme d'un exemple de mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques,

- figures 3 à 6, des vues schématiques d'une pluralité de graphes pour différentes valeurs de seuillage,

- figure 7, un ordinogramme d'un exemple de mise en œuvre d'un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie,

figure 8, un ordinogramme d'un exemple de mise en œuvre d'un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie, et

- figure 9, un ordinogramme d'un exemple de mise en œuvre d'un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. Un système 10 et un produit programme d'ordinateur 12 sont représentés à la figure 1 . L'interaction du produit programme d'ordinateur 12 avec le système 10 permet de mettre en œuvre un procédé d'identification d'une relation entre des éléments physiques.

Le système 10 est un ordinateur.

Plus généralement, le système 10 est un calculateur électronique propre à manipuler et/ou transformer des données représentées comme des quantités électroniques ou physiques dans des registres du système 10 et/ou des mémoires en d'autres données similaires correspondant à des données physiques dans des mémoires, des registres ou d'autres types de dispositifs d'affichage, de transmission ou de mémorisation.

Le système 10 comporte un processeur 14 comprenant une unité de traitement de données 16, des mémoires 18 et un lecteur 20 de support d'informations. Le système 10 comprend également un clavier 22 et une unité d'affichage 24.

Le produit programme d'ordinateur 12 comporte un support lisible d'informations 20.

Un support lisible d'informations 20 est un support lisible par le système 10, usuellement par l'unité de traitement de données 14. Le support lisible d'informations 20 est un médium adapté à mémoriser des instructions électroniques et capables d'être couplé à un bus d'un système informatique.

A titre d'exemple, le support lisible d'informations 20 est une disquette ou disque souple (de la dénomination anglaise de « floppy disk »), un disque optique, un CD-ROM, un disque magnéto-optique, une mémoire ROM, une mémoire RAM, une mémoire EPROM, une mémoire EEPROM, une carte magnétique ou une carte optique.

Sur le support lisible d'informations 20 est mémorisé un programme d'ordinateur comprenant des instructions de programme.

Le programme d'ordinateur est chargeable sur l'unité de traitement de données 14 et est adapté pour entraîner la mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données 14.

Le fonctionnement du système 10 en interaction avec le produit programme d'ordinateur 12 est maintenant décrit en référence à la figure 2 qui illustre un exemple de mise en œuvre d'un procédé d'identification d'une relation entre des éléments physiques.

Un élément est un élément physique lorsque l'élément appartient à la réalité.

Par exemple, les atomes sont les éléments physiques. L'étude statistique des états de spin d'un ensemble d'atomes est d'intérêt aussi bien pour de la spintronique que pour des problématiques de condensation de la matière.

Selon un autre exemple, les étoiles sont les éléments physiques. La quantité de l'émission d'une particule particulière pour différentes étoiles peut notamment être comparée.

Selon un autre exemple, les particules émises par une étoile sont les éléments physiques. L'étude des particules émises par une étoile permet de déterminer une information sur l'état de l'étoile considérée de manière statistique.

Dans le reste de la description, il est plus spécifiquement considéré des exemples d'éléments physiques appartenant au domaine de la biologie, sans que ces exemples soient une limitation du présent procédé.

Notamment, selon un mode de réalisation préféré, les éléments physiques sont des éléments biologiques. Par exemple, les éléments physiques peuvent être des gènes, des ARN, en particulier des ARN messagers, des protéines ou des métabolites.

Le procédé d'identification d'une relation est d'autant plus avantageux que le nombre d'éléments physiques considérés est important de sorte que les éléments physiques constituent de préférence des ensembles de grandes dimensions.

Par exemple, le nombre d'éléments physiques est supérieur ou égal à 1000, de préférence supérieur ou égal à 2000, de préférence supérieur ou égal à 3000, de préférence supérieur ou égal à 4000, de préférence supérieur ou égal à 5000, de préférence supérieur ou égal à 6000, de préférence supérieur ou égal à 7000, de préférence supérieur ou égal à 8000, de préférence supérieur ou égal à 9000, de préférence supérieur ou égal à 10000. Il est entendu par le terme relation un lien ou un rapport existant entre deux éléments.

Le procédé d'identification d'une relation comporte une étape 50 de fourniture de données relatives à une pluralité d'individus. Les données pour un individu particulier comprennent une grandeur représentative de chacun des éléments physiques.

A titre d'exemple particulier, la grandeur représentative d'un élément physique peut être la quantité de l'élément physique. Par exemple, la grandeur représentative d'une protéine dans un échantillon donné peut être la quantité de cette protéine dans cet échantillon. Ainsi, dans un tel cas particulier, à titre d'illustration, une première protéine aurait un poids de 15 kilodaltons, une deuxième protéine aurait un poids de 10 kilodaltons, une troisième protéine aurait un poids de 12 kilodaltons.

A travers l'exemple particulier proposé, il apparaît que, par grandeur représentative d'un élément physique, il est entendu tout type de grandeur mesurable qui caractérise l'élément physique. Une grandeur représentative d'un élément physique est donc exprimable sous la forme d'une quantité.

Selon un mode de réalisation particulier, la grandeur considérée est représentative de l'activité d'un élément physique.

En particulier, pour l'exemple précédent de l'atome, le spin est une grandeur représentative.

Selon un autre exemple, pour le cas où les particules émises par une étoile sont les éléments physiques, la quantité de particules émises est une grandeur représentative. Similairement, pour l'exemple des étoiles, la quantité de la particule particulière émise par chacun des étoiles est une grandeur représentative.

L'activité d'un élément physique représente l'ensemble des effets produits par l'élément physique considéré. Notamment, lorsque l'élément physique est un gène, l'activité de l'élément physique peut désigner l'expression dudit gène. L'expression d'un gène peut en particulier être quantifiée en mesurant la quantité d'ARN messager produit par le processus de transcription à partir dudit gène, ou en mesurant la quantité de protéine produite par les processus de transcription et de traduction à partir dudit gène.

La grandeur représentative de l'activité d'un élément physique peut être la quantité d'un produit résultant de l'activité de l'élément physique. Par exemple, la grandeur représentative de l'activité d'un gène peut être la quantité d'ARN messagers produit par le processus de transcription à partir dudit gène. Selon un autre exemple, la grandeur représentative de l'activité d'un ARN messager peut être la quantité de protéines produites par le processus de traduction à partir dudit ARN messager. Il est entendu par le terme individu un élément statistique d'un ensemble plus large appelé « population », et pour lequel la valeur de la grandeur représentative de chacun des éléments physiques, ou de leur activité, est fournie à l'étape 50 de fourniture.

Dans le cas de l'exemple des atomes, la pluralité d'individus est une pluralité d'atomes.

Pour l'exemple de particules émises par une même étoile, la pluralité d'individus peuvent être des émissions à des instants temporels distincts.

Pour le cas où une pluralité d'étoiles est considérée, la pluralité d'individus est, de préférence, la pluralité d'étoiles.

Selon un mode de réalisation particulier, l'individu peut être un individu biologique tel que, par exemple, un animal. De préférence, l'individu est un mammifère. De manière encore plus préférentielle, l'individu est un humain.

Le procédé d'identification d'une relation est d'autant plus avantageux que le rapport entre le nombre d'éléments physiques et le nombre d'individus est supérieur ou égal à 10, de préférence supérieur ou égal à 20, de préférence supérieur ou égal à 30, de préférence supérieur ou égal à 40, de préférence supérieur ou égal à 50, de préférence supérieur ou égal à 60, de préférence supérieur ou égal à 70, de préférence supérieur ou égal à 80, de préférence supérieur ou égal à 90, de préférence supérieur ou égal à 100, de préférence supérieur ou égal à 200.

Alternativement ou de manière complémentaire, le nombre d'individus peut être inférieur ou égal à 200, de préférence inférieur ou égal à 100.

Les données comprennent ainsi, pour une pluralité d'individus, les différentes valeurs d'une grandeur représentative choisie pour chaque élément physique. Comme expliqué précédemment, selon un mode de réalisation particulier, le nombre de grandeurs représentatives fournies est supérieur ou égal à 1000 pour chaque individu considéré.

Les données fournies à l'étape 50 de fourniture peuvent être obtenues par n'importe quel moyen. En particulier, les données peuvent être obtenues par une analyse de type « omique », par exemple par une analyse génomique, transcriptomique, protéomique, ou métabolomique. Les techniques permettant d'obtenir des données de type « omique » sont bien connues de l'homme du métier et comprennent par exemple celles des puces à ADN, de la PCR quantitative ou du séquençage systématique d'ADN, d'ARN ou d'ADN complémentaires.

Dans un mode de réalisation particulier, les données fournies à l'étape 50 de fourniture ont été obtenues à partir d'un échantillon biologique de l'individu, tel qu'un ou plusieurs organe(s), tissu(s), cellule(s) ou fragment(s) de cellule(s) de l'individu. A l'issue de l'étape 50 de fourniture, des données comprenant une grandeur représentative des éléments physiques pour une pluralité d'individus ont été fournies.

D'un point de vue mathématique, les données fournies correspondent au cas de n réalisations (n individus) de p variables aléatoires Xi , X p (p grandeurs représentatives). Dans ce contexte, n et p sont deux entiers.

Pour la suite, dans un souci de simplification du propos, à titre illustratif, il est supposé que les variables aléatoires Xi , X p sont centrées.

Le procédé comporte une étape 52 de représentation des données fournies sous forme matricielle pour obtenir une matrice de données notée X dont l'élément de la ligne i et de la colonne j est la valeur de la i-ième grandeur représentative X, pour la j-ième réalisation.

Le procédé comporte une étape 54 d'estimation de la matrice de covariance∑ entre les différentes grandeurs représentatives à partir de la matrice de données.

En théorie des probabilités et en statistique, la matrice de variance-covariance ou plus simplement matrice de covariance d'une série de p variables aléatoires X 1 ; X p réelles est la matrice carrée dont l'élément de la ligne i et de la colonne j est la covariance des variables X, et X j . Une telle matrice permet de quantifier la variation de chaque variable par rapport à chacune des autres.

Selon un mode de réalisation, l'étape 54 d'estimation comporte une sous-étape de calcul.

A titre d'exemple, à la sous-étape de calcul, il est calculé la matrice de covariance empirique S. Par définition, S est le produit de l'inverse de l'entier n par le produit matriciel de la matrice de données X par la transposée de la matrice de données X. Ceci s'écrit mathématiquement :

1

S = -.x * x*

n

où :

• « . » désigne l'opération mathématique de multiplication par un scalaire,

• « * » désigne l'opération mathématique de multiplication matricielle, et

• X 1 désigne la transposée de la matrice de données X.

Selon un autre exemple, à la sous-étape de calcul, il est calculé la matrice de corrélation de Spearman.

Selon un autre mode de réalisation, l'étape 54 d'estimation comporte une sous- étape de régularisation. La sous-étape de régularisation permet de forcer des valeurs de la matrice de covariance à être nulles pour obtenir une matrice creuse (c'est-à-dire une matrice comprenant beaucoup de zéros).

Par exemple, la sous-étape de régularisation est appliquée à la matrice de covariance empirique S calculée à la sous-étape de calcul, pour obtenir une matrice de covariance régularisée S r é gu iarisée-

Selon un cas particulier, la sous-étape de régularisation est mise en œuvre en utilisant une valeur de seuillage λ, la valeur de seuillage λ étant positive ou nulle. Plus précisément, pour obtenir la matrice régularisée de covariance empirique S régu iarisée, toutes les valeurs de la matrice de covariance empirique S dont la valeur en valeur absolue est strictement inférieure à la valeur de seuillage λ sont mises à 0.

La valeur de seuillage λ étant une variable, la matrice régularisée de covariance empirique S régu iarisée est une fonction de la valeur de seuillage λ. Notamment, lorsque la valeur de seuillage λ est nulle, la matrice régularisée de covariance empirique S rég uiarisée est la matrice de covariance empirique S. A contrario, lorsque la valeur de seuillage λ tend vers l'infini, la matrice régularisée de covariance empirique S régu iarisée tend vers la matrice nulle, c'est-à-dire une matrice dont tous les termes sont nuls.

Une telle sous-étape de régularisation est particulièrement avantageuse lorsque l'entier p est grand ou que l'entier p est supérieur à l'entier n. En effet, dans de tels cas, la matrice régularisée de covariance empirique S rég uiansée est un estimateur de meilleure qualité que la matrice de covariance empirique S, la fonction de la valeur de seuillage λ permettant d'éliminer les valeurs trop faibles non significatives. Cela provient notamment du fait qu'il peut exister du bruit dans les données fournies et qu'il existe un risque d'existence d'un ou plusieurs faux positifs.

Optionnellement, l'étape 54 d'estimation comporte également une sous-étape de normalisation pour obtenir une matrice normalisée.

Par exemple, la sous-étape de normalisation est appliquée à la matrice de covariance empirique S.

Selon un mode de réalisation préféré, la sous-étape de normalisation est mise en œuvre en calculant le produit matriciel suivant :

R = D i * S * D i

σ σ

où :

• R désigne la matrice normalisée, et • Di désigne la matrice diagonale des écarts-types. Par définition, la matrice σ

diagonale des écarts-types Di est une matrice diagonale dont le i-ième σ

terme de la diagonale est égal à l'inverse de l'écart-type de la i-ième variable X,, i étant un entier variant entre 1 et l'entier p.

En statistique, la corrélation de deux variables A et B est égale au rapport entre, d'une part, la covariance entre lesdites deux variables A et B et, d'autre part, le produit de l'écart-type de la première variable A par l'écart-type de la deuxième variable B. Il en résulte que la matrice normalisée R correspond à la matrice des corrélations empiriques.

Selon les cas, l'étape 54 d'estimation comporte ainsi une sous-étape de calcul, ou la combinaison d'une sous-étape de calcul et d'une sous-étape de régularisation ou la combinaison d'une sous-étape de calcul et d'une sous-étape de normalisation, ou une combinaison des sous-étapes de calcul, de régularisation et de normalisation.

Dans le cas où les trois sous-étapes sont mises en œuvre, l'ordre de mise en œuvre des sous-étapes de régularisation et de normalisation est indifférent. En outre, il est obtenu une matrice régularisée des corrélations empiriques R é gularisée et la valeur de seuillage est comprise entre 0 et 1 . Dans la suite de la description, une valeur Y est comprise entre deux valeurs a et b lorsque, d'une part, la valeur Y est supérieure ou égale à la valeur a et d'autre part, la valeur Y est inférieure ou égale à la valeur b.

Comme pour le cas de la matrice régularisée de covariance empirique S g U iarisée, la valeur de seuillage λ étant une variable, la matrice régularisée des corrélations empiriques R é gularisée est une fonction de la valeur de seuillage λ. Notamment, lorsque la valeur de seuillage λ vaut 0, la matrice régularisée des corrélations empiriques R é gularisée est égale à la matrice des corrélations empiriques R. A contrario, lorsque la valeur de seuillage λ vaut 1 , la matrice régularisée des corrélations empiriques R é gularisée tend vers la matrice nulle, c'est-à-dire une matrice dont tous les termes sont nuls.

A l'issue de l'étape 54 d'estimation, il est obtenu une matrice de covariance estimée∑ regroupant les valeurs estimées de covariance entre les différentes grandeurs représentatives des éléments physiques ou de leur activité. En variante, il est obtenu une matrice de corrélation de Spearman lorsque la dépendance entre les variables est non linéaire.

A titre d'exemple, pour la suite, il est supposé que la matrice de covariance estimée∑ est la matrice régularisée des corrélations empiriques R é gularisée, c'est-à-dire que

= Régularisée-

Le procédé d'identification d'une relation comporte également une étape 56 d'association d'un graphe G x à une valeur de seuillage λ. Par définition, un graphe G x est associé à une valeur de seuillage λ lorsque le graphe G x comprend des sommets représentatifs des éléments physiques, et des liens entre les sommets lorsque la valeur de la covariance estimée entre les sommets considérés est supérieure ou égale à la valeur de seuillage λ considérée.

Un graphe G¾ est une représentation graphique de la valeur de la covariance estimée par rapport à une valeur de seuillage λ donnée. Cela signifie que les seuls liens visibles sur un graphe G x sont les liens présentant une valeur de la covariance estimée relativement grande.

Dans le cas particulier de la figure 2, le graphe G¾ comporte des liens entre les sommets lorsque la valeur de la matrice régularisée des corrélations empiriques R é gu l aris é e relatives aux sommets considérés est supérieure ou égale à la valeur de seuillage λ considérée.

Ainsi, lorsque la valeur de seuillage λ vaut 0, le graphe G 0 est un graphique dont tous les sommets sont reliés à tous les autres sommets. A contrario, lorsque la valeur de seuillage λ vaut 1 , le graphe Gi est un graphique dont tous les sommets sont isolés, c'est- à-dire qu'il n'existe aucun lien entre les sommets.

Plus précisément, il apparaît que la fonction qui associe à la valeur de seuillage λ le nombre de liens à générer dans le graphe G¾ associé à la valeur de seuillage λ est une fonction décroissante depuis la valeur du nombre de liens dans le graphe G 0 jusqu'à 0.

A titre d'illustration, les figures 3 à 6 illustrent chacune les graphes associés à différentes valeurs de seuillage pour un exemple particulier.

La figure 3 illustre un premier graphe G M associé à une première valeur de seuillage λι . Le premier graphe G M comporte les mêmes treize sommets, chaque sommet étant représenté par un point sur la figure. De plus, chaque sommet est référencé par un signe de référence sous la forme Si où i est le numéro du sommet. Par exemple, le deuxième sommet est référencé S2 et le septième sommet est référencé S7.

Dans le premier graphe G M , il existe seize liens entre les treize sommets S1 à S13. Ainsi, le premier sommet S1 est relié au cinquième sommet S5 via un premier lien . 5 . Le deuxième sommet S2 est relié au cinquième sommet S5 via un deuxième lien l 2 -5. Le troisième sommet S3 est relié au quatrième sommet S4 via un troisième lien l 3 . 4 et au septième sommet S7 via un quatrième lien l 3 . 7 . Le quatrième sommet S4 est relié au troisième sommet S3 via le troisième lien l 3 . 4 , au cinquième sommet S5 via un cinquième lien I4-5, au septième sommet S7 via un sixième lien l 4 . 7 et au huitième sommet S8 via un septième lien l 4 . 8 . Le cinquième sommet S5 est relié au quatrième sommet S4 via le cinquième lien l 4 . 5 , au huitième sommet S8 via un huitième lien l 5 . 8 et au neuvième sommet S9 via un neuvième lien l 5-9 . Le sixième sommet S6 est relié au septième sommet

57 via un dixième lien l 6-7 . Le septième sommet S7 est relié au troisième sommet S3 via le quatrième lien l 3-7 , au quatrième sommet S4 via le troisième lien l 3-4 , au huitième sommet

58 via un onzième lien l 7-8 , au sixième sommet S6 via le dixième lien l 6-7 et au onzième sommet S1 1 via un douzième lien l 7-12 . Le huitième sommet S8 est relié au quatrième sommet S4 via le septième lien l 4-8 , au cinquième sommet S5 via le huitième lien l 5-8 , au septième sommet S7 via le onzième lien l 7-8 , au neuvième sommet S9 via un treizième lien l 8 _g et au douzième sommet S12 via un quatorzième lien l 8 . 12 . Le neuvième sommet S9 est relié au cinquième sommet S5 via le neuvième lien l 5-9 , au huitième sommet S8 via le treizième lien l 8-9 , au dixième sommet S10 via un quinzième lien l 9 . 10 et au treizième sommet S13 via un seizième lien l 9 . 16 . Le dixième sommet S10 est relié au neuvième sommet S9 via le quinzième lien l 9 . 10 . Le onzième sommet S1 1 est relié au septième sommet S7 via le douzième lien l 7 . 12 . Le douzième sommet S12 est relié au huitième sommet S8 via le quatorzième lien l 8 . 12 . Le treizième sommet S13 est relié au neuvième sommet S9 via le seizième lien l 9 . 16 .

Cela signifie que le premier lien l 1-5 , le deuxième lien l 2 . 5 , le troisième lien l 3-4 , le quatrième lien l 3-7 , le cinquième lien l 4-5 Je sixième lien l 4-7 , le septième lien l 4-8 , le huitième lien l 5-8 , le neuvième lien l 5-9 , le dixième lien l 6-7 , le onzième lien l 7-8 , le douzième lien l 7-12 , le treizième lien l 8-9 , le quatorzième lien l 8-12 , le quinzième lien l 9-10 et le seizième lien l 9-16 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la première valeur de seuillage λ^ .

La figure 4 illustre un deuxième graphe G X2 associé à une deuxième valeur de seuillage λ 2 . La figure 4 étant similaire à la figure 3, seules les différences avec la figure 3 sont détaillées dans ce qui suit.

La deuxième valeur de seuillage λ 2 est plus grande que la première valeur de seuillage λ^ . En outre, le deuxième graphe G X2 ne comporte plus qu'onze liens puisque le troisième lien l 3-4 , le cinquième lien l 4-5 , le sixième lien l 4-7 , le neuvième lien l 5-9 et le seizième lien l 9-16 ont disparu.

Cela montre que le troisième lien l 3-4 , le cinquième lien l 4-5 , le sixième lien l 4-7 , le neuvième lien l 5-9 et le seizième lien l 9 . 16 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la première valeur de seuillage λι mais également strictement inférieures à la deuxième valeur de seuillage λ 2 . A contrario, le premier lien l 1-5 , le deuxième lien l 2-5 , le quatrième lien I3.7, le septième lien l 4-8 , le huitième lien l 5-8 , le dixième lien l 6-7 , le onzième lien l 7-8 , le douzième lien l 7-12 , le treizième lien l 8-9 , le quatorzième lien l 8-12 et le quinzième lien l 9-10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la deuxième valeur de seuillage λ 2 .

La figure 5 illustre un troisième graphe Θ λ3 associé à une troisième valeur de seuillage λ 3 . La figure 5 étant similaire à la figure 4, seules les différences avec la figure 5 sont détaillées dans ce qui suit.

La troisième valeur de seuillage λ 3 est plus grande que la deuxième valeur de seuillage λ 2 . En outre, le troisième graphe Θ λ3 ne comporte plus que sept liens puisque le premier lien l 1-5 , le quatrième lien l 3-7 , le dixième lien l 6-7 et le quatorzième lien l 8-12 ont disparu.

Cela montre que le premier lien l 1-5 , le quatrième lien l 3-7 , le dixième lien l 6-7 et le quatorzième lien l 8 . 12 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la deuxième valeur de seuillage λ 2 mais également strictement inférieures à la troisième valeur de seuillage λ 3 . A contrario, le deuxième lien l 2 . 5 , le septième lien l 4-8 , le huitième lien l 5-8 , le onzième lien l 7-8 , le douzième lien l 7-12 , le treizième lien l 8-9 , et le quinzième lien l 9-10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieurs à la troisième valeur de seuillage λ 3 .

La figure 6 illustre un quatrième graphe Θ λ4 associé à une quatrième valeur de seuillage λ 4 . La figure 6 étant similaire à la figure 5, seules les différences avec la figure 5 sont détaillées dans ce qui suit.

La quatrième valeur de seuillage λ 4 est plus grande que la troisième valeur de seuillage λ 3 . En outre, le quatrième graphe Θ λ4 ne comporte plus que trois liens puisque le deuxième lien l 2 . 5 , le septième lien l 4-8 , le douzième lien l 7-12 et le quinzième lien l 9-10 ont disparu.

Cela montre que le deuxième lien l 2 _ 5 , le septième lien l 4-8 , le douzième lien l 7 . 12 et le quinzième lien l 9 . 10 correspondent chacun à des valeurs de covariance estimée entre les sommets considérés qui sont strictement supérieures à la troisième valeur de seuillage λ 3 mais également strictement inférieures à la quatrième valeur de seuillage λ 4 . A contrario, le huitième lien l 5-8 , le onzième lien l 7-8 , et le treizième lien l 8-9 correspondent chacun à des valeurs de covariance estimée entre les sommets considérées qui sont strictement supérieurs à la quatrième valeur de seuillage λ 4 .

Les figures 3 à 6 illustrent que la fonction qui associe à la valeur de seuillage λ le nombre de liens à générer dans le graphe G ¾ associé à la valeur de seuillage λ est une fonction décroissante. En effet, à la première valeur de seuillage λι , est associée la valeur de seize ; à la deuxième valeur de seuillage λ 2 , est associée à la valeur de onze ; à la troisième valeur de seuillage λ 3 , est associée à la valeur de sept et à la quatrième valeur de seuillage λ 4 est associée à la valeur de quatre.

Selon un autre mode de réalisation, les liens sur le graphe sont pondérés par l'intensité des corrélations. La matrice de pondération ou matrice des poids des liens est la matrice regroupant les valeurs absolues de la matrice obtenue à l'issue de la mise en œuvre de l'étape 54 d'estimation.

Le procédé d'identification d'une relation comprend une étape 58 d'obtention de cœurs.

Par définition, un cœur est un ensemble de sommets d'un graphe vérifiant trois propriétés : la première propriété P1 , la deuxième propriété P2 et la troisième propriété P3.

Selon la première propriété P1 , le nombre de sommets du cœur est supérieur ou égal à un nombre fixé a.

De préférence, le nombre fixé a est supérieur ou égal à 3, préférentiellement supérieur ou égal à 5.

De préférence le nombre fixé a est supérieur ou égal à 15, préférentiellement supérieur ou égal à 10.

Selon la deuxième propriété P2, il existe une valeur de seuillage λ pour laquelle le cœur est une composante connexe du graphe G ¾ associé à la valeur de seuillage λ.

En théorie des graphes, un graphe non orienté est dit connexe si quels que soient les sommets considérés, il existe une chaîne de liens depuis le premier sommet vers le deuxième sommet. Un sous-graphe connexe maximal d'un graphe non orienté quelconque est une composante connexe de ce graphe.

Selon la troisième propriété P3, il n'existe pas d'autres composantes connexes d'un graphe dont la taille est supérieure ou égale au nombre fixé et qui soit incluse dans le cœur.

Autrement formulé, il est permis qu'il existe des composantes connexes présentant moins de sommets que le nombre fixé soit incluse dans le cœur. Il est également permis que des composantes connexes présentant plus ou autant de sommets que le nombre fixé existent mais chacune de ces composantes connexes doit soit être incluse dans le cœur soit ne partager aucun sommet avec le cœur. Une telle propriété P3 est à vérifier pour toutes les valeurs de seuillage λ.

Selon une autre manière de présenter une telle notion, un cœur de classe est un ensemble de sommets, de taille minimale fixée, pouvant tous être reliés par des chemins fiables impliquant des liens de poids (covariance) suffisamment importants. Ces chemins, qui font le lien entre les sommets d'un cœur, sont stables sur les graphes lorsque l'on augmente le paramètre de seuillage et ce, jusqu'à un niveau assez élevé. Les sommets n'appartenant pas à un cœur sont au contraire plus rapidement isolés (aucun lien avec les autres sommets) sur le graphe à mesure que le paramètre de seuillage est augmenté.

L'étape 58 d'obtention de cœurs est mise en œuvre par analyse de l'évolution des graphes en fonction de la variation de la valeur de seuillage.

Pour cela, il est utilisé une pluralité de valeurs de seuillage. Selon l'exemple proposé en référence aux figures 3 à 6, il est proposé quatre valeurs de seuillage λ 1 ; λ 2 , λ 3 et λ 4 . La comparaison des figures 3 à 6 permet de montrer que le cœur comprend dans ce cas les quatre sommets suivants : le cinquième sommet S5, le septième sommet S7, le huitième sommet S8 et le neuvième sommet S9.

De préférence, la première pluralité de valeurs de seuillage est utilisée de manière croissante, c'est-à-dire en considérant d'abord la plus petite valeur, puis la valeur la plus petite des valeurs restantes jusqu'à considérer la plus grande valeur.

Préférentiellement, l'étape 58 d'obtention de cœurs est mise en œuvre avec un algorithme de parcours en profondeur.

Par exemple, on fixe le nombre de sommets minimum a d'un cœur, une valeur de seuillage minimale min et un paramètre P pour l'incrémentation de la valeur de seuillage.

On commence par extraire les N composantes connexes du graphe G¾ min dont le nombre de sommets est supérieur au nombre fixé α. N est un nombre entier. L'extraction des composantes connexes est obtenue par mise en œuvre d'un algorithme de parcours en profondeur.

Tant que l'entier N est différent de 0, les étapes suivantes sont réitérées :

1 ) incrémenter la valeur de seuillage de l'itération précédente en additionnant le paramètre P pour obtenir une valeur de seuillage de calcul

2) extraction des N composantes connexes du graphe G¾ ca icui dont le nombre de sommets est supérieur au nombre fixé a.

3) définition des cœurs, un cœur étant une composante connexe du graphe Glaïeul-pas (le graphe associé à la valeur de seuillage de l'itération précédente qui est, par définition de la valeur de seuillage de calcul calcul , la différence entre la valeur de seuillage de calcul et le paramètre P) dont l'intersection avec chacune des composantes connexes extraites à l'étape 2 d'extraction est nulle.

L'ensemble des valeurs de seuillage utilisées forment une pluralité de valeurs de seuillage. Le procédé d'identification d'une relation comporte une étape 60 de définition des graphes candidats.

Chaque graphe candidat est un graphe associé à une des valeurs de seuillage de la pluralité de valeurs de seuillage.

Selon l'exemple proposé, les graphes candidats sont le premier graphe G M , le deuxième graphe Θ λ2 , le troisième graphe Θ λ3 et le quatrième graphe Θ λ4 .

Le procédé d'identification d'une relation comporte également une étape 62 d'obtention des répartitions associées à chaque valeur de seuillage de la pluralité de valeurs de seuillage.

II est entendu par le terme répartition associée à une valeur de seuillage λ un partitionnement en une ou plusieurs classes des sommets du graphe G x associé à la valeur de seuillage λ considérée. Une classe est un ensemble de sommets. Pour la suite, une telle répartition est notée R ¾ .

Selon l'exemple considéré, quatre répartitions R M , R ¾2 , Rx 3 et R ¾4 sont donc à obtenir.

De préférence, à l'étape 62 d'obtention des répartitions, la pluralité de valeurs de seuillage est utilisée de manière décroissante, c'est-à-dire en considérant d'abord la plus grande valeur, puis la valeur la plus grande des valeurs restantes jusqu'à considérer la plus petite valeur.

Chacune des répartitions sont obtenues par une opération d'optimisation distincte.

L'optimisation part d'une répartition initiale dans laquelle à chaque cœur est associée une classe pour obtenir une répartition finale dans laquelle chaque sommet d'une classe partage plus de liens avec les autres sommets de la même classe qu'avec les sommets d'une autre classe.

De nombreuses manières d'implémenter l'optimisation existent. Notamment, deux manières sont plus précisément décrites dans la suite de la description, sachant que d'autres manières sont accessibles pour l'homme du métier.

Selon une première méthode, pour un paramètre de seuillage λ donné, le graphe G x est partitionné pour obtenir une répartition dans laquelle chaque classe comprend un unique cœur et minimisant le coût ou poids de la coupe, défini par la somme des poids des liens entre les classes. Par définition, la somme des poids des liens entre les classes est définie par la somme de la valeur absolue des liens existant entre un sommet d'une classe et un sommet de l'autre. L'ensemble des sommets et des cœurs considérés pour la répartition est fonction du paramètre de seuillage. Nous ne nous intéressons pas aux sommets isolés et aux composantes connexes de trop petites tailles. Nous notons ν * (λ), l'ensemble des sommets contenus dans des composantes connexes du graphe G x dont le nombre de sommets est supérieur ou égale au nombre fixé a. De telles composantes connexes comprennent au moins un cœur.

Pour une valeur de seuillage λ fixé, si ν * (λ) contient K cœurs (K étant un entier positif), Qi , ... ,Q K , alors il est cherché une partition de ν * (λ) en K classes, Ci , C K , telle que chaque classe Q k soit l'union d'un cœur Q k et d'un ensemble de sommets S k à la périphérie de ce coeur (pouvant être vide) : C k = Q k U S k .

Si l'ensemble ν * (λ) est vide, soit ν * (λ) = 0, tous les sommets de V sont isolés ou contenus dans des composantes connexes de trop petite taille (strictement inférieure au nombre fixé a) et la question du partitionnement du graphe ne se pose pas.

Si l'ensemble ν * (λ) contient un unique coeur, le partitionnement du graphe est trivial, une seule classe regroupe tous les sommets de ν * (λ).

Quand l'ensemble ν * (λ) contient plusieurs cœurs, on choisit les sommets S k autour de ces cœurs de façon à avoir une coupe de poids minimal. On note \Λ (λ) la matrice des poids des liens du graphe G ¾ et S l'ensemble des parties de A = ■■■ , Q K }. Les S 1 ; ... , S K sont solution du problème d'optimisation suivant :

La première méthode de partitionnement décrite précédemment garantit le fait qu'un sommet qui n'est pas dans un cœur est plus fortement connecté avec la classe qui lui est attribuée, qu'avec toute autre classe (en faisant l'hypothèse qu'il ne peut pas y avoir égalité).

Selon une deuxième méthode plus élaborée, l'optimisation comporte une étape de détermination des cœurs dont un sommet partage plus de lien(s) avec les sommets d'une autre classe qu'avec les sommets de sa classe. Dans un tel cas, les cœurs déterminés ne sont plus considérés comme des cœurs mais comme un ensemble de sommets isolés pouvant chacun appartenir à une classe différente. Cela permet d'éviter les erreurs de classification.

Autrement formulé, comme l'on suppose que le cœur de la classe est la partie la plus stable et la plus centrale de la classe (la plus éloignée des autres classes), si un cœur contient au moins un sommet mieux connecté à une autre classe, nous "déclassons" le cœur en considérant les sommets de ce cœur comme étant de simples sommets périphériques et effectuons un nouveau partitionnement du graphe. D'un point de vue mathématique, il est possible d'implémenter la deuxième méthode en se ramenant à la formulation de la première méthode. En effet, si dans un coeur Qi, on peut trouver un sommet q, moins fortement connecté avec sa classe C,, qu'avec une autre classe C p , alors on cherche une partition de ν * (λ) en K - 1 classes en ne considérant plus Q, comme un coeur (A = A U Q,) dans le problème d'optimisation posé dans le cadre de la première méthode. On réitère jusqu'à ce que l'ensemble des sommets soient plus fortement connectés à la classe qui leur est attribuée qu'à n'importe quelle autre classe.

Selon l'exemple de la figure 2, les étapes 60 de définition des graphes candidats et 62 d'obtention des répartitions sont mises en œuvre simultanément pour accélérer la mise en œuvre du procédé d'identification d'une relation. Cela est indiqué sur la figure 2 par le fait que les deux étapes 60 de définition et 62 d'obtention sont au même niveau.

Le procédé d'identification d'une relation comporte également une étape 64 de sélection d'un graphe optimal parmi la pluralité de graphes candidats selon au moins un critère.

Le ou les critères choisis permettent de sélectionner un graphe candidat correspondant à un bon compromis en terme de densité. En effet, plus un graphe candidat est dense et plus le graphe candidat considéré prend en compte d'information. A contrario, moins le graphe candidat est dense et plus le graphe candidat considéré met en évidence des ensembles de sommets clairement identifiables.

De préférence, à l'étape 64 de sélection, au moins deux critères sont utilisés, le premier critère portant sur le graphe et le deuxième critère étant relatif à la répartition associé au graphe.

Pour cela, selon un exemple de premier critère, le graphe candidat sélectionné est le graphe dont l'écart entre la distribution des degrés de connectivité et une distribution selon une loi de puissance est minimum.

Le degré de connectivité d'un sommet est, par exemple, calculé en sommant les poids associés aux liens du sommet considéré.

La distribution selon une loi de puissance est, selon un exemple particulier, une loi de Pareto.

La distribution selon une loi de puissance est, selon un autre exemple particulier, une loi de réseau invariant d'échelle.

L'écart est, à titre d'illustration, une distance euclidienne.

Selon un exemple, le deuxième critère est la modularité. La modularité est un critère comparant la proportion de liens d'une classe d'un graphe avec la proportion obtenue pour des liens placés au hasard sur le graphe considéré. Seront favorisées les répartitions dont la modularité est grande.

Selon un autre exemple, le deuxième critère est le nombre de classes. Seront favorisées les répartitions dont le nombre de classes est maximum.

Selon un autre exemple, le deuxième critère est la stabilité du nombre de classes avec la variation de la valeur du seuillage λ. Seront favorisées les répartitions dont le nombre de classes est le plus stable.

Le procédé d'identification d'une relation permet donc d'obtenir un graphe optimal et une répartition optimale des éléments physiques. L'appartenance à une même classe indique qu'il existe une relation entre les éléments physiques étudiés.

Pour obtenir une telle information, le procédé d'identification permet une meilleure détermination du graphe et de la répartition que les procédés de l'état de la technique dans la mesure où de tels procédés n'effectuent pas d'optimisation sur le graphe lors du partitionnement en classes du graphe.

Le procédé d'identification d'une relation permet par conséquent d'identifier des ensembles d'éléments physiques ayant une relation entre eux sur la base de la grandeur représentative considérée.

En particulier, le procédé d'identification d'une relation peut permettre d'identifier des ensembles de gènes présentant une relation entre eux sur la base de leurs niveaux d'expression dans les échantillons considérés, ou présentant des profils d'expression similaires. Des gènes dont les profils d'expression sont similaires (gènes co-exprimés) peuvent par exemple présenter des mécanismes de régulation identiques ou faire partie d'une même voie de régulation, c'est-à-dire être co-régulés.

La régulation de l'expression d'un gène désigne l'ensemble des mécanismes de régulations mis en œuvre au cours du processus de synthèse d'un produit de gène fonctionnel (ARN ou protéine) à partir de l'information génétique contenue dans une séquence d'ADN. La régulation désigne une modulation, en particulier une augmentation ou une diminution de la quantité des produits de l'expression d'un gène (ARN ou protéine). Toutes les étapes allant de la séquence d'ADN au produit final de l'expression d'un gène peuvent être régulées, que ce soit la transcription, la maturation des ARN messagers, la traduction des ARN messagers ou la stabilité des ARN messagers ou des protéines.

Par exemple, le procédé d'identification d'une relation peut permettre d'identifier une relation entre des gènes ou des protéines qui sont tous fortement exprimés, ou fortement sur-exprimés par rapport à un contrôle, ou entre des gènes ou des protéines qui sont tous peu exprimés, ou fortement sous-exprimés par rapport à un contrôle. Dans un mode de réalisation préféré, le procédé d'identification d'une relation permet avantageusement d'organiser les gènes, ARN ou protéines, dont les profils d'expression sont identiques, en groupes ou ensembles, selon un regroupement hiérarchique.

Selon un mode de réalisation particulier, le procédé d'identification d'une relation permet avantageusement d'identifier des interactions entre des gènes.

Selon un autre mode de réalisation, le procédé d'identification d'une relation permet avantageusement d'identifier des ensembles de gènes qui sont co-exprimés et/ou co-régulés. Cela peut permettre d'identifier des voies de régulation non encore connues. Par ailleurs, un gène dont la fonction est inconnue et qui fait partie d'un ensemble contenant un grand nombre de gènes impliqués dans une fonction cellulaire particulière ou un processus cellulaire particulier, a une forte probabilité d'être lui aussi impliqué dans cette fonction ou dans ce processus. Ainsi, en partant de l'hypothèse que des gènes co- exprimés et/ou co-régulés peuvent être reliés fonctionnellement, la méthode peut permettre d'identifier la fonction putative de certains gènes.

Selon un mode de réalisation préféré, le procédé d'identification d'une relation comporte également une étape dans laquelle les classes obtenues dans la répartition optimale sont ordonnées.

Pour cela, chaque classe de la répartition optimale est associée de manière biunivoque à une valeur de la grandeur représentative. De ce fait, une telle valeur est une valeur synthétique qui résume la classe considérée.

Une telle association est obtenue par différentes méthodes.

Par exemple, il est choisi la variable la plus significative dans la classe selon un critère, un tel critère pouvant être la centralité ou le degré de connectivité aux autres sommets.

Selon un autre exemple, il est proposé d'utiliser une méthode de réduction de la dimensionnalité de la classe pour en déduire une valeur synthétique. L'analyse en composantes principales est un exemple d'une telle méthode de réduction de dimensionnalité de la classe.

Selon encore un autre exemple, la valeur synthétique est une fonction des grandeurs représentatives de chaque variable de la classe.

Par exemple, chaque classe de la répartition optimale est associée à la valeur moyenne de l'ensemble des grandeurs représentatives des sommets que comporte la classe considérée. La valeur moyenne est, par exemple, une valeur moyenne arithmétique, une valeur moyenne géométrique ou une valeur moyenne pondérée par des coefficients liés à l'intensité des corrélations entre les sommets considérés.De préférence, la fonction est une fonction linéaire.

Selon un autre mode de réalisation, il est également possible de mettre en œuvre de la régression pour modéliser la grandeur représentative à partir des classes de variables elles-mêmes et de sélectionner les classes ou les variables les plus significatives dans le modèle.

Cela permet de faciliter l'exploitation de la répartition optimale et du graphe optimal obtenus à l'issue de la mise en œuvre du procédé d'identification d'une relation.

En outre, cela rend également le procédé d'identification d'une relation exploitable pour la mise en œuvre d'autres procédés illustrés en référence aux ordinogrammes des figures 7, 8 et 9.

De tels procédés peuvent également être mis en œuvre à l'aide du système 10 proposé à la figure 1 pourvu d'adapter les instructions de programme du produit programme d'ordinateur pour que, lorsque le programme d'ordinateur est mis en œuvre sur l'unité de traitement des données, le programme d'ordinateur entraîne la mise en œuvre du procédé considéré.

Parmi les procédés proposés, en référence à la figure 7, il est considéré un procédé d'identification d'une cible thérapeutique pour la prévention et/ou le traitement d'une pathologie. Un tel procédé d'identification d'une cible thérapeutique exploite le fait que le procédé d'identification d'une relation permet notamment d'identifier, parmi plusieurs milliers de gènes, d'ARN ou de protéines par exemple, ceux qui sont exprimés de façon différentielle entre un tissu sain et un tissu malade et donc impliqués dans le développement d'une maladie.

Par cible thérapeutique d'une pathologie, il est entendu tout élément biologique sur lequel il est possible d'agir pour prévenir et/ou traiter cette pathologie. La cible thérapeutique peut en particulier être un gène ou un produit de l'expression d'un gène. Par exemple, le produit de l'expression d'un gène est un ARN, en particulier un ARN messager ou une protéine.

Le procédé d'identification d'une cible thérapeutique comporte une première étape 100 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle première étape 100 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1 , comportant des premières classes CI ,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1 , dans lesquelles sont répartis les sommets représentatifs des gènes.

La première étape 100 de mise en œuvre du procédé d'identification d'une cible comporte une sous-étape dans laquelle les premières classes CI , obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe CI , est associée de manière biunivoque à une première valeur Z1 , de la grandeur représentative.

Le procédé d'identification d'une cible thérapeutique comporte également une deuxième étape 1 10 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques ne souffrant pas de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle deuxième étape 1 10 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition R2, comportant des deuxièmes classes C2 j; j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes.

La deuxième étape 1 10 de mise en œuvre du procédé d'identification d'une cible comporte une sous-étape dans laquelle les deuxièmes classes C2 j obtenues dans la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2 j est associée de manière biunivoque à une deuxième valeur Z2 j de la grandeur représentative.

De préférence, les première et deuxième étapes 100 et 1 10 de mise en œuvre du procédé d'identification d'une relation sont mises en œuvre simultanément pour diminuer le temps de mise en œuvre du procédé d'identification d'une cible thérapeutique. Cela est indiqué sur la figure 7 par le fait que les deux étapes 100 et 1 10 de mise en œuvre du procédé d'identification d'une relation se trouvent au même niveau.

Le procédé d'identification d'une cible thérapeutique comporte également une étape 120 de comparaison de la première répartition R1 et la deuxième répartition R2.

Le procédé d'identification d'une cible thérapeutique comporte aussi une étape

130 de sélection comme cible thérapeutique d'un gène ou d'un produit de l'expression du gène. Le gène ou le produit de l'expression du gène est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif du gène dans la première répartition R1 appartient à une première classe C1 i0 où iO désigne le numéro de la classe. Ladite première classe C1 ,0 est associée à une première valeur Z1 i0 . Le sommet représentatif du gène dans la deuxième répartition R1 appartient à une deuxième classe C2 j0 où jO désigne le numéro de la classe. Ladite deuxième classe C2 j0 est associée à une deuxième valeur Z2 j0 . La condition de sélection du gène ou du produit de l'expression du gène est vérifiée lorsque la première valeur Z1 i0 diffère significativement de la deuxième valeur Z2 j0 .

Il est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2 j0 diffère de la première valeur Z1 i0 de plus de 1 % de la première valeur Z1 i0 , de préférence de plus de 5% de la première valeur Z1 i0 et préférentiellement de plus de 10% de la première valeur Z1 i0 .

Le procédé d'identification d'une cible thérapeutique permet notamment de déterminer une cible avec efficacité.

Parmi les procédés proposés, en référence à la figure 8, il est également considéré un procédé d'identification d'un biomarqueur diagnostique, de susceptibilité, pronostique d'une pathologie ou prédictif d'une réponse à un traitement d'une pathologie. Le biomarqueur peut en particulier être un gène ou un produit de l'expression d'un gène. Par exemple, le produit de l'expression d'un gène est un ARN, en particulier un ARN messager ou une protéine.

Le procédé d'identification d'un biomarqueur comporte une première étape 200 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle première étape 200 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1 , comportant des premières classes CI ,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1 , dans lesquelles sont répartis les sommets représentatifs des gènes.

La première étape 200 de mise en œuvre du procédé d'identification d'un biomarqueur comporte une sous-étape dans laquelle les premières classes C1 , obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe C1 , est associée de manière biunivoque à une première valeur Z1 , de la grandeur représentative.

Le procédé d'identification d'un biomarqueur comporte également une deuxième étape 210 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où les éléments physiques sont des gènes, la pluralité d'individus est une pluralité d'individus biologiques ne souffrant pas de la pathologie et la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus. Une telle deuxième étape 210 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition R2, comportant des deuxièmes classes C2 j; j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes.

La deuxième étape 210 de mise en œuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les deuxièmes classes C2 j obtenues dans la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2 est associée de manière biunivoque à une deuxième valeur Z2 de la grandeur représentative.

De préférence, les première et deuxième étapes 200 et 210 de mise en œuvre du procédé d'identification d'une relation sont mises en œuvre simultanément pour diminuer le temps de mise en œuvre du procédé d'identification d'un biomarqueur. Cela est indiqué sur la figure 8 par le fait que les deux étapes 200 et 210 de mise en œuvre du procédé d'identification d'une relation se trouvent au même niveau.

Le procédé d'identification d'un biomarqueur comporte également une étape 220 de comparaison de la première répartition R1 et la deuxième répartition R2.

Le procédé d'identification d'un biomarqueur comporte aussi une étape 230 de sélection comme biomarqueur d'un gène ou d'un produit de l'expression du gène. Le gène ou le produit de l'expression du gène est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif du gène dans la première répartition R1 appartient à une première classe C1 i0 où iO désigne le numéro de la classe. Ladite première classe C1 ,0 est associée à une première valeur Z1 i0 . Le sommet représentatif du gène dans la deuxième répartition R1 appartient à une deuxième classe C2 j0 où jO désigne le numéro de la classe. Ladite deuxième classe C2 j0 est associée à une deuxième valeur Z2 j0 . La condition de sélection du gène ou du produit de l'expression du gène est vérifiée lorsque la première valeur Z1 i0 diffère significativement de la deuxième valeur Z2 j0 .

Il est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2 j0 diffère de la première valeur Z1 i0 de plus de 1 % de la première valeur Z1 i0 , de préférence de plus de 5% de la première valeur Z1 i0 et préférentiellement de plus de 10% de la première valeur Z1 i0 .

Le procédé d'identification d'un biomarqueur permet notamment de déterminer un biomarqueur avec efficacité.

Parmi les procédés proposés, en référence à la figure 9, il est également considéré un procédé de criblage d'un composé utile comme médicament, ayant un effet sur une cible thérapeutique connue, pour la prévention et/ou le traitement d'une pathologie. Un tel procédé de criblage d'un composé exploite le fait que le procédé d'identification d'une relation permet d'identifier, parmi plusieurs milliers de gènes, d'ARN, ou de protéines par exemple, ceux qui sont exprimés de façon différentielle en présence ou en l'absence d'un composé destiné à traiter une maladie.

Le procédé d'identification de criblage comporte une première étape 300 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où la pluralité d'individus est une pluralité d'individus biologiques souffrant de la pathologie et ayant reçu le composé, la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus et les données comprennent la grandeur représentative de la cible thérapeutique connue. Selon les cas, la cible thérapeutique peut être un gène ou un produit de l'expression d'un gène. Lorsque la cible thérapeutique est un gène, les éléments physiques sont des gènes. Lorsque la cible thérapeutique est le produit de l'expression d'un gène, les éléments physiques sont le même produit de l'expression d'un gène. A titre d'exemple, lorsque la cible thérapeutique est un ARN, les éléments physiques sont des ARN. Selon un autre exemple, lorsque la cible thérapeutique est une protéine, les éléments physiques sont des protéines.

Une telle première étape 300 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite première répartition R1 , comportant des premières classes CI ,, i étant un entier variant entre 1 et le nombre de classes de la première répartition R1 , dans lesquelles sont répartis les sommets représentatifs des gènes.

La première étape 300 de mise en œuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les premières classes C1 , obtenues dans la première répartition R1 sont ordonnées, afin d'obtenir une première répartition R1 dans laquelle chaque première classe C1 , est associée de manière biunivoque à une première valeur Z1 , de la grandeur représentative.

Le procédé de criblage comporte également une deuxième étape 310 de mise en œuvre du procédé d'identification d'une relation tel que précédemment décrit pour le cas où la pluralité d'individus est une pluralité d'individus biologiques souffrant de ladite pathologie et n'ayant pas reçu ledit composé, la grandeur représentative est la quantification de l'expression d'au moins un gène de la pluralité d'individus et les données comprennent la grandeur représentative de la cible thérapeutique connue. Selon les cas, la cible thérapeutique peut être un gène ou un produit de l'expression d'un gène. Lorsque la cible thérapeutique est un gène, les éléments physiques sont des gènes. Lorsque la cible thérapeutique est le produit de l'expression d'un gène, les éléments physiques sont le même produit de l'expression d'un gène. A titre d'exemple, lorsque la cible thérapeutique est un ARN, les éléments physiques sont des ARN. Selon un autre exemple, lorsque la cible thérapeutique est une protéine, les éléments physiques sont des protéines.

Une telle deuxième étape 310 de mise en œuvre du procédé d'identification d'une relation permet notamment d'obtenir une répartition optimale, dite deuxième répartition R2, comportant des deuxièmes classes C2 j; j étant un entier variant entre 1 et le nombre de classes de la deuxième répartition R2, dans lesquelles sont répartis les sommets représentatifs des gènes.

La deuxième étape 310 de mise en œuvre du procédé d'identification d'une relation comporte une sous-étape dans laquelle les deuxièmes classes C2 obtenues dans la deuxième répartition R2 sont ordonnées, afin d'obtenir une deuxième répartition R2 dans laquelle chaque deuxième classe C2 est associée de manière biunivoque à une deuxième valeur Z2 de la grandeur représentative.

De préférence, les première et deuxième étapes 300 et 310 de mise en œuvre du procédé d'identification d'une relation sont mises en œuvre simultanément pour diminuer le temps de mise en œuvre du procédé de criblage. Cela est indiqué sur la figure 9 par le fait que les deux étapes 300 et 310 de mise en œuvre du procédé d'identification d'une relation se trouvent au même niveau.

Le procédé de criblage comporte également une étape 320 de comparaison de la première répartition R1 et la deuxième répartition R2.

Le procédé de criblage comporte aussi une étape 230 de sélection d'un composé susceptible d'être utilisé comme médicament. Le composé est sélectionné lorsqu'une condition est vérifiée. Le sommet représentatif de la cible thérapeutique connue dans la première répartition R1 appartient à une première classe C1 i0 où iO désigne le numéro de la classe. Ladite première classe C1 i0 est associée à une première valeur Z1 i0 . Le sommet représentatif de la cible thérapeutique connue dans la deuxième répartition R1 appartient à une deuxième classe C2 j0 où jO désigne le numéro de la classe. Ladite deuxième classe C2 j0 est associée à une deuxième valeur Z2 j0 . La condition de sélection du composé est vérifiée lorsque la première valeur Z1 i0 diffère significativement de la deuxième valeur Z2 j0 .

II est entendu par l'expression « diffèrent significativement » que la deuxième valeur Z2 j0 diffère de la première valeur Z1 i0 de plus de 1 % de la première valeur Z1 i0 , de préférence de plus de 5% de la première valeur Z1 i0 et préférentiellement de plus de 10% de la première valeur Z1 i0 .

Le procédé de criblage permet notamment de cribler un composé susceptible d'être utilisé comme médicament avec efficacité. Chacun des procédés proposés peut être mis en l'œuvre à l'aide d'un ordinateur quelconque ou tout autre type de dispositif. De multiples systèmes peuvent être utilisés avec des programmes mettant en œuvre les procédés précédents mais il est également envisageable d'utiliser des appareils dédiés à la mise en œuvre des procédés précédents, ceux-ci pouvant s'insérer dans les dispositifs propres à mesurer les données fournies. De plus, les modes de réalisation proposés ne sont pas reliés à un langage de programmation particulier. Incidemment, cela implique que de multiples langage de programmation peuvent être utilisés pour mettre en œuvre un des procédés précédemment détaillés.

Les procédés et modes de réalisations décrits ci-dessus sont aptes à être combinés les uns aux autres, totalement ou partiellement, pour donner lieu à d'autres modes de réalisation de l'invention.