Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
METHOD, COMPUTER PROGRAM WITH PROGRAM CODE ELEMENTS AND COMPUTER PROGRAM PRODUCT FOR ANALYSING A REGULATORY GENETIC NETWORK OF A CELL
Document Type and Number:
WIPO Patent Application WO/2005/003368
Kind Code:
A2
Abstract:
The invention relates to an analysis of a regulatory genetic network of a cell using a causal network. According to said analysis method, a gene expression rate is predefined for a selected gene of the regulatory genetic network. The causal network is used to generate a resultant gene expression pattern relating to the regulatory genetic network for the predefined gene expression rate. The generated resultant gene expression pattern is subsequently compared with a predefined gene expression pattern of the regulatory genetic network.

Inventors:
STETTER MARTIN (DE)
DEJORI MATHAEUS (DE)
Application Number:
PCT/EP2004/051266
Publication Date:
January 13, 2005
Filing Date:
June 28, 2004
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
SIEMENS AG (DE)
STETTER MARTIN (DE)
DEJORI MATHAEUS (DE)
International Classes:
G16B5/20; G16B25/10; (IPC1-7): C12Q/
Other References:
M. DEJORI, M. STETTER: "Estimation of oncogenes by Bayesian inverse modeling of gene-expression patterns"[Online] XP002320818 Abstract of poster, ISMB 2003, Brisbane, Australia, June 29 - July 3, 2003 Gefunden im Internet: URL:www.iscb.org/ismb2003/posters/mathaeus .dejori.externalATmchp.siemens.de_109.html >
M. DEJORI: "Analyzing gene-expression data with Bayesian networks"[Online] XP002320819 Master Thesis, Graz, June 2002 Gefunden im Internet: URL:http://genome.tugraz.at/Theses/Dejori2 002.pdf>
FRIEDMAN N ET AL: "Using bayesian networks to analyze expression data" JOURNAL OF COMPUTATIONAL BIOLOGY, MARY ANN LIEBERT, LARCHMONT, NY, US, Bd. 7, Nr. 3/4, 2000, Seiten 601-620, XP002963504 ISSN: 1066-5277
YOO C ET AL: "Discovery of causal relationships in a gene-regulation pathway from a mixture of experimental and observational DNA microarray data." PACIFIC SYMPOSIUM ON BIOCOMPUTING. PACIFIC SYMPOSIUM ON BIOCOMPUTING, 2002, Seiten 498-509, XP002320820
Attorney, Agent or Firm:
SIEMENS AKTIENGESELLSCHAFT (München, DE)
Download PDF:
Claims:
Patentansprüche
1. Verfahren zur Analyse eines regulatorischen genetischen Netzwerks einer Zelle unter Verwendung eines kausalen Netzes, welches kausale Netz das regulatorische genetische Netzwerk der Zelle beschreibt derart, dass Knoten des kausalen Netzes Gene des regulatorischen genetischen Netzwerks repräsentieren und Kanten des kausalen Netzes regulatorische Wechselwirkun gen zwischen den Genen des regulatorischen genetischen Netz werks repräsentieren, a) bei dem für ein ausgewähltes Gen des regulatorischen ge netischen Netzwerks eine GenExpressionsrate vorgegeben wird, b) bei dem unter Verwendung des kausalen Netzes für die vor gegebene GenExpressionsrate ein resultierendes Gen Expressionsmuster für das regulatorische genetische Netz werk generiert wird ; c) bei dem das generierte resultierende Gen Expressionsmuster mit einem vorgegebenen Gen Expressionsmuster des regulatorischen genetischen Netz werks verglichen wird.
2. Verfahren nach Anspruch 1, bei dem das ausgewählte Gen unter Verwendung des kausalen Netzes mittels einer Abhängigkeitsanalyse ausgewählt wird.
3. Verfahren nach einem der vorangehenden Ansprüche, bei dem die GenExpressionsrate des ausgewählten Genes derart vorgegeben wird, dass die vorgegebene GenExpressrate des ausgewählten Genes eine Annahme eines Gendefekts widerspie gelt.
4. Verfahren nach einem der vorangehenden Ansprüche, bei dem das kausales Netz ein Bayesianisches Netz ist.
5. Verfahren nach einem der vorangehenden Ansprüche, bei dem das kausale Netz von einem Typ DAG (directed acylic graph) ist.
6. Verfahren nach einem der vorangehenden Ansprüche, bei dem das generierte resultierende und/oder das vorgegebene GenExpressionsmuster diskrete Genzustände repräsentiert.
7. Verfahren nach einem der vorangehenden Ansprüche, bei dem die repräsentierten diskreten Genzustände ein über, ein normal, ein unterexprimierten Genzustand sind.
8. Verfahren nach einem der vorangehenden Ansprüche, bei dem der Vergleich des generierten resultierenden Gen Expressionsmuster mit dem vorgegebenen GenExpressionsmuster unter Verwendung eines statischen Verfahrens und/oder einer statistischen Kennzahl, insbesondere eines Abstandsmaßes, durchgeführt wird.
9. Verfahren nach einem der vorangehenden Ansprüche, bei dem das kausales Netz unter Verwendung von Gen Expressionsmustern trainiert wird, wobei die Knoten und die Kanten des kausalen Netzes angepasst werden.
10. Verfahren nach einem der vorangehenden Ansprüche, bei dem die GenExpressionsmuster, insbesondere das vorgege bene GenExpressionsmuster und/oder die GenExpressionsmuster für das Training, bestimmt werden unter Verwendung einer DNA MicroArrayTechnik.
11. Verfahren nach einem der vorangehenden Ansprüche, bei dem das vorgegebene GenExpressionsmuster und/oder die GenExpressionsmuster für das Training GenExpressionsmuster eines genetischen regulatorischen Netzwerks einer kranken Zelle ist.
12. Verfahren nach einem der vorangehenden Ansprüche, bei dem die kranke Zelle eine OnkoZelle, insbesondere eine OnkoZelle mit ALL (Akute lymphoblastische Leukämie) ist.
13. Verfahren nach einem der vorangehenden Ansprüche, bei dem die kranke Zelle ein OnkoGen, insbesondere ein ALL OnkoGen, aufweist.
14. Verfahren nach einem der vorangehenden Ansprüche, bei dem für eine Vielzahl von ausgewählten Genen des regula torischen genetischen Netzwerks jeweils eine Gen Expressionsrate vorgegeben wird, eine Vielzahl von resultie renden GenExpressionsmustern generiert werden und eine Viel zahl von Vergleichen durchgeführt werden.
15. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Generierung der Vielzahl von resultierenden Gen Expressionsmustern iterativ durchgeführt wird.
16. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung eines dominanten Gens.
17. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung eines degenerier ten/mutierten/kranken/onkogenen/tumorsuppressor Gens.
18. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Identifizierung einer Tumorzelle.
19. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zur Krebserkennung.
20. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Ursachenanalyse für ein abnormales Gen Expressionsmuster/GenExpressrate.
21. Verfahren nach einem der vorangehenden Ansprüche, eingesetzt zu einer Simulation und/oder Analyse einer Wirk weise eines Medikaments.
22. Computerprogramm mit ProgrammcodeMitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
23. Computerprogramm mit ProgrammcodeMitteln gemäß dem vo rangehenden Anspruch, welche ProgrammcodeMitteln auf einem computerlesbaren Datenträger gespeichert sind.
24. ComputerprogrammProdukt mit auf einem maschinenlesbaren Träger gespeicherten ProgrammcodeMitteln, um alle Schritte gemäß Anspruch 1 durchzuführen, wenn das Programm auf einem Computer ausgeführt wird.
Description:
Beschreibung Verfahren, Computerprogramm mit Programmcode-Mitteln und Com- puterprogramm-Produkt zur Analyse eines regulatorischen gene- tischen Netzwerks einer Zelle Die Erfindung betrifft eine Analyse eines regulatorischen ge- netischen Netzwerks einer Zelle unter Verwendung eines sta- tistischen Verfahrens.

Aus [1] sind Grundlagen eines regulatorischen genetischen Netzwerks einer Zelle bekannt. Unter einem solchen regulato- rischen genetischen Netzwerk seien dabei im Folgenden insbe- sondere regulatorische Wechselwirkungen zwischen Genen einer Zelle verstanden.

Ein Genom, d. h. die menschliche Erbsubstanz, umfasst schät- zungsweise 20.000 bis 40.000 Gene, von denen jeweils eine biologisch bestimmte Anzahl-abhängig von einer Spezialisie- rung einer Zelle-in Form einer DNA oder eines Teils einer DNA in einer Zelle vorhanden sind.

Als ein Gen wird dabei ein nicht notwendigerweise zusammen- hängender Abschnitt dieser DNA bezeichnet, der einen geneti- schen Code für ein Protein oder auch für eine Gruppe von Pro- teinen (Eiweißstoffe) bzw. für eine Erzeugung eines Proteins oder einer Proteingruppe enthält. Insgesamt beinhalten die Gene einen genetischen Code für etwa eine Million Proteine.

Ein Wechselspiel bzw. die Wechselwirkungen der Gene unterein- ander sowie mit den Proteinen stellt den wichtigsten Teil ei- ner Maschinerie (regulatorisches genetisches Netzwerk) dar, die einer Entwicklung eines menschlichen Körpers aus einer befruchteten Eizelle sowie allen Körperfunktionen zugrunde liegt.

Auch aus [1] ist bekannt, dass sogenannte Gen- Expressionsraten, welche ein Gen-Expressionsmuster bilden, eine Beschreibung bzw. Repräsentation eines regulatorischen genetischen Netzwerks bzw. eines aktuellen Zustands des regu- latorischen genetischen Netzwerks liefern.

Vereinfacht oder anschaulich ausgedrückt repräsentiert somit ein Gen-Expressionsmuster einer Zelle einen Zustand des regu- latorischen genetischen Netzwerks dieser Zelle.

Ferner ist bekannt, dass unter Verwendung von Hochdurchsatz- Genexpressions-Messungen (Microarray-Daten) diese Gen- Expressionsraten messbar sind. Die Microarray-Daten beschrei- ben wiederum Momentaufnahmen des Gen-Expressionsmusters.

Viele Krankheiten und Fehlfunktionen des Körpers gehen auf Störungen des regulatorischen genetischen Netzwerks zurück, welche sich in eine stark veränderten Gen- Expressionsverhalten (Gen-Expressionsraten) bzw. einem verän- derten Gen-Expressmuster einer Zelle widerspiegeln.

Somit stellt ein Verständnis des regulierenden genetischen Netzwerks einen wichtigen Schritt auf dem Weg zu einer Cha- rakterisierung und einem Verstehen von genetischen Mechanis- men sowie in weiterer Folge zu einer Identifizierung von so- genannten dominanten oder Funktionsstörungen auslösenden Ge- nen dar, welche den Krankheiten oder Fehlfunktionen zugrunde liegen.

Beispielsweise kann in einer Krebsforschung, bei der die I- dentifizierung von Geschwülste und Tumore unterdrückenden Ge- nen eine Schlüsselrolle spielt, die Kenntnis neuer potenziel- ler Onkogene und ihre Wechselwirkung mit anderen Genen ein Beitrag zu einer Aufdeckung von Grundprinzipien (von Krebser- krankungen) sein, welche ein Umwandlung normaler Zellen in bösartige Krebszellen bestimmen.

Weitergehend ist für eine Entwicklung von verbesserten Medi- kamenten und Therapien zur Bekämpfung von genetischen Krank- heiten daher ebenfalls ein quantitatives Verständnis des re- gulatorischen genetischen Netzwerks einer Zelle erforderlich.

So wirken einige Medikamente als Agonisten bzw. Antagonisten spezifischer Zielproteine, d. h. sie verstärken oder schwä- chen die Funktion eines Proteins mit entsprechender Rückwir- kung auf das regulatorische genetische Netzwerk mit dem Ziel, dieses zurück in einen normalen Funktionsmodus zu bringen.

Aus [2] ist eine Beschreibung eines regulatorischen geneti- schen Netzwerks einer Zelle unter Verwendung eines statisti- schen Verfahrens, eines kausalen Netzes, bekannt.

Aus [3] ist ein kausales Netz, ein Bayesianisches (Bayess- ches) Netzwerk, bekannt.

Bayessche Netzwerke Ein Bayessches Netzwerk B ist ein spezieller Typ der Darstel- lung einer gemeinsamen multivariaten Wahrscheinlichkeitsdich- tefunktion (WDF) einer Menge von Variablen X durch ein gra- phisches Modell.

Es ist durch einen gerichteten azyklischen Graphen (directed acyclic graph, DAG) G definiert, in welchem jeder Knoten i = 1,..., n einer Zufallsvariablen Xi entspricht.

Die Kanten zwischen den Knoten repräsentieren statistische Abhängigkeiten und können als Kausalzusammenhänge zwischen ihnen interpretiert werden. Der zweite Bestandteil des Bay-

esschen Netzwerkes ist die Menge von bedingten WDFen P (XilPai, 0, G), welche mittels eines Vektors 0 parametriert sind.

Diese bedingten WDFen spezifizieren die Art der Abhängigkei- ten der einzelnen Variablen i von der Menge ihrer Elternkno- ten (Parents) Pai. Somit kann die gemeinsame WDF in die Pro- duktform _ 2 ; 25 v KiiBç. < Be > 12 : e 3w3 52 g Aa 3 18 aX E 9>,. (1) i. s : S : , : s e2 v : : : 34, ß, » >2 s S5 s iS BS'0 3 ; ; C-« 3-s s 3 ; 2 3 s | R Bs 3 > 02 ss R ; ; iR ; S ; 4 7 ; 2 s ; i 3 zerlegt werden.

Der DAG eines Bayesschen Netzwerkes beschreibt auf eindeutige Weise die bedingten Abhängigkeits-und Unabhängigkeitsbezie- hungen zwischen einer Menge von Variablen, jedoch hat im Ge- gensatz dazu eine gegebene statistische Struktur der WDF kei- nen eindeutigen DAG zur Folge.

Vielmehr kann gezeigt werden, dass zwei DAG ein und dieselbe WDF beschreiben, dann und nur dann, wenn sie dieselbe Menge von Kanten und dieselbe Menge von"Colliders"aufweisen, wo- bei ein Collider eine Konstellation ist, in welcher wenigs- tens zwei gerichtete Kanten zu demselben Knoten führen.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren an- zugeben, welches eine Analyse eines regulatorischen geneti- schen Netzwerks einer Zelle, beispielsweise repräsentiert durch ein Gen-Expressionsmuster der Zelle, ermöglicht.

Ferner liegt der Erfindung die Aufgabe zugrunde, ein Verfah- ren anzugeben, welches eine Identifikation eines defekten

Gens, beispielsweise eines Onko-oder Tumor-Gens, in dem re- gulatorischen genetischen Netzwerk einer Zelle ermöglicht.

Weiter soll die Erfindung eine Simulation und/oder eine Ana- lyse einer Wirkweise eines Medikaments auf das regulatorische genetische Netzwerk einer Zelle ermöglichen.

Diese Aufgabe wird durch das Verfahren, durch das Computer- programm mit Programmcode-Mitteln und das Computerprogramm- Produkt zur Analyse eines regulatorischen genetischen Netz- werks einer Zelle mit den Merkmalen gemäß dem jeweiligen un- abhängigen Patentanspruch gelöst.

Bei dem grundlegenden Verfahren zur Analyse eines regulatori- schen genetischen Netzwerks einer Zelle wird ein kausales Netz verwendet, - welches kausale Netz das regulatorische genetische Netz- werk der Zelle beschreibt derart, dass Knoten des kausalen Netzes Gene des regulatorischen genetischen Netzwerks rep- räsentieren und Kanten des kausalen Netzes regulatorische Wechselwirkungen zwischen den Genen des regulatorischen genetischen Netzwerks repräsentieren.

Bei dem Analyseverfahren wird nun für ein ausgewähltes Gen des regulatorischen genetischen Netzwerks eine Gen- Expressionsrate vorgegeben. Unter Verwendung des kausalen Netzes wird für die vorgegebene Gen-Expressionsrate ein re- sultierendes Gen-Expressionsmuster für das regulatorische ge- netische Netzwerk generiert. Das generierte resultierende Gen-Expressionsmuster wird anschließend mit einem vorgegebe- nen Gen-Expressionsmuster des regulatorischen genetischen Netzwerks verglichen.

Das Computerprogramm mit Programmcode-Mitteln ist eingerich- tet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren

durchzuführen, wenn das Programm auf einem Computer ausge- führt wird.

Das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Programmcode-Mitteln ist eingerichtet, um alle Schritte gemäß dem erfindungsgemäßen Verfahren durch- zuführen, wenn das Programm auf einem Computer ausgeführt wird.

Die Anordnung sowie das Computerprogramm mit Programmcode- Mitteln, eingerichtet um alle Schritte gemäß dem erfinderi- schen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sowie das Computerprogramm-Produkt mit auf einem maschinenlesbaren Träger gespeicherten Pro- grammcode-Mitteln, eingerichtet um alle Schritte gemäß dem erfinderischen Verfahren durchzuführen, wenn das Programm auf einem Computer ausgeführt wird, sind insbesondere geeignet zur Durchführung des erfindungsgemäßen Verfahrens oder einer seiner nachfolgend erläuterten Weiterbildungen.

Eine probabilistische Semantik eines kausalen Netzes, wie ei- nes Bayesschen Netzwerkes, ist zur Analyse von Gen- Expressionsraten, beispielsweise gegeben in Form von Microar- ray-Daten, sehr gut geeignet, da sie an die stochastische Na- tur sowohl von biologischen Prozesse als auch von mit einem Rauschen behafteten Experimente angepasst ist.

Ferner wird, anschaulich gesehen, ein Effekt eines Expressi- onszustandes bestimmter Gene auf ein globales Gen- Expressionsmuster (inverse Modellierung) geschätzt, indem ein resultierendes Gen-Expressionsmuster analysiert wird.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Die im weiteren beschriebenen Weiterbildungen beziehen sich sowohl auf die Verfahren als auch auf die Anordnung.

Die Erfindung und die im weiteren beschriebenen Weiterbildun- gen können sowohl in Software als auch in Hardware, bei- spielsweise unter Verwendung einer speziellen elektrischen Schaltung, realisiert werden.

Ferner ist eine Realisierung der Erfindung oder einer im wei- teren beschriebenen Weiterbildung möglich durch ein computer- lesbares Speichermedium, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.

Auch kann die Erfindung oder jede im weiteren beschriebene Weiterbildung durch ein Computerprogrammerzeugnis realisiert sein, welches ein Speichermedium aufweist, auf welchem das Computerprogramm mit Programmcode-Mitteln gespeichert ist, welches die Erfindung oder Weiterbildung ausführt.

Bei einer Weiterbildung wird das ausgewählte Gen unter Ver- wendung des kausalen Netzes mittels einer Abhängigkeitsanaly- se ausgewählt.

Auch kann die Gen-Expressionsrate des ausgewählten Genes der- art vorgegeben werden, dass die vorgegebene Gen-Expressrate des ausgewählten Genes eine Annahme eines Gendefekts wider- spiegelt.

Als kausales Netz kann ein Bayesianisches bzw. Bayessches Netz verwendet werden.

Auch kann das kausale Netz von einem Typ DAG (directed acylic graph) sein.

Ferner kann bzw. können das generierte resultierende und/oder das vorgegebene Gen-Expressionsmuster diskrete Genzustände repräsentieren, wobei die repräsentierten diskreten Gen- zustände ein über-, ein normal-, ein unterexprimierten Gen- zustand sein können.

Bei einer Weiterbildung wird der Vergleich des generierten resultierenden Gen-Expressionsmuster mit dem vorgegebenen Gen-Expressionsmuster unter Verwendung eines statischen Ver- fahrens und/oder einer statistischen Kennzahl, insbesondere eines Abstandsmaßes, durchgeführt.

Auch kann vorgesehen werden, dass das kausale Netz unter Ver- wendung von Gen-Expressionsmustern trainiert wird, wobei die Knoten und die Kanten des kausalen Netzes angepasst werden.

Ferner ist es zweckmäßig, dass die Gen-Expressionsmuster, insbesondere das vorgegebene Gen-Expressionsmuster und/oder die Gen-Expressionsmuster für das Training, bestimmt werden unter Verwendung einer DNA-Micro-Array-Technik.

Bei einer Ausgestaltung ist das vorgegebene Gen- Expressionsmuster und/oder die Gen-Expressionsmuster für das Training ein Gen-Expressionsmuster eines genetischen regula- torischen Netzwerks einer kranken Zelle.

Dabei kann beispielsweise die kranke Zelle eine Onko-Zelle sein, insbesondere eine Onko-Zelle mit ALL (Akute lymphoblastische Leukämie).

Ferner kann auch die kranke Zelle ein Onko-Gen, insbesondere ein ALL-Onko-Gen, aufweisen.

Auch kann für eine Vielzahl von ausgewählten Genen des regu- latorischen genetischen Netzwerks jeweils eine Gen- Expressionsrate vorgegeben werden, eine Vielzahl von resul- tierenden Gen-Expressionsmustern generiert werden und/oder eine Vielzahl von Vergleichen durchgeführt werden.

Bei einer Weiterbildung wird die Generierung der Vielzahl von resultierenden Gen-Expressionsmustern iterativ durchgeführt.

Ferner eignet sich die erfinderische Vorgehensweise oder Wei- terbildung davon insbesondere zur Identifizierung eines domi- nanten Gens und/oder eines degenerier- ten/mutierten/kranken/onkogenen/Tumor-suppressor Gens.

Auch eignet sie sich zur Identifizierung einer Tumorzelle, beispielsweise im Zusammenhang mit einer Krebserkennung.

Ferner ist die erfinderische Vorgehensweise insbesondere ge- eignet zu einer Ursachenanalyse für ein abnormales Gen- Expressionsmuster/Gen-Expressrate.

Auch kann sie eingesetzt werden zu einer Simulation und/oder Analyse einer Wirkweise eines Medikaments.

In Figuren ist ein Ausführungsbeispiel der Erfindung darge- stellt, welches im weiteren näher erläutert wird.

Es zeigen Figur 1 eine Skizze einer Vorgehensweise bei der Untersuchung genetisch bedingter Krankheitsursachen durch Bayess- che inverse Modellierung am Beispiel einer Krebser- krankung ; Figur 2 eine Skizze mit einem Algorithmus zur Erzeugung eines Datensatzes von N Stichproben gemäß einem Ausfüh- rungsbeispiel ;

Figur 3 eine Skizze für eine Vorgehensweise zur Erzeugung von Datensätze, welche eine Auswirkung von verschiedenen Beobachtungen widerspiegeln gemäß einem Ausführungs- beispiel ; Figuren 4a und b Skizzen die zeigen, dass durch eine Stichprobenentnahme gewonnene Daten Untertyp- charakteristische Expressionsmuster zeigen wie auch in einem ursprünglichen Datensatz ; Figur 5 eine Skizze, die graphisch zeigt eine Wahrscheinlich- keit jedes Untertyps unter einer Bedingung, dass ein Gen überexprimiert ist, für alle 271 Gene ; Figur 6 eine Skizze einer Graphenstruktur eines kausalen Netzwerks, welches ein regulatorisches genetisches Netzwerk repräsentiert.

Ausführungsbeispiel : Untersuchung genetisch bedingter Krank- heitsursachen durch Bayessche inverse Modellierung am Bei- spiel einer Krebserkrankung (insb. Fig. 1) Überblick über die Vorgehendweise-Bayessche inverse Model- lierung (BIM) Auf vielen Gebieten der empirischen Forschung möchte man aus der Beobachtung von Versuchsergebnissen auf das zugrundelie- gende Prinzip und dessen Ursprung schließen-die Beziehung zwischen"Ursache"und"Wirkung".

Zum Beispiel wird in der Krebsforschung das zugrundeliegende Prinzip studiert, welches bewirkt, dass sich eine normale Zelle in eine bösartige, schnell wachsende Krebszelle verwan- delt.

Die Auswirkung der verschiedenen Arten des Krebses ist be- kannt, z. B. das allgemeine Erscheinungsbild einer Krebszelle im Vergleich zu einer normalen Zelle, gemessen mit Hilfe von Microarray-Chips.

Dagegen ist die Ursache ihrer Entstehung größtenteils unbe- kannt.

Aufgrund der Einsicht, dass Krebs eine genetische Krankheit ist und dass er auf eine Abweichung des Verhaltens der Zellen zurückzuführen ist, konzentriert sich die Forschung auf die Aufdeckung der genetischen Prinzipien, die für die Entwick- lung des Krebses verantwortlich sind.

Eine wichtige Aufgabe in diesem Umfeld ist es, Gene zu iden- tifizieren, welche bei der Tumorgenese eine Rolle spielen können, wie etwa Geschwülste und Tumore unterdrückende Gene.

Nachfolgend wird eine Vorgehensweise beschrieben, mit der es möglich ist, Gene zu identifizieren, die eine potenzielle Ur- sache für die Tumorgenese sind.

Ein Element der Vorgehensweise ist ein statistisches Verfah- ren, in diesem Fall ein Bayesianisches (Bayessches) Netzwerk [3] (siehe obige und nachfolgende Ausführungen dazu), welches aus einem Microarray-Datensatz [1] gelernt wird [2] (siehe nachfolgend dazu"Strukturelles zernen'") (vgl. Fig. 1).

Dabei wird angenommen, dass die Menge der gemessenen Gen- expressionsvektoren X einer Grundgesamtheit mit einer hochdi- mensionalen multivariaten Wahrscheinlichkeitsdichtefunktion angehört, welche mit Hilfe eines Bayesschen Netzwerkes mit adaptiver Netzwerkstruktur modelliert wird.

Die Zusammenhänge zwischen den Variablen, nämlich die beding- ten Abhängigkeiten und Unabhängigkeiten, werden mittels eines gerichteten azyklischen Graphen (directed acyclic graph, DAG) G dargestellt.

Die probabilistische Semantik eines Bayesschen Netzwerkes ist zur Analyse von Microarray-Daten sehr gut geeignet, da sie an die stochastische Natur sowohl der biologischen Prozesse als auch der mit einem Rauschen behafteten Experimente angepasst ist.

Bei der nachfolgend beschriebenen Vorgehensweise wird das ge- lernte Bayessche Netzwerk als ein generatives Modell zur Stichprobenentnahme von künstlichen Microarray-Datensätzen verwenden, welches die Dichteschätzung der gelernten beding- ten Wahrscheinlichkeitsverteilungen liefert (vgl. Fig. 1, Schritte 110-130).

Weiter wird der Effekt des Expressionszustandes bestimmter Gene auf das globale Expressionsmuster (inverse Modellierung) geschätzt, indem ein resultierende Datensatz analysiert wird (vgl. Fig. 1 Schritte 110-130).

Auch wird bei der nachfolgend beschriebenen Vorgehensweise jedem Gen seine Wahrscheinlichkeit zugeordnet, mit der es die Ursache eines dieser Zellzustände ist.

Dazu werden diese Datensätze mit aus Microarray- Untersuchungen von verschiedenen bekannten Zellzuständen er- haltenen Daten verglichen (vgl. Fig. 1, Schritt 130).

Anschaulich gesehen, konzentriert sich die Vorgehensweise nicht explizit auf die Struktur des Netzwerkes, sondern viel- mehr auf die Wahrscheinlichkeitsverteilung, die durch das ge- lernte Bayessche Netzwerk abgeleitet wird.

Schließlich wird die Vorgehensweise auf Microarray-Daten von verschiedenen Untertypen von pädiatrischer akuter Lymphoblasten-Leukämie (ALL) von Yeoh et al. [4] angewendet.

Durch den Vergleich der künstlichen Daten mit Expressionsmus- tern von spezifischen Krebs-Untertypen erhält man ein Wahr- scheinlichkeitsmaß des krankheitserzeugenden Verhaltens jedes Gens (vgl. Fig. 1, Schritt 130).

Ergebnisse der angewendeten Vorgehensweise zeigen, dass diese in Verbindung mit der Bayesschen inversen Modellierung (BIM) es ermöglicht, die Auswirkung von pathogenetisch veränderten Expressionsniveaus auf das globale Expressionsmuster vorher- zusagen, wobei bereits bekannte Onkogene ebenso wie poten- ziell neue gefunden werden.

Bayessche Netzwerke Im Obigen wurden bereits Grundlagen von Bayesschen Netzen [3] beschrieben.

Im Falle der Modellierung eines regulierenden genetischen Netzwerkes durch ein Bayessches Netzwerk werden Gene bzw. ih- re entsprechenden Proteine durch Knoten symbolisiert.

Regelungsmechanismen werden durch Kanten zwischen zwei Knoten beschrieben, welche auf eine kausale Art und Weise interpre- tiert werden können.

Die Qualität der Regulierung ist in der bedingten Wahrschein- lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- latoren desselben codiert.

Strukturelles Lernen Der Vorgang des strukturellen Lernens kann wie folgt be- schrieben werden : Sei D = {dl, d2,..., dN} ein Datensatz von N unabhängigen Be- obachtungen, wobei jeder Datenpunkt ein n-dimensionaler Vek- tor mit Komponenten dl = {dll, dl2,..., dln} ist. Bei gegebe- nem D ist die Struktur G des Bayesschen Netzwerkes zu finden, welche am besten mit D übereinstimmt, d. h. welche die Bayes- Punktbewertung (Bayes-Score) (2) t ; 4 a I-- : ; : maximiert, wobei P (DIG) die Randwahrscheinlichkeit, P (G) die Apriori-Wahrscheinlichkeit der Struktur und P (D) die Evidenz ist.

Da sowohl die Apriori-Wahrscheinlichkeit als auch die Evidenz unbekannt sind, reduziert sich das Problem auf das Ermitteln der Struktur mit der besten Randwahrscheinlichkeit entspre- chend den Daten (Heckerman et al. [5]).

Wenn der Datensatz D aus N Microarray-Experimenten besteht, z. B. aus Zellproben von unterschiedlichen Patienten, reprä- sentiert jeder Datenvektor {dll, dl2,..., dl"} das Expressi- onsprofil von n Genen in einem Microarray-Experiment.

Ein aus solchen Daten gelerntes Bayessches Netzwerk codiert die Wahrscheinlichkeitsverteilung von n Genen, die aus diesen N Microarray-Experimenten erhalten wurden.

Bayessche inverse Modellierung (BIM) Generatives Modell Ein gelerntes (siehe obige Ausführungen zu"Strukturelles Lernen") Bayessches Netzwerk B stellt eine Dichte- Schätzfunktion dar, welche die Wahrscheinlichkeitsverteilung des Datensatzes D, von dem ausgehend es gelernt wurde, mit Hilfe der Menge der bedingten WDFen widerspiegelt.

Somit kann es als ein generatives Modell zur Erzeugung eines Datensatzes DB verwendet werden, welcher die aus D erhaltene Dichteverteilung widerspiegelt.

Fig. 2 zeigt einen Algorithmus 200 zur Erzeugung eines Daten- satzes von N Stichproben aus B.

Der erste Schritt 210 des Algorithmus 200 besteht darin, alle Variablen so zu ordnen, dass die Parents (Elternknoten) Pa vor Xi instantiiert werden.

Anschließend werden die Variablen entsprechend der Ordnung gewählt und mit einem Wert instantiiert 220.

Der Wert jeder Variablen wird mit Wahrscheinlichkeit P (ZustandlPai) gewählt. Dieser Schritt wird wiederholt 230, bis N Stichproben erzeugt sind.

Probabilistische Interferenz Ein wesentliches Problem in Bayesschen Netzwerken ist die E- videnz-Fortpflanzung, das heißt, die Ermittlung der Aposteri- ori-Verteilungen P (Xg) E) einer Abfragevariablen Xg, wenn eine gewisse Evidenz E im Bayesschen Netzwerk beobachtet worden ist.

Aufgrund der Definition einer bedingten Wahrscheinlichkeit ist die Aposteriori-Wahrscheinlichkeit . : : wobei XE die Menge der beobachteten Variablen bezeichnet.

Um die Zeitkomplexität zu überwinden, verwenden die verschie- denen Methoden der exakten Interferenzberechnung das allge- meine Prinzip der dynamischen Programmierung.

Im Rahmen dieses Ausführungsbeispiel wird ein einfacher In- terferenzalgorithmus, der"bucket elimination" [6], verwen- det.

Die Grundidee bei diesem Interferenzalgorithmus besteht dar- in, Variablen eine nach der anderen entsprechend einer Elimi- nationsreihenfolge p durch Summieren zu eliminieren.

Auf diese Weise kann P (X. JE) innerhalb einer annehmbaren Zeit effizient berechnet werden.

Interventionelle Modellierung durch Einstellen der Evidenz Bei der Herangehensweise der interventionellen Modellierung wird die Auswirkung einer bestimmten Beobachtung auf das Ver- halten des Bayesschen Netzwerkes unter Verwendung einer Kom- bination von probabilistischer Interferenz und Daten- Stichprobenentnahme geschätzt.

Entsprechend Fig. 3 kann das Bayessche Netzwerk als eine Art Black Box 300 angesehen werden, wobei der Eingang durch eine Menge von Beobachtungen E 310 und die entsprechende Liste von beobachteten Variablen XE 320 gegeben ist.

Der Ausgang, der durch den Datensatz BblE 330 gegeben ist, wird wie im Vorigen zugehörig zu Fig. 2 beschrieben erzeugt.

Zusätzlich ist die beobachtete Evidenz zu berücksichtigen.

Folglich wird jeder Zustand von Xi mit Wahrscheinlichkeit P (ZustandlPas, E) gewählt, welche mittels probabilistischer Interferenz berechnet wird.

Mit beschriebener Vorgehensweise gemäß Fig. 3 können nun un- terschiedliche Datensätze erzeugt werden, welche die Auswir- kung der verschiedenen Beobachtungen widerspiegeln.

Wenn wie nachfolgend beschrieben biologische Auswirkungen a- nalysiert werden, heißt das, dass durch diese Vorgehensweise gemäß Fig. 3 künstliche Microarray-Daten erzeugbar sind, wel- che die Wahrscheinlichkeitsverteilung eines gewissen Daten- satzes widerspiegeln, wenn bestimmte Beobachtungen gegeben sind.

Vergleicht man die künstlich erzeugen Daten mit Daten von be- kannter Herkunft, z. B. mit einer krebsspezifischen Menge von Messdaten, können jene Gene bestimmt werden, welche, wenn sie auf einem gewissen Expressionsniveau fixiert werden, das Mo- dell so beeinflussen, dass die beiden Microarray-Datensätze, der künstliche und der bekannte, dieselben Eigenschaften auf- weisen.

Statistischer Vergleich von Datensätzen Um die Qualität des Einflusses der Evidenz E auf das Verhal- ten des Bayesschen Netzwerkes B zu schätzen, wird der erzeug- te Datensatz DHIE mit einer Menge von Datensätzen D von be- kannten Zuständen S verglichen.

Es wird angenommen, dass D die Auswirkung verschiedener Krebsarten beschreibt. Ausführungsgemäß kann nun das Verhal- ten von Evidenz E in Bezug auf eine bestimmte Krebsart S be- schrieben werden.

Unter Verwendung eines Abstandsmaßes wird die Änderung a der Korrelation zwischen DBIE und Ds infolge von E schätzbar : (4) ^ : :

wobei der Abstand zwischen den zwei Datensätzen mit Hilfe des Abstands zwischen DB, welches aus B ohne Evidenz entnommen wurde, und Ds normiert wurde.

Folglich ist ausführungsgemäß der Einfluss einer beobachteten Evidenz messbar, z. B. der Expressionszustand eines bestimm- ten Gens auf ein für Krebs charakteristisches Verhalten des Modells.

Zweitens ist die Wahrscheinlichkeit dafür berechenbar, dass B einen Datensatz DBIE erzeugt, welcher gleich D5 bei gegebenem E ist.

Zu diesem Zweck wird geschätzt, wie viele Stichproben dl von DBIE am nächsten bei D liegen, indem der Abstand zwischen je- der Stichprobe und jedem Datensatz von D berechnet wird.

Somit erhält man die Aposteriori-Wahrscheinlichkeit P (SIE) des Auftretens der Krebsart S bei gegebener Evidenz E aus : F S'1 _' w g #\u jb wobei NES die Anzahl der Stichproben von DF ; IE ist, welche sta- tistisch dem Datensatz Ds am nächsten kommen, und wobei N die Gesamtzahl der Stichproben von DBIE ist.

Wie bereits im Obigen konstatiert beschäftigt sich die empi- rische Forschung mit der Beziehung zwischen Ursache und Wir- kung, indem sie aus einer experimentellen Beobachtung Rück- schlüsse auf die zugrundeliegende Ursache zieht.

Mit der Herangehensweise der Bayesschen inversen Modellierung gemäß dem Ausführungsbeispiel wird eine zugrundeliegende Ur-

sache geschätzt, indem zuerst eine Wirkung erzeugt wird, die aus einer bekannten Beobachtung hervorgeht.

Nach diesem inversen Schritt wird diese Wirkung mit Wirkungen verglichen, welche wohldefiniert sind, deren Ursache jedoch unbekannt ist.

Die potenzielle Ursache der am besten übereinstimmenden Wir- kung ist dann durch die Beobachtung gegeben, welche die er- zeugte Wirkung hervorruft.

Der ALL-Microarray-Datensatz von Yeoh et al. [4] Die Daten, die für die Analyse gemäß dem Ausführungsbeispiel verwendet werden, bestehen aus 327 Stichproben von verschie- denen Untertypen von pädiatrischer akuter Lymphoblasten- Leukämie (ALL).

Der Datensatz wurde von Yeoh und seinen Kollegen vom St. Jude Children's Research Hospital [4] zusammengestellt.

ALL ist eine heterogene Krankheit, die verschiedene Unterty- pen umfasst, einschließlich sowohl Leukämie vom T-Zelltyp als auch Leukämie vom B-Zelltyp, die sich hinsichtlich ihrer Re- aktion auf eine medizinische Behandlung deutlich unterschei- den.

Abgesehen von T-ALL, deren Ursache noch nicht klar bekannt ist, kann jeder B-Zellen-Untertyp auf eine spezifische gene- tische Veränderung zurückgeführt werden, z. B. auf genetische Translokationen t (9 ; 22) [BCR-ABL], t (1 ; 19) [E2A-PBX1], t (12 ; 21) [TEL-AML1], t (4 ; 11) [HLL] oder auf einen hyper- diploiden Karyotyp [> 50 Chromosomen].

Daher ist es nicht verwunderlich, dass die Expressionsmuster der verschiedenen Untertypen recht deutlich voneinander un- terscheiden.

Ferner zeigen Microarray-Daten noch ein anderes deutliches Expressionsprofil, welches auf die Existenz eines weiteren ALL-Untertyps zusätzlich zu den 6 bekannten hindeutet.

Es soll angemerkt werden, dass Yeoh et al. [4] an einem ro- busten Klassifikator zur Klassifizierung der Untertypen unter Verwendung einer Stützvektor-Maschine mit einem Satz von 271 diskriminierenden Genen arbeitet.

Ergebnisse Gelernte Struktur Für die Analyse gemäß dem Ausführungsbeispiel wird der redu- zierte Datensatz von 271 Genen und 327 Stichproben von ver- schiedenen ALL-Untertypen [4], wie oben beschrieben, verwen- det.

Um den Lernvorgang eines multivariaten Modells durchzuführen, wurde der Datensatz in die Werte"unterexprimiert","normal exprimiert"und"überexprimiert"diskretisiert.

Die gelernte Struktur zeigt"maßstabfreie" (scale-free) Kenn- größen, ein Merkmal, welches für biologische Netze, wie etwa für metabolische Netze oder Signalisierungsnetze, typisch ist.

Solche Netze sind durch eine Potenzverteilung des Grades (Ranges) eines Knotens gekennzeichnet, welcher als die Anzahl der Verbindungen mit anderen Knoten definiert ist.

Diese Knoten besitzen einen starken Einfluss auf die Dynamik und Robustheit von"maßstabfreien"Netzen, und von vielen dieser in starkem Maße verbundenen Gene in unserem Modell ist tatsächlich bekannt, dass sie eine Rolle bei der Onkogenese oder bei mit der Krebsentwicklung zusammenhängenden kriti- schen Prozessen spielen, z. B. DNA-Reparatur.

Zuerst wird nun ein Datensatz von 300 Stichproben aus dem Mo- dell erzeugt, um die Statistiken zu schätzen, die durch die Menge der bedingten Wahrscheinlichkeiten definiert sind.

Fig. 4 zeigt, dass die durch die Stichprobenentnahme gewonne- nen Daten (Fig. 4b) Untertyp-charakteristische Expressionsmus- ter zeigen, so wie dies auch im ursprünglichen Datensatz (Fig. 4a) der Fall ist.

Die Muster einiger Untertypen, wie etwa E2A-PBX1 oder T-ALL, werden sehr gut reproduziert, während einige andere weniger gut generiert werden, z. B. das Muster des Untertyps MLL, o- der völlig verfehlt werden, wie etwa BCR-ABL.

Modellierung von Leukämie-Untertypen durch Intervention Das gelernte Bayessche Netzwerk ist die Ausgangsbasis bei dem Ausführungsbeispiel für die Herangehensweise, mittels inver- ser Modellierung diejenigen Gene zu finden, welche, wenn sie

auf einem bestimmten Expressionsniveau fixiert werden, das Modell so beeinflussen, dass der generierte künstliche Micro- array-Datensatz spezifische Merkmale aufweist.

Wie im Obigen beschrieben wurde, wird die Wahrscheinlichkeit P (CI E) der Erzeugung eines bestimmten Krebs-Untertyps C ge- schätzt, wenn eine gewisse Beobachtung E gegeben ist, in die- sem Falle der Expressionszustand eines bestimmten Gens P (CI Geni=Zustand).

Im Gegensatz zu Yeoh wird nicht nur das Vorliegen eines be- stimmten Krebs-Untertyps vorhergesagt, sondern genetische Me- chanismen, die zu seiner Erzeugung führen.

Eine hohe Wahrscheinlichkeit sagt voraus, dass die fixierten Gene eine potenzielle Ursache für das Untertyp-spezifische Expressionsverhalten der fraglichen Gene ist, welches wieder- um die zugrundeliegende Ursache für ein spezifisches kanzerö- ses Erscheinungsbild sein kann.

Für den Vergleich werden 7 Referenz-Datensätze verwendet, wo- bei jeder von ihnen in Verbindung mit einem spezifischen ALL- Untertyp erhalten wurde.

Fig. 4a zeigt, dass der ursprüngliche Microarray-Datensatz deutlich in 7 Cluster (Punkthaufen) mit unterschiedlichen Stichprobenumfängen unterteilt ist.

Jeder dieser Cluster repräsentiert das Expressionsmuster von 271 Genen, wenn ein bestimmter Leukämie-Untertyp gegeben ist, und wurde verwendet, um den Einfluss einer Evidenz auf das Auftreten dieser verschiedenen ALL-Untertypen zu messen.

In einem ersten Schritt wird jedes Gen bei irgendeinem seiner Expressionswerte fixiert, wobei alle diese Bedingungen ver- wendeten werden, um einen Datensatz von 300 Stichproben zu generieren (Fig. 4b).

Anschließend werden alle diese Daten mit den 7 Referenz- Datensätzen, wie vormals erläutert, verglichen.

In Fig. 5 ist die Wahrscheinlichkeit jedes Untertyps unter der Bedingung, dass ein Gen überexprimiert ist, für alle 271 Gene graphisch dargestellt.

Fig. 5 zeigt, dass eine kleine Anzahl von Genen existiert, welche einen bestimmten ALL-Untertyp mit einer hohen Wahr- scheinlichkeit hervorrufen, wenn sie stark aktiv sind.

Um diese Ergebnisse zu beweisen, wird die molekulare Funktion gewisser Gene und ihre Rolle in biologischen Prozessen, ins- besondere im Hinblick auf die Pathogenese, nachfolgend einge- hender betrachtet.

Biologische Einblicke Dazu werden die Gene näher betrachtet, die mit einer hohen Wahrscheinlichkeit einen bestimmten Untertyp verursachen, so- wie signifikante Strukturmuster in dem gelernten Netzwerk, d. h. dominante Gene und ihre Umgebung.

Das gelernte Bayessche Netzwerk (Modell) resultiert aus einem Microarray-Datensatz von unterschiedlichen Leukämie- Untertypen und spiegelt transskriptionale Beziehungen zwi- schen Genen wider, die in diesen bösartigen Krebszellen auf- treten.

Somit sind Gene, die einen bestimmten Untertyp hervorrufen, entweder potenzielle Onkogene oder werden durch solche Gene reguliert.

Das erste Gen, welches eingehender analysiert wird, ist das Gen PBX1.

Wenn es überexprimiert ist, erzeugt das gelernte Bayessche Netzwerk mit einer Wahrscheinlichkeit von 0,96 einen Daten- satz, welcher für den Untertyp E2A-PBX1 der ALL vom B-Zelltyp charakteristisch ist (siehe Fig. 5).

Dies legt die Vermutung nahe, dass ein kausaler Zusammenhang zwischen der"Überexprimiertheit"dieses Gens und dem Auftre- ten des ALL-Untertyps E2A-PBX1 vorhanden ist.

Und tatsächlich ist PBX1 als ein Protoonkogen bekannt, wel- ches die Verwandlung von normalen Blutzellen in bösartige ALL-Krebszellen verursacht.

Infolge der Chromosomen-Translokation t (1 ; 19) verschmilzt PBX1 mit dem Gen E2A und verwandelt sich in ein potentes On- kogen, welches den Leukämie-Untertyp E2A-PBX1 verursacht.

Da ferner die Graphstruktur des Modells (Fig. 6) auf eine kau- sale Weise interpretiert werden kann, liefert sie Informatio- nen über die Wechselwirkung zwischen potenziellen Onkogenen und anderen Genen, was wiederum als eine onkogene Regelung interpretiert werden kann.

Wenn man die Struktur des Netzwerkes (Fig. 6) betrachtet, so stellt PBX1 ein dominantes Gen dar, indem es viele andere Ge-

ne beeinflusst, jedoch nur von einem oder wenigen anderen Ge- nen reguliert wird.

Zusätzlich identifiziert das Modell aufgrund der bedingten Wahrscheinlichkeitsverteilung PBX1 als einen Transkription- saktivator.

Dies kann ebenfalls durch bekannte biologische Tatsachen er- klärt werden, da PBX1 Gene aktiviert, die normalerweise ent- weder nicht exprimiert oder auf einem niedrigen Niveau expri- miert sind.

Patienten mit einer Hyperdiploidie von > 50 Chromosomen haben Klone von 51-68 Chromosomen. Obwohl hoch hyperdiploide Klone selten identisch sind, neigen sie dazu, ein Muster des Chro- mosomenzuwachses mit zusätzlichen Kopien der Chromosome 4,6, 10,14, 18 und 21 aufzuweisen.

Trisomie und Polysomie 21 sind nicht zufällige Anomalien, welche bei ALL häufig zu beobachten sind. Ihr Auftreten, auch wenn es nicht spezifisch ist, sowie das gehäufte Auftreten von akuter Leukämie bei Subjekten mit konstitutioneller Tri- somie 21 legen die Vermutung nahe, dass das Chromosom 21 eine besondere Rolle bei der Leukämogenese spielt.

Eine andere Krankheit, das Down-Syndrom, wird durch Trisomie 21 verursacht und zeigt ein verstärktes Auftreten von Leukä- mie wie etwa ALL.

Demzufolge ermöglich in diesem Fall die beschriebene Vorge- hensweise gemäß dem Ausführungsbeispiel Gene zu identifizie- ren, die in hohem Maße auf den hyperdiploiden ALL-Untertyp hinweisen, von denen jedoch auch bekannt ist, dass sie eine

wesentliche Rolle bei der Entstehung des Down-Syndroms spie- len.

Das Gen SOD1 befindet sich am Chromosom 21 und produziert ein Enzym, welches superoxidfreie Radikale in Wasserstoffperoxid umwandelt. Die verstärkte Expression bei Trisomie 21, welche auch bei den Microarray-Stichproben von Patienten mit hyper- diploidem Karyotyp zu beobachten ist, kann die Hirnschädigung auslösen, die beim Down-Syndrom zu erkennen ist.

Die Häufigkeit des Auftretens des hyperdiploiden ALL- Untertyps erhöht sich auch in dem Falle, wenn das Gen PSMD10 überexprimiert ist.

PSMD10 ist eine regulierende Unter-Einheit des Proteasoms 26S, von dem nachgewiesen wurde, dass es als ein natürlicher Mechanismus für den Abbau von Proteinen durch Regulierung des Proteinumsatzes in eukaryotischen Zellen wirkt.

Dies ist bei Krebserkrankungen des Menschen von Bedeutung, da der Zellzyklus, das Tumorwachstum und das Überleben durch ei- ne große Vielfalt an intrazellulären Proteinen bestimmt wer- den, welche durch den Ubiquitin-abhängigen Proteasom-Abbauweg geregelt werden, der von PSMD10 beeinflusst wird.

In neueren wissenschaftlichen Arbeiten auf diesem Gebiet wur- de nachgewiesen, dass dieser Abbauweg oft Gegenstand einer mit Krebs zusammenhängenden Deregulierung ist und solchen Prozessen unterliegen kann, wie onkogener Transformation, Tu- morprogression, Umgehung der Immunüberwachung und Arzneimit- telresistenz.

Zusammenfassung des Ausführungsbeispiels

Das beschriebene Ausführungsbeispiel stellt eine neue Vorge- hensweise vor, mit der es möglich ist, Gene, die eine poten- zielle Ursache für eine Tumorgenese sind, durch Analysieren der Zusammenhänge zwischen Microarray-Daten von Leukämie- Untertypen und einem Datensatz, der Ergebnis einer Stichpro- benentnahme aus einem gelernten Bayesschen Netzwerk ist, zu identifizieren.

Basis dieser Vorgehensweise ist die Modellierung eines regu- lierenden genetischen Netzwerkes durch ein Bayessches Netz- werk, wobei Gene bzw. ihre entsprechenden Proteine durch Kno- ten des Bayesschen Netzwerks symbolisiert werden.

Regelungsmechanismen werden durch Kanten zwischen zwei Knoten beschrieben, welche auf eine kausale Art und Weise interpre- tiert werden können.

Die Qualität der Regulierung ist in der bedingten Wahrschein- lichkeitsverteilung des betroffenen Gens bei gegebenen Regu- latoren desselben codiert.

Das Verständnis der regulierenden genetischen Netze stellt einen wichtigen Schritt auf dem Weg zur Charakterisierung der genetischen Mechanismen dar, welche komplexen Krankheiten zugrunde liegen.

In der Krebsforschung, wo die Identifizierung von Geschwülste und Tumore unterdrückenden Genen einen Schlüsselrolle spielt, ist die Kenntnis neuer potenzieller Onkogene und ihrer Wech- selwirkung mit anderen Molekülen ein wichtiger Beitrag zur Aufdeckung der Grundprinzipien, welche die Umwandlung norma- ler Zellen in bösartige Krebszellen bestimmen.

Mit der beschriebene Vorgehensweise gemäß dem Ausführungsbei- spiel, insbesondere mit der Bayesschen inversen Modellierung, ist es möglich, Gene mit einer solchen onkogenen Charakteris- tik einfach durch eine statistische Analyse von Gen- Expressionsmustern, die mit Hilfe von DNA-Microarrays gemes- sen wurden, zu entdecken.

Das zugrundliegende wahrscheinlichkeitstheoretische Modell, das verwendet wurde, ist ein Bayessches Netzwerk, welches die multivariate Wahrscheinlichkeitsverteilung einer Menge von Variablen mittels einer Menge von bedingten Wahrscheinlich- keitsverteilungen codiert.

Die statistischen Abhängigkeiten werden in einer Graphstruk- tur codiert. Beim Lernverfahren werden Bayessche Statistiken verwendet, um die Netzstruktur und die entsprechenden Modell- parameter zu ermitteln, welche die Wahrscheinlichkeitsvertei- lung enthalten in den Daten am besten beschreiben.

In diesem Dokument sind folgende Schriften zitiert : [1] Stetter Martin et al., Large-Scale Computational Modeling of Generic Regulatory Networks, Kluwer Academic Publi- sher, Niederlande, 2003 ; [2] Offenlegungsnummer DE 10159262.0 ; [3] F. W. Jensen, F. V. (1996), An introduction to Bayesian networks, UCL Press, London ; 178 pages ; [4] E. -J. Yeoh, M. E. Ross, S. A. Shurtleff, W. K. Williams, D. Petal et al. (2002), Classification, subtype discove- ry, and prediction of outcome in pediatric acute lymphoblastic leukemia by gene expression profiling. Can- cer cell 1 : 133-143 ; [5] D. Heckerman, D. Geiger and D. Chickering (1995), Lear- ning Bayesian networks : The combination of knowledge and statistical data, Machine Learning 20 : 197-243 ; [6] R. Dechter (1996), Bucket elimination : A unifying frame- work for probabilistic inference. In : Uncertainty in Ar- tificial intelligence, UA196 : 211-219.