Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
COMPUTER GENE
Document Type and Number:
WIPO Patent Application WO/2007/096187
Kind Code:
A2
Abstract:
The invention relates to the field of bioinformatics and in particular of biomolecular computing ("DNA computing"). “Computer genes”comprising nucleic acids are provided which, via autonomous spontaneous self-assembly, can be produced in vivo by means of a biomolecular finite automaton.

Inventors:
ZIMMERMANN KARL-HEINZ (DE)
IGNATOVA ZOYA (DE)
MARTINEZ-PEREZ ISRAEL MARCK (DE)
Application Number:
PCT/EP2007/001596
Publication Date:
August 30, 2007
Filing Date:
February 23, 2007
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
UNIV HAMBURG HARBURG TECH (DE)
TUTECH INNOVATION GMBH (DE)
ZIMMERMANN KARL-HEINZ (DE)
IGNATOVA ZOYA (DE)
MARTINEZ-PEREZ ISRAEL MARCK (DE)
International Classes:
G06N3/12
Domestic Patent References:
WO2005101981A22005-11-03
WO2003095484A22003-11-20
Foreign References:
JP2004355522A2004-12-16
Other References:
J. KURAMOCHI, Y. SAKAKIBARA: "Intensive In Vitro Experiments of Implementing and Executing Finite Automata in Test Tube" PROCEEDINGS OF THE 11TH INTERNATIONAL WORKSHOP ON DNA COMPUTING (DNA11) - JUNE 6-9, 2005; IN "LECTURE NOTES IN COMPUTER SCIENCE", [Online] Bd. 3892, 29. Juli 2006 (2006-07-29), Seiten 193-202, XP019036599 ISSN: 1611-3349 ISBN: 978-3-540-34161-1 Gefunden im Internet: URL:http://dx.doi.org/10.1007/11753681_15> [gefunden am 2007-09-13] -& J. KURAMOCHI, Y. SAKAKIBARA: "Intensive In Vitro Experiments of Implementing and Executing Finite Automata in Test Tube" AT THE 11TH INTERNATIONAL WORKSHOP ON DNA COMPUTING (DNA11) - JUNE 6-9, 2005, [Online] 8. Juni 2005 (2005-06-08), XP002450782 London, Ontario, Canada Gefunden im Internet: URL:http://www.csd.uwo.ca/dna11/DNA11_sche dule_print.html> [gefunden am 2007-09-13]
T. YOKOMORI, Y. SAKAKIBARA, S. KOBAYASHI: "A Magic Pot : Self-assembly Computation Revisited" LECTURE NOTES IN COMPUTER SCIENCE: FORMAL AND NATURAL COMPUTING, ESSAYS DEDICATED TO GRZEGORZ ROZENBERG, Bd. 2300, 2002, Seiten 418-429, XP002450783 ISSN: 0302-9743
H. NAKAGAWA, K. SAKAMOTO, Y. SAKAKIBARA: "Development of an In Vivo Computer Based on Escherichia coli" PROCEEDINGS OF THE 11TH INTERNATIONAL WORKSHOP ON DNA COMPUTING (DNA11) - JUNE 6-9, 2005; IN "LECTURE NOTES IN COMPUTER SCIENCE", [Online] Bd. 3892, 29. Juli 2006 (2006-07-29), Seiten 203-212, XP019036600 ISSN: 1611-3349 ISBN: 978-3-540-34161-1 Gefunden im Internet: URL:http://dx.doi.org/10.1007/11753681_16> [gefunden am 2007-09-13] -& H. NAKAGAWA, K. SAKAMOTO, Y. SAKAKIBARA: "Development of an In Vivo Computer Based on Escherichia coli" AT THE 11TH INTERNATIONAL WORKSHOP ON DNA COMPUTING (DNA11) - JUNE 6-9, 2005, [Online] 8. Juni 2005 (2005-06-08), XP002450782 London, Ontario, Canada Gefunden im Internet: URL:http://www.csd.uwo.ca/dna11/DNA11_sche dule_print.html> [gefunden am 2007-09-13]
Y. SAKAKIBARA, T. HOHSAKA: "In Vitro Translation-Based Computations" LECTURE NOTES IN COMPUTER SCIENCE: PROCEEDINGS OF THE 9TH INTERNATIONAL WORKSHOP ON DNA BASED COMPUTERS (DNA9) - JUNE 1-3, 2003, Bd. 2943, 30. Januar 2004 (2004-01-30), Seiten 197-202, XP019002516 ISSN: 0302-9743 ISBN: 978-3-540-20930-0
I. M. MARTÌNEZ-PÉREZ, Z. IGNATOVA, K.-H. ZIMMERMANN: "An autonomous DNA Model for FInite State Automata" TECHNICAL REPORT SERIES, COMPUTING ENGINEERING DEPARTMENT, Bd. 06.1, Mai 2006 (2006-05), Seiten 1-9, XP002451794 Technische Universität Hamburg-Harburg
Attorney, Agent or Firm:
STÜVEN, Ralf et al. (Kirchenhang 32 B, Hamburg, DE)
Download PDF:
Claims:

PATENTANSPRüCHE

1. Nukleinsäure, die mindestens ein Gen umfasst, dadurch gekennzeichnet, dass die Nukleinsäure eine Eingabe für ei- nen biomolekularen endlichen Automaten kodiert enthält, deren Verarbeitung durch den biomolekularen endlichen Automaten zur spontanen Selbstassemblierung des mindestens einen Gens führt, und wobei die Nukleinsäure eine synthetische Nukleinsäure ist.

2. Nukleinsäure nach Anspruch 1, dadurch gekennzeichnet, dass die Nukleinsäure mindestens eine Nukleotidsequenz umfasst, die mindestens eine übergangsregel für den biomolekularen endlichen Automaten kodiert

3. Nukleinsäure nach Anspruch 2, dadurch gekennzeichnet, dass die Nukleinsäure a) mindestens eine Nukleotidsequenz umfasst, die ein Symbol aus einem Eingabealphabet für den biomolekularen end- liehen Automaten kodiert und b) mindestens eine Nukleotidsequenz umfasst, die mindestens einen Zustand des biomolekularen endlichen Automaten kodiert .

4. Nukleinsäure nach Anspruch 3, dadurch gekennzeichnet, dass die das Symbol kodierende Nukleotidsequenz, die den mindestens einen Zustand kodierende Nukleotidsequenz und die die übergangsregel kodierende Nukleotidsequenz in einer nichtkodierenden Sequenz enthalten sind.

5. Nukleinsäure nach Anspruch 4, dadurch gekennzeichnet, dass die nichtkodierende Sequenz eine alternierende Folge

von Zustände und Symbole kodierenden Nukleotidsequenzen umfasst, wobei die Folge mit einer Nukleotidsequenz beginnt und endet, die einen Zustand kodiert.

6. Nukleinsäure nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass die nichtkodierende Sequenz ein Intron in dem Gen ist, wobei dem Intron zum 5 ' -Ende der Nukleinsäure hin ein Exon vorgeschaltet ist und zum 3 1 - Ende der Nukleinsäure hin ein Exon nachgeschaltet ist.

7. Nukleinsäure nach 6, dadurch gekennzeichnet, dass das zum 5 ' -Ende der Nukleinsäure hin gelegene Exon zusammen mit einer 5 ' -Spleißstelle des Introns und einem dem Gen vorgeschalteten Promotor den Startzustand des biomolekularen endlichen Automaten definiert.

8. Nukleinsäure nach einem der Ansprüche 6 oder 7, dadurch gekennzeichnet, dass der Endzustand des biomolekularen endlichen Automaten eine im Intron gelegene Verzweigungs- stelle mit einem Adeninnukleotid, eine 3 ' -Spleißstelle des Introns sowie das zum 3 ' -Ende der Nukleinsäure hin gelegene Exon umfasst.

9. Nukleinsäure nach Anspruch 8, dadurch gekennzeichnet, dass der Endzustand zusätzlich eine in 5 ' -Richtung hinter der Verzweigungsstelle gelegene pyrimidinreiche Region umfasst .

10. Nukleinsäure nach einem der Ansprüche 2 bis 9, dadurch gekennzeichnet, dass die mindestens eine übergangsregel für den biomolekularen endlichen Automaten durch eine

Nukleotidsequenz in dem zum Sinnstrang des Gens komplementären Strang kodiert ist.

11. Nukleinsäure nach einem der vorhergehenden Ansprüche, da- durch gekennzeichnet, dass der Sinnstrang des Gens mit einer vorgeschalteten Promotorsequenz die Eingabe um- fasst .

12. Nukleinsäure nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass die Nukleinsäure ein mehrere Gene umfassendes Operon mit einem Operator umfasst und die nichtkodierende Sequenz zwischen dem zum 5 ' -Ende der Nukleinsäure hin liegenden Gen und dem Operator liegt.

13. Nukleinsäure nach Anspruch 12, dadurch gekennzeichnet, dass das Operon einen Promotor umfasst, der zusammen mit dem Operator den Startzustand des biomolekularen endlichen Automaten kodiert.

14. Nukleinsäure nach einem der Ansprüche 12 oder 13, dadurch gekennzeichnet, dass der Endzustand des biomolekularen endlichen Automaten die Gene des Operons umfasst.

15. Nukleinsäure nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass die mindestens eine übergangsregel für den biomolekularen endlichen Automaten durch eine Nukleotidsequenz in dem Anti-Sinnstrang kodiert ist.

16. Nukleinsäure nach einem der Ansprüche 12 bis 15, dadurch gekennzeichnet, dass der Sinnstrang mit der vorgeschalteten Promotorsequenz und der Operatorsequenz die Eingabe umfasst .

17. Nukleinsäure nach einem der vorhergehenden Ansprüche zur Verwendung als Arzneimittel.

18. Programmierbarer biomolekularer endlicher Automat mit einer endlichen Menge von Zuständen, mindestens einem Anfangs- und mindestens einem Endzustand, wobei der Automat durch mindestens eine übergangsregel von einem Zustand in einen anderen übergehen kann und eine Eingabe verarbei- tet, die mindestens ein Symbol aus einem Eingabealphabet umfasst, dadurch gekennzeichnet, dass die Eingabe in einer Nukleinsäure kodiert ist, die mindestens ein Gen umfasst .

19. Programmierbarer biomolekularer endlicher Automat nach

Anspruch 18, dadurch gekennzeichnet, dass die Eingabe eine Einzelstrang-DNA ist.

20. Programmierbarer endlicher Automat nach Anspruch 18 oder 19, dadurch gekennzeichnet, dass die mindestens eine ü- bergangsregel durch eine Nukleotidsequenz kodiert wird, die von einer nichtkodierenden Sequenz umfasst ist.

21. Programmierbarer biomolekularer endlicher Automat nach Anspruch 20, dadurch gekennzeichnet, dass die übergangsregel (n) durch (eine) einzelsträngige Nukleotidsequenz (en) kodiert ist (sind), die zu (einem) Abschnitt (en) der nichtkodierenden Sequenz komplementär ist (sind), wobei der (die) Abschnitt (e) eine ein Symbol aus dem Eingabealphabet kodierende Nukleotidsequenz und Teile von beidseitig benachbarten Abstandhalter- Nukleotidsequenzen umfasst.

22. Programmierbarer biomolekularer endlicher Automat nach Anspruch 21, dadurch gekennzeichnet, dass die Abstandhal- ter-Nukleotidsequenzen die Zustände des biomolekularen endlichen Automaten mit Ausnahme des Start- und Endzustands kodieren.

23. Programmierbarer biomolekularer endlicher Automat nach einem der Ansprüche 20 bis 22, dadurch gekennzeichnet, dass die nichtkodierende Sequenz ein Intron eines Gens ist.

24. Programmierbarer biomolekularer endlicher Automat nach einem der Ansprüche 18 bis 22, dadurch gekennzeichnet, dass die nichtkodierende Sequenz ein Abschnitt eines mehrere Gene umfassenden Operons ist.

25. Verfahren zur Herstellung einer mindestens ein Gen umfassenden Nukleinsäure, dadurch gekennzeichnet, dass die Nukleinsäure durch Selbstassemblierung als Ergebnis eines durch einen biomolekularen endlichen Automaten durchgeführten Rechenvorgangs gebildet wird.

26. Verfahren nach Anspruch 25, dadurch gekennzeichnet, dass der Rechenvorgang die Verarbeitung einer Eingabe durch den biomolekularen endlichen Automaten umfasst, die in der Nukleinsäure kodiert enthalten ist.

27. Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass als Eingabe eine einzelsträngige Nukleinsäure verwendet wird.

28. Verfahren nach Anspruch 27, dadurch gekennzeichnet, dass die Eingabe mindestens eine Nukleotidsequenz umfasst, die mindestens eine ein Symbol aus einem Eingabealphabet des biomolekularen endlichen Automaten kodierende Nukleotid- sequenz umfasst.

29. Verfahren nach einem der Ansprüche 25 bis 28, dadurch gekennzeichnet, dass die Nukleinsäure mindestens eine nichtkodierende Sequenz umfasst und die übergangsregeln des biomolekularen endlichen Automaten durch Nukleotidse- quenzen kodiert werden, die von der nichtkodierenden Sequenz umfasst sind.

30. Verfahren nach Anspruch 29, dadurch gekennzeichnet, dass die nichtkodierende Sequenz ein Intron eines' mindestens zwei Exons enthaltendenden Gens ist.

31. Verfahren nach Anspruch 30, dadurch gekennzeichnet, dass als Eingabe eine einzelsträngige Nukleinsäure verwendet wird, die mindestens eine Abstandhalter-Nukleotidsequenz umfasst, die mindestens eine ein Symbol aus einem Eingabealphabet des biomolekularen endlichen Automaten kodierende Nukleotidsequenz umfasst, wobei der endliche Automat durch Anlagerung einer zu einer von der Nukleinsäure umfassten Promotorsequenz, zum auf den Promotor folgenden

Exon sowie der 5 ' -Spleißstelle komplementären ein- zelsträngigen Nukleotidsequenz an die Nukleinsäure in den Startzustand versetzt wird, durch schrittweise Anlagerung einzelsträngiger Nukleotidsequenzen, die die übergangsre- geln kodieren und zu Intronabschnitten komplementär sind, an die Nukleinsäure weitere Zustände durchläuft und einen Endzustand erreicht, indem eine Nukleotidsequenz an die

Nukleinsäure angelagert wird, die eine Nukleotidsequenz umfasst, die zur Verzweigungsstelle des Introns, zur 3'- Spleißstelle des Introns und zu dem bzw. den weiteren E- xon(s) komplementär ist.

32. Verfahren nach Anspruch 29, dadurch gekennzeichnet, dass die nichtkodierende Sequenz ein Abschnitt eines mehrere Gene und einen Operator umfassenden Operons ist.

33. Verfahren nach Anspruch 32, dadurch gekennzeichnet, dass als Eingabe eine einzelsträngige Nukleinsäure verwendet wird, die mindestens eine Abstandhalter-Nukleotidseguenz umfasst, die mindestens eine ein Symbol aus einem Eingabealphabet des biomolekularen endlichen Automaten kodie- rende Nukleotidsequenz umfasst, wobei der endliche Automat durch Anlagerung einer zu einer von der Nukleinsäure umfassten Promotorsequenz und der Operatorsequenz komplementären einzelsträngigen Nukleotidsequenz in den Startzustand versetzt wird, durch schrittweise Anlagerung ein- zelsträngiger Nukleotidsequenzen, die die übergangsregeln kodieren und zu Abschnitten der nichtkodierdenden Sequenz komplementär sind, an die Nukleinsäure weitere Zustände durchläuft und einen Endzustand erreicht, indem eine Nukleotidsequenz an die Nukleinsäure angelagert wird, die eine Nukleotidsequenz umfasst, die den Anti-Sinnstrang zu den Genen des Operons umfasst.

34. Verfahren nach einem der Ansprüche 25 bis 33, dadurch gekennzeichnet, dass eine akzeptierte Eingabe in einem dop- pelsträngigen DNA-Molekül resultiert, das mindestens ein Gen umfasst, das in vivo oder in vitro exprimiert werden kann.

35. Verfahren nach einem der Ansprüche 25 bis 34, dadurch gekennzeichnet, dass das Verfahren in einer lebenden Zelle ausgeführt wird, ausgenommen jedoch zum Zweck der thera- peutischen Behandlung des menschlichen oder tierischen Körpers und zum Zweck einer am menschlichen oder tierischen Körper vorgenommenen Diagnose .

36. Zusammensetzung, umfassend a) eine Einzelstrang-Nukleinsäure, die eine Eingabe für einen biomolekularen endlichen Automaten kodiert enthält, b) einen Satz von Einzelstrang-Nukleinsäuren, die zu Abschnitten der die Eingabe kodierenden Einzelstrang- Nukleinsäure komplementär sind, und übergangsregeln des biomolekularen endlichen Automaten kodiert enthalten c) eine Einzelstrang-Nukleinsäure, die zu einem am 5'- Ende der die Eingabe kodierenden Einzelstrang- Nukleinsäure liegenden Abschnitt komplementär ist und einen Startzustand des biomolekularen endlichen Automaten kodiert enthält, und d) eine Einzelstrang-Nukleinsäure, die zu einem am 3'- Ende der die Eingabe kodierenden Einzelstrang- Nukleinsäure liegenden Abschnitt komplementär ist und einen Endzustand des biomolekularen endlichen Automaten ko- diert enthält.

37. Zusammensetzung nach Anspruch 36 zur Verwendung als Arzneimittel .

38. Verwendung einer Nukleinsäure nach einem der Ansprüche 1 bis 17 oder einer Zusammensetzung nach einem der Ansprü-

che 36 oder 37 zur Herstellung eines Arzneimittels oder eines Zwischenproduktes für ein Arzneimittel.

Description:

RECHENGEN

Die Erfindung betrifft eine Nukleinsäure, die mindestens ein Gen umfasst, ein Verfahren zu deren Herstellung, einen pro- grammierbaren biomolekularen endlichen Automaten sowie eine Zusammensetzung .

Die Erfindung liegt auf dem Gebiet der Bioinformatik und insbesondere des biomolekularen Rechnens ("DNA-Computing").

Feynman hatte bereits Anfang der 1960er Jahre die Idee, massiv parallele Berechnungen auf Basis von Nanotechnolgie durchzuführen (R. P. Feynman: Miniaturization. in D.H. Gilbert (ed.), Reinhold, New York, 282-296, 1961). Adleman gelang dann erstmalig die Lösung einer kleinen Instanz des Rundreiseproblems (Hamiltonian path problem) durch eine biomolekulare Berechnung in vitro mit Hilfe von DNA-Molekülen (Adleman, L., 1994, Molecular Computing of Solutions to combinatorial Problems, Science, 266, 1021-1024) .

In der Regel erfordern die seither bekannt gewordenen biomolekularen Rechenverfahren ein Eingreifen von außen. Zu den prominentesten Modellen der ersten Generation zählen das Sticker- und das Splicing-Modell (T. Head: Formal language theory and DNA: An analysis of the generative capacity of specific recombinant behaviors . Bull. Math. Biology, 49, 737- 759, 1987; Roweis, S.E., Winfree, E., Burgoyne, R., Chelyapov, N.V. , Goodman, M., Rothemund, R, Adleman, L.: A sticker based architecture for DNA computation. Proc . 2nd Ann. DIMACS, Princeton, 1-29, 1996) . Beide Modelle sind berechnungsvollständig und -universell (L. Kari : DNA Computing: arrival of biological mathematics. Math. Intell. 19, 9-22,

1997; L. Kari, G. Paun, G. Rozenberg, A. Salomaa, und S. Yu: DNA Computing, sticker Systems, and universality . Acta Infor- matica, 35, 401-420, 1998) . Basierend auf diesen Modellen wurde eine Vielzahl von DNA-Algorithmen zur Lösung von NP- harten Problemen vorgeschlagen. Allerdings sind derartige DNA-Algorithmen nicht effizienter als In-silico-Algorithmen. Dies liegt vor allem an der Komplexität und Fehleranfälligkeit der verwendeten biotechnologischen Operationen.

In den heutigen Modellen des biomolekularen Rechnens werden die Rechenprozesse in der Regel autonom durchgeführt. Diese Rechenprozesse erfolgen durch spontane Selbstassemblierung von kleineren DNA-Molekülen und werden von DNA-manipulie- renden Enzymen moduliert. Beispielsweise wurden Nanostruktu- ren in Form von periodischen, zweidimensionalen Gittern durch kleine, verzweigte DNA-Moleküle generiert (Winfree, E.: Algo- rithmic self-assembly of DNA. PhD Thesis, California Institute of Technology, 1998.; E. Winfree, F. Liu, L. A. Wenzler und N. C. Seeman, Design and self-assembly of two- dimensional DNA Crystals. Nature, 394, 539-544, 1998; E. Winfree, X. Yang, N. C. Seeman, Universal computation via self-assembly of DNA: Some theory and experiments . Proc . 2nd Ann. DIMACS, 10-12, 1996). Auf einem solchen zweidimensionalen Gitter basiert der Entwurf einer autonomen, berechnungs- universellen Turingmachine (P. Yin, A. Turberfield, S. Sahu und J. H. Reif, Design of an autonomous DNA nano-mechanical device capable of universal computation and universal Trans- lational Motion. Science, Adv. online publ . , 2004) . Darüber hinaus wurden mehrere sich bewegende, autonome DNA-Strukturen entwickelt (Y. Chen, M. Wang und C. Mao: An autonomous DNA motor powered by a DNA enzyme . Angew. Int. Ed., 43, 2-5, 2004; J. H. Reif: The design of autonomous DNA nanomechanical

devices. LNCS, 2568, 22-37, 2003; W.B. Sherman und N. C. Seeman: A precisely controlled DMA biped Walking device. Nano. Lett., 2004; A. J. Turberfield, J. C. Mitchell, B. Yurke Jr., A. P. Mills, M.l. Blakey und F. C. Simmel : DNA fuel for free-running nanomachines . Phys . Rev. Lett., 90, 118102, 2003) .

Des weiteren ist ein als "Shapiro-Modell" bezeichnetes autonomes DNA-Modell bekannt geworden, das die "Konstruktion von endlichen Automaten mit zwei Eingabensymbolen und zwei Zuständen erlaubt (Y. Benenson, T. Paz-Elizur, R. Adar, E. Kei- nan, Z. Livneh und E. Shapiro: Programmable and autonomous Computing machine made of biomolecules . Nature, 414, 430-434, 2001; US-Patentanmeldung 20050075792) . Diese Automaten weisen allerdings eine sehr geringe Komplexität (Anzahl der Eingabesymbole mal Anzahl der Zustände) auf, deren Erhöhung durch die Anzahl der nichtpalindromischen versetzten Enden ("sticky ends") begrenzt ist. Zudem wird das DNA-Molekül, das die Eingabe kodiert, während der Verarbeitung zerstört.

Das Shapiro-Modell wurde auf stochastische endliche Automaten erweitert. Dabei werden die Wahrscheinlichkeiten der Transitionsregeln durch die relativen molaren Konzentrationen der korrespondierenden DNA-Moleküle implementiert (R. Adar, Y. Benenson, G. Linshiz, A. Rosner, N. Tishby und E. Shapiro:

Stochastic Computing with biomolecular automata. Proc . Nat. Acad. Sei. USA, 101, 9960-9965, 2004).

Darüber hinaus ist ein auf dem Shapiro-Modell beruhendes Mo- dell zur logischen Steuerung der Genexpression beschrieben worden (Y. Benenson, B. GiI, U. Ben-Dor, R. Adar und E. Shapiro: An autonomous molecular Computer for logical control of

gene expression. Nature, Adv. online publ . , 2004.). Dieses Modell verwendet Biomoleküle als Eingabe und biologisch aktive Moleküle als Ausgabe. Die Ausgabemoleküle sind ein- zelsträngige DNA-Moleküle (ssDNA) , die jedoch in ihrer Länge (maximal 21 bp) beschränkt sind. Dies ist darauf zurückzuführen, dass das Ausgabemolekül in Form einer Haarnadelstruktur im Eingabemolekül des Automaten eingebettet ist und vor Interaktion mit anderen Molekülen geschützt werden muss.

Bei eukaryotischen Organismen liegen die Gene in einer mosaikartigen Struktur vor. Die kodierenden Sequenzen ihrer Gene können von ein oder mehreren nichtkodierenden Abschnitten unterbrochen sein, die als Introns bezeichnet werden. Bei der Transkription dieser Gene entsteht ein primäres Transkript, die sogenannte Prä-mRNA. Nach der Transkription werden die

Introns aus der Prä-mRNA entfernt und die kodierenden Sequenzen, die sogenannten Exons, miteinander verbunden. Dieser Vorgang wird als Prä-mRNA Spleißen bezeichnet.

Das Herausspleißen der Introns findet im Zellkern statt und führt zur Bildung der reifen mRNA, die aus dem Zellkern in das Cytoplasma exportiert und für die Translation verwendet wird. Für das Spleißen der Prä-mRNA besitzt die eukaryotische Zelle einen Ribonukleoproteinkomplex, der sich aus verschie- denen Proteinen und fünf kleinen RNA-Molekülen, den sogenannten snRNAs (small nuclear RNAs), zusammensetzt. Die Proteine und snRNAs bilden kleine Ribonukleoproteinpartikel (snRNPs, small nuclear ribonucleoprotein particle) , die für die Erkennung und das Herauspleißen der Introns sorgen, wobei sie an kurze konservierte Sequenzabschnitte der Prä-mRNA binden.

Diese Sequenzen liegen im Intron an der Grenze zum jeweiligen Exon und werden je nach Lage in Bezug auf das 5'- oder 3 1 -

Ende als 5'- und 3 ' -Spleißstellen bezeichnet. In höheren Eu- karyoten sind jeweils nur die ersten und die letzten beiden Nukleotide der 5'- und der 3 ' -Spleißstelle des Introns konserviert. In Klasse-I-Introns befindet sich das Dinukleotid GT an der 5 ' -Spleißstelle, das Dinukleotid AG an der 3'- Spleißstelle des Introns. Bei den selteneren Klasse-II- Introns ist das GT-Dinukleotid durch ein AT-Dinukleotid, das AG-Dinukleotid durch ein AC-Dinukleotid ersetzt. Ein weiteres Element, das von den snRNPs erkannt wird, ist ein konservier- tes Adenosin-Nukleotid, das bei der Spleißreaktion als Verzweigungsstelle (Branchpoint) dient. Die Verzweigungsstelle ist von der Konsensussequenz YNCURAC umgeben und befindet sich in der Regel etwa 20-40 Nukleotide vor der 3'- Spleißstelle. In dieser Region enthalten Klasse-I-Introns darüber hinaus einen pyrimidinreiche Abschnitt. Dieser fehlt in Klasse-II-Introns .

Im Gegensatz zu eukaryotischen Genen weisen prokaryotische Gene in der Regel keine Intron-Exon-Struktur auf. Sie können aber in so genannten Operons organisiert sein, in denen mehrere Gene zu einer gemeinsam regulierten Funktionseinheit zusammengeschlossen sind.

Es wäre wünschenswert, eine Möglichkeit zu besitzen, eukaryo- tische oder prokaryotische Gene in vivo bei Bedarf zu erzeugen bzw. von der Zelle erzeugen zu lassen, gegebenenfalls in Abhängigkeit von der An- oder Abwesenheit eines entsprechenden zellexternen oder zellinternen Signals. Eine solche Möglichkeit ist bislang im Stand der Technik nicht bekannt ge- worden. Die Aufgabe der vorliegenden Erfindung besteht daher darin, diesem Nachteil abzuhelfen.

Gelöst wird die Aufgabe durch die Gegenstände der nebengeordneten Ansprüche.

Die vorliegende Erfindung stellt eine mindestens ein Gen um- fassende synthetische Nukleinsäure bereit, die eine Eingabe für einen biomolekularen endlichen Automaten kodiert enthält, wobei die Verarbeitung der Eingabe durch den biomolekularen endlichen Automaten zur spontanen Selbstassemblierung des mindestens einen Gens führt.

Die in der vorliegenden Anmeldung verwendeten Begriffe haben, sofern dies nicht ausdrücklich anders angegeben ist, die übliche dem Fachmann bekannte Bedeutung. Einige der in der Anmeldung verwendeten Begriffe werden darüber hinaus im folgen- den näher erläutert.

Unter einer "Nukleinsäure" wird ein Polymer verstanden, dessen Monomere Nukleotide sind. Ein Nukleotid ist eine Verbindung aus einem Zuckerrest, einer stickstoffhaltigen hetero- zyklischen organischen Base (Nukleotid- oder Nukleobase) und einer Phosphatgruppe. Der Zuckerrest ist in der Regel eine Pentose, im Falle von DNA Desoxyribose, im Falle von RNA Ri- bose. Die Verknüpfung der Nukleotide erfolgt über die Phosphatgruppe mittels einer Phosphodiesterbrücke zwischen dem 3'-C-Atom der Zuckerkomponente eines Nukleosids (Verbindung aus Nukleobase und Zucker) und dem 5 ' -C-Atom der Zuckerkomponente des nächsten Nukleosids. Bei den Nukleobasen handelt es sich regelmäßig um Purine (R) und Pyrimidine (Y) . Beispiele für Purine sind Guanin (G) und Adenin (A) , Beispiele für Py- rimidine sind Cytosin (C) , Thymin (T) und Uracil (U) .

Unter einer "synthetischen Nukleinsäure" wird eine Nukleinsäure verstanden, die synthetischen Ursprungs ist, d.h. natürlicherweise so nicht vorkommt . Insbesondere bedeutet dieser Begriff, dass die Nukleinsäure eine Nukleotidsequenz und/oder eine Struktur aufweist, die in einem natürlich vorkommenden Organismus nicht anzutreffen ist. Eine "synthetische Nukleinsäure" im Sinne der vorliegenden Erfindung kann in einer Zelle dieselbe Funktion ausüben wie eine natürlich vorkommende Nukleinsäure. Beispielsweise kann eine erfin- dungsgemäße synthetische Nukleinsäure wie ein eukaryotisches Gen oder wie ein prokaryotisches Operon aufgebaut sein und ein oder mehrere natürlich vorkommende Gene umfassen, die in der Zelle wie natürlich vorkommende Gene exprimiert werden können. Eine wie ein eukaryotisches Gen aufgebaute Nuklein- säure kann beispielsweise die kodierende Sequenz eines natürlich vorkommenden Gens enthalten, wobei diese aber zum Beispiel in einer Weise auf Exons verteilt sein kann, die natürlicherweise nicht vorkommt, oder eine natürlicherweise nicht vorkommende Intron/Exon-Struktur aufweisen kann. Die In- tron/Exon-Struktur (z.B. Zahl und Reihenfolge von Exons/In- trons) kann beispielsweise einem Organismus entnommen sein, während die kodierende Sequenz in den Exons einem anderen Organismus entstammt. Somit umfasst der Begriff "synthetische Nukleinsäure" auch Nukleinsäuren, die natürlicherweise vor- kommende Bestandteile (z.B. Exons, Introns, Gene) umfassen, wobei aber die Kombination bzw. Struktur dieser Bestandteile in einer natürlicherweise vorkommenden Nukleinsäure nicht anzutreffen ist.

Unter einer "Nukleotidsequenz" wird die lineare Abfolge von Nukleotiden verstanden. Eine solche Sequenz wird üblicherweise und, sofern dies nicht ausdrücklich anders angegeben oder

für den Fachmann ohne weiteres ersichtlich ist, auch in der vorliegenden Anmeldung durch eine Sequenz der die Nukleotide repräsentierenden Einbuchstaben-Abkürzungen in 5 ' -3 ' -Richtung wiedergegeben (z.B. ist ACGT eine lineare Abfolge der Ade- nin-, Cytidin-, Guanin- und Thymin-Nukleotide).

Unter einem "Gen" wird ein DNA-Abschnitt verstanden, der die Information zur Synthese eines Peptids oder Proteins oder einer strukturellen oder funktionellen RNA (z.B. tRNA) trägt. In der vorliegenden Anmeldung umfasst der Begriff "Gen" auch das primäre RNA-Transkript des Gens .

Unter einem "Exon" wird eine Nukleotidsequenz des primären Boten-RNA-Transkripts (Prä-mRNA) eines Gens verstanden, die den Zellkern (Nukleus) als Teil des Boten-RNA- (mRNA) -Moleküls verlässt. In der Prä-mRNA sind benachbarte Exons durch sogenannte Introns getrennt, die vor dem Verlassen des Zellkerns aus der Prä-mRNA entfernt werden. Im Gegensatz zu Introns sind Exons somit Bestandteile der reifen mRNA. Exons enthal- ten in der Regel die offenen Leserahmen (ORF = open reading frame) eines Proteins, d.h. die für ein Protein kodierenden Bereiche. Exons können aber auch ausschließlich oder zusätzlich zu den ORFs Sequenzbereiche enthalten, die nicht in eine Aminosäuresequenz übersetzt werden. Diese untranslatierten Bereiche (untranslated regions, UTR) befinden sich gegebenenfalls am 5 ' - und/oder 3 ' -Ende des Transkripts. Der Begriff Exon umfasst auch die entspechende Nukleotidsequenz der die Prä-mRNA kodierenden DNA.

Unter einem "Intron" wird eine Nukleotidsequenz der Prä-mRNA eines Gens verstanden, die den Zellkern nicht als Teil des mRNA-Moleküls verlässt, d.h. nicht Bestandteil der reifen

mRNA ist. Der Begriff Intron umfasst auch die entspechende Nukleotidsequenz der die Prä-mRNA kodierenden DNA. Introns sind nichtkodierende Abschnitte der DNA innerhalb eines Gens, die von Exons flankiert werden. Introns werden aus der Prä- mRNA herausgespleißt , bevor diese zur Translation aus dem Zellkern ausgeschleust wird. Introns weisen konservierte Strukturen (Intronsignale) auf, anhand derer die Zelle sie als Introns erkennt. Introns der Klasse I beginnen (aus 5'- Richtung betrachtet) beispielsweise mit den Nukleotiden GT (GU in der entsprechenden Prä-mRNA) und enden mit den Nukleotiden AG. Das GT-Dinukleotid markiert die 5 ' -Spleißstelle, das AG-Dinukleotid die 3 ' -Spleißstelle. über die 5'- Spleißstelle und die 3 ' -Spleißstelle an den Introngrenzen hinaus weisen Introns ein hochkonserviertes Adenosin- Nukleotid auf, das bei der Spleißreaktion als Verzweigungsstelle (Branchpoint) dient. Die Verzweigungsstelle befindet sich in der Regel etwa 20-40 Nukleotide vor der 3'- Spleißstelle. Die meisten Introns besitzen des Weiteren eine pyrimidinreiche Region, die sich zwischen der Verzweigungs- stelle und der 3 ' -Spleißstelle befindet.

Unter einer "nichtkodierenden Nukleotidsequenz" bzw. einer "nichtkodierenden Sequenz" wird hier eine Nukleotidsequenz verstanden, die nicht gemäß dem genetischen Code in eine Ami- nosäuresequenz übersetzt wird. Es kann sich hierbei beispielsweise um eine Intronsequenz eines Gens handeln. Es kann sich aber auch um eine Sequenz handeln, die außerhalb eines Gens liegt, beispielsweise zwischen dem Operator eines Operons und dem ersten Gen des Operons oder zwischen den Genen eines Operons.

Unter einem "Sinnstrang" wird bei einer doppelsträngigen DNA der Strang verstanden, der die Information kodiert enthält. Der Sinnstrang enthält daher die der transkribierten mRNA entsprechende Sequenz (mit der Ausnahme, dass die mRNA U an- stelle von T enthält) .

Unter einem "Anti-Sinnstrang" wird der zum Sinnstrang komplementäre Gegenstrang einer Doppelstrang-DNA verstanden.

Unter einem "Promotor" wird ein Abschnitt auf der DNA verstanden, der an der Bindung der RNA-Polymerase bei der Initiation der Transkription beteiligt ist. Die Promotorregion ist dem Gen vorgeschaltet.

Unter einem "Operon" wird eine Gruppe von Genen verstanden, deren Transkription gemeinsam reguliert wird. Ein Operon bildet eine Funktionseinheit auf der DNA und umfasst einen Promotor, einen Operator und ein oder mehrere (Struktur- ) Gene .

Ein "Operator" ist eine Erkennungsstelle im Operon, an der die positive oder negative Kontrolle der genetischen Transkription durch Bindung eines entsprechenden Regulators, beispielsweise eines Repressors, geschieht.

Unter "Wildtyp" wird hier ein natürlich vorkommender Organismus, eine natürlich vorkommende Nukleinsäure oder eine sonstige natürlich vorkommende Struktur verstanden.

Ein "endlicher Automat" (engl.: "finite State automaton", im Deutschen auch als Zustandsmaschine bezeichnet) ist ein Modell eines informationsverarbeitenden Systems mit Eingaben und gegebenenfalls Ausgaben, welches eine endliche Zahl von

möglichen (internen) Konfigurationen, sogenannte "Zustände" (engl, "states"), aufweist, bestimmte Eingaben aus einer endlichen Menge von EingabeSymbolen, dem Eingabealphabet, akzeptiert und gegebenenfalls entsprechende Ausgabewörter produ- ziert. Ein Zustand wird als Startzustand definiert. Zustands- wechsel (übergänge, Transitionen) werden anhand von übergangsregeln beschrieben, die jedem Paar aus aktuellem Zustand und Eingabe einen Folgezustand zuordnen. Formal ist ein endlicher Automat (EA) somit durch eine endliche Menge von Zu- ständen (S) , ein Eingabealphabet, mindestens eine übergangsregel, mindestens einen Startzustand (IS) und eine Menge von Endzuständen gekennzeichnet. Grundsätzlich unterscheidet man deterministische und nicht-deterministische endliche Automaten. Bei einem deterministischen endlichen Automaten exis- tiert für jeden Zustand genau ein übergang für jede mögliche Eingabe. Die übergangsregel ist in diesem Fall eine Funktion. Bei einem nicht-deterministischen Automaten kann es keinen oder auch mehr als einen übergang für die mögliche Eingabe geben. Die übergangsregel ist in diesem Fall eine Relation. Wenn die übergangsregel durch übergangswahrscheinlichkeiten definiert ist und Start- und Endzustand bzw. -zustände durch Wahrscheinlichkeitsverteilungen definiert sind, spricht man von einem "stochastischen endlichen Automaten". Unter einem endlichen Automaten im Sinne der vorliegenden Erfindung wird auch eine Vorrichtung verstanden, die nach dem Prinzip eines endlichen Automaten arbeitet. Darüber hinaus wird auch ein System von Komponenten, beispielsweise Nukleinsäuremolekülen, die in einer Weise interagieren, dass das System nach dem Prinzip eines endlichen Automaten arbeitet, von dem Begriff "endlicher Automat" umfasst. Unter einem "System" wird hierbei eine Anzahl von Komponenten und deren funktionelle und/oder strukturelle Wechselwirkung verstanden.

Unter einem "biomolekularen endlichen Automaten" wird ein endlicher Automat verstanden, der mit Hilfe von Biomolekülen, beispielsweise Nukleinsäuremolekülen, arbeitet. Insbesondere wird hierunter ein endlicher Automat verstanden, der Biomoleküle als Eingabe akzeptiert und biologisch aktive Moleküle als Ausgabe erzeugt.

Biomoleküle, die eine Eingabe, einen Anfangs- oder Endzustand oder eine übergangsregel kodiert enthalten, werden hier gegebenenfalls auch als "Eingabemolekül", "Anfangszustandsmole- kül", "Endzustandsmolekül", "übergangszustandsmolekül" oder "Ausgabemolekül" bezeichnet. Der Fachmann wird anhand der vorliegenden Beschreibung und seines Fachwissens ohne Weite- res erkennen, in welchem Zusammenhang die Begriffe "Eingabe", "Anfangszustand", "Endzustand", "übergangszustand", "Ausgabe", "Eingabemolekül", "Anfangszustandsmolekül " , "Endzustandsmolekül", "übergangszustandsmolekül" oder "Ausgabemolekül" jeweils verwendet werden. Beispielsweise können die Beg- riffe "Eingabe", "Anfangszustand", "Endzustand", "übergangszustand" und "Ausgabe" auch die Begriffe "Anfangszustandsmolekül", "Endzustandsmolekül", "übergangszustandsmolekül" oder "Ausgabemolekül" umfassen.

Unter "Anlagern" einer Nukleotidsequenz an eine Nukleinsäure wird die Hybridisierung der Nukleotidsequenz mit der Nukleinsäure verstanden. Insbesondere wird hierunter verstanden, das mindestens 50 %, bevorzugt mindestens 60 %, besonders bevorzugt mindestens 80 %, weiter bevorzugt mindestens 90 %, wei- ter bevorzugt mindestens 95 %, weiter bevorzugt mindestens 99 % und am meisten bevorzugt 100 % der Nukleotide der Nukleotidsequenz eine Watson-Crick-Basenpaarung mit komplementären

Nukleotiden der Nukleinsäure eingehen. Bevorzugt erfolgt die Hybridisierung dabei unter Bedingungen, wie sie in einer lebenden Zelle vorherrschen.

Unter einem "Sticker-Automaten" bzw. einem nach einem "Sticker-Modell" arbeitenden biomolekularen endlichen Automaten wird ein endlicher Automat verstanden, bei dem sich Abschnitte eines polymeren Biomoleküls, z.B. Oligonukleotide, an ein polymeres Biomolekül, vorzugsweise eine Einzelstrang- Nukleinsäure, anlagern. Die sich anlagernden Biomolekülabschnitte werden dabei als "Sticker" bezeichnet. Beispielsweise können sich an eine Einzelstrang-DNA hierzu komplementäre Oligonukleotide anlagern. Die Biomolekülabschnitte weisen dabei vorzugsweise weniger als 300, bevorzugt weniger als 200, weiter bevorzugt weniger als 150, weiter bevorzugt weniger als 100, weiter bevorzugt weniger als 80, weiter bevorzugt weniger als 50, weiter bevorzugt weniger als 40, noch weiter bevorzugt weniger als 30 Monomere, z.B. Nukleotide, auf.

Die erfindungsgemäße Nukleinsäure umfasst mindestens ein Gen, dessen Bauanleitung durch einen endlichen Automaten gegeben ist. "Umfasst" im Sinne der vorliegenden Anmeldung beinhaltet auch, dass die Nukleinsäure mit dem Gen identisch sein kann. Ein entsprechendes Gen wird im folgenden auch als Computergen bzw. Rechengen ( "computational gene") bezeichnet. Bei einer alternativen Ausgestaltung, bei der mehrere Gene in Form eines Operons organisiert sein können, wie sie für Prokaryoten charakteristisch sind, wird gegebenenfalls auch von einem "Rechenoperon" gesprochen. Sofern nicht ausdrücklich etwas anderes angegeben ist oder sich aus dem Zusammenhang nicht eindeutig etwas anderes ergibt, wird der Ausdruck "Rechengen" in der vorliegenden Anmeldung allerdings so verwendet, dass

er den Begriff "Rechenoperon" mit umfassen soll. Das Gen bzw. Operon kann durch spontane Selbstassemblierung entstehen. Diese spontane Selbstassemblierung kann in vitro erfolgen, geschieht aber bevorzugt in vivo.

Die erfindungsgemäße Nukleinsäure mit dem Rechengen bzw. Rechenoperon wird durch einen autonomen Rechenvorgang gebildet, vorzugsweise in vivo, d.h. in einer lebenden Zelle. Die Bildung der erfindungsgemäßen Nukleinsäure erfolgt durch sponta- ne Selbstassemblierung im Verlaufe des autonomen Rechenvorgangs. Der autonome Rechenvorgang wird vorzugsweise durch einen autonomen endlichen Automaten spezifiziert. Die Selbstassemblierung erfolgt bevorzugt nicht in jedem Falle, sondern unter einer bestimmten Bedingung bzw. unter bestimmten Bedin- gungen. Diese Bedingung (en) sind vorzugsweise durch einen Boolschen Ausdruck beschreibbar, der beispielsweise durch Biomoleküle, bevorzugt Nukleinsäuren, kodiert wird.

Mit Hilfe der vorliegenden Erfindung können beispielsweise eukaryotische Gene und prokaryotische Gene bzw. Operons, aber auch beliebige andere doppelsträngige Nukleinsäuren, in vivo bei Bedarf erzeugt werden. Es besteht darüber hinaus auch die Möglichkeit eines kaskadierten Einsatzes, d.h. der Erzeugung eines oder mehrerer weiterer Rechengene. Die erfindungsgemäße Nukleinsäure ist in unterschiedlichen Bereichen vorteilhaft einsetzbar, beispielsweise in der Medizin zur Diagnose und/oder Therapie von Krankheiten, beispielsweise zur gezielten Wirkstofffreisetzung am Zielort, in der Biotechnologie zur gezielten Beinflussung zellulärer Aktivitäten, zum Scree- ning nach neuen enzymatischen Aktivitäten, zur Produktion re- kombinanter Proteine, zum Schutz von Zellen (beispielsweise Pflanzenzellen) vor Viren usw.

In einer bevorzugten Ausführungsform umfasst die erfindungsgemäße Nukleinsäure mindestens eine Nukleotidsequenz , die mindestens eine übergangsregel für den biomolekularen endli- chen Automaten kodiert.

Weiter bevorzugt umfasst die erfindungsgemäße Nukleinsäure darüber hinaus a) mindestens eine Nukleotidsequenz, die ein Symbol aus einem Eingabealphabet für den biomolekularen end- liehen Automaten kodiert und b) mindestens eine Nukleotidsequenz, die mindestens einen Zustand des biomolekularen endlichen Automaten kodiert. Die mindestens einen Zustand des biomolekularen endlichen Automaten kodierende Nukleotidsequenz wird bevorzugt von einer Abstandhalter-Nukleotidsequenz ("Spacer") umfasst bzw. bildet bevorzugt eine Abstandhalter- Nukleotidsequenz .

Die erfindungsgemäße Nukleinsäure umfasst in einer bevorzugten Ausführungsform mindestens eine nichtkodierende Sequenz, wobei vorzugsweise die das Symbol kodierende Nukleotidsequenz, die den mindestens einen Zustand kodierende Nukleotidsequenz und die die übergangsregel kodierende Nukleotidsequenz in der nichtkodierenden Sequenz enthalten sind. Bei der nichtkodierenden Sequenz kann es sich beispielsweise um ein Intron eines Gens, aber auch um einen nichtkodierenden Abschnitt eines Operons handeln.

In einer weiteren bevorzugten Ausführungsform der erfindungsgemäßen Nukleinsäure umfasst die nichtkodierende Sequenz eine alternierende Folge von Zustände und Symbole kodierenden

Nukleotidsequenzen, wobei die Folge mit einer Nukleotidsequenz beginnt und endet, die einen Zustand kodiert.

Weiter bevorzugt ist die nichtkodierende Sequenz ein Intron des mindestens einen Gens. In dieser Ausführungsform enthält das Rechengen analog zu natürlich vorkommenden eukaryotischen Genen mindestens ein Intron und mindestens zwei Exons . Das Rechengen umfasst aber im Gegensatz zu einem natürlich vorkommenden Gen eine in dem mindestens einen Intron enthaltene übergangsregel für den biomolekularen endlichen Automaten und bevorzugt auch Symbole und Zustände für den biomolekularen endlichen Automaten in kodierter Form. Bei einer Ausführungsform des Rechengens mit zwei Exons ist dem Intron ein Exon in 5 ' -Richtung vorgeschaltet und ein Exon in 3 ' -Richtung nachgeschaltet. Das Rechengen kann aber auch mehrere Introns und Exons enthalten. Vorzugsweise sind die übergangsregel (n) und die Symbole und Zustände dabei in dem zum 5 ' -Ende der Nukleinsäure gelegenen Intron vorgesehen, können aber auch in einem anderen Intron enthalten sein.

Ein Rechengen kann in seinen Exons beispielsweise ein eukary- otisches Wildtyp-Protein kodieren. Das entsprechende natürlich vorkommende Gen des Wildtyp-Proteins liefert dann die Funktion des Rechengens und wird daher als "Funktionsgen" bezeichnet. Das Muster für den Aufbau des Rechengens beispielsweise hinsichtlich Intron-Exon-Struktur, Anzahl von Exons und Introns, konservierter Intronsignale, Lage von Start- und Stopkodons, Art und Lage des Promotors usw. kann ebenfalls aus dem Gen des Wildtyp-Proteins entnommen sein, kann aber auch von einem anderen natürlich vorkommenden Gen stammen o- der vollständig synthetisch sein. Ein Gen, dessen Grundstruk- tur als Muster für ein Rechengen dient, wird als "Gerüstgen" bezeichnet, weil es quasi das Gerüst des Rechengens liefert, während die Funktion, die das Rechengen bzw. dessen Produkt

erfüllt oder erfüllen soll, vom "Funktionsgen" stammt. Obwohl ein Rechengen somit in einer Zelle die gleiche Funktion wie ein natürlich vorkommendes Gen (Wildtypgen) haben kann, kann es hinsichtlich seines Aufbaus, beispielsweise der Lage, Zahl und Länge von Introns und Exons, davon abweichen. Die Abweichung kann auch in einer Ersetzung von Kodons durch synonyme Kodons bestehen.

In einer weiteren bevorzugten Ausführungsform ist dem Rechen- gen ein Promotor vorgeschaltet, der vorzugsweise zusammen mit dem zum 5 ' -Ende der Nukleinsäure hin gelegenen Exon und einer 5 ' -Spleißstelle des Introns den Startzustand des biomolekularen endlichen Automaten definiert. Der Promotor kann ein beliebiger Promotor natürlichen oder künstlichen Ursprungs sein. Der Promotor wird vorteilhaft danach ausgesucht, welcher Zweck mit dem Rechengen verfolgt werden soll. Für ein Rechengen, das in einer Pflanzenzelle exprimiert werden soll, bietet es sich beispielsweise an, einen pflanzlichen Promotor zu verwenden, der in der Zielpflanze bzw. dem Zielgewebe in der Pflanze seine Funktion ausüben kann.

In einer weiteren bevorzugten Ausführungsform definiert ein Abschnitt der Nukleinsäure einen Endzustand des biomolekularen endlichen Automaten, wobei der Endzustand eine im Intron gelegene Verzweigungsstelle mit einem Adeninnukleotid, eine 3 ' -Spleißstelle des Introns sowie das zum 3 ' -Ende der Nukleinsäure hin gelegene Exon umfasst. Weiter bevorzugt umfasst der Endzustand zusätzlich eine in 5 ' -Richtung hinter der Verzweigungsstelle gelegene pyrimidinreiche Region.

In einer bevorzugten Ausführungsform ist die mindestens eine übergangsregel für den biomolekularen endlichen Automaten

durch eine Nukleotidsequenz in dem zum Sinnstrang des Rechengens komplementären Strang kodiert. Bevorzugt, aber nicht zwangsläufig, ist die mindestens eine übergangsregel dabei zu dem nichtkodierenden Abschnitt des Sinnstrangs komplementär.

Weiter bevorzugt umfasst der Sinnstrang des Gens mit der vorgeschalteten Promotorsequenz die Eingabe für den biomolekularen endlichen Automaten.

Alternativ kann die erfindungsgemäße Nukleinsäure auch mehrere Gene umfassen, die in Form eines Operons vorliegen. Das Operon umfasst dabei einen Operator und die nichtkodierende Sequenz befindet sich zwischen dem zum 5 ' -Ende der Nukleinsäure hin nächstliegenden Gen des Operons und dem Operator. Auf diese Weise ist die Nukleinsäure in Form eines prokaryo- tischen Operons ausgestaltet, das durch spontane Selbstassemblierung, beispielsweise in einer Zelle oder in einem Reaktionsgefäß, hergestellt werden kann. Entsprechend den obigen Ausführungen zu "Gerüstgen" und "Funktionsgen" bei einem Rechengen, das eine eukaryotische Genstruktur aufweist, kann auch bei einem Rechengen mit prokaryotischer Operonstruktur das "Gerüst" des Rechengens einem natürlicherweise vorkommenden oder synthetischen Operon entstammen. Unter einem "Ge- rüstoperon" wird hier eine Struktur verstanden, die in einer prokaryotischen Zelle als Operon erkannt und behandelt wird. Die "Funktionsgene" eines solchen Gerüstoperons können Wildtypgene, natürlich vorkommende Gene aus einem anderen Organismus oder auch synthetische Gene sein. Auf diese Weise kann ein Rechenoperon je nach Bedarf mit verschiedenen Funktions- genen ausgestattet werden, wobei das Gerüst des Rechenope- rons, also jene Grundstruktur, die das Rechenoperon in einer

prokaryotischen Zelle als Operon erkennbar macht, gleich bleiben kann.

Das Operon umfasst dabei bevorzugt einen Promotor, der vor- zugsweise zusammen mit dem Operator den Startzustand des biomolekularen endlichen Automaten kodiert. Der Endzustand des biomolekularen endlichen Automaten umfasst bevorzugt die Gene des Operons .

In einer bevorzugten Ausführungsform dieser alternativen Ausgestaltung der erfindungsgemäßen Nukleinsäure ist die mindestens eine übergangsregel für den biomolekularen endlichen Automaten durch eine Nukleotidsequenz in dem Anti-Sinnstrang kodiert. Vorzugsweise ist es auch hier so, dass die über- gangsregel (n) komplementär (ist) sind zu einem nichtkodieren- den Abschnitt des Sinnstrangs, die übergangsregel (n) (kann) können aber auch komplementär zu einem kodierenden Abschnitt des Sinnstrangs sein.

Bevorzugt umfasst der Sinnstrang mit der vorgeschalteten Promotorsequenz und der Operatorsequenz die Eingabe.

Die erfindungsgemäße Nukleinsäure kann in einer bevorzugten Ausführungsform als Arzneimittel dienen. Beispielsweise kann das Rechengen die Funktion eines natürlichen Gens übernehmen, das in einer zu behandelnden Person mutiert ist. Das Rechengen kann durch Selbstassemblierung über einen autonomen Rechenvorgang in der Zelle gebildet werden, wobei diese Selbstassemblierung unter der Bedingung erfolgen kann, dass bei dem entsprechenden natürlichen Gen eine Mutation vorliegt.

Die Erfindung betrifft auch einen programmierbaren biomolekularen endlichen Automaten mit einer endlichen Menge von Zuständen ("states"), mindestens einem Anfangs- und mindestens einem Endzustand ("initial State" bzw. "final State"), wobei der Automat durch mindestens eine übergangsregel (Transitionsregel, "transition rule") von einem Zustand in einen anderen übergehen kann und eine Eingabe ("input") verarbeitet, die mindestens ein Symbol aus einem Eingabealphabet umfasst, wobei die Eingabe in einer Nukleinsäure kodiert ist, die min- destens ein Gen umfasst.

Der erfindungsgemäße endliche Automat verarbeitet Biomoleküle in Form von Nukleinsäuremolekülen als Eingabe. Bevorzugt ist die Eingabe bzw. das Eingabemolekül ein einzelsträngiges Nuk- leinsäuremolekül, beispielsweise eine Einzelstrang-DNA.

Die mindestens eine übergangsregel wird vorzugsweise durch eine Nukleotidsequenz kodiert, die von einer nichtkodierenden Sequenz des Gens umfasst ist. Die mindestens eine übergangs- regel ist dabei vorzugweise einzelsträngig und zu Abschnitten der Nukleotidsequenz des Sinnstrangs der nichtkodierenden Sequenz des Gens komplementär. Die Abschnitte umfassen bevorzugt eine ein Symbol aus dem Eingabealphabet kodierende Nukleotidsequenz und Teile von beidseitig benachbarten Ab- standhalter-Nukleotidsequenzen. In einer bevorzugten Ausführungsform kodieren die Abstandhalter-Nukleotidsequenzen die Zustände des biomolekularen endlichen Automaten mit Ausnahme des Start- und Endzustands.

Bei der nichtkodierenden Sequenz handelt es sich in einer bevorzugten Ausführungsform des programmierbaren biomolekularen endlichen Automaten um ein Intron eines Gens. Alternativ kann

es sich bei der nichtkodierenden Sequenz auch um einen Abschnitt eines mehrere Gene umfassenden Operons handeln.

Die Erfindung betrifft auch ein Verfahren zur Herstellung ei- ner mindestens ein Gen umfassenden Nukleinsäure, wobei die Nukleinsäure durch Selbstassemblierung als Ergebnis eines durch einen biomolekularen endlichen Automaten durchgeführten Rechenvorgangs gebildet wird. Mit Hilfe des Verfahrens kann eine erfindungsgemäße Nukleinsäure mit einem Rechengen oder Rechenoperator in autonomer Weise hergestellt werden. Autonom bedeutet hierbei, dass nach dem Start des Rechenvorgangs kein Eingriff von außen erforderlich ist.

In einer bevorzugten Ausführungsform umfasst der Rechenvor- gang bei dem erfindungsgemäßen Verfahren die Verarbeitung einer Eingabe, die in der Nukleinsäure kodiert enthalten ist. Vorzugsweise wird dabei eine Einzelstrang-Nukleinsäure als Eingabe verwendet .

Bei dem erfindungsgemäßen Verfahren wird bevorzugt eine Eingabe verwendet, die mindestens eine Nukleotidsequenz umfasst, die mindestens eine ein Symbol aus einem Eingabealphabet des biomolekularen endlichen Automaten kodierende Nukleotidsequenz umfasst.

Weiter bevorzugt umfasst die Nukleinsäure mindestens eine nichtkodierende Sequenz, wobei die übergangsregeln des biomolekularen endlichen Automaten bevorzugt durch Nukleotidse- quenzen kodiert werden, die von der nichtkodierenden Sequenz umfasst sind.

In einer besonders bevorzugten Ausgestaltung des Verfahrens ist die nichtkodierende Sequenz ein Intron eines Gens.

In einer bevorzugten Ausführungsform des Verfahrens wird als Eingabe eine einzelsträngige Nukleinsäure verwendet, die bevorzugt mindestens eine Abstandhalter-Nukleotidsequenz um- fasst, die mindestens eine ein Symbol aus einem Eingabealphabet des biomolekularen endlichen Automaten kodierende Nukleo- tidsequenz umfasst, wobei der endliche Automat durch Anlage- rung einer zu einer von der Nukleinsäure umfassten Promotorsequenz, zum auf den Promotor folgenden Exon sowie der 5'- Spleißstelle komplementären einzelsträngigen Nukleotidsequenz an die Nukleinsäure in den Startzustand versetzt wird, durch schrittweise Anlagerung einzelsträngiger Nukleotidsequenzen, die die übergangsregeln kodieren und zu Intronabschnitten komplementär sind, an die Nukleinsäure weitere Zustände durchläuft und einen Endzustand erreicht, indem eine Nuklein- säuresequenz an die Nukleinsäure angelagert wird, die eine Nukleotidsequenz umfasst, die zur Verzweigungsstelle des Introns, zur 3 ' -Speißstelle des Introns und zu dem weiteren Exon bzw. zu den weiteren Exons komplementär ist.

In einer alternativen Ausführungsform ist die nichtkodierende Sequenz ein Abschnitt eines mehrere Gene und einen Operator umfassenden Operons.

Bei dieser Ausgestaltung des erfindungsgemäßen Verfahrens wird als Eingabe eine einzelsträngige Nukleinsäure verwendet, die vorzugsweise mindestens eine Abstandhalter-Nukleotid- sequenz umfasst, die mindestens eine ein Symbol aus einem

Eingabealphabet des biomolekularen endlichen Automaten kodierende Nukleotidsequenz umfasst, wobei der endliche Automat

durch Anlagerung einer zu einer von der Nukleinsäure umfass- ten Promotorsequenz und der Operatorsequenz komplementären einzelsträngigen Nukleotidsequenz in den Startzustand versetzt wird, durch schrittweise Anlagerung einzelsträngiger Nukleotidsequenzen, die die übergangsregeln kodieren und zu Abschnitten der nichtkodierdenden Sequenz komplementär sind, an die Nukleinsäure weitere Zustände durchläuft und einen Endzustand erreicht, indem eine Nukleotidsequenz an die Nukleinsäure angelagert wird, die eine Nukleotidsequenz umfasst, die den Anti-Sinnstrang zu den Genen des Operons umfasst.

In einer weiteren bevorzugten Ausführungsform resultiert eine akzeptierte Eingabe in einem doppelsträngigen DNA-Molekül, das mindestens ein Gen umfasst, das in vivo, d.h. in einer lebenden Zelle, oder in vitro, beispielsweise in einem zellfreien System, exprimiert werden kann.

Besonders bevorzugt wird das Verfahren in einer lebenden Zelle ausgeführt. Es wird jedoch kein Schutz beansprucht für die Durchführung des Verfahrens zum Zweck der therapeutischen Behandlung des menschlichen oder tierischen Körpers und zum Zweck einer am menschlichen oder tierischen Körper vorgenommenen Diagnose.

Die Erfindung betrifft auch eine Zusammensetzung, umfassend a) eine Einzelstrang-Nukleinsäure, die eine Eingabe für einen biomolekularen endlichen Automaten kodiert enthält, b) einen Satz von Einzelstrang-Nukleinsäuren, die zu Abschnitten der die Eingabe kodierenden Einzelstrang- Nukleinsäure komplementär sind, und übergangsregeln des biomolekularen endlichen Automaten kodiert enthalten

c) eine Einzelstrang-Nukleinsäure, die zu einem am 5 ' -Ende der die Eingabe kodierenden Einzelstrang-Nukleinsäure liegenden Abschnitt komplementär ist und einen Startzustand des biomolekularen endlichen Automaten kodiert enthält, und d) eine Einzelstrang-Nukleinsäure, die zu einem am 3 ' -Ende der die Eingabe kodierenden Einzelstrang-Nukleinsäure liegenden Abschnitt komplementär ist und einen Endzustand des biomolekularen endlichen Automaten kodiert enthält.

Die erfindungsgemäße Zusammensetzung ist ebenso wie die erfindungsgemäße Nukleinsäure zur Verwendung als Arzneimittel geeignet .

Die Bestandteile der Zusammensetzung können zusammen, z.B. in einer Lösung, vorzugsweise einer wässrigen Lösung, aber auch getrennt, beispielsweise in jeweils einem eigenen Behälter, vorliegen.

Die Erfindung betrifft darüber hinaus die Verwendung einer erfindungsgemäßen Nukleinsäure oder einer erfindungsgemäßen Zusammensetzung zur Herstellung eines Arzneimittels bzw. eines Zwischenproduktes für ein Arzneimittel.

Die vorliegende Erfindung wird im Folgenden anhand veran- schaulichender Beispiele unter Bezugnahme auf die beigefügten Figuren näher erläutert .

Figur 1 veranschaulicht eine Ausführungsform der Erfindung gemäß dem komplexen "Sticker" -Modell . A. Zustandsdiagramm bzw. Zustandsübergangsdiagramm eines endlichen Automaten mit Eingabealphabet {a,b} und Zustandsmenge {SO, Sl} . SO ist der Start- und Endzustand. Sl = Zustand 1. B. Berechnung für das

Eingabewort "abba" . C. Kodierung der Eingabe "abba" durch ein einzelsträngiges DNA-Molekül. D. Kodierung der übergangsregeln. E. Kodierung des Startzustandes. F. Kodierung des Endzustandes. G. Darstellung des akzeptierten Eingabewortes "ab- ba" als doppelsträngiges DNA-Molekül. IS = Startzustand, FS = Endzustand, T = Terminator, I = Initiator. Zur Eingabe komplementäre Nukleotidsequenzen sind mit Hochkomma ( ' ) gekennzeichnet .

Figur 2 zeigt ein Beispiel für die Realisierung des endlichen Automaten aus Figur 1 mit Hilfe von Nukleinsäuren. A. Eingabemolekül, B. Abstandhalter-Nukleotidsequenz (Spacer) , C. Symbole a und b, D. Initiator I, E. Terminator T, F. übergangsregeln, G. Startzustand IS, H. Endzustand FS, I. Doppel- strang-DNA als Ergebnis einer akzeptierten Eingabe.

Figur 3 zeigt eine schematische Darstellung eines eukaryoti- schen Gens mit zwei Exons (Exon 1 und Exon 2) , die durch ein Intron getrennt sind. Das Dinukleotid GT kennzeichnet die 5'- Spleißstelle, das Dinukleotid AG die 3 ' -Spleißstelle, A die

Verzweigungsstelle und Yn die pyrimidinreiche Region (Y = Py- rimidin, n = Anzahl der Pyrimidinnukleotide, etwa 6-17) . P = Promotor .

Figur 4 zeigt eine schematische Darstellung einer Ausführungsform der erfindungsgemäßen Nukleinsäure mit einem "Rechengen" . P = Promotor, IS = Startzustand ("initial State"), TR = übergangsregel ("transition rule"), FS = Endzustand ("final State" ) .

Figur 5 zeigt zwei bevorzugte Ausführungsformen der Erfindung. In Figur 5A ist eine Ausführungsform gemäß einem kom-

plexen "Sticker "-Modell, in Figur 5B eine Ausführungsform gemäß einem einfachen "Sticker" -Modell dargestellt. P = Promotor, IS = Startzustand, FS = Endzustand.

Figur 6 zeigt die Exprimierung eines Rechengens . Eine akzeptierte Eingabe liefert durch spontane Selbstassemblierung ein vollständiges doppelsträngiges DNA-Molekül, das in der Zelle exprimiert werden kann. P = Promotor, El = Exon 1. I = Initiator, T = Terminator, IS = Startzustand, FS = Endzustand.

Figur 7 zeigt den Fall einer nichtakzeptierten Eingabe. Das nur partiell doppelsträngige DNA-Molekül wird in der Zelle nicht exprimiert. P = Promotor, El = Exon 1, IS = Startzustand, FS = Endzustand.

Figur 8 zeigt die Umsetzung einer "diagnostischen Regel". A. Endlicher Automat für die diagnostische Regel. B. Zugehöriges Rechengen, das anhand des komplexen Stickermodells synthetisiert wird. C. Zugehöriges Rechengen, das anhand des einfa- chen Sticker-Modells synthetisiert wird. M = Mutation; NO = Nein.

Figur 9A zeigt beispielhaft ein Schema zur Detektion einer Mutation auf molekularer Ebene. In Figur 9B ist die entspre- chende nichtmutierte mRNA dargestellt.

Figur 10 zeigt schematisch eine bevorzugte Ausführungsform des erfindungsgemäßen Verfahrens. P = Promotor.

Figur 11 zeigt schematisch ein erfindungsgemäßes Rechenope- ron. P = Promotor, O = Operator, G = Gen.

Beispiel 1

Figur 1 zeigt schematisch Komponenten eines biomolekularen endlichen Automaten, der nach einem bevorzugten Mechanismus arbeitet, der im Folgenden als "komplexes Sticker-Modell" bezeichnet wird. Die vorliegende Erfindung ist auf dieses Modell jedoch nicht beschränkt. Auch andere, z.B. einfachere, "Sticker-Modelle" sind in Zusammenhang mit der vorliegenden Erfindung einsetzbar. Ein Automat, der nach einem Sticker- Modell arbeitet, wird im Folgenden auch kurz als "Sticker- Automat" bezeichnet.

Der in Figur 1 dargestellte biomolekulare endliche Automat kann sich in zwei Zuständen, SO und Sl, befinden und zwei Symbole verarbeiten. Eine Limitierung auf diese Zahl von Zuständen und Symbolen ist aber nicht gegeben. Das weiter oben beschriebene Shapiro-Modell ist demgegenüber auf zwei Zustände und zwei Symbole beschränkt., so dass die Komplexität (angegeben als Produkt aus der Zahl der Symbole und der Zahl von Zuständen) stark limitiert ist. Das hier beschriebene "komplexe" Sticker-Modell kann soviele Zustände und Symbole kodieren wie nötig. Darüber hinaus sei erwähnt, dass das Sticker-Modell auf die gleiche Weise wie das Shapiro-Modell auf stochastische endliche Automaten erweitert werden kann.

In Figur IA ist ein entsprechendes Zustandsdiagramm wiedergegeben. Kreise symbolisieren dabei einen Zustand, den der Automat annehmen kann. Der (akzeptierende) Endzustand ist durch den in Fettdruck gehaltenen Kreis gekennzeichnet. Hier ent- spricht der Startzustand IS dem Zustand SO, und der Startzustand ist mit dem Endzustand (FS) identisch. Pfeile in dem Diagramm geben die Zustandsübergänge an. über dem Pfeil sind

Symbole wiedergegeben, die von dem Automaten verarbeitet werden können (hier die Symbole a und b) und bei deren Verarbeitung der entsprechende Zustandsübergang eintritt. Der gerade Pfeil kennzeichnet den Eintritt des Automaten in den Startzu- stand SO. Der dargestellte Automat akzeptiert Eingaben mit einer geraden Zahl des Symbols "a" .

In Figur IB ist die Verarbeitung des Eingabewortes "abba" dargestellt. Der Automat befindet sich zunächst im Startzu- stand SO und verarbeitet das erste Symbol "a" aus dem Eingabewort, was zu einem übergang in den Zustand Sl führt. Die sukzessive Verarbeitung der beiden folgenden "b" -Symbole führt zu keiner ersichtlichen Zustandsänderung, vielmehr geht der Automat vom Zustand Sl erneut in den Zustand Sl über. Die Eingabe des letzten Symbols "a" führt zu einem übergang in den Zustand SO, der gleichzeitig der Endzustand FS ist. Eine Eingabe gilt als "akzeptiert", wenn der Automat sich nach deren Verarbeitung in einem als solchen vorgesehenen Endzustand befindet .

In Figur IC ist ein einzelsträngiges DNA-Molekül 9 dargestellt, das die Eingabe des Sticker-Automaten bildet. Anders als beim Shapiro-Modell wird die Eingabe beim Sticker-Modell durch eine Einzelstrang-Nukleinsäure bzw. -DNA (ssDNA) ko- diert. Darüber hinaus wird das Eingabemolekül im Gegensatz zum Shapiro-Modell nicht abgebaut. Die Einzelstrang-DNA um- fasst den Initiator I, eine alternierende Folge von Zustände S kodierenden Abstandhalter-Nukleotidsequenzen ("Spacern") 7 und Symbole kodierenden Nukleotidsequenzen 8 (kurz: Symbolse- quenzen) sowie den Terminator T.

In Figur ID sind durch Einzelstrang-Nukleinsäuren, beispielsweise ssDNA, kodierte übergangsregeln TR dargestellt. Die Einzelstrang-Nukleinsäuren sind zu Abschnitten auf dem Eingabemolekül 9 komplementär, so dass sie sich an diese Abschnit- te anlagern, d.h. mit diesen Abschnitten hybridisieren können. Da die Einzelstrang-Nukleinsäuren sich auf diese Weise quasi an das Eingabemolekül heften, werden sie auch als "Sticker "bezeichnet. übergangsregeln haben die Struktur:

fifnϊ Sy^ 01 , S(Ii + I)

Dabei entspricht S(n) dem jeweils aktuellen Zustand, S(n+1) dem jeweils nächsten Zustand. Die übergangsregeln werden durch Einzelstrang-Nukleinsäuren (Oligonukleotide) kodiert, die komplementär sind zum 5 ' -S (n) -Teil der Abstandhalter-

Nukleotidsequenz 7, dem Symbol und dem 3 ' -S (n+1) -Teil der Ab- standhalter-Nukleotidsequenz 7. In der Figur sind die vier in diesem Beispiel vorgegebenen übergangsregeln dargestellt:

1. übergang von SO nach Sl unter Verarbeitung des Symbols "a"

2. übergang von Sl nach Sl unter Verarbeitung des Symbols "b"

3. übergang von Sl nach SO unter Verarbeitung des Symbols "a"

4. übergang von SO nach SO unter Verarbeitung des Symbols "b"

Die vier weiteren bei dem hier beschriebenen Zwei-Zuständezwei-Symbole-Automaten möglichen übergangsregeln sind nicht dargestellt .

Durch die Auswahl bzw. Vorgabe der entsprechenden übergangs- regeln aus der Gruppe möglicher übergangsregeln, kodiert in Einzelstrang-Nukleinsäuren, kann der biomolekulare endliche Automat programmiert werden.

In Figur IE und IF sind der Startzustand IS und der Endzustand FS kodiert. Auch hierbei handelt es sich um Einzelstrang-Nukleinsäuren, die zu bestimmten Abschnitten des Ein- gabemoleküls 9 komplementär sind. Die den Startzustand IS kodierende Nukleinsäure ist komplementär zu der Initiator- Sequenz und dem 5 ' -Teil des den Startzustand IS (hier SO) kodierenden Abschnitts der folgenden "Spacer" -Sequenz SO. Die Anlagerung dieser Einzelstrang-Nukleinsäure versetzt den Au- tomaten in den Startzustand SO. Die den Endzustand FS kodierende Nukleinsäure ist komplementär zur Terminator-Sequenz und einem Teil des in 5 ' -Richtung davor liegenden den Endzustand FS (hier auch SO) kodierenden "Spacers" 7 .

In Figur IG ist eine doppelsträngige DNA (dsDNA) dargestellt, die das Ergebnis der akzeptierten Eingabe des Eingabewortes "abba" ist. Der Rechenvorgang resultiert bei einer akzeptierten Eingabe somit in einer vollständigen Doppelstrang-DNA, da alle komplementären Nukleinsäuren ("Sticker") sich so an das Eingabemolekül 9 angelagert haben, dass keine Lücke im komplementären Strang verbleibt. Partiell unvollständige DNA kann mit Hilfe von Nukleasen, die dem Fachmann gut bekannt sind verdaut werden. In vitro kann z.B. Mungbohnen-Nuklease oder Sl-Nuklease verwendet werden, wobei Sl-Nuklease bevor- zugt ist. Wenn der Rechenvorgang in der Zelle durchgeführt wird, erfolgt der Abbau durch zelleigene Enzyme.

In Figur 2 ist beispielhaft dargestellt, wie der in Figur 1 schematisch dargestellte endliche Automat mit Nukleinsäuren realisiert werden kann. Figur 2A zeigt das Eingabemolekül 9, ein Einzelstrang-DNA-Molekül. Das Eingabemolekül 9 umfasst den Initiator I (s. Figur 2D), eine alternierende Folge von

die zwei Zustände SO und Sl kodierenden Abstandhalter- Nukleotidsequenzen 7 (s. Figur 2B) und Symbolsequenzen 8 (s. Figur 2C) sowie den Terminator T (s. Figur 2E) . Die Symbolsequenzen 8 sind durch Fettdruck und zusätzliche Unterstrei- chung hervorgehoben.

Figur 2F gibt die aus der Gruppe von insgesamt acht möglichen übergangsregeln TR ausgewählten vier übergangsregeln wieder. Die die übergangsregeln TR kodierenden Oligonukleotide sind in 3 ' -5 ' -Richtung wiedergegeben und sind komplementär zu bestimmten Abschnitten des Eingabemoleküls 9.

In Figur 2G und 2H sind Oligonukleotide dargestellt, die den Startzustand IS und den Endzustand FS kodieren. Auch diese Oligonukleotide sind in 3 ' -5 ' -Richtung wiedergegeben und komplementär zu dem Anfangs- bzw. Endabschnitt des Eingabemoleküls 9.

Figur 21 zeigt das Ergebnis einer vom endlichen Automaten ak- zeptieren Eingabe. An das Eingabemolekül 9 haben sich im Verlaufe des Rechenvorgangs die den Startzustand IS, die übergangsregeln TR und den Endzustand FS kodierenden Oligonukleotide in der richtigen Reihenfolge angelagert, so dass ein vollständiges Doppelstrang-DNA-Molekül entstanden ist. Bei dem Rechenvorgang wurde der endliche Automat durch Anlagerung der in Figur 2G dargestellten Nukleotidsequenz in den Startzustand IS=SO versetzt. Wie anhand von Figur 2B ersichtlich, ist in diesem Zustand die Nukleotidsequenz CCAGCGT in der entsprechenden Abstandhalter-Nukleotidsequenz 7 frei zugäng- lieh, d.h. nicht durch komplementäre Basen abgedeckt, während die vorhergehende Sequenz AGT der Abstandhalter-Nukleotidsequenz 7 durch Basenpaarung abgedeckt ist. In der Folge ging

der Automat durch Anlagerung der in Figur 2F 1) dargestellten übergangsregel-Nukleotidsequenz unter Verarbeitung des Symbols a von dem Zustand SO in den Zustand Sl über. Dieser Zustand ist daran erkennbar, dass die Sequenz CCAG in der ent- sprechenden Abstandhalter-Nukleotidsequenz 7 durch Basenpaarung abgedeckt ist während die Sequenz CGT frei zugänglich ist. Durch zweimalige Anlagerung der in Figur 2F 2) dargestellten übergangsregel-Nukleocidsequenz ging der Automat unter jeweiliger Verarbeitung des Symbols b vom Zustand Sl er- neut in den Zustand Sl über. Durch Anlagerung der in Figur 2F 3) dargestellten übergangsregel-Nukleotidsequenz ging der Automat unter Verarbeitung des Symbols a vom Zustand Sl in den Zustand SO über, der auch der Endzustand ist. Abschließend lagert sich die in Figur 2H dargestellte Nukleotidsequenz an das Eingabemolekül 9 an. Eine erneute Zustandsänderung ist damit aber nicht mehr verbunden. Der Automat befindet sich weiterhin im Zustand SO.

Beispiel 2

In Figur 3 ist schematisch der Aufbau eines typischen Eukary- otengens mit einem Klasse-I-Intron dargestellt. Das Intron ist von zwei Exons flankiert. Dem ersten Exon ist ein Promotor P vorgeschaltet. Das erste Exon enthält am 5 ' -Ende eine nichttranslatierte Region (5'-UTR) 1, das zweite Exon enthält am 3 ' -Ende eine nichttranslatierte Region (3'-UTR) 2. Das Intron enthält an seiner Flanke zum 5 ' -Ende hin eine 5 ' - Spleißstelle 3, an seiner Flanke zum 3 ' -Ende hin eine 3'- Spleißstelle 4. Darüber hinaus enthält das Intron eine Verzweigungstelle 5 sowie eine pyrimidinreiche Region 6 zwischen Verzweigungsstelle und 3 ' -Spleißsstelle.

Figur 4 zeigt eine schematische Darstellung einer Ausführungsform eines Rechengens gemäß der vorliegenden Erfindung, das eine Struktur analog dem in Figur 3 dargestellten Eükary- otengen aufweist. Dem Rechengen ist ein Promotor P vorge- schaltet. Als "Gerüst" enthält das Rechengen zwei Exons und ein Intron, wobei das Intron die Intronsignale eines Klasse- I-Introns umfasst, d.h. die 5 1 - und 3 ' -Spleißstellen 3, 4, die Verzweigungsstelle 5 sowie die pyrimidinreiche Region 6. Das Intron umfasst aber auch Abstandhalter-Nukleotidsequenzen 7 und Symbole aus einem Eingabealphabet für den biomolekularen endlichen Automaten kodierende Nukleotidsequenzen 8 ("Spacer"). Die Abstandhalter-Nukleotidsequenzen 7 umfassen dabei Nukleotidsequenzen, die mindestens einen Zustand S des biomolekularen endlichen Automaten kodieren. Die Abstandhal- ter-Nukleotidsequenzen 7 und die Symbole kodierenden Nukleotidsequenzen 8 sind in einer alternierenden Folge angeordnet, wobei die Folge mit einer mindestens einen Zustand kodierenden Abstandhalter-Nukleotidsequenz 7 beginnt und endet. Die Abstandhalter-Nukleotidsequenzen 7 und die Symbole kodieren- den Nukleotidsequenzen 8 sind auf dem Sinnstrang 16 des Rechengens angeordnet. Der zum Sinnstrang 16 komplementäre Strang 17 (Anti-Sinnstrang) umfasst Nukleotidsequenzen, die für den Startzustand IS, die übergangsregeln TR sowie den Endzustand FS des biomolekularen endlichen Automaten kodie- ren. Der Startzustand IS umfasst hier den Promotor P und das erste Exon (die zusammen den "Initiator" bilden), die 5'- Spleißstelle 3 und den 5 ' -Teil der ersten auf die 5 ' - Spleißstelle folgenden Abstandhalter-Nukleotidsequenz 7. Die übergangsregeln TR umfassen Nukleotidsequenzen, die komple- mentär sind zu dem 5 ' -Teil einer Abstandhalter-Nukleotidsequenz 7, der den aktuellen Zustand des Automaten kodiert, einer ein Symbol kodierenden Nukleinsäuresequenz 8 und dem

3 '-Teil einer Abstandhalter-Nukleotidsequenz 7, der den nächsten Zustand des Automaten kodiert. Der Endzustand FS um- fasst den 3 ' -Teil der letzten vor der 3 ' -Spleißstelle liegenden Abstandhalter-Nukleotidsequenz 7.

Figur 5A zeigt eine bevorzugte Ausführungsform der vorliegenden Erfindung, bei der die Selbstassemblierung nach dem komplexen Sticker-Modell erfolgt. Die Abstandhalter-Nukleotid- sequenzen 7 kodieren in dem Beispiel jeweils drei Zustände SO, Sl und S2.

In Figur 5B ist eine weitere Ausführungsform dargestellt, die nach einem einfachen "Sticker"-Modell arbeitet. Auch hier sind mehr als zwei Zustände möglich, eine Abstandhalter- Nukleotidsequenz 7 kodiert aber jeweils nur einen Zustand S.

Figur 6 zeigt ein Beispiel für einen Rechenvorgang mittels eines erfindungsgemäßen biomolekularen endlichen Sticker- Automaten, wobei die Eingabe, die in einer Einzelstrang- Nukleinsäure kodiert enthalten war, akzeptiert wurde. Die aus dem autonom erfolgten Rechenvorgang resultierende Doppelstrang-DNA, die ein artifizielles Gen umfasst, dem ein Promotor P vorgeschaltet ist, kann wie ein natürlich vorkommendes Gen in einer Zelle exprimiert werden. Die Transkription des Gens führt zu einer Prä-mRNA 10. Der Spleißvorgang führt in einem weiteren Schritt zu einer mRNA, die beispielsweise in ein Protein übersetzt werden oder auch eine andere Funktion übernehmen kann .

Figur 7 zeigt das Ergebnis einer nichtakzeptierten Eingabe.

Der autonome Rechenvorgang führt zur Bildung einer partiellen Doppelstrang-DNA, die in der Zelle nicht translatiert wird.

Beispiel 3

Im folgenden sollen anhand eines Beispiels aus der Medizin die Möglichkeiten verdeutlicht werden, die sich mit Hilfe der vorliegenden Erfindung eröffnen. Dabei wird für den Fachmann leicht ersichtlich sein, dass sich die Erfindung in einfacher Weise auf andere Gebiete auch außerhalb der Medizin übertragen lässt. Insbesondere auf dem Gebiet der Biotechnologie, beispielsweise der Pflanzen-Biotechnologie, kann die vorliegende Erfindung vorteilhaft angewendet werden.

Rechengene können beispielsweise dazu benutzt werden, um einen Behandlungsmechanismus für aberrierte Gene zu entwickeln. Aberrierte Gene werden vornehmlich durch Genmutation induziert. Genmutationen entstehen spontan, also ohne Einwirkung von außen, oder werden durch Chemikalien oder Strahlen induziert. Die Mechanismen der spontanen oder induzierten Mutationsauslösung (Mutagenese) sind verschieden, aber sie haben die gleichen Konsequenzen. Die wichtigsten Typen intrageni- scher Mutationen sind neutrale, Nonsense- und Missense- Mutationen. Neutrale Mutationen ändern die genetische Information nicht. Es wird lediglich ein Kodon in ein synonymes Kodon umgewandelt. Nonsense-Mutationen wandeln Sinn-Kodons in Stop-Kodons um. In diesem Fall wird ein unvollständiges Protein-Fragment synthetisiert, wodurch die Funktion des ursprünglichen Proteins in der Regel verloren geht. Demgegenüber ändern Missense-Mutationen die genetische Information und können für das Protein ganz unterschiedliche Folgen ha- ben, abhängig von der Art und Lage der ausgetauschten Aminosäure im Protein. Im schlimmsten Fall kann die Zelle zugrunde gehen oder zu einer Tumor-Zelle werden. Viele Arten menschli-

chen Krebses werden beispielsweise durch spezifische Missen- se-Mutationen in Tumorsuppressor- oder Onkogenen hervorgerufen (Hainaut, P. und Hollstein, M.: Adv. Cancer Res . , 77, 81- 137, 2000) .

Heute werden für verschiedene Klassen von onkogenischen Mutationen unterschiedliche Behandlungsstrategien vorgehalten. Mit Hilfe von Rechengenen kann ein neuartiger, allgemeinerer Behandlungsmechanismus entwickelt werden. Dieser Mechanismus basiert auf einer Regel, die im Bereich der Medizin als diagnostische Regel bezeichnet werden kann. Die diagnostische Regel erlaubt eine molekulare Diagnose von Krankheiten und ist durch einen Booleschen Ausdruck B in einer oder mehreren Variablen definiert .Die Booleschen Variablen sind durch mole- kulare Markierungen gegeben, die entweder präsent (Wert wahr) oder abwesend (Wert falsch) sind. Der Begriff "molekulare Markierung" umfasst vor allem Genmutationen, aber auch ein verändertes Genexpressionsniveau oder eine veränderte Proteinstruktur.

Ein typischer Boolescher Ausdruck hat die Form

B = mol_marker_l and mol_marker_2 and ... and mol_marker_n (1)

Eine typische diagnostische Regel hat folgende Form:

If B then produce (Rechengen) (2)

Im Falle einer positiven Diagnose liegt in der Zelle ein ab- erriertes Gen vor. Daraufhin wird ein entsprechendes Rechengen produziert. Darüber hinaus kann das aberrierte Gen abgeschaltet werden. Das erzeugte Rechengen kann beispielsweise

das Protein des dem aberrierten Gen entsprechenden Wildtyp- Gens oder ein Peptid als Gegenmittel kodieren. Im ersten Fall wird die Funktion des aberrierten Genes wiederhergestellt. Das Abschalten des aberrierten Genes kann durch Freisetzen einer kurzen Antisense-Nukleinsäure erreicht werden, die an die mRNA des aberrierten Gens bindet und so deren Translation verhindert. Dieser Rettungsmechanismus steuert die Genexpression auf logische Weise und gestattet es, komplexe Regeln für die molekulare Diagnose und Therapie von Krankheiten umzuset- zen. Der Mechanismus ist universell auf jede Krankheit anwendbar, die durch geeignete molekulare Markierungen detek- tierbar ist.

Das Rechengen wird durch einen autonomen Rechenvorgang in vi- vo erzeugt, dessen Eingabe die molekularen Markierungen aus der zugehörigen diagnostischen Regel darstellen bzw. enthalten. Figur 8 zeigt die Umsetzung der diagnostischen Regel mit Hilfe eines Sticker-Automaten. Die Symbole des endlichen Automaten werden nunmehr von molekularen Markierungen (hier Mu- tationen M) gebildet. Wenn alle molekularen Markierungen von dem endlichen Automaten verarbeitet werden, bedeutet dies eine positive Diagnose und die gleichzeitige spontane Selbstassemblierung eines entsprechenden Rechengens, das beispielsweise ein nicht mutiertes Wildtyp-Protein kodiert, welches als Ergebnis des autonomen Rechenvorgangs erzeugt wird.

Die oben vorgestellte Behandlungsstrategie wird im Folgenden am Beispiel des Dickdarmkrebses näher erläutert. Es ist bekannt, dass eine Punktmutation des Proteins p53 im Kodon 249 Dickdarmkrebs auslösen kann (Montesano, R. , Hainaut, P, und

Wild, CP. : Hepatocellular Carcinoma: From gene to pu-blic

health. J. Natl. Cancer Inst., 89, 1844-1851, 1997). Die entsprechende diagnostische Regel lautet

If p53_mutated_at_Codon_249 then produce (healthy_p53_or/and_CDB3) (3)

Das Protein p53 ist ein Tumorsuppressor. In mehr als 50 Prozent der menschlichen Krebserkrankungen liegen Missense- Mutationen in p53 vor, die überwiegend in der Untereinheit p53C zu finden sind. Diese Mutationen sind in zwei Klassen eingeteilt: DNA-Kontaktmutationen, die die Zahl der DNA- bindenden Reste verringern, und strukturelle Mutationen, die eine Konformationsanderung von p53C zur Folge haben (Cho, Y, Gorina, S., Jeffrey, P.D. und Pavietich, N. P: Science, 265, 346-355, 1994) . Das Peptid CDB3 kann an die Untereinheit p53C binden und ihre Struktur auf diese Weise stabilisieren. Somit kann CDB3 bei strukturellen Mutationen von p53C als Rettungsmechanismus verwendet werden, während für DNA-Kontaktmutationen andere Strategien notwendig sind.

Um den Booleschen Ausdruck in (3) auszuwerten, müssen Punktmutationen detektiert werden (s. Figur 9) . Dazu wird ein so genannter diagnostischer Komplex 11 verwendet. Dies ist ein doppelsträngiges Nukleinsäuremolekül, vorzugsweise ein DNA- Molekül, das aus einem Mutationssignal 12 und einem diagnostischen Signal 13 besteht. Beide Signale sind antiparallel und komplementär bis auf die mutierte Stelle. Thermodynami- sche Studien (Bullock, A.N. und Fersht, A. R. : Nat . Cancer Rev., 1, 68-76, 2001; A. J. Turberfield, J. C. Mitchell, B. Yurke Jr., A. P. Mills, M.l. Blakey und F. C. Simmel : DNA fuel for free-running nanomachines . Phys . Rev. Lett., 90, 118102 pp, 2003) zeigen, dass die mutierte mRNA 14 im Falle einer

positiven Diagnose vorzugsweise mit dem Mutationssignal 12 einen partiell doppelsträngigen DNA/RNA-Komplex 16 bildet, während das diagnostische Signal 13 freigesetzt wird (s. Figur 9A, Figur 9b zeigt die nichtmutierte mRNA 15) . Der DNA/RNA-Komplex wird durch DNAse H deaktiviert. Das Mutationssignal 12 fungiert bei seiner Freisetzung aus dem diagnostischen Komplex 11 als Inhibitor, der die Expression des mutierten Gens verhindert. Das diagnostische Signal 13 ist eine molekulare Markierung, die als Eingabe der diagnostischen Re- gel (3) dient. Dieses Signal liefert durch spontane Selbstassemblierung ein Rechengen (s. Figur 10) . Mit Hilfe dieses Mechanismus ist es beispielsweise möglich, ein oder mehrere Eingabemolekül (e) für einen biomolekularen endlichen Automaten und/oder ein oder mehrere übergangsregelmolekül (e) für einen biomolekularen endlichen Automaten in einer Zelle zu erzeugen. Damit ist quasi auch eine Selbstprogrammierung des biomolekularen endlichen Automaten in Abhängigkeit vom Vorhandensein oder Nichtvorhandensein molekularer Markierungen möglich.

Eventuell müssen mehrere Stellen mutiert sein bzw. muss die Länge (d.h. die Zahl der Basenpaare) des diagnostischen Signals erhöht werden, um die Effizienz des in Figur 9A veranschaulichten Vorgangs zu erhöhen.

Das Rechengen in der diagnostischen Regel (3) kodiert entweder ein Wildtyp-p53 oder CDB3. Für die Kodierung dieser Produkte können menschliche Gene etwa mit zwei Exons als Gerüste herangezogen werden, die vorzugweise in allen Geweben expri- miert werden, z.B. IDl (Inhibitor of DNA Binding 1) oder ADP- Ribosylierungsfaktor 6 (ARF6). Beispielsweise kann IDl bzw. ARF6 dazu verwendet werden, um ein Rechengen für CDB3 bzw.

p53 zu spezifizieren. Dabei werden die konservierten Muster des Gerüstgens vom jeweiligen Rechengen übernommen.

Beispiel 4

In diesem Beispiel wird unter Bezugnahme auf Figur 11 die Selbstassemblierung eines prokaryotischen Operons beschrieben.

Prokaryotische Gene sind häufig in Form von Operons organisiert. Ein Operon bildet einen Abschnitt auf der DNA, der einen Promotor, einen Operator und eine Folge von Genen aufweist. Bei den Genen kann es sich um Strukturgene handeln. Promotor, Operator und Gene sind jeweils durch nichtkodieren- de Bereiche voneinander getrennt. Das Exprimieren der Folge von Genen in einem Operon kann durch bestimmte Stoffe, die von der Zelle aufgenommen werden, an- oder abgeschaltet werden. Dadurch wird die Protein-Biosynthese aktiviert oder gehemmt. Einem Operon kann beispielsweise ein Repressor-Protein zugeordnet sein, das an den Operator bindet und die am Promotor sitzende RNA-Polymerase daran hindert, die genkodierende Sequenz zu transkribieren. Beispielsweise ändert der Repres- sor des Laktose-Operons seine Raumstruktur, wenn die Zelle Laktose aufnimmt. Dadurch ist der Repressor nicht länger in der Lage, an den Operator zu binden. In diesem Fall kann die RNA-Polymerase die Gene des Operons gemeinsam transkribieren. Diese Gene synthetisieren Enzyme für den Laktose-Abbau in der Zelle.

In Bakterienzellen können Rechengene auch mit Hilfe von Operons synthetisiert werden. Den Aufbau eines aus zwei Genen bestehenden Operons zeigt Figur 11. Der nichtkodierende Be-

reich zwischen Operator und erstem Gen wird hier zur Kodierung von Zuständen und Symbolen für die Synthese des Recheno- perons benutzt. Die Sticker-Nukleinsäuren der Zustände und übergänge können aber auch komplementär zu kodierenden Berei- chen sein. Allerdings ist es zweckmäßig, ein Symbol oder einen Zustand des Automaten durch einen DNA-Abschnitt des kodierenden Bereichs zu kodieren, weil ein solcher Bereich eigenständig synthetisiert werden kann, wenn er das Startkodon ATG enthält. Derartige Sticker stehen dann für die spontane Selbstassemblierung des Rechenoperons nicht zur Verfügung.

Die Bauanleitung des Rechenoperons ist durch einen endlichen Automaten gegeben. Das Rechengen entsteht durch spontane Selbstassemblierung. Jede übergangsregel besteht vorzugsweise aus einer Region des nichtkodierenden Bereichs zwischen Operator und dem stromabwärts folgenden ersten Gen. Der Startzustand kodiert den Promotor und den Operator. Der Endzustand umfasst ein oder mehrere Gene inklusive der gegebenenfalls zwischen den Genen liegenden trennenden nichtkodierenden Be- reiche.