Die Zweckentfremdung der DNA (Teil 1): Speicher der Zukunft
In meiner Umfrage, welche Blog Beiträge euch zukünftig interessieren würden, kam immer wieder ein Thema auf: Die Analogie zwischen DNA und Computern. DNA ist der Bauplan unseres Lebens. Auf ihr ist alle Information gespeichert, um aus uns den Menschen zu machen, der wir sind. Die ganz persönliche Festplatte. Festplatte? Könnte ich meine Fotosammlung, Kontaktdaten und Erinnerungen auch auf DNA speichern? Schließlich macht mich mehr aus als nur meine Erbinformation.
Noch speichern wir unsere Daten hauptsächlich auf magnetischen und optischen Speichermedien. Auf einer Diskette konnte man damals bis zu 3,25 Megabyte speichern. Auf einer DVD etwa 9,4 Gigabyte. USB Sticks kann man mittlerweile schon in Terabyte Größe kaufen. Magnetische Speicher fassen derzeit bis zu 185 Terabyte, optische bis zu 1 Petabyte. Der uns verfügbare Speicher wächst und wächst. Nur leider langsamer, als die Masse an digitalen Daten. Eine Studie der EMC Corporation (ein US-amerikanischer Speicherhersteller) sagt voraus, dass schon in 4 Jahren die verfügbare Speichermenge nur noch für 15 Prozent aller Daten reicht.
Die meisten Daten sind jedoch flüchtig, müssen also gar nicht dauerhaft gespeichert werden. Aber was ist mit den riesigen Mengen an Daten, die zum Beispiel in den Naturwissenschaften anfallen. Wir befinden uns im Zeitalter der Hochdurchsatztechnologien. Jeden Tag werden in Biologie, Chemie, Physik riesige Datenmengen gemessen. Datenmengen, die Informationen enthalten, die sich im Moment vielleicht noch gar nicht sinnvoll auswerten lassen. Was tun? Verwerfen, weil der Speicher knapp wird? Oder vorerst sichern und in 50 Jahren wieder rauskramen? Aber da sind wir schon beim nächsten Problem: unsere Datenspeicher sind nicht für die Ewigkeit gemacht. DVDs halten etwa 10 Jahre. Flash-Speicher etwa 30 Jahre (natürlich abhängig von der Anzahl der Schreibvorgänge). Und noch ein Problem: wer von euch kann heute noch eine Diskette lesen? Ich selbst habe nicht einmal mehr die nötige Hardware um eine CD oder DVD abzuspielen. Müssen wir unsere Daten also ständig auf neuere Speichermedien übertragen?
Speicher der Zukunft
Wohin also mit all den Informationen und dem ganzen Wissen, das die Menschheit über die Jahrhunderte angesammelt hat? Zur der geringen Lebenszeit unserer heutigen Speichermedien, kommt noch deren erhebliche Größe. Und damit meine ich nicht die Speichergröße sondern die echte räumliche Größe. Man braucht heute etwa einen Kubikmillimeter, um hundert Gigabyte zu speichern. Bis 2020 soll das weltweite Datenvolumen auf 44 Billionen Gigabyte (44 Zettabyte) wachsen, das sind etwa 440.000 Liter Speicherplatz. Viel besser wäre es doch, wenn wir dafür nur 44 Milliliter brauchen würden. Gesucht wird also ein Speichermedium, auf das ein Exabyte Information pro Kubikmillimeter passt (man spricht hier von Informationsdichte). Gibt es das? Ja! Und ihr werdet sicher nicht überrascht sein, dass es sich dabei um DNA handelt.
DNA als Langzeitspeicher
Schon 1988 hatten die ersten Wissenschaftler die Idee, eine Botschaft auf DNA zu speichern. Und seither haben Wissenschaftler immer mal wieder damit experimentiert, DNA als Speichermedium zu nutzen. Interessant ist DNA vorallem für die Langzeitspeicherung von Daten, oder sagen wir, für die Archivierung des Wissens der Menschheit. Welche Vorteile bietet DNA gegenüber anderen Speichermedien?
Die Informationsdichte von DNA übertrifft die Informationsdichte gegenwärtiger Speichermedien um Längen. Wie oben schon erwähnt passt etwa ein Exabyte Information auf einen Kubikmillimeter DNA. Oder in Gramm ausgedrückt, passen auf ein Gramm DNA die Daten von etwa einer Millionen CDs.
Auch die Lebensdauer von DNA übertrifft die Lebensdauer gegenwärtiger Speichermedien um Längen. Selbst unter ungünstigen Bedingungen hält sich DNA über Jahrhunderte. In einer kalten, trockenen, dunklen Umgebung lässt sie sich ohne nennenswerten Aufwand sogar über Jahrtausende bewahren. Zum Beispiel konnte DNA des vor zehntausend Jahren ausgestorbenen Mammuts 2008 sequenziert werden.
DNA ist die Grundlage allen Lebens. Das Lesen und Schreiben von DNA ist durch unser Interesse am Erbgut aller Lebewesen möglich geworden. Noch immer gilt es unzählige biologische Fragestellungen mittels DNA-Analyse zu klären, was den Fortschritt dieser Technologien weiter rasant voran treibt. Das Speichermedium an sich — die DNA — wird aber auch in tausenden von Jahren noch das selbe sein. Und auch den Menschen der Zukunft wird es noch möglich sein, DNA zu lesen.
Ein Sandkorn DNA
Die Bioinformatiker Ewan Birney und Nick Goldman beschrieben 2013 eine robuste Methode um Daten auf DNA zu speichern. Ihr DNA-Speicher enthielt 739 Kilobyte Information: sämtliche 154 Sonette von Shakespeare als ASCII Text, ein JPEG Foto des Baums vor dem Europäischen Bioinformatik-Institut in Cambridge, die Publikation von Watson und Crick von 1953 über die Struktur von DNA als PDF, einen MP3-Auszug aus der berühmten Rede „I have a dream“ von Martin Luther King, und die Kodierungsanleitung um binäre Daten in DNA-Sequenzen umzuwandeln als ASCII Text. Diese fünf Dateien speicherten sie in zehnmillionenfacher Kopie auf ein Krümelchen DNA, kleiner als ein Sandkorn.
Wie kommt ein Foto auf DNA?
Ein digitales Foto ist letztlich (wie jede andere Datei am Computer), eine Sequenz aus Nullen und Einsen (Binärsequenz). Um eine Datei auf DNA zu speichern muss man sie zunächst von der Binärkodierung in den Code der DNA übersetzen. Der Schreibprozess ist anders als bei heutigen Speichermedien; entspricht eher einem Herstellungsprozess, die sogenannte DNA-Synthese. Das Lesen der DNA-Sequenz bezeichnet man als Sequenzierung. Synthese und Sequenzierung sind gängige biotechnologische Methoden.
DNA besteht aus vier Nukleotiden, die wir als A, C, G und T abkürzen. Binärcode in Quartärcode umzuwandeln ist recht einfach, da die Zahl 4 selbst eine Zweierpotenz ist. Nehmen wir die Anzahl der Likes auf der BioinfoWelten Facebookseite: 105. Im Binärsystem (als ein Byte) dargestellt ist das 01101001, im Quartärsystem 1221. Und für A=0, C=1, G=2 und T=3 erhalten wir die DNA-Sequenz CGGC.
Derzeitige Sequenziermethoden haben aber insbesondere eine Schwäche: wenn gleiche Buchstaben aufeinander folgen, wird das Lesen der DNA ungenau. Ähnlich wenn ihr eine Zahl mit vielen Nullen lesen sollt und der Tausender-Separator fehlt. Um das zu vermeiden, haben sich Birney und Goldman einen Trick überlegt. Statt ins Quartärsystem übersetzt man ins Ternärsystem und benötigt somit nur drei DNA-Buchstaben. Habe ich gerade ein A geschrieben, dann kann ich die Werte 0, 1, 2 den verbleibenden Nukleotiden C, G, T zuordnen und verhindere somit, zwei As hintereinander zu schreiben.
Eine Datei wird nicht als kompletter DNA-Strang gespeichert. Auch hier gebieten die Sequenziermethoden wieder Einhalt, denn sie können nur etwa 500 Nukleotide-lange Sequenzen lesen. Also wird die Datei zerstückelt gespeichert in 117 Nukleotid-langen Sequenzen: 100 Nukleotide enthalten die eigentliche Datensequenz, 17 Nukleotide dienen als Schlüssel, um die Dateien wieder zusammenordnen zu können. Die DNA wird dabei so zerstückelt, dass sich jeweils vier Fragmente in 25 Nukleotiden überlappen — ein weiterer Trick um die Daten am Ende möglichst fehlerfrei lesen zu können. Dann geht es ins Labor zur DNA-Synthese-Maschine, die jedes Fragment in millionenfacher Kopie herstellt — sicher ist sicher.
Microsoft klinkt sich ein
Dass DNA der Speicher der Zukunft seien könnte, hat auch Microsoft bereits erkannt. Anfang des Jahres präsentierten die Forscher eine Verbesserung der Methode von Birney und Goldman. Musste man vorher zum Beispiel den kompletten DNA-Speicher Auslesen, um an eine einzelne Datei zu kommen, ist es mit der neuen Methode möglich, gezielt auf einzelne Dateien zuzugreifen und damit erhebliche Kosten und Zeit zu sparen.
Auch die Redundanz der Daten ist etwas eleganter gelöst. Statt vierfacher Überlappung der Fragmente nutzen die Forscher die XOR-Verknüpfung: Aus zwei Strängen mit unterschiedlichen Daten wird ein dritter Strang erzeugt. Der dritte Strang bekommt die Adressen beider Ausgangsstränge. Geht nun einer der beiden Stränge verloren, kann er aus dem anderen Strang und dem XOR-Strang rekonstruiert werden. Besonders wichtige Dateien (oder Bruchstücke von Dateien wie zum Beispiel den Header) kann man mehrmals verknüpfen und somit besonders sicher speichern.
Na dann: Lasst uns alles auf DNA speichern!!
Wen hab ich jetzt noch nicht davon überzeugt, dass DNA ein super Speichermedium ist? Höre ich Kritik? Ok, ok, ganz so einfach ist es natürlich in der Realität noch nicht. Da sind zum einen die Kosten: sowohl das Herstellen von DNA als auch das Lesen ist noch immer extrem teuer. Das Speichern eines Megabytes Information als DNA kostet mehrere tausend Euro, das Lesen mehrere hundert. Aber die Biotechnik auf dem Gebiet der DNA-Analyse entwickelt sich rasend schnell. Als das Erbgut des Menschen zum ersten Mal gelesen wurde, kostete das etwa 100 Millionen Euro (und mehr als 10 Jahre). Heute ist das bereits für weniger als 1000 Euro machbar. Auch werden die Methoden mit der Zeit weniger fehleranfällig. Dann benötigen wir weniger Kopien und erreichen eine noch höhere Speicherdichte.
Übrigens müsst ihr keine Angst haben, dass euch jemand mittels DNA-Speicher Krankheiten ins Erbgut einschleusen kann. Würdet ihr einen solchen Speicher verschlucken, würdet ihr die enthaltene DNA einfach verdauen, genauso wie ihr täglich die pflanzliche und tierische DNA eurer Nahrungsmittel verdaut.
Publikationen:
- Goldman N, Bertone P, Chen S, Dessimoz C, LeProust EM, Sipos B, Birney E.
Towards practical, high-capacity, low-maintenance information storage in synthesized DNA.
Nature, 494(7435):77-80, 2013. - Bornholt J, Lopez R, Carmean D, Ceze L, Seelig G, Strauss K.
A DNA-Based Archival Storage System
ASPLOS 2016
2 Antworten
[…] DNA als Langzeitspeicher für unsere Daten scheint nicht unrealistisch. Kann man mit DNA auch rechnen? Biologische Prozesse sind nix anderes als Informationsverarbeitung — DNA ist die Information und verarbeitet wird sie zu all den chemischen Prozessen in unserem Körper, von der Verdauung bis zum Marathon-Lauf. Können wir die Informationsverarbeitung der DNA auf Probleme aus der Informatik übertragen? […]
[…] lassen kann? Zu Beginn der Impfstoffproduktion wurde dieser Code an einen DNA-Drucker geschickt, welcher aus der Zeichenkette echte DNA-Moleküle herstellt. Aus der Maschine kommt eine winzige Menge DNA, die (durch biochemische Methoden) in RNA […]