Kodiert in der Abfolge der vier Erbgutbasen Adenin (A), Thymin (T), Guanin (G) und Cytosin (C) lassen sich gigantische Datenmengen auf kleinstem Raum speichern.

Foto: MIKI Yoshihito

Ein Zettabyte ist eine im Grunde unvorstellbar große Datenmenge. Ausgeschrieben sind das 1.000.000.000.000.000.000.000 (1021) Byte oder 1.000 Milliarden Milliarden Byte. 2012 erreichte die Gesamtheit aller digitalen Daten auf der Erde diesen markanten Wert. Vier Jahre später ist auch das Internet in der Zettabyte-Ära angekommen. Ab da nämlich überschritt der jährliche globale Internet-Datenverkehr die Zettabyte-Grenze. Bis Anfang des Jahres hat die Menschheit geschätzte 40 Zettabyte an digitalen Daten angehäuft, bis 2025 werden es Berechnungen zufolge 175 Zettabyte sein.

Wohin mit dem wachsenden Datengebirge?

Die Langzeitspeicherung dieses rasant wachsenden Datengebirges stellt die Menschheit allmählich vor technische Probleme: Festplattenplatz kostet relativ viel und verbraucht Strom, SSD-Speichermedien oder Magnetbänder halten vermutlich allenfalls Jahrzehnte. Die Lösung könnte von unerwarteter Seite kommen, aus den Biowissenschaften: Seit einigen Jahren sind Forscher in der Lage, große Datenmengen im Ergutmolekül DNA dauerhaft zu speichern.

Einem Team um Reinhard Heckel von der Technischen Universität München (TUM) ist es nun gelungen, eine Folge der neuen TV-Serie "Biohackers" in Form von synthetischer DNA zu verewigen. Die Forscher haben dafür eine Methode entwickelt, die das Speichern großer Datenmengen auf DNA für über 1.000 Jahre stabil macht.

Aus Nullen und Einsern werden Basen

Die künstlich generierte DNA besteht dabei, ebenso wie das Erbgut in unseren Zellen, aus einer Abfolge von vier Bausteinen: den Nukleotiden Adenin (A), Thymin (T), Guanin (G) und Cytosin (C). Digitale Daten wiederum sind in Nullen und Einsen kodiert. Im Falle der "Biohackers"-Folge ist dies eine Kette etwa 600 Millionen Nullen und Einsen. Um diesen Datenstrang zu übersetzen, legten die Wissenschafter fest, welche Zahlenkombination welchem Buchstaben entspricht: 00 ist A, 01 ist C, 10 ist G und 11 ist T. So würde dann beispielsweise die Reihe 01 01 11 00 in der DNA-Sequenz CCTA ergeben. Nach diesem Prinzip des "DNA Data Storage" wurde schließlich die gesamte 44 Minuten lange "Biohackers"-Episode verschlüsselt.

Damit sie auch haltbar bleibt, bedarf es allerdings gewisser Vorkehrungen, denn beim Schreiben, Speichern und Lesen der DNA schleichen sich immer wieder Fehler ein. Werden diese Fehler nicht korrigiert, gehen die Daten, die auf der DNA gespeichert sind, allmählich verloren. Als Lösung für dieses Problem, haben Heckel und seine Kollegen einen Algorithmus entwickelt, der auf Kanalkodierung basiert. Das Verfahren zielt darauf ab, Fehler, die bei der Informationsübertragung passieren, zu korrigieren. Die Idee dahinter ist, den Daten Redundanz hinzuzufügen. Der Algorithmus kodiert also die Daten so redundant, dass später auch von sehr fehlerhafter DNA Daten wiederhergestellt werden können.

200 Milliarden Gigabyte auf einem Gramm DNA

Einen Haken hat die Methode allerdings: "DNA Data Storage" ist relativ teuer, da die Herstellung von DNA und das Lesen sehr aufwendig sind. Was das Erbgut als Speichermedium im großen Maßstab dennoch interessant macht, ist zum einen die hohe Informationsdichte von DNA. Das ermöglicht die Speicherung gewaltiger Datenmengen auf kleinstem Raum. Im Fall der Serie sind es zwar "nur" 100 Megabyte auf einem Picogram, also einem billionstel Gramm DNA, theoretisch wären aber bis zu 200 Exabyte, also 200 Milliarden Gigabyte auf einem Gramm DNA möglich. Der zweite große Vorteil von DNA ist seine lange Haltbarkeit. Verpackt man DNA entsprechend, kann sie viele tausend Jahre stabil bleiben, möglicherweise sogar noch deutlich länger.

Um das biologische Speichermedium annähernd "unkaputtbar" zu machen, hat Robert Grass von der ETH Zürich, Koauthor der im Fachjournal "Nature Protocols" erschienden Studie, ein Verfahren entwickelt, das DNA-Stränge in Nanometer große Kügelchen aus Silica, eine Glas-Art, einschließt. Damit ist die DNA vor allem mechanisch geschützt.

Archiv für die Zukunft

Als nächste Schritte planen die Forscher, "DNA Data Storage" günstiger und schneller zu machen. "Biohackers" sei zwar ein wichtiger Zwischenschritt in Richtung Kommerzialisierung, der Weg sei aber noch weit, so die Wissenschafter. Sollte sich die Technologie aber durchsetzen, könnten einmal ganze Bibliotheken, sämtliche Filme, Fotos, Musik, Wissen jeglicher Art auf DNA gespeichert und der Menschheit somit für die Zukunft konserviert werden. (red, 5.9.2020)