CSI — Fingerabdrücke mal anders

Suchmaschine mit Spektrum als Suchanfrage und Liste möglicher Strukturen als Suchergebnis

Mit Fingerabdrücken kann man in Datenbanken nach Straftätern suchen. Auch Moleküle haben Fingerabdrücke, mit denen man sie identifizieren kann. Wie sehen diese Fingerabdrücke aus und wie kann man damit in Datenbanken suchen?

Letzte Woche habe ich euch einen kleinen Einblick in mein Promotionsthema gegeben und erklärt, warum kleine Moleküle für die Entwicklung neuer Medikamente interessant sind. “Damals” (es ist nun schon wieder zwei Jahre her) waren wir vor allem mit Fragmentierungsbäumen beschäftigt. Die Bäume haben die Arbeit der Chemiker erleichtert, können Strukturen jedoch nicht vollständig aufklären. Deswegen waren wir auf der Suche nach Anknüpfungspunkten, um dieses Projekt zu erweitern. Die besten Ideen haben Wissenschaftler, wenn sie mit anderen Wissenschaftlern reden. Deswegen laden wir uns regelmäßig Forscher aus unterschiedlichen Fachgebieten ein, um einen Einblick in deren Arbeiten zu erhalten und über Wissenschaft zu diskutieren. Natürlich finden wir nicht immer einen gemeinsamen Nenner, an dem wir weiter arbeiten können, aber manchmal klappt es doch.

Joint forces

Prof. Juho Rousu von der Aalto-Universität in Espoo (Finnland)So geschehen, als uns Professor Juho Rousu von der Aalto-Universität in Espoo (Finnland) besucht hat. Seine Arbeitsgruppe besteht aus Experten auf dem Gebiet des maschinellen Lernens. UND sie haben sich bereits mit dem gleichen Thema beschäftigt wie wir: der Analyse von Fragmentmassenspektren kleiner Moleküle. Die Idee war also: lasst uns beide Ansätze zusammenschmeißen und schauen, was dabei raus kommt. Dazu muss ich sagen, dass das leider nur selten funktioniert. Aber manchmal muss man auch Glück haben!

Der Fingerabdruck der Zellen

Nochmal zurück zu den kleinen Molekülen, den Metaboliten, was ist das jetzt genau? In unserem Körper beginnt alles mit der DNA: sie enthält die Information für alles, was passieren kann. Sie wird abgelesen und in Proteine übersetzt, die bestimmte Reaktionen in unserem Körper ermöglichen — Reaktionen wie zum Beispiel den Harnstoffzyklus oder die Photosynthese bei Pflanzen. Um diese Reaktionen zu verstehen, untersuchen Biochemiker den einzigartigen chemischen Fingerabdruck, den jeder zelluläre Prozess hinterlässt. Die Moleküle, aus denen sich dieser Fingerabdruck zusammensetzt, heißen Metaboliten.

Die überwiegende Mehrheit der Metaboliten ist noch immer unbekannt. Das gilt besonders für Sekundäremetaboliten, die unter anderem als potentielle Antibiotika in der Pharmazie interessant sind. Um den Zustand einer Zelle zu verstehen, muss man die darin befindlichen Metaboliten identifizieren, das heißt deren Strukturen entschlüsseln. Und schon sind wir bei CSI — nur geht es hier nicht um die Untersuchung von Tatorten, sondern um Compound Structure Identification.

Fragmentmassenspektrum eines Moleküls mit den jeweiligen Fragmenten, welche die Peaks erzeugt haben.

Ein Molekül wird in Fragmente zerlegt und deren Gewichte im Massenspektrum aufgezeichnet.

Um ein Molekül zu analysieren, wird es in kleine Fragmente zerlegt, deren Gewichte gemessen und als Massenspektrum aufgezeichnet werden. Aus diesem Spektrum die Struktur eines Moleküls zu entschlüsseln, ist nicht trivial. Es ist einfach, das gemessene Spektrum mit Spektren bekannter Moleküle in Datenbanken zu vergleichen. Schwierig wird es jedoch, wenn das Molekül nicht in einer solchen Datenbank enthalten ist. Die Struktur unbekannter Metaboliten aufzuklären erfolgt meist per Hand und ist äußerst (zeit-)aufwendig und erfordert enormes Expertenwissen. Experten im Sinne von Leuten, die sich seit Jahren mit der Fragmentierung solcher Moleküle im Massenspektrometer beschäftigen.

Der Fingerabdruck eines Moleküls

Was wir mit unseren Fragmentierungsbäumen schaffen wollten, war eine Alternative zur Suche in Spektrendatenbanken. Am coolsten wäre es, wenn wir direkt mit einem Spektrum in einer Strukturdatenbank suchen könnten. Strukturdatenbanken sind wesentlich umfassender und Forscher können sie bei Bedarf auf ausgedachte Strukturen, die noch keiner kennt, erweitern. Dafür muss man es schaffen, Spektren und Strukturen in eine gemeinsame Form umzuwandeln. Und hier kommt die Zusammenarbeit mit der finnischen Arbeitsgruppe ins Spiel:

Maschinelles Lernen + Fragmentierungsbäume = Fingerabdruck eines Moleküls.

Genauer gesagt, wird aus dem gemessenen Spektrum zunächst ein Fragmentierungsbaum berechnet, der den Fragmentierungsablauf des Moleküls veranschaulicht. Aus dem Spektrum und dem Baum werden Eigenschaften abgelesen. Zu diesen Eigenschaften gehören unter anderen die Masse des Moleküls und seiner Fragmente und die Ähnlichkeit des Baums zu den Bäumen anderer Moleküle. Aus diesen Eigenschaften lässt sich durch maschinelles Lernen der strukturelle Fingerabdruck des Moleküls vorhersagen. Er enthält Informationen über Teilstrukturen oder funktionelle Gruppen und bildet die Schnittstelle zur Strukturdatenbank. Darin kann man nun nach dem Molekül suchen, das am wahrscheinlichsten diesen Fingerabdruck erzeugt hat. Et voilà — geschaffen war die bisher stärkste Suchmaschine für die Identifizierung kleiner Moleküle: CSI:FingerID.Aus dem Massenspektrum wird der Fragmentierungsbaum berechnet. Aus Baum und Spektrum werden Eigenschaften abgelesen. Mittels machinellem Lernen wird aus den Eigenschaften ein struktureller Fingerabdruck vorhergesagt. Mit diesem Fingerabdruck sucht man in einer Strukturdatenbank.

CSI:FingerID liefert die richtige Struktur nicht immer an erster Stelle. Die Information, die in einem Massenspektrum steckt, ist nicht ausreichend für eine vollständige Aufklärung der Struktur. Nichtsdestotrotz ermöglicht es CSI:FingerID, die Liste an möglichen Kandidaten, die sich hinter dem Spektrum verbergen könnten, extrem einzugrenzen. Das erleichtert die Arbeit vieler Biologen, Pharmazeuten und Chemiker deutlich.

Ganz nebenbei bemerkt, spielt die Identifizierung von kleinen Molekülen auch in der Forensik und der Untersuchung von Tatorten eine wichtige Rolle. CSI bei CSI sozusagen — so schließt sich der Kreis.


Original Publikation:

Kai Dührkop, Huibin Shen, Marvin Meusel, Juho Rousu and Sebastian Böcker
Searching molecular structure databases with tandem mass spectra using CSI:FingerID.
Proc Natl Acad Sci USA, 112(41):12580-12585, 2015.

Das könnte dich auch interessieren...

3 Antworten

  1. Juja sagt:

    Das liest sich so prima und verständlich – mit diesem Blog bist du mein zweitliebster Wissenschafts-Erklärbär geworden, gleich hinter Harald Lesch 🙂

  1. September 8, 2016

    […] Habt ihr Ahnung von Kombinatorik und Machine Learning? Habt ihr vielleicht sogar schon was von CSI:FingerID gehört und würdet gerne daran weiterarbeiten? Und Jena findet ihr sowieso […]

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.