Prophezeiung des Zerfalls

Competitive Fragmentation Modeling ermöglicht es durch maschinelles Lernen die Fragmentierung eines Moleküls vorherzusagen.

Strukturaufklärung von kleinen Molekülen ist ein wichtiges Thema in der Biologie, Chemie und Pharmazie. Hier habe ich euch schon einiges darüber erzählt. Um die Struktur eines Moleküls zu erschließen, braucht man enormes Fachwissen. Einfacher wird es, wenn man mit einem Massenspektrum in einer Struktur-Datenbank suchen kann. Dafür braucht man eine Schnittstelle zwischen Massenspektrum und Molekülstruktur. Die Suchmaschine CSI:FingerID nutzt als Schnittstelle ein struktureller Fingerabdruck, der aus dem Spektrum berechnet wird. Andere Methoden gehen den umgekehrten Weg: sie sagen aus Strukturen mögliche Fragmente und daraus wiederum das Spektrum vorher.

Was ist eigentlich ein Massenspektrum?

Ein Fragmentmassenspektrum besteht aus einer Reihe von Peaks, jeweils ein Peak für jedes gemessene Fragment des Moleküls. Ein Peak ist nix anderes als ein Signal bei einer bestimmten Masse. Dieses Signal hat außerdem eine bestimmte Stärke, seine Intensität. In der Probe, die gemessen werden soll, befindet sich das Molekül nicht nur einmal, sondern millionenfach. Jedes der Moleküle zerbricht anders, dadurch erhält man unterschiedliche Fragmente die als Peaks gemessen werden. Je nach Anzahl der Fragmente mit einer bestimmten Masse, haben die Peaks unterschiedliche Intensität. Ein Peak enthält also zwei Informationen: die Masse des Fragments und die Intensität, also die Häufigkeit des Fragments.

Fragmentmassenspektrum eines Moleküls mit den jeweiligen Fragmenten, welche die Peaks erzeugt haben.

Millionen Moleküle des gleichen Stoffs sind in unterschiedliche Fragmente zerbrochen. Für jedes Fragment gibt es ein Signal, an dem man die Masse des Fragments und die Häufigkeit des Fragments ablesen kann.

Fragmentierung Simulieren

Felicity AllenFelicity Allen arbeitet gerade an ihre Doktorarbeit. Sie hat mit ihren Kollegen eine Methode entwickelt, um Fragmentmassenspektren von Molekülen vorherzusagen. Die Methode nennt sich Competitive Fragmentation Modeling (CFM) und simuliert den Zerfall des Moleküls bis zu den endgültig gemessenen Fragmenten.

Die verschiedenen Bindungen zwischen den Atomen eines Moleküls zerbrechen mit unterschiedlicher Wahrscheinlichkeit. Eine einfache Bindung bricht leichter als eine Doppelbindung. Wie wahrscheinlich das Brechen einer bestimmten Bindung ist, wird mittels Machine Learning aus experimentellen Daten gelernt, also aus gemessenen Spektren von bekannten Molekülen. Dafür werden aus jeder Bindung Eigenschaften abgelesen, zum Beispiel die Art der Bindung, die verbundenen Atome oder ob die Bindung Teil eines Rings ist. Aus diesen Eigenschaften und dem maschinell erlernten Wissen errechnen die Forscher, wie wahrscheinlich es ist, dass eine Bindung zerbricht.

Wenn man dieses Wissen gelernt hat, kann man simulieren, was im Massenspektrometer passiert: man nimmt eine große Anzahl an Molekülen und lässt sie zerfallen — einfach nach den Regeln, die man vorher errechnet hat. So zerfällt jedes Molekül in andere Fragmente — manche sind mehr, andere weniger wahrscheinlich. Für jeden Typ Fragment kann man nun die Masse ausrechnen und zählen, wie viele Fragmente dieses Typs dabei entstanden sind: Masse und Häufigkeit — genau die beiden Informationen, die in einem Peak enthalten sind. So erhält man ein simuliertes Fragmentmassenspektrum.

Von der Simulation zur Datenbanksuche

Header des WebTools CFM-IDUm mit einem gemessenen Spektrum in einer Strukturdatenbank zu suchen, muss man Spektren für alle Moleküle in der Datenbank simulieren. Diese Simulation dauert lange. Aber sie muss zum Glück nur ein einziges Mal gemacht werden. Dann kann die Strukturdatenbank von da an als Spektrendatenbank genutzt werden. Es gab bereits andere Ansätze, Spektren zu simulieren. CFM ist momentan der Beste und wird bereits von vielen Metabolomikern verwendet. Wer selbst mal ein Fragmentmassenspektrum simulieren möchte, kann das freie WebTool CFM-ID ausprobieren. Als Eingabe braucht ihr eine Struktur im SMILES Format, das ist eine lineare Darstellung der Struktur. Für Glukose wäre das zum Beispiel:

C(C1C(C(C(C(O1)O)O)O)O)O


Original Publikation:

Felicity Allen, Russ Greiner and David Wishart
Competitive Fragmentatation Modeling of ESI-MS/MS spectra for putative metabolite identification.
Metabolomics, 11 (1): 98-110, 2015.

Felicity Allen, Allison Pon, Michael Wilson, Russ Greiner and David Wishart
CFM-ID: A web server for annotation, spectrum prediction and metabolite identification from tandem mass spectra.
Nucleic Acids Research, 42 (W1): W94-99, 2014.

Das könnte dich auch interessieren …

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert