AlphaFold 2 und AlphaFold 3: Strukturvorhersage, Eingaben, Ausgaben und Bereitstellung

Im Oktober 2024 wurde der Nobelpreis für Chemie an die Forschung hinter AlphaFold 2 vergeben, einem von Google DeepMind entwickelten Deep-Learning-System, das die dreidimensionale Struktur eines Proteins allein anhand seiner Aminosäuresequenz präzise vorhersagen kann. Diese Leistung nur als bahnbrechend zu bezeichnen, greift fast zu kurz, wenn man bedenkt, wie zentral Proteine für biologische Abläufe sind und wie eng ihre Struktur mit ihrer Funktion verknüpft ist. In der Vergangenheit investierten Forschende oft eine ganze Promotion oder viele Jahre ihrer wissenschaftlichen Laufbahn, um die Struktur eines einzelnen Proteins mit experimentellen Verfahren wie der Röntgenkristallographie oder der Kryo-Elektronenmikroskopie aufzuklären. Dieser langsame Prozess bremste zahlreiche Bereiche der biologischen Forschung aus, darunter auch die Suche nach vielversprechenden Wirkstoffkandidaten für viele bislang schwer behandelbare Erkrankungen.

Wichtige Erkenntnisse

AlphaFold 2 wurde nicht entwickelt, um experimentelle Laborverfahren zu ersetzen. Stattdessen liefert es Hypothesen, die Forschende bei der Untersuchung von Proteinstrukturen experimentell überprüfen können. Trainiert wurde AlphaFold 2 mit Daten aus der Protein Data Bank.

AlphaFold 3 erweitert die Möglichkeiten von AlphaFold 2 und kann die Strukturen von Komplexen vorhersagen, die nahezu alle in der Protein Data Bank vertretenen Molekülklassen enthalten, mit Ausnahme von Wassermolekülen. AlphaFold 3 kann unter anderem mit folgenden Strukturen umgehen:

  • Proteinkomplexe mit DNA, RNA, kleinen Molekül-Liganden und Ionen
  • Proteinstrukturen mit posttranslationalen Modifikationen, einschließlich Glykosylierung

Sowohl AlphaFold 2 als auch AlphaFold 3 verwenden MSA (Multiple Sequence Alignment) als Teil der Eingabe, allerdings verarbeitet AlphaFold 3 zusätzlich zu Proteinen auch RNA-Ketten.

AlphaFold 2 ist kostenlos unter der Apache-2.0-Lizenz verfügbar, während AlphaFold 3 nur für nicht-kommerzielle Nutzung freigegeben ist.

Voraussetzungen

Da sich dieser Beitrag mit der Vorhersage molekularer Strukturen beschäftigt, ist es hilfreich, wenn bereits Grundwissen über Biomoleküle und einschlägige biologische Begriffe wie Proteine, RNA, Liganden und verwandte Themen vorhanden ist oder zuvor aufgebaut wird. Wer AlphaFold 3 für nicht-kommerzielle Zwecke nutzen möchte, muss außerdem Zugriff auf die Modellparameter beantragen. Die Freigabe erfolgt häufig innerhalb von zwei bis drei Werktagen.

Darüber hinaus setzt diese Anleitung für die Bereitstellung technisches Grundwissen voraus, etwa zu Cloud-Infrastruktur mit GPU-fähigen virtuellen Maschinen, zur Arbeit auf der Kommandozeile mit SSH und git sowie zu containerisierten Abläufen mit Docker.

Die Eingaben verstehen

Multiple Sequence Alignment

AlphaFold 2 nutzt Multiple Sequence Alignment (MSA), um evolutionäre Beziehungen zwischen Proteinen zu erfassen. Diese Methode funktioniert deshalb so gut, weil Aminosäuren, die miteinander in Wechselwirkung stehen, bei evolutionären Veränderungen häufig gemeinsam Mutationen aufweisen.

Modellarchitektur (AF2 vs. AF3)

Merkmal AlphaFold 2 AlphaFold 3
Hauptprozessor Evoformer: verknüpft MSA- und Paarmerkmale tiefgreifend im gesamten Modell. Pairformer: vereinfacht die MSA-Verarbeitung und legt den Schwerpunkt auf Paarrepräsentationen.
3D-Ausgabemodul Structure Module: nutzt physikalische und geometrische Vorgaben wie Frames und Torsionen. Diffusion Module: setzt auf generatives Entrauschen roher Atomkoordinaten.
Symmetrieeinschränkungen Bewahrt Rotations- und Translationsinvarianz strikt. Verzichtet auf viele explizite geometrische Einschränkungen, um mehr Flexibilität zu ermöglichen.
Eingabevielfalt Vor allem auf Aminosäuresequenzen, insbesondere Proteine, ausgerichtet. Verwendet ein einheitliches Tokensystem für Proteine, Nukleinsäuren und kleine Liganden.

Die Ausgaben verstehen

Konfidenzmetriken

AlphaFold gibt mehrere Konfidenzmetriken aus, darunter pLDDT, pTM und PAE.

pLDDT

pLDDT, also predicted local distance difference test, schätzt den LDDT-Wert (Local Distance Difference Test). Diese Kennzahl beschreibt das Vertrauen in die lokale Struktur auf Ebene einzelner Reste. Anders ausgedrückt zeigt sie an, wie wahrscheinlich es ist, dass die vorhergesagte Struktur mit einer experimentell bestimmten Struktur übereinstimmt. Die Skala reicht von 0 bis 100, wobei höhere Werte auf mehr Sicherheit und in der Regel auch auf eine höhere strukturelle Genauigkeit hindeuten.

pTM und ipTM

Der predicted template modeling score (pTM) und der interface predicted template modeling score (ipTM) leiten sich beide vom Template-Modeling-Score ab, der die Genauigkeit der Gesamtstruktur bewertet. Ein pTM-Wert von mehr als 0,5 deutet darauf hin, dass die vorhergesagte Faltung des Komplexes der realen Struktur ähneln könnte. ipTM bewertet die vorhergesagte relative Anordnung von Untereinheiten: Werte über 0,8 sprechen für hohe Sicherheit, Werte unter 0,6 deuten auf ein wahrscheinliches Scheitern der Vorhersage hin, und Werte zwischen 0,6 und 0,8 bleiben unsicher. Bei kleinen Strukturen oder kurzen Ketten mit weniger als 20 Tokens kann die TM-Bewertung übermäßig streng sein und pTM-Werte unter 0,05 erzeugen. In solchen Fällen liefern PAE oder pLDDT meist bessere Hinweise auf die Qualität der Vorhersage.

PAE

PAE, also predicted aligned error, beschreibt, wie sicher AlphaFold 2 die relative Position und Orientierung zweier Reste beziehungsweise Tokens innerhalb der vorhergesagten Struktur einschätzt. Höhere Werte bedeuten einen größeren erwarteten Fehler und damit eine geringere Sicherheit.

Sollten Sie AlphaFold 2 oder AlphaFold 3 verwenden?

AlphaFold 3 ist AlphaFold 2 in Bezug auf Genauigkeit überlegen und kann Komplexe mit mehreren Molekültypen modellieren. Dennoch bleibt AlphaFold 2 für viele Anwenderinnen und Anwender weiterhin sehr relevant, vor allem wegen der Lizenzbedingungen. AlphaFold 2 steht unter der Apache-2.0-Lizenz offen für akademische und kommerzielle Nutzung zur Verfügung. AlphaFold 3 hingegen darf ausschließlich nicht-kommerziell eingesetzt werden, was bedeutet, dass es nicht für kommerzielle Forschung, das Training konkurrierender Machine-Learning-Systeme oder die Erzeugung von Ausgaben für kommerzielle Zwecke genutzt werden darf. Hinzu kommt, dass die Konfidenzwerte von AlphaFold 3 bei Polymeren stark durch umgebenden Nicht-Polymer-Kontext wie Liganden oder Ionen beeinflusst werden können. Bei polymerfokussierten Untersuchungen, etwa Protein-Protein-Interaktionen, müssen unter Umständen zusätzliche Kontextmoleküle ergänzt werden, um verlässliche Scores zu erhalten. AlphaFold 2 vermeidet diese zusätzliche Komplexität, auch wenn die Genauigkeit etwas geringer sein kann. Aus diesen Gründen pflegt Google DeepMind AlphaFold 2 weiterhin als wichtiges Werkzeug für Forschung und Entwicklung.

AlphaFold 2 in einer Cloud-GPU-Umgebung ausführen

Für AlphaFold 2 müssen fast 2,5 TB an genetischen Datenbanken heruntergeladen werden, darunter UniRef90, MGnify, BFD und weitere. Deshalb ist zusätzlicher Blockspeicher erforderlich, um diese Datenbanken abzulegen. Für AlphaFold 2 sind rund 2,5 TB sinnvoll, während AlphaFold 3 in der Regel etwa 1 TB benötigt.

Schritt 1: Umgebung einrichten (AF2)

Wählen Sie ein Ubuntu-Image, das für KI- und Machine-Learning-Workloads vorbereitet ist, sodass NVIDIA-Treiber und Docker bereits vorhanden sind.

Verbinden Sie sich per SSH mit Ihrer GPU-fähigen virtuellen Maschine:

Außerdem sollte sichergestellt werden, dass das System vollständig aktualisiert ist.

Aktualisieren Sie den lokalen Paketindex und spielen Sie alle verfügbaren Upgrades ein.

sudo apt update && sudo apt upgrade -y

Laden Sie anschließend die genetischen Datenbanken und die Modellparameter herunter. Dieser Schritt kann einige Zeit in Anspruch nehmen.

scripts/download_all_data.sh /path/to/your/storage > download.log 2> download_error.log &

Schritt 3: Docker-Image bauen und Abhängigkeiten installieren

docker build -f docker/Dockerfile -t alphafold .
pip3 install -r docker/requirements.txt

Schritt 4: Das Modell ausführen

python3 docker/run_docker.py \
  --fasta_paths=your_protein.fasta \
  --max_template_date=2022-01-01 \
  --data_dir=$DOWNLOAD_DIR \
  --output_dir=/home/user/absolute_path_to_the_output_dir

AlphaFold 3 in einer Cloud-GPU-Umgebung ausführen

In diesem Abschnitt wird außerdem beschrieben, wie AlphaFold 3 auf einer GPU-fähigen Cloud-Instanz ausgeführt wird. Beachten Sie dabei, dass dieses Modell nur für die nicht-kommerzielle Nutzung vorgesehen ist. Für den Zugriff auf die Modellparameter ist ein Antrag erforderlich, der in der Regel innerhalb von zwei bis drei Werktagen genehmigt wird.

Schritt 1: Umgebung einrichten (AF3)

Wählen Sie ein Ubuntu-Image, das speziell auf KI- und Machine-Learning-Anwendungen abgestimmt ist, sodass NVIDIA-Treiber und Docker bereits verfügbar sind.

Stellen Sie per SSH eine Verbindung zu Ihrem GPU-fähigen Server her:

Schritt 2: Das Repository klonen

Installieren Sie bei Bedarf git und laden Sie das AlphaFold-3-Repository herunter:

git clone https://github.com/google-deepmind/alphafold3.git
cd alphafold3

Schritt 3: Das AlphaFold-3-Modell ausführen

docker build -t alphafold3 -f docker/Dockerfile .

 docker run -it \
    --volume $HOME/af_input:/root/af_input \
    --volume $HOME/af_output:/root/af_output \
    --volume <MODEL_PARAMETERS_DIR>:/root/models \
    --volume <DB_DIR>:/root/public_databases \
    --gpus all \
    alphafold3 \
    python run_alphafold.py \
    --json_path=/root/af_input/fold_input.json \
    --model_dir=/root/models \
    --output_dir=/root/af_output

FAQ

Was sind die wichtigsten Unterschiede zwischen AlphaFold 2 und AlphaFold 3?

AlphaFold 2 hat die Vorhersage von Proteinstrukturen grundlegend verändert, während AlphaFold 3 den Anwendungsbereich nochmals deutlich erweitert. Zu den wichtigsten Unterschieden zählen:

  • Molekularer Umfang: AlphaFold 2 konzentriert sich fast ausschließlich auf Proteine. AlphaFold 3 kann dagegen Komplexe vorhersagen, die DNA, RNA, Liganden und Ionen enthalten.
  • Architektur: AlphaFold 2 verwendet das Evoformer-Modul, während AlphaFold 3 auf einen vereinfachten Pairformer zusammen mit einem diffusionsbasierten Kopf setzt.
  • Lizenzierung: Für viele Nutzerinnen und Nutzer ist dies der wichtigste Punkt. AlphaFold 2 steht unter der Apache-2.0-Lizenz und darf somit auch kommerziell verwendet werden. AlphaFold 3 ist derzeit ausschließlich für nicht-kommerzielle Nutzung freigegeben.

Warum werden für AlphaFold 2 2,5 TB Speicherplatz benötigt?

Das Modell selbst beansprucht den Großteil dieses Speicherplatzes nicht. Der eigentliche Bedarf entsteht durch die genetischen Datenbanken. AlphaFold 2 nutzt Multiple Sequence Alignment (MSA), um die evolutionäre Entwicklung von Proteinen zu analysieren. Dafür muss es sehr große Datensätze wie UniRef90, MGnify und die Big Fantastic Database (BFD) durchsuchen.

Hinweis: Wenn der Speicherplatz knapp ist, hat AlphaFold 3 mit rund 1 TB einen deutlich kleineren Datenbankbedarf als ein vollständiges AlphaFold-2-Setup.

Wie sollten die $pLDDT$-Konfidenzwerte interpretiert werden?

Der pLDDT-Wert (predicted Local Distance Difference Test) ist ein residuenbezogener Konfidenzwert auf einer Skala von 0 bis 100:

  • 90: Hohe Sicherheit; diese Bereiche sind wahrscheinlich sehr präzise und eignen sich für eine detaillierte Strukturanalyse.
  • 70 – 90: Gute Sicherheit; das Rückgrat der Struktur ist vermutlich korrekt vorhergesagt.
  • 50 – 70: Geringe Sicherheit; diese Bereiche sollten mit Vorsicht interpretiert werden.
  • < 50: Sehr geringe Sicherheit; diese Segmente sind häufig intrinsisch ungeordnet, was bedeutet, dass sie isoliert möglicherweise keine feste dreidimensionale Struktur annehmen.

Kann AlphaFold auf einer normalen virtuellen Maschine ohne GPU laufen?

Theoretisch könnte die Inferenz auch auf einer CPU erfolgen, praktisch wäre das jedoch viel zu langsam. Komplexe Strukturen, die eine GPU in wenigen Minuten verarbeitet, könnten auf einer CPU Tage oder sogar Wochen benötigen. Zusätzlich sind die AlphaFold-Docker-Images auf NVIDIA CUDA ausgelegt. Für den praktischen Einsatz in der Forschung ist eine GPU-fähige Cloud-Instanz daher im Grunde unverzichtbar.

Was ist ein SMILES-String, und warum benötigt AlphaFold 3 ihn?

SMILES steht für Simplified Molecular-Input Line-Entry System. Dabei handelt es sich um ein Notationsformat, mit dem chemische Strukturen als Text dargestellt werden. Da AlphaFold 3 modellieren kann, wie Proteine mit kleinen Molekül-Liganden interagieren, wird die Struktur eines Liganden als SMILES-String übergeben, zum Beispiel CC(=O)OC1=CC=CC=C1C(=O)O für Aspirin.

Ist die vorhergesagte Struktur bereits das endgültige Ergebnis?

Nicht unbedingt. Obwohl AlphaFold bemerkenswert präzise arbeitet, bleibt es ein prädiktives System und keine experimentelle Messung. In der Molekularbiologie und Wirkstoffforschung eignet sich AlphaFold deshalb vor allem dazu, überprüfbare Hypothesen zu erzeugen, die anschließend durch validierte Laborexperimente bestätigt werden können.

Fazit

Herzlichen Glückwunsch, Sie haben es bis zum Ende geschafft. Damit haben Sie AlphaFold 2 und/oder AlphaFold 3 idealerweise erfolgreich in einer GPU-basierten Cloud-Umgebung mit angebundenem Blockspeicher bereitgestellt. AlphaFold senkt die Einstiegshürden in die Strukturbiologie und ermöglicht Forschenden weltweit Erkenntnisse, für die früher Jahre kostspieliger experimenteller Arbeit notwendig gewesen wären. Gleichzeitig warnen einige Wissenschaftlerinnen und Wissenschaftler davor, sich insbesondere in der Wirkstoffforschung ausschließlich auf AlphaFold-Vorhersagen zu verlassen, da dies ohne experimentelle Validierung zu fehlerhaften mechanistischen Modellen führen kann. Das unterstreicht, wie wichtig die Kombination aus rechnergestützten Vorhersagen und Laborbestätigung weiterhin ist. Über seine unmittelbare wissenschaftliche Bedeutung hinaus zeigt AlphaFold auch, wie künstliche Intelligenz hochkomplexe wissenschaftliche Fragestellungen angehen kann, und gibt einen Ausblick darauf, wie rechnergestützte Werkzeuge unser Verständnis der natürlichen Welt und unsere Fähigkeit zur Bewältigung drängender Herausforderungen in der Forschung weiter verändern werden.

Quelle: digitalocean.com

Jetzt 200€ Guthaben sichern

Registrieren Sie sich jetzt in unserer ccloud³ und erhalten Sie 200€ Startguthaben für Ihr Projekt.

Das könnte Sie auch interessieren:

Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

Coreflux MQTT Broker mit Managed Databases einrichten

Databases, Tutorial
VijonaHeute um 10:00 Uhr Coreflux MQTT Broker mit Managed Databases für IoT-Datenverarbeitung bereitstellen MQTT Broker verbinden IoT-Geräte und Anwendungen über ein Publish-Subscribe-Messaging-Modell und sind damit ein zentraler Bestandteil moderner IoT-Infrastrukturen. Coreflux…
Moderne Hosting Services mit Cloud Server, Managed Server und skalierbarem Cloud Hosting für professionelle IT-Infrastrukturen

NVIDIA DGX B300 erklärt: Blackwell GPU, Specs & KI Performance

AI/ML, Tutorial
VijonaHeute um 8:04 Uhr NVIDIA DGX B300: Architektur, Funktionen, Spezifikationen und ideale Einsatzbereiche Cloud-Anbieter und Infrastrukturplattformen arbeiten kontinuierlich daran, moderne Technologien in ihren Umgebungen bereitzustellen. Diese Entwicklung reicht von grundlegenden Cloud-Services…