Boltz-2: Open-Source-KI für biomolekulare Strukturvorhersage und Wirkstoffentwicklung
Die Entwicklung neuer Wirkstoffe dauert häufig 10 bis 15 Jahre und kann Kosten in Milliardenhöhe verursachen. Gleichzeitig bleiben die Ausfallraten in jeder Entwicklungsphase hoch. Künstliche Intelligenz soll dabei helfen, diese Zeiträume und Kosten zu reduzieren, indem molekulare Strukturen und Wechselwirkungen schneller vorhergesagt werden.
In den vergangenen rund sechs Jahren sind zahlreiche Modelle für die Vorhersage biomolekularer Strukturen entstanden. Boltz-2 stellt in diesem Bereich einen wichtigen Fortschritt dar und hebt sich aus mehreren Gründen hervor. Das von Forschenden des MIT entwickelte Open-Source-KI-Modell zeigt eine starke Leistung bei der Vorhersage der Bindungsaffinität und stellt Modellgewichte, Inferenzcode sowie Trainingscode unter einer freizügigen Open-Source-Lizenz bereit. Aufbauend auf AlphaFold-3 und Boltz-1 geht Boltz-2 über die reine Proteinstrukturvorhersage hinaus und unterstützt ein breiteres Spektrum molekularer Systeme, die für das Wirkstoffdesign relevant sind.
Im Gegensatz zu früheren Werkzeugen, die sich vor allem auf Proteine konzentrierten, kann Boltz-2 die 3D-Strukturen folgender Systeme vorhersagen:
- Proteine und Proteinkomplexe
- Protein-Ligand-Interaktionen, die zeigen, wie Wirkstoffe an ihre Zielstrukturen binden, auch als Bindungsaffinität bezeichnet
- Nukleinsäuren wie DNA und RNA
- Kleine Moleküle und deren Wechselwirkungen mit biologischen Makromolekülen
Wichtige Erkenntnisse
- Boltz-2 vom MIT ist vollständig Open Source und umfasst Modellgewichte, Inferenzcode und Trainingscode unter einer freizügigen Lizenz.
- Boltz-2 überzeugt besonders bei der Vorhersage, wie stark Wirkstoffe an ihre Zielstrukturen binden, was für die therapeutische Wirksamkeit entscheidend ist.
- Das Modell erweitert die Möglichkeiten von AlphaFold-3 und Boltz-1, indem es Strukturen von Proteinen, Protein-Ligand-Interaktionen, Nukleinsäuren wie DNA und RNA sowie Interaktionen kleiner Moleküle vorhersagen kann.
- Boltz-2 nähert sich der Genauigkeit der als Goldstandard geltenden Free-Energy-Perturbation an und benötigt dabei deutlich weniger Rechenaufwand.
- Der Trainingsansatz nutzt Destillation aus besonders zuverlässigen Vorhersagen von AlphaFold-2 und Boltz-1, ergänzt durch Boltz-Steering, eine Inferenztechnik, die physikbasierte Potenziale für höhere Genauigkeit einbindet.
Bindungsaffinität
Jeder Fortschritt bei der Vorhersage der Bindungsaffinität ist von großer Bedeutung. Die Bindungsaffinität beschreibt, wie stark kleine Moleküle an Proteine binden. Sie ist ein zentraler Faktor dafür, ob ein Wirkstoff seine Zielstruktur erreicht und eine therapeutische Wirkung entfalten kann. Derzeit liefern atomistische Simulationen wie die Free-Energy-Perturbation die höchste Genauigkeit bei der Bestimmung der Bindungsaffinität. Diese Verfahren sind jedoch rechenintensiv und teuer, weshalb sie sich nur schwer in großem Maßstab einsetzen lassen. Schnellere Alternativen wie Docking existieren zwar, erreichen aber nicht die Präzision, die für verlässliche Vorhersagen erforderlich ist. Bislang konnte kein KI-Modell die Genauigkeit von FEP-Methoden oder Laborassays bei der Vorhersage der Bindungsaffinität vollständig erreichen.
Daten
Boltz-2 wurde mit vielfältigen biomolekularen Daten trainiert und verbessert Boltz-1 durch die Einbindung von Ensembles aus experimentellen und rechnergestützten Verfahren. Der Trainingsdatensatz enthält Strukturen aus der Protein Data Bank sowie Trajektorien aus Molekulardynamik-Simulationen. Dadurch lernt das Modell sowohl lokale Schwankungen als auch globale Ensembles kennen. Zusätzlich werden Destillationsverfahren eingesetzt, um die Trainingsdaten zu erweitern und das Supervisionssignal zu verstärken. Dafür werden besonders zuverlässige Vorhersagen von AlphaFold2 und Boltz-1 genutzt.
Architektur
Die Architektur von Boltz-2 entwickelt Boltz-1 und Boltz-1x weiter, indem sie die Steuerbarkeit verbessert und das Affinitätsmodul stärkt. Das Modell führt Methoden-, Template- sowie Kontakt- beziehungsweise Pocket-Konditionierung ein, um präzisere Vorhersagen zu ermöglichen. Das Affinitätsmodul sagt Bindungswahrscheinlichkeiten und Affinitätswerte mithilfe eines PairFormer-Modells voraus und nutzt dabei Protein-Ligand- sowie intra-ligandische Interaktionen.
Wie wurde Boltz-2 trainiert?
Das Training von Boltz-2 ist in drei Phasen unterteilt: Strukturtraining, Konfidenztraining und Affinitätstraining. Beim Affinitätstraining kommen Vorberechnungen, spezielle Sampling-Strategien und robuste Verlustfunktionen zum Einsatz, um Skalierbarkeit und Generalisierungsfähigkeit zu verbessern. Boltz-2 wird außerdem verwendet, um den molekularen Generator SynFlowNet zu trainieren, der kleine Moleküle mit hohen Bindungsscores erzeugt. AlphaFold-2 wurde destilliert, um den Trainingsdatensatz durch besonders zuverlässige Vorhersagen für einkettige Monomere zu erweitern.
Leistung
Boltz-2 übertrifft seinen Vorgänger Boltz-1 bei der Vorhersage von Kristallstrukturen, insbesondere bei RNA-Ketten und DNA-Protein-Komplexen. Auch im Vergleich mit Modellen wie Chai-1, ProteinX und AlphaFold3 zeigt es konkurrenzfähige Ergebnisse, vor allem bei der Strukturvorhersage von Antikörper-Antigen-Komplexen und in der Polaris-ASAP-Challenge. Darüber hinaus kann Boltz-2 lokale Proteindynamiken besser erfassen und nähert sich auf öffentlichen Benchmarks für Affinitätsvorhersagen der Genauigkeit von Freie-Energie-Simulationen an.
Boltz-2 übertrifft bestehende Methoden in der CASP16-Affinitätschallenge sowie in internen Assays von Recursion. Auch im virtuellen Screening zeigt das Modell eine starke Leistung und erreicht hohe Werte bei durchschnittlicher Präzision und Enrichment-Faktoren auf dem MF-PCBA-Datensatz. Die Kombination aus Skalierbarkeit und Genauigkeit macht Boltz-2 zu einem vielversprechenden Werkzeug für groß angelegte virtuelle Screenings in der Wirkstoffentwicklung.
Boltz-Steering
Boltz-Steering wurde im Rahmen der Boltz-1x-Veröffentlichung eingeführt und ist eine Methode zur Inferenzzeit, die physikbasierte Potenziale nutzt. Diese werden auch als interatomare Potenziale oder empirische Kraftfelder bezeichnet. Dadurch wird die physikalische Plausibilität verbessert, ohne die Genauigkeit zu verringern. Derselbe Ansatz wurde auch in Boltz-2 integriert, woraus Boltz-2x entstand.
Implementierung
GPU-Server einrichten
Boltz-2 ist standardmäßig für die Ausführung auf einer GPU ausgelegt, kann über die Option --accelerator jedoch auch auf CPU-Ausführung umgestellt werden. Die Inferenz ohne GPU ist allerdings deutlich langsamer.
Beginnen Sie mit der Vorbereitung einer geeigneten GPU-basierten Serverumgebung.
Repository klonen
Kopieren Sie die folgenden Befehle und führen Sie sie nacheinander im Terminal aus. Damit wird Boltz-2 heruntergeladen und die benötigten Abhängigkeiten werden installiert.
git clone https://github.com/jwohlwend/boltz.git
cd boltz; pip install -e .[cuda]
Eingabedatei vorbereiten
Boltz-2 benötigt Informationen darüber, was vorhergesagt werden soll. Diese Angaben werden über eine YAML-Datei bereitgestellt, also über eine einfache Textdatei. Erstellen Sie eine Datei mit dem Namen my_protein.yaml. Darin listen Sie die Sequenzen der Moleküle auf, die untersucht werden sollen. Wenn Sie beim Format unsicher sind, sehen Sie sich den Ordner examples/ im Boltz-Verzeichnis an.
Standardmäßig sollte input_path auf eine YAML-Datei oder auf ein Verzeichnis mit mehreren YAML-Dateien für die Stapelverarbeitung verweisen. Diese Dateien beschreiben die Biomoleküle, die modelliert werden sollen, sowie die Eigenschaften, die vorhergesagt werden sollen, beispielsweise die Affinität.
Weitere Kommandozeilenoptionen finden Sie in der Dokumentation.
boltz predict input_path --use_msa_server
Nach dem Ausführen des Modells werden die erzeugten Ergebnisse im Ausgabeverzeichnis in folgender Struktur abgelegt:
out_dir/
├── lightning_logs/ # Logs generated during training or evaluation
├── predictions/ # Contains the model's predictions
├── [input_file1]/
├── [input_file1]_model_0.cif # The predicted structure in CIF format, with the inclusion of per token pLDDT scores
├── confidence_[input_file1]_model_0.json # The confidence scores (confidence_score, ptm, iptm, ligand_iptm, protein_iptm, complex_plddt, complex_iplddt, chains_ptm, pair_chains_iptm)
├── affinity_[input_file1].json # The affinity scores (affinity_pred_value, affinity_probability_binary, affinity_pred_value1, affinity_probability_binary1, affinity_pred_value2, affinity_probability_binary2)
├── pae_[input_file1]_model_0.npz # The predicted PAE score for every pair of tokens
├── pde_[input_file1]_model_0.npz # The predicted PDE score for every pair of tokens
├── plddt_[input_file1]_model_0.npz # The predicted pLDDT score for every token
...
└── [input_file1]_model_[diffusion_samples-1].cif # The predicted structure in CIF format
...
└── [input_file2]/
...
└── processed/ # Processed data used during execution
FAQ
Was ist Boltz-2?
Boltz-2 ist ein Open-Source-KI-Modell, das von Forschenden des MIT entwickelt wurde. Es dient dazu, die 3D-Strukturen verschiedener biomolekularer Systeme vorherzusagen und vor allem die Bindungsaffinität zu bestimmen, also die Stärke, mit der ein kleines Molekül wie ein Wirkstoff an ein Protein-Ziel bindet.
Worin unterscheidet sich Boltz-2 von Vorgängern wie AlphaFold-3 oder Boltz-1?
Boltz-2 geht über die Proteinstrukturvorhersage hinaus und unterstützt deutlich mehr Systemtypen, darunter Protein-Ligand-Interaktionen, Nukleinsäuren wie DNA und RNA sowie Interaktionen kleiner Moleküle. Außerdem nutzt das Modell fortgeschrittene Trainings- und Inferenzmethoden wie Boltz-Steering, um bei der Vorhersage der Bindungsaffinität nahezu die Genauigkeit des Goldstandards zu erreichen und gleichzeitig recheneffizient zu bleiben.
Ist Boltz-2 wirklich Open Source?
Ja. Boltz-2 ist vollständig Open Source. Dazu gehören die Modellgewichte, der Inferenzcode und der Trainingscode, die alle unter einer freizügigen Open-Source-Lizenz veröffentlicht wurden.
Was bedeutet Bindungsaffinität und warum ist ihre Vorhersage wichtig?
Die Bindungsaffinität beschreibt die Stärke der molekularen Wechselwirkung zwischen einem Wirkstoffkandidaten, meist einem kleinen Molekül, und seinem biologischen Ziel, meist einem Protein. Eine genaue Vorhersage ist entscheidend, um die therapeutische Wirksamkeit einzuschätzen und die Optimierung von Leitstrukturen in der Wirkstoffentwicklung zu unterstützen.
Was ist FEP-Genauigkeit und wie schneidet Boltz-2 im Vergleich ab?
FEP (Free-Energy Perturbation) bezeichnet eine Klasse atomistischer Simulationstechniken, die aufgrund ihrer außergewöhnlichen Genauigkeit weithin als Goldstandard für die Vorhersage molekularer Bindungsaffinitäten gelten. Allerdings sind diese Methoden rechenintensiv und erfordern häufig viel Zeit und Ressourcen, um Ergebnisse zu liefern.
Boltz-2 zielt darauf ab, Bindungsaffinitäten mit einer Genauigkeit vorherzusagen, die FEP-basierten Methoden nahekommt, dabei jedoch die Rechenkosten drastisch reduziert. Diese höhere Effizienz macht Boltz-2 zu einer praktischen Lösung für groß angelegte virtuelle Screening-Workflows, bei denen die Bewertung von Tausenden oder sogar Millionen potenzieller Moleküle allein mit klassischen FEP-Simulationen kaum praktikabel wäre.
Was ist Boltz-Steering?
Boltz-Steering ist eine Inferenzmethode, die in Boltz-2 und Boltz-1x integriert ist. Sie nutzt physikbasierte Potenziale, auch empirische Kraftfelder genannt, um die physikalische Plausibilität vorhergesagter Strukturen und Interaktionen zu verbessern, ohne die Genauigkeit zu verringern.
Welche Hardware wird für Boltz-2 benötigt?
Boltz-2 ist für eine optimale Leistung auf die Ausführung mit einer GPU ausgelegt. Die Inferenz kann über die Option --accelerator auch auf einer CPU erfolgen, ist dann jedoch deutlich langsamer.
Wo finde ich den Quellcode und die Dokumentation?
Das Repository ist auf GitHub verfügbar. Die Dokumentation im Repository enthält ausführliche Informationen zu Kommandozeilenoptionen und zur Nutzung.
Fazit
Die Wirkstoffentwicklung entwickelt sich rasant weiter. Boltz-2, ein von MIT-Forschenden veröffentlichtes Open-Source-Modell, ermöglicht breitere Experimente mit biomolekularer Simulation. Da Boltz-2 bei der Vorhersage der Bindungsaffinität nahezu die Genauigkeit der als Goldstandard geltenden Free-Energy-Perturbation erreicht und gleichzeitig recheneffizient bleibt, erweitert das Modell die Möglichkeiten der KI-gestützten Wirkstoffentwicklung deutlich.


