Olmo 3: Praxisnaher Überblick über Open-Source-KI-Modelle, Trainingsdaten und Tools
Die Arbeit von Allen AI trägt dazu bei, fortgeschrittene KI-Forschung zugänglicher zu machen. Indem Einstiegshürden gesenkt werden, können Universitätslabore, unabhängige Forschende und engagierte Entwicklerinnen und Entwickler leichter an der nächsten Generation von KI-Systemen mitwirken. Dieser Beitrag behandelt die Open-Source-Veröffentlichungen von Allen AI, insbesondere Olmo 3. Die Veröffentlichung von Olmo 3 bietet umfassenden Zugriff auf Modelle, Datensätze, Quellcode, Trainingsprotokolle und Live-Demos. In einem Bereich, in dem Transparenz häufig begrenzt ist, ist dieses Maß an Offenheit besonders bemerkenswert.
Voraussetzungen
Dieser Beitrag setzt voraus, dass Sie bereits ein grundlegendes Verständnis für Konzepte des LLM-Trainings besitzen, etwa Pretraining und Post-Training. Für eine breitere Einführung in das Training großer Sprachmodelle ist The Smol Training Playbook von Hugging Face eine hilfreiche Ressource.
Ziel dieses Artikels ist es, einen kompakten Überblick über Olmo 3 zu geben, damit Sie schneller in die praktische Umsetzung einsteigen können. Die Darstellung in Tabellen soll eine gut verständliche Gesamtsicht auf die Veröffentlichung ermöglichen, die auch in den folgenden Quellen ausführlicher behandelt wird:
- Olmo 3 and the Open LLM Renaissance von Cameron R. Wolfe
- Olmo 3: Charting a path through the model flow to lead open-source AI | Ai2, der Launch-Beitrag von Allen AI zu Olmo 3
Zusätzlich kann der technische Bericht zu Olmo 3 zusammen mit diesem Artikel genutzt werden, um mehr Hintergrund zu den Modellspezifikationen und zur Trainingspipeline zu erhalten. Kenntnisse zu Olmo 2 können hilfreich sein, da Olmo 3 auf der vorherigen Version aufbaut.
Wichtige Erkenntnisse
- Das Olmo-3-Basismodell wurde zunächst auf einem breiten Textkorpus namens Dolma 3 Mix vortrainiert, anschließend mit gezielten, hochwertigen Daten aus Dolma 3 Dolmino weitertrainiert und zuletzt mit Dolma 3 Longmino für längere Kontexte erweitert.
- Zur Familie der post-trainierten Modelle gehören Olmo 3 Instruct, Olmo 3 Think und Olmo-3 RL-Zero.
- AI2 verbindet Olmo 3 mit OlmoTrace, einem Werkzeug, das dabei hilft, Modellausgaben auf konkrete Beispiele aus den Pretraining-Daten zurückzuführen.
- Das Modell wurde mit Dolma 3 vortrainiert und anschließend mit der Dolci Suite post-trainiert.
Modellarchitektur
Die folgende Tabelle fasst zentrale Eigenschaften der Architektur von Olmo 3 zusammen.
| Spezifikation | Bedeutung |
|---|---|
| 7B und 32B Parameter | Olmo 3 wird in zwei Modellgrößen angeboten: mit 7B und mit 32B Parametern. In der Architekturabbildung verwendet das 7B-Modell dieselbe Anzahl an Query- (Q) und Key-Value-Heads (KV), während das 32B-Modell deutlich mehr Q-Heads als KV-Heads besitzt. Der Grund dafür ist, dass die 32B-Variante grouped query attention (GQA) nutzt, während das 7B-Modell auf multi-head attention (MHA) setzt. Für eine grundlegende Erklärung von Attention-Mechanismen kann der Abschnitt zu Attention und Varianten in einem Artikel zur Optimierung der LLM-Inferenz herangezogen werden. Das 7B-Modell ist kompakt genug für leistungsstarke Consumer-GPUs, während das 32B-Modell auf einem einzelnen Forschungsknoten betrieben werden kann. |
| Dense Transformer | Obwohl viele Open-Weight-Modelle zuletzt Mixture-of-Experts-Architekturen verwendet haben, etwa Kimi-K2 und gpt-oss, basiert Olmo 3 auf einer dichten Decoder-only-Transformer-Architektur. |
| Sliding Window Attention (SWA) | Die Forschenden verwenden ein Sliding-Window-Attention-Muster, um skalierbares Pretraining mit längeren Sequenzlängen zu ermöglichen und gleichzeitig die Inferenzkosten kontrollierbar zu halten. Bei diesem Verfahren berücksichtigt jedes Token vorherige Tokens innerhalb eines Fensters von 4096 Tokens. SWA wird in drei von vier Schichten eingesetzt, während die letzte Schicht stets vollständige Attention verwendet. |
| Rotary Position Embeddings Θ = 5e5 | RoPE bildet Positionsinformationen ab, indem Query- und Key-Vektoren abhängig von der Position des jeweiligen Tokens rotiert werden. Positionskodierung ist wichtig, da Attention selbst keine inhärente Reihenfolge der Tokens kennt. Abbildung 13 im Olmo-3-Paper zeigt, dass der RoPE-Theta-Wert von 500K der wichtigste Einflussfaktor für die Ergebnisse im RULER-Benchmark ist. |
| YaRN | YaRN steht für Yet another RoPE-scaling method und beschreibt einen recheneffizienten Ansatz, um die Kontextlänge von Transformer-Modellen zu erweitern. Die Forschenden testeten mehrere Methoden, um RoPE über die ursprüngliche Pretraining-Kontextlänge hinaus auszudehnen, wie in Abschnitt 3.6.4 beschrieben. Dabei zeigte sich, dass YaRN die besten Ergebnisse erzielt, wenn es ausschließlich auf Schichten mit vollständiger Attention angewendet wird. |
Datenkuratierung
| Datensatzname | Größe | Beschreibung und Zweck |
|---|---|---|
| Dolma 3 | ~9,3 Billionen Tokens | Der vollständige Korpus, zusammengestellt aus Webseiten, wissenschaftlichen PDFs, Code-Repositories, Mathematikaufgaben und enzyklopädischen Quellen. |
| Dolma 3 Mix | 5,9 Billionen Tokens (~6T) | Eine aus Dolma 3 abgeleitete Pretraining-Mischung. Sie enthält höhere Anteile an Code- und Mathematikdaten und nutzt starke Verfahren zur Dekontamination und Deduplizierung. allenai/olmo-3-pre-training |
| Dolma 3 Dolmino | 100 Milliarden Tokens | Der Midtraining-Datensatz, der aus Dolma 3 erstellt wurde. Er legt den Schwerpunkt auf hochwertige Daten aus Mathematik, Wissenschaft, Code und Leseverständnis, um bestimmte Fähigkeiten vor dem finalen Tuning gezielt zu stärken. allenai/dolma3_dolmino_pool |
| Dolma 3 Longmino | ~50 Milliarden Tokens | Der Long-Context-Datensatz, der aus Dolma 3 abgeleitet wurde. Er kombiniert lange Dokumente aus einem Pool von 639B Tokens mit Midtraining-Daten, damit das Modell Informationen über lange Eingaben von bis zu 65K Tokens hinweg verfolgen kann. allenai/dolma3_longmino_pool |
| Dolci Suite | Variabel, abhängig von der jeweiligen Mischung | Die Datensuite für das Post-Training. Sie enthält getrennte Mischungen für SFT, Reasoning und Tool-Nutzung, DPO, kontrastives Präferenzlernen sowie RLVR mit verifizierbaren Rewards. allenai/olmo-3-post-training |
| Funktion / Phase | Typ | Beschreibung |
|---|---|---|
| Pretraining | Pretraining | Die erste Phase besteht aus drei Teilen: dem Aufbau breiter Grundfähigkeiten, Midtraining zur Verfeinerung bestimmter Kompetenzen und der Erweiterung auf längere Kontexte. |
| SFT | Post-Training | Supervised Fine-Tuning. Diese Phase formt die Rohantworten des Modells in bestimmte Ausgabeformate, etwa Chat-Antworten oder schrittweises Schlussfolgern. |
| DPO | Post-Training | Direct Preference Optimization. Bei dieser Tuning-Methode lernt das Modell aus Präferenzdaten, indem es bessere Antworten gegenüber schwächeren Antworten bevorzugt. |
| RLVR | Post-Training | Reinforcement Learning with Verifiable Rewards. Diese spezialisierte Reinforcement-Learning-Phase fördert hochwertige Reasoning-Traces, indem verifizierbare Ergebnisse belohnt werden, beispielsweise korrekte Resultate in Mathematik oder Code. |
OlmoTrace
OlmoTrace ermöglicht es Nutzenden, Textstellen zu markieren und sie auf die entsprechende Quelle in den Trainingsdaten zurückzuführen. Dadurch eignet sich das Tool für die Prüfung von Halluzinationen, die Erkennung von Kontamination, die Unterscheidung zwischen Reasoning und Memorization sowie für die Untersuchung von Skalierungsgesetzen, indem sichtbar wird, wie sich Schlussfolgerungsfähigkeiten mit mehr Daten und Rechenleistung entwickeln.
Olmo 3 auf allgemeiner Cloud-GPU-Infrastruktur ausführen
Allgemeine Cloud-GPU-Server können genutzt werden, um mit diesen Modellen zu experimentieren.
Der Blogbeitrag zu Olmo 3 enthält eine interaktive Abbildung, die die jeweilige Trainingsphase zusammen mit den zugehörigen Datensätzen zeigt.
| Tool | Beschreibung |
|---|---|
| Olmo-core | Ein modernes Framework für verteiltes Modelltraining. Es handelt sich um eine Pretraining-Codebasis, die auf hohe Effizienz ausgelegt ist. Docs: OLMo-core v2.4.0 |
| Open Instruct | Eine Pipeline für das Post-Training. |
| datamap-rs | Ein reines Rust-Toolkit zur Bereinigung großer Datensätze. |
| duplodocus | Ein Werkzeug für besonders effiziente unscharfe Deduplizierung. |
| OLMES | Ein Toolkit für reproduzierbare Evaluationen. Es enthält OlmoBaseEval, das bei der Entwicklung des Olmo-3-Basismodells eingesetzt wurde. |
| decon | Ein Tool, das Testsätze aus Trainingsdaten entfernt. |
FAQ
Warum nutzten die Forschenden Hybrid Sharded Data Parallel (HSDP)?
Das Olmo-3-Team verwendete Hybrid Sharded Data Parallel, kurz HSDP, vor allem zur Verbesserung von Trainingseffizienz und Skalierbarkeit. HSDP kombiniert Fully Sharded Data Parallelism innerhalb eines Knotens mit klassischem Data Parallelism über mehrere Knoten hinweg. Dadurch wird der Kommunikationsaufwand zwischen Knoten reduziert, was bei großen Modellen besonders wichtig ist, und die Synchronisierung von Parametern und Gradienten während der Modellaktualisierung wird effizienter. Indem besonders kommunikationsintensive Operationen innerhalb eines Knotens gehalten werden, kann HSDP große Modelle wie Olmo 3 Base besser skalieren und schneller trainieren.
Wie wurden die Daten für Olmo 3 kuratiert?
| Phase | Zentrale Datenquellen | Wichtige Verarbeitungsschritte | Ziel |
|---|---|---|---|
| Pretraining | Common Crawl [A.2.1], olmOCR PDFs, Stack-Edu-Code-Daten, arXiv, FineMath, Wikipedia und Wikibooks. | Deduplizierung mit Hash- und MinHash-Verfahren [A.2.2], Qualitätsfilterung mit fastText, tokenbegrenzte Mischung und Upsampling hochwertiger Daten. | Aufbau einer vielfältigen, hochwertigen Grundlage mit 6T Tokens. |
| Midtraining | Synthetische Mathematikdaten wie TinyMATH und CraneMath, Code-Daten aus Stack-Edu und Nemotron, QA-Daten aus Reddit-to-Flashcards sowie Reasoning-Traces. | Microanneals zum Testen von Datensätzen, Integrationstests, Dekontamination und die gezielte Aufnahme von Instruktions- und Thinking-Daten. | Verbesserung von Mathematik-, Code-, Reasoning- und QA-Fähigkeiten mit 100B Tokens. |
| Long-Context Extension | olmOCR PDFs mit langen Dokumenten und synthetische Aggregationsaufgaben. | Dokumentenfilterung mit gzip, Packing, intra-document masking und YaRN für Positions-Embeddings. | Ermöglichung eines 65K-Token-Kontextfensters mit langen Dokumenten unter Verwendung von 50B bis 100B Tokens. |
| Post-Training (Think) | Reasoning-Traces aus OpenThoughts3 und SYNTHETIC-2, Mathematik-, Code- und Chat-Prompts sowie DPO-Paare [4.3.1] aus Qwen3-Modellen. | SFT-, DPO- und RL-Phasen, verifizierbare Rewards und Delta-Learning für kontrastive Paare. | Optimierung des Modells für Reasoning in Mathematik, Code und Chat sowie für präzises Befolgen von Anweisungen. |
| Post-Training (Instruct) | Daten für Function Calling, WildChat, präzise Instruction-Following-Prompts, Multi-Turn-DPO-Daten und längenkontrollierte Antworten. | Fokus auf Nutzbarkeit, Tool-Einsatz und kurze Ausgaben, ergänzt durch RL für allgemeinen Chat und Function Calling. | Optimierung des Modells für Chat-Nutzbarkeit, Tool-Integration und kürzere Antworten. |
| Post-Training (RL-Zero) | Gefilterte Mathematikdaten aus DAPO und Omega, Code-, Instruction-Following- und Chat-Teilmengen sowie dekontaminierte Evaluationen. | Reinforcement Learning von Grund auf mit verifizierbaren Rewards und einfachen Prompt-Vorlagen. | Benchmarking von Reinforcement-Learning-Algorithmen mit transparenten, kontaminationsfreien Daten. |
Wie machten die Forschenden das RL-Training viermal effizienter?
Die Forschenden steigerten die Effizienz des Reinforcement-Learning-Trainings durch in-flight weight updates, auch als Pipeline RL bezeichnet, durch continuous batching mit dynamischem Austausch von Prompts zur Verringerung von GPU-Leerlaufzeiten sowie durch mehrere Verbesserungen beim Threading.
Abschließende Gedanken
Olmo 3 ist eine bemerkenswerte Veröffentlichung. Die dreistufige Trainingspipeline, bestehend aus Pretraining auf Dolma 3 Mix, Midtraining auf Dolma 3 Dolmino und Long-Context-Erweiterung mit Dolma 3 Longmino, führte zu einer Familie post-trainierter Modelle. Dazu gehören Instruct, Think und RL-Zero, die jeweils für unterschiedliche Fähigkeiten optimiert sind. Der offene Zugang zu Modellen, Datensätzen, Code und Trainingsprotokollen macht es besonders spannend zu beobachten, wie Forschende und Praktiker diese Veröffentlichung nutzen werden.


